개념적으로는 서로 다른 것들이 수식의 형식을 빌어 표현했을 때 같은 구조를 갖는 경우가 종종 있다.
이 글도 그런 것인데, 통계학에서 이야기되는 두 종류의 불확실성들에 관한 것이다.
이들은 모두 확률분포의 형태로 나타낼 수 있지만, 그 의미는 사뭇 다르다. 그 하나는 인식적인 불확실성 epistemic uncertainty 이고 다른 하나는 우연적인 불확실성 aleatory uncertainty 이다. 이들을 잘 구분해서 이야기할 필요가 종종 있다.
먼저
인식적 불확실성.
이것은 대상에 대한 무지로 인해 생기는 불확실성으로, 자료를 더욱 더 많이 모을수록 감소하는 특징을 갖고 있다.
이를테면 눈앞에 동전이 한 개 있는데, 모양이 희한하게 생겨서 던졌을 때 앞면이 나올 확률이 아마 0.5가 아닐 것으로 추정된다고 치자. 하지만 던져본 적이 없다고 가정해보자. 그러면 우리는 이 동전을 던졌을 때 앞면이 나올 확률에 대해 '모른다'. 즉 p에 대해 아는 바가 전혀 없다.
이런 상황을 우리는 균등분포로 나타낼 수 있다:
p ~ Uniform(0,1)
그런데 사실 이 분포는 베타분포라 불리는 분포의 한 특수한 경우이다:
p ~ Beta(1,1)
이것이 확률의 형태로 표현된 인식적 불확실성이다.
이 상황에서 p에 대해 알고 싶다면 우리는 무엇을 해야 할까? 동전을 많이 던져보면 된다.
동전을 한 10,000번쯤 던지면 우리는 이 동전의 앞면이 나올 확률이 얼마나 되는지 대충 감을 잡을 수 있을 것이다.
앞면이 6,000번, 뒷면이 4,000번쯤 나왔다고 쳐보자.
그러면 우리는 p에 대한 믿음을 다음과 같이 '업데이트'할 수 있다 (베타분포의 업데이트는 단순히 성공 횟수를 첫 파라미터에, 실패 횟수를 두 번째 파라미터에 더하기만 하면 됨):
p ~ Beta(6001, 4001)
이것은 업데이트된 인식적 불확실성의 정도를 나타낸다.
이 분포를 실제로 그려보면 p는 약 0.6을 중심으로 매우 좁게 분포하는 것을 알 수 있다.
이것은 실험을 통해 감소된 p에 대한 불확실성을 반영하는 것으로, 인식적 불확실성은 원칙적으로 더 많은 자료를 관측함으로써 줄일 수 있다는 것을 보여준다.
그러면 우연적 불확실성은 어떨까?
이것은 sampling variability와도 밀접한 관련이 있는데, 한 마디로 이런 종류의 불확실성은 자료를 더 많이 관측한다고 해서 줄일 수 있는 것이 아니다.
이를테면 이제 우리가 p=0.6임을 알고 있다고 해보자.
그러면 다음 번에 동전을 던졌을 때 앞면이 나올 확률은 얼마일까? 당연히 0.6이다.
그런데 우리는 이런 시행 - 베르누이시행 - 에 대해 분산을 계산하는 방법을 알고 있다.
Y를 동전의 앞면이 나왔는지를 가리키는 변수 (0,1로 나타나는) 라고 할 때, 그 분산은 다음과 같다:
Var(Y) = p(1-p)
이렇게 나타난 불확실성 - 동전의 앞면 여부에 대한 - 은 더 많은 자료를 관찰한다고 하여 줄어들지 않는다.
오히려 이것은 이 '동전'이라는 물체의 물리적 속성에 가깝다. 이제 인식적 불확실성과 우연적 불확실성에 대한 감이 좀 오나이기?
이 두 종류의 불확실성은 사실 베이지안 통계에서 가장 뚜렷하게 대비되는데, 모수치에 대한 사전/사후분포로 표현되는 불확실성은 대체로 인식적 불확실성에 가깝고, 데이터 생성 모형에서 말하는 불확실성은 대체로 우연적 불확실성에 가깝다.
즉 모수치에 대한 불확실성은 더 많은 데이터를 모음으로써 줄일 수 있는 반면, 자료 생성 과정에서 발생하는 자료 자체에 대한 불확실성은 추정은 가능하지만 그 자체를 줄일 수 없다.
이 두 종류의 불확실성을 잘 구분하는 것이 확률분포들의 의미를 이해하는 데 도움이 된다.
---------
참고문헌
(두 쪽밖에 안 되고 비전문가를 대상으로 쓴 교양 수준의 글이다. 농문쓴다고 통계학 골빠지게 하는 게이들은 한번 쯤 꼭 읽어보길 바란다이기)
O'Hagan, T. (2004). Dicing with the unknown. Significance, 1(3), 132-133
https://rss.onlinelibrary.wiley.com/doi/full/10.1111/j.1740-9713.2004.00050.x?fbclid=IwAR1obarUtHeHeMtG4uvLXXM7E6OX6M0phVG9FjLGR7Dp__ciUQ9jOmR9yb4&
[0]
인생은외모가전부다 | 05:47 | 조회 0[0]
취집 | 05:45 | 조회 0[0]
댓글전문게이 | 05:27 | 조회 0[0]
JohnF케네디 | 05:27 | 조회 0[0]
전자제품 | 05:20 | 조회 0[0]
참나십알 | 05:15 | 조회 0[0]
토익010 | 05:03 | 조회 0[0]
인간되기를포기한남자 | 04:54 | 조회 0[0]
맛탱이간병신 | 04:48 | 조회 2[0]
자유와방종 | 04:42 | 조회 3[0]
토익010 | 04:41 | 조회 5[0]
런콰이펑 | 04:39 | 조회 3[0]
도로노 | 04:19 | 조회 3[0]
가레스789 | 04:15 | 조회 4[0]
아이러브연세대학교 | 04:10 | 조회 5
댓글(6)
바로 민주화 배달하러옴
자기 전에 보면 되지?
일베충 수준을 생각하고 글을 써야지 ㅠㅠ
노력이 가상해서 일베는 줬다
먼지 몰라서 2베 누름
쉬운이야기를 ㅈㄴ어렵게 수학적으로 분석해놨네
먼말인지는 모르지만 정보 ㅇㅂ