핫게 실시간 커뮤니티 인기글
(1851828)  썸네일on   다크모드 on
정보글지.. | 19/08/27 11:04 | 추천 36

서로 다른 두 종류의 불확실성 인식적/우연적 불확실성에 대해 아라보자 +195 [6]

원문링크 https://www.ilbe.com/11194814525

uncertainty??? ?????? ??´??¸?§? ?²?????²°?³¼





개념적으로는 서로 다른 것들이 수식의 형식을 빌어 표현했을 때 같은 구조를 갖는 경우가 종종 있다.

이 글도 그런 것인데, 통계학에서 이야기되는 두 종류의 불확실성들에 관한 것이다.




이들은 모두 확률분포의 형태로 나타낼 수 있지만, 그 의미는 사뭇 다르다. 그 하나는 인식적인 불확실성 epistemic uncertainty 이고 다른 하나는 우연적인 불확실성 aleatory uncertainty 이다. 이들을 잘 구분해서 이야기할 필요가 종종 있다.

먼저

인식적 불확실성. 

이것은 대상에 대한 무지로 인해 생기는 불확실성으로, 자료를 더욱 더 많이 모을수록 감소하는 특징을 갖고 있다.
이를테면 눈앞에 동전이 한 개 있는데, 모양이 희한하게 생겨서 던졌을 때 앞면이 나올 확률이 아마 0.5가 아닐 것으로 추정된다고 치자. 하지만 던져본 적이 없다고 가정해보자. 그러면 우리는 이 동전을 던졌을 때 앞면이 나올 확률에 대해 '모른다'. 즉 p에 대해 아는 바가 전혀 없다.

이런 상황을 우리는 균등분포로 나타낼 수 있다:


p ~ Uniform(0,1)
 

그런데 사실 이 분포는 베타분포라 불리는 분포의 한 특수한 경우이다:


p ~ Beta(1,1)
 

이것이 확률의 형태로 표현된 인식적 불확실성이다.

이 상황에서 p에 대해 알고 싶다면 우리는 무엇을 해야 할까? 동전을 많이 던져보면 된다.

동전을 한 10,000번쯤 던지면 우리는 이 동전의 앞면이 나올 확률이 얼마나 되는지 대충 감을 잡을 수 있을 것이다.

앞면이 6,000번, 뒷면이 4,000번쯤 나왔다고 쳐보자.

그러면 우리는 p에 대한 믿음을 다음과 같이 '업데이트'할 수 있다 (베타분포의 업데이트는 단순히 성공 횟수를 첫 파라미터에, 실패 횟수를 두 번째 파라미터에 더하기만 하면 됨):
 

p ~ Beta(6001, 4001)


이것은 업데이트된 인식적 불확실성의 정도를 나타낸다.

이 분포를 실제로 그려보면 p는 약 0.6을 중심으로 매우 좁게 분포하는 것을 알 수 있다.

이것은 실험을 통해 감소된 p에 대한 불확실성을 반영하는 것으로, 인식적 불확실성은 원칙적으로 더 많은 자료를 관측함으로써 줄일 수 있다는 것을 보여준다.
 

그러면 우연적 불확실성은 어떨까?
이것은 sampling variability와도 밀접한 관련이 있는데, 한 마디로 이런 종류의 불확실성은 자료를 더 많이 관측한다고 해서 줄일 수 있는 것이 아니다.

이를테면 이제 우리가 p=0.6임을 알고 있다고 해보자.
그러면 다음 번에 동전을 던졌을 때 앞면이 나올 확률은 얼마일까? 당연히 0.6이다.

그런데 우리는 이런 시행 - 베르누이시행 - 에 대해 분산을 계산하는 방법을 알고 있다.
Y를 동전의 앞면이 나왔는지를 가리키는 변수 (0,1로 나타나는) 라고 할 때, 그 분산은 다음과 같다:


Var(Y) = p(1-p)


이렇게 나타난 불확실성 - 동전의 앞면 여부에 대한 - 은 더 많은 자료를 관찰한다고 하여 줄어들지 않는다.
오히려 이것은 이 '동전'이라는 물체의 물리적 속성에 가깝다. 이제 인식적 불확실성과 우연적 불확실성에 대한 감이 좀 오나이기?
 

이 두 종류의 불확실성은 사실 베이지안 통계에서 가장 뚜렷하게 대비되는데, 모수치에 대한 사전/사후분포로 표현되는 불확실성은 대체로 인식적 불확실성에 가깝고, 데이터 생성 모형에서 말하는 불확실성은 대체로 우연적 불확실성에 가깝다.

즉 모수치에 대한 불확실성은 더 많은 데이터를 모음으로써 줄일 수 있는 반면, 자료 생성 과정에서 발생하는 자료 자체에 대한 불확실성은 추정은 가능하지만 그 자체를 줄일 수 없다.

이 두 종류의 불확실성을 잘 구분하는 것이 확률분포들의 의미를 이해하는 데 도움이 된다.
---------

참고문헌
(두 쪽밖에 안 되고 비전문가를 대상으로 쓴 교양 수준의 글이다. 농문쓴다고 통계학 골빠지게 하는 게이들은 한번 쯤 꼭 읽어보길 바란다이기)

O'Hagan, T. (2004). Dicing with the unknown. Significance, 1(3), 132-133
https://rss.onlinelibrary.wiley.com/doi/full/10.1111/j.1740-9713.2004.00050.x?fbclid=IwAR1obarUtHeHeMtG4uvLXXM7E6OX6M0phVG9FjLGR7Dp__ciUQ9jOmR9yb4&

[신고하기]

댓글(6)

이전글 목록 다음글

12 3 4 5
제목 내용