Post

『모든 것은 예측 가능하다』

『모든 것은 예측 가능하다』

『모든 것은 예측 가능하다』(원제: Everything is predictable: How Bayes’ Remarkable Theorem Explains the World)

  • 글: 톰 치버스
  • 옮김: 홍한결
  • 출판사: 김영사
  • 발행일: 2025년 01월 03일

베이지안 통계 공부도 할 겸, 책 내용을 요약했다. 특히 앞 부분.

일단 그 전에 베이즈 정리를 이해하는 데 도움이 되는 영상 시청하기.

들어가는 글

베이즈 정리는 알아야 한다.

\[P(A|B) = \frac { P(B|A) * P(A) } {P(B)}\] \[Posterior \ Probability = \frac{Likelihood * Prior \ Probability} {Evidence}\] \[사후확률 = \frac { 가능도 * 사전확률 } {증거}\] \[증거 \ B가 \ 주어졌을 \ 때 \ A의 \ 확률 = \frac{A가 \ 참일 \ 때 \ B가 \ 관찰될 \ 확률 * 증거를 \ 보기 \ 전 \ A의 \ 초기 \ 확률} {증거 \ B가 \ 관찰될 \ 전체 \ 확률}\]

예시 1

베이즈 정리를 설명하는 대표적인 예.

유병률 1%의 암 검사가 있다고 해보자.

 암 있음
(1,000)
암 없음
(99,000)
결과 양성80%
(참 양성)
800
10%
(거짓 양성)
9,000
결과 음성20%
(거짓 음성)
200
90%
(참 음성)
89,100

만약 검사 결과 양성이라면 실제로 암에 걸렸을 확률은 800 / 10,700 = 약 0.07이다. (검사 결과가 양성인 10,700명 중 실제로 암에 걸린 사람은 800명이기 때문)

그런데 이 계산은 애초에 암에 걸렸을 가능성, 즉 ‘유병률’에 전적으로 좌우된다. 유병률을 1%가 아닌 10%로 올려보자.

 암 있음
(10,000)
암 없음
(99,000)
결과 양성80%
(참 양성)
8,000
10%
(거짓 양성)
9,000
결과 음성20%
(거짓 음성)
2,000
90%
(참 음성)
89,100

이제 검사 결과 양성이라면 실제로 암에 걸렸을 확률은 8,000 / 10,700 = 약 0.47이다. (검사 결과가 양성인 17,000명 중 실제로 암에 걸린 사람은 8,000명이기 때문)

사전 확률(유병률)을 1%에서 10%로 올리니 결과가 아예 달라졌다.

예시 2-1

법률 분야로 가면 ‘검사의 오류(prosecutor’s fallacy)’라는 것이 있다. 마찬가지로 베이즈적 사고를 하지 않아서 발생하는 오류다.

범죄 현장에서 발견된 흉기에서 DNA를 채취해 검사해보니, 데이터베이스에서 DNA가 일치하는 사람을 1명 발견했다고 치자. DNA 검사 결과가 일치할 확률이 300만분의 1이라면, 이 용의자가 무고할 가능성이 300만 분의 1일까?

아니다. 사전 확률을 알아야 한다.

데이터베이스가 전체 인구 6,500만 명에서 무작위로 뽑은 자료라면, 사전 확률은 ‘1 / 전체 인구’가 된다. 전체 인구를 대상으로 DNA 검사를 하면 우연히 일치하는 사람이 20명 나올 거고, 따라서 이 용의자가 범인일 확률은 5%다.

그러나 만약 사전에 용의자를 10명으로 좁혀놓았다면 어떨까. 사전 확률이 10%이기 때문에 그 중 DNA 검사 결과가 일치한다면, 그 결과가 거짓 양성일 확률은 고작 30만분의 1에 불과하다.

예시 2-2

‘검사의 오류(prosecutor’s fallacy)’와 정반대의 실수가 나타날 때도 있다.

미식축구 선수 O. J. 심슨이 아내를 살해한 혐의로 기소됐을 때, 변호인은 “아내를 때리는 남편 중 아내의 살해에 이르는 경우는 한 해에 2,500분의 1도 되지 않는다”고 주장했다.

그러나 올바른 질문은 다음과 같다. “아내를 때리는 남편이 있는데, 아내가 살해되었다면, 남편이 범인일 확률은?”

1장: 《공동기도서》에서 알몸 공연까지

표집 확률(빈도주의)과 추론 확률(베이지안)을 구별하자.

[!IMPORTANT]

  • 표집 확률(sampling probability)
    • 가설이 옳다고 할 때 이런 데이터가 나올 가능성이 얼마인가
  • 추론 확률(inferential probability) ⭐
    • 이런 데이터가 나왔을 때 가설이 옳을 가능성이 얼마인가

큰 수의 법칙

검은 공과 흰 공이 든 단지가 하나 있다. 공을 하나 꺼낼 때마다 다시 집어넣고 잘 섞기로 하자. (이 조건은 검은 공과 흰 공이 뽑힐 가능성을 일정하게 유지해주는 장치다.) 단지에서 공을 X개 꺼냈을 때 흰 공이 Y개라면, 단지 안의 흰 공 대 곰은 공 비율에 대해 어떤 추정을 내릴 수 있을까?

**표본이 클수록 표본상의 비율은 실제 비율에 가까워진다. **

5개 중 3개 꼴로 흰 공이 있다고 하자. 공을 다섯 번 꺼낸다면(표본 5), 정확히 흰 공 세 번, 검은 공 두 번이 나올 가능성은 그리 높지 않다. 하지만 공을 오십 번 꺼낸다면(표본 50), 정확히 30:20은 아닐지라도 그 비슷한 개수가 나올 가능성이 매우 높아진다.

이 문제에는 세 가지 변수가 얽혀 있다.

  1. 표본 크기
  2. 신뢰 구간
  3. 신뢰도

예를 들어, 추정값이 실제 값의 10% 범위 이내(신뢰구간 10%)에 들어올 확률이 90%(신뢰도 90%)가 되는 크기로 표본을 뽑았다고 하자. 여기서 ‘신뢰도’를 올리고 싶다면? ‘신뢰 구간’을 넓히거나, ‘표본 크기’를 키워야 한다.

정규분포

동전을 N번 던졌을 때 앞면이 x번 나올 확률을 구하는 수식에는 ‘계승(팩토리얼)’이 세 번 들어간다. N의 계승, x의 계승, (N-x)의 계승. 이걸 직접 계산하는 건 부담스럽다.

드무아브르는 동전 던지기를 여러 번 할수록(N이 커질수록) 앞면이 나오는 횟수(x) 곡선이 점점 매끄러워 지기 때문에, 확률을 구할 때 계승이 포함된 복잡한 수식을 계산하지 않고, ‘정규분포 곡선’의 형태를 이용해 바로 구하는 방법을 찾아냈다.

[!Note] 정규분포 곡선의 해석 데이터가 정규분포를 따르고, 표본의 크기가 충분히 크다면 결과의 몇 퍼센트가 평균을 중심으로 일정 구간 내에 위치하는지 알 수 있다. (예컨대 전체 데이터의 68%는 평균을 중심으로 1SD 구간 내에 위치한다. 만약 어떤 값이 1SD보다 크다면 전체의 약 84%보다 크다는 의미이다.)

그리고 드무아르는 ‘추정값의 정확도는 표본 크기의 제곱근에 비례하여 높아진다’ 는 사실을 증명했다.

베이즈가 생각한 확률

측정을 아주 많이 하면, 그리고 측정오차가 일관되지 않고 무작위한 경우라면, 측정값이 실제 값 주위에 집중되는 경향이 있다.

여기에 추가로 베이즈가 입증한 사실은, 실제 값의 사전 추정치를 계산에 넣으면 측정값을 통해 세상의 상태는 아마도 이럴 것이라고 추론할 수 있다는 것이다. 이걸 프랑스의 수학자 라플라스가 정리해 내놓은 것이 바로 ‘베이즈 정리’다.

베이즈가 확률론에 남긴 큰 업적은 수학적 측면이 아닌 철학적 측면에서 논해야 한다.

베이즈에게 확률이란 세상에 대해 우리가 가진 ‘지식의 부족함’을 나타내면서, 동시에 우리가 내린 ‘최선의 추정’을 의미한다. 확률은 세상의 속성이 아니라 우리가 세상에 대해 갖고 있는 이해의 속성이라는 것이다.

베이즈는 추론확률을 구하기 위한 전제조건으로 ‘내가 이 가설이 옳을 가능성이 애초에 얼마라고 생각했느냐’를 감안해야 한다고 했다. (확률이란 주관적인 것)

베이지안의 사전확률은 세상에 대한 진술이 아니라 우리의 지식과 무지에 대한 진술이고, 그래서 내가 그것을 애초에 얼마나 믿었느냐에 따라 달라질 수 있다.

이러한 사전확률의 ‘주관성’은 어딘지 불편하고 막연하게 느껴진다. 내가 만약 “이 동전을 던졌을 때 앞면이 나올 확률은 50%다”라고 말한다면, 그건 동전에 관한 진술처럼 느껴진다. 그러나 베이지안 관점에서 이것은 동전에 관한 내 믿음일 뿐이라는 것이다.

그리고 이런 주관성에 대한 반감이 빈도주의 통계의 부상을 촉발했다고 볼 수 있다.

참고로 ‘베이지안 vs 빈도주의’는 꽤나 치열한 논쟁거리다.

[!IMPORTANT]

  • 베이지안 (bayesian)
    • 데이터에서 가설로…
    • 이런 데이터가 나왔을 때 가설이 옳을 가능성이 얼마인가 (추론 확률)
  • 빈도주의 (frequentist)
    • 가설에서 데이터로…
    • 가설이 옳다고 할 때 이런 데이터가 나올 가능성이 얼마인가 (표집 확률)

빈도주의의 부상

확률과 통계를 사회과학에 본격적으로 도입한 사람은 케틀레다. 그는 특히 정규분포에 집착했고, ‘평균인’이라는 개념을 도입했다. (무엇이든 정규분포로 보는 성향을 ‘케틀레 증후군’이라고 부르기도 한다.)

케틀레의 연구는 ‘집단을 관찰함으로써 개인의 행동을 확률적으로 예측할 수 있다는 발상’의 계기가 되었다. (예를 들어, 피고인의 성별, 나이, 교육 수준, 문맹 여부 등에 따라 유죄 선고를 받을 가능성에 차이가 있다는 사실을 발견했다.) 그러나 이러한 접근은 자유의지 개념과 상충하기에 큰 논란을 불러일으켰으며, 결국 우생학(eugenics)의 토대가 되기도 했다.

프랜시스 골턴은 평균으로의 회귀(regression to the mean)를 설명한 사람이다. 또한 골턴은 재능의 대물림에 관해 큰 관심을 가지며, 본성 대 양육(nature and nurture)이라는 표현을 처음 사용하기도 했다. 그리하여 인종의 개량에 관한 과학, 즉 우생학을 창설하는 것이 목표였다. 골턴은 극단적인 인종차별주의자였다.

우생학은 통계학과 역사적으로 밀접하게 얽혀 있다. 우생학자들의 입장에서는 ‘어떤 인종은 열등하고 어떤 인종은 우수한 것이 과학적 사실이다’는 자신들의 견해에 덧붙일 과학적 권위가 필요했기 때문이다.

그런데 확률을 주관적인 것으로 간주하는 베이지안 통계는 자신들의 주장에 도움이 되지 않기 때문에, 우생학을 지지하는 통계학자들은 이로부터 벗어나빈도주의를 채택했다.

골턴의 연구에서 영감을 받은, 우생학을 열렬히 지지한 후대 통계학자들 중 대표적 인물로 ‘칼 피어슨’과 그 뒤를 이은 ‘로널드 피셔’가 있다. 칼 피어슨은 그 유명한 피어슨 상관계수, 피셔는 분산분석(ANOVA) 및 통계적 유의성 개념, 최대우도추정(MLE) 등을 개발한 위대한 통계학자다.

골턴, 피셔, 피어슨 등의 학자들에게 확률은 객관적인 것이어야 했다. 즉, 엄청나게 여러 번 시행했을 때 어떤 결과가 얼마나 자주 나오느냐를 표현한 것이라고 본다.

빈도주의와 통계적 유의성

빈도주의의 본질은 ‘표집확률’이다. ‘주어진 가설이 맞다고 할 때 어떤 결과가 나올 확률’이다.

‘통계적으로 유의하다’, ‘p값’ 이런 표현도 모두 빈도주의에서 사용되는 용어다.

p값은 영가설이 맞다고 할 때 현재 나온 결과만큼 극단적인 결과가 나올 확률을 의미한다. 여기서 영가설이란 우리가 확인하고자 하는 효과가 실제로 존재하지 않는다는 가설이다.

자, 그래서 p값을 구하고 나면? 피셔는 0.05, 즉 스무 번에 한 번꼴로 나올 만큼 극단적인 결과를 기준으로 잡자고 제안했다. 물론 이건 완전히 임의적인 선택이다.

아무튼 p값이 0.05보다 작다는 뜻은 스무 번에 한 번 이상 일어나지 않는 우연의 일치가 일어났다는 뜻이다. 이 가능성이 작기 때문에 영가설을 기각, 영가설이 틀렸다고 간주하자는 것이다. 그리고 이 때 ‘통계적으로 유의하다’고 말한다.

베이지안

베이지안 통계학 관점에서는 빈도주의 통계학의 근본 개념 자체, 즉 p값이나 통계적 유의성, ‘영가설이 맞다고 할 때 이런 데이터가 나올 가능성’을 묻는 방식은 주객이 전도된 것이라고 비판한다.

그리하여 과학과 전문 통계학 영역 밖에서는 여전히 베이즈 정리가 활발하게 논의되어 왔고, 이제 소프트웨어 공학 분야에서 베이지안은 데이터를 다루는 기본 방식으로 자연스럽게 자리잡았다.

‘베이지안 vs 빈도주의’는 여전히 뜨거운 논쟁거리이지만, 경우에 따라 둘 중 더 적절한 방법론을 사용해야 한다는 것이 현재 어느 정도 합의된 결론이다.

2장: 과학 속의 베이즈

과학의 재현성 위기

2011년 과학계에서는 ‘재현성 위기’ 문제가 대두되었다.

데이터를 날조한 연구 결과를 발표한다거나 초능력이 있다는 등 도무지 불가능한 일이 일어난다는 연구 결과가 통계적으로 유의하게 나타났기 때문이다.

p값이 0.05이하로 나왔다는 말은, ‘이 정도로 극단적인 결과가 나올 확률이 20분의 1’이라는 뜻이다.

그러나 p값을 0.05 이하로 만들기 위한 꼼수가 있다. 실험을 스무 번 해서 그렇게 나온 것을 발표하면 되는 것이다. 온갖 데이터를 다 측정한 다음 유의한 것들만 취사 선택해서 결과를 발표할 수도 있고, 데이터를 수집하다가 p값이 0.05로 떨어지면 바로 데이터 수집을 중단할 수도 있고. 방법은 다양하다.

이러한 행위를 가리켜 ‘결과를 알고 나서 가설 세우기(hypothesis-ing after results are known)’, 줄여서 HARKing이라고 하거나 ‘p해킹’이라 부른다.

과학자들은 이러한 재현성 위기를 극복하기 위한 합리적인 해결 방안을 제시했다.

  1. 유의성 기준점을 더 엄격하게 잡기
  2. 가설의 사전 등록을 의무화하기
  3. 연구 결과의 성격(얼마나 참신한가)이 아닌 방법의 타당성을 기준으로 논문을 게재하기

그러나 더 깊이 들어가면 재현성 위기의 근본 원인은 표집확률을 사용하는 게 문제다.

p값은 어떤 가설이 옳다고 할 때 이러한 데이터가 나올 가능성을 말해주는 척도일 뿐, 현재 데이터에 비추어 가설이 옳을 가능성을 말해주는 척도가 아니기 때문이다. 가설이 옳을 가능성을 측정하려면 사전 확률을 피할 수 없고, 베이즈 정리가 필요하다.

[!TIP] 확률을 0과 1사이의 수 대신 ‘확률비(odds)’로 나타내보자. 확률비가 실제 차이를 더 직관적으로 보여주기 때문이다. 예를 들어, 0.990.999는 언뜻 비슷해보인다. 그러나 실제로는 99:1999:1의 차이다.

베이지안 관점에서 p값에 대한 비판

당신이 어떤 가설을 검증하기 위해 연구를 수행했더니 p값이 0.05 이하로 나왔다고 하자. 가설이 옳을 확률은 얼마나 될까? 많은 사람들이 이 질문에 95%라고 답한다는 것이 답답한 현실이다.

p값은 영가설이 참일 경우 거짓 양성 결과가 얼마나 더 자주 나오는지 알려주는 척도이며, 0.05 미만이면 영가설이 기각된 것으로 간주할 수 있을 뿐이다. 그러나 이 또한 어디까지나 잠정적 결론일 뿐이다.

빈도주의는 새 연구를 할 때마다 이전 연구에서 얻었던 모든 정보를 깡그리 잊고 다시 시작한다. 그러나 베이지안 관점에서는 데이터를 버리지 않고 다 활용한다.

그리고 베이지안은 빈도주의와 달리, 단순히 영가설을 기각하거나 채택(가설을 참 또는 거짓으로 판정)하지 않고, 일정 범위의 가능한 현실에 대한 확신도를 부여한다.

물론 빈도주의 분석 대신 베이지안 분석을 도입한다고 해서 현대 과학의 모든 문제가 마술처럼 해결되는 건 아니다. 다만 베이지안 접근을 채택하면 분명히 고칠 수 있는 것 하나는 p=0.05라는 기준점의 사용이다.

사전확률 구하기

자신이 본능적으로 베이지안인지 빈도주의자인지 알아볼 수 있는 간단한 사고 실험.

  1. 동전을 던진다. 던진 동전을 잡되, 보지 않는다. 이때 앞면이 나왔을 확률은 얼마일까?
  2. 이제 다른 사람이 동전을 던져서 잡고, 자기만 동전을 본다. 이번엔 앞면이 나왔을 확률이 얼마일까?

빈도주의자에게 이건 정답이 있는 상황이다. 객관적 사실이 존재한다. 이미 일어난 사건의 확률을 논한다는 것은 말이 되지 않는다. 내가 모르더라도 정답이 확정되어 있으므로 확률은 0% 혹은 100%라고 답할 가능성이 높다.

그러나 두 질문에 모두 50%라고 답했다면 당신은 베이지안 사고를 하는 사람이다. 당신에게 확률은 주관적 믿음과 알고 있는 정보에 관한 것이다. 다른 사람이 동전을 보았다고 해도 당신에게는 아무 차이가 없다. 그 사람이 보기엔 확률이 100% 혹은 0%이겠지만, 당신은 새로 얻은 정보가 없으니 여전히 확률은 50%다.

베이지안이 주관적이라는 말은 바로 의미다. 어떤 사건이 일어날지 여부는 알지 못하지만 우리가 아는 지식에 비추어 그런 사건이 일어날 가능성이 얼마나 되느냐 하는 판단은 시도할 수 있다. 그러나 이러한 사전 지식이 모두 다르기 때문에 사건이 일어날 거라 보는 가능성도 다를 수밖에 없다.

그렇지만 아무것도 모르는 상황에서 사전확률을 어떻게 설정할 정할 수 있을까?

몇 가지 방법이 있는데, 우선 가장 간단한 방법은 모른다고 인정하는 것이다. 모든 가능한 답에 똑같은 확률을 부여하는 거다.

사전확률분포를 U자형으로 설정하여 양 극단에 집중적으로 분포시키는 방법도 있다. 우리가 주목하는 현상은 거의 항상 일어나거나 전혀 일어나지 않는다고 일단 간주하는 것이다.

이런 방식은 무보정적(non-informative) 분포를 가진다. 다시 말해, 새 데이터르 얻으면 사후확률이 그 데이터의 모양을 거의 따라가게 되고, 사전확률의 영향은 사실상 없어지기 때문이다.

아직 끝나지 않은 베이지안 vs 빈도주의 논쟁

베이지안 통계가 점점 많이 쓰이고 널리 받아들여지고 있으나, 과학적 문제를 조사하는 표준 기법은 여전히 빈도주의 방식이다.

베이즈는 재현성 문제를 해결하거나 개선해주며, p해킹을 방지할 수 있고, 확보 가능한 데이터를 모두 활용할 수 있다는 점에서 많은 장점이 있다. (심미적으로도 만족스럽다.)

결정 이론도 베이지안 방식으로 작동한다. 효용과 사전확률을 설정하고, 증거를 계산하여, 주관적 효용을 최대화하는 결정을 택한다.

3장: 베이즈 결정이론

베이즈 결정이론은 결과가 불확실한 상황에서 최적의 결정을 내리는 방법을 알려주는 이론이다. 그러나 어떤 행동을 해야 하는지 결정하려면 사전확률과 가능도만으로는 부족하고, 우리가 무언가를 얼마나 중요하게 여기는지, 즉 효용(utility)을 알아야 한다. 확률과 효용을 결합하면 기댓값이 된다.

AI가 결정을 내리는 방식도 베이지안이 기본 메커니즘이다.

4장: 세상 속의 베이즈

인간의 비합리성을 보여주는 연구가 많다. 가장 유명한 것은 대니얼 카너만. (이 연구로 노벨 경제학상을 받기도 했다.)

물론 우리가 내리는 이상적인 결정은 베이즈적이어야 하는 것이 맞다. 그러나 인간은 베이지안적으로 사고하지 않을 때에도 꽤나 추론을 잘하고 대체로 좋은 결정을 내린다.

일반적으로 인간의 각종 편향은 휴리스틱(어림법)의 산물이다. 휴리스틱은 엄청나게 복잡한 계산 대신 쓸 수 있는 손쉬운 방법을 의미한다. 간단한 휴리스틱을 사용하면 조건부확률을 계산하는 것보다 훨씬 수고가 덜 들고 시간도 덜 걸리면서 괜찮은 결정을 내리기도 한다.

그러나 명시적인 확률적 사고가 요구되는 상황에서는 휴리스틱이 착각을 낳기도 한다. 대표적인 사례가 몬티 홀 문제다.

이렇게 우리는 인위적으로 설계된 상황에서는 잘못된 추론을 하기도 하고, 베이즈 규칙을 직접 계산하는 데도 서툴지만, 자연스러운 평소 상황에서는 베이즈 규칙에 꽤 근접한 결정을 내린다.

5장: 베이즈 뇌 모델

인간은 예측 기계다.

우리의 세상 경험이란 곧 우리의 세상 예측이자 우리가 가진 베이즈 사전확률이라고 생각할 수 있다.

This post is licensed under CC BY 4.0 by the author.