Statistical Rethinking 2022 Lecture 02 - Bayesian Inference
게시일:
작성자: 자청의 유튜브 추출기
베이즈 통계학 첫걸음: 지구와 구슬로 배우는 추론
이 강의에서는 베이즈 통계학의 기본적인 아이디어를 배울 거야. 복잡한 수학 공식보다는 쉬운 예시를 통해 이해하는 데 집중할게.
1. 지구는 얼마나 물로 덮여 있을까?
- 질문: 지구 표면의 몇 퍼센트가 물로 덮여 있을까?
- 정답: 약 70%가 물이야.
- 어떻게 알았을까? 위성 사진 같은 좋은 지도를 가지고 있어서 알 수 있지.
- 다른 방법: 만약 지구에 무작위로 돌멩이를 던져서 물에 떨어지는지 땅에 떨어지는지 센다면, 돌멩이가 떨어진 비율로 지구 표면의 물 비율을 추정할 수 있을 거야.
- 실험: 실제로 해볼 수는 없지만, 풍선 지구본을 가지고 해볼 수 있어. 풍선 지구본을 던지고, 잡은 사람이 손가락으로 가리키는 곳이 물인지 땅인지 기록하는 거지. 이걸 여러 번 반복하면 데이터를 얻을 수 있고, 이 데이터를 가지고 지구 표면의 물 비율을 추정할 수 있어.
2. 구슬 주머니로 배우는 베이즈 추론
지구 물 비율 문제는 설명할 수 있는 경우의 수가 너무 많아서 복잡해. 그래서 더 쉬운 예시로 베이즈 추론의 기본 원리를 배워볼 거야.
- 상황: 네 개의 구슬이 들어있는 주머니가 있어. 구슬은 파란색(물처럼)이나 흰색(땅처럼)이야. 주머니 안에 파란 구슬이 몇 개인지 정확히는 모르지만, 가능한 경우는 딱 다섯 가지야.
- 모두 흰색
- 파란색 1개, 흰색 3개
- 파란색 2개, 흰색 2개
- 파란색 3개, 흰색 1개
- 모두 파란색
- 실험: 주머니에서 구슬을 세 번 뽑아. 뽑은 구슬은 다시 주머니에 넣고 흔든 다음 또 뽑는 방식(복원 추출)이야. 만약 "파랑, 하양, 파랑" 순서로 나왔다면, 이 결과를 가지고 어떤 경우의 수가 가장 가능성이 높은지 추론할 수 있어.
- 베이즈 추론의 핵심: 각 경우의 수(주머니 속 구슬 구성)를 가정하고, 그 가정이 맞다고 했을 때 우리가 관찰한 결과("파랑, 하양, 파랑")가 나올 수 있는 모든 경우의 수를 세는 거야. 경우의 수가 많을수록 그 가정이 더 가능성 높다고 판단하는 거지.
3. "가지 치는 데이터의 정원"
이건 베이즈 추론에서 경우의 수를 세는 방법을 시각적으로 보여주는 거야.
- 방법: 첫 번째 구슬을 뽑을 때 가능한 모든 경우(주머니에 파란 구슬이 1개, 흰 구슬이 3개 있다고 가정하면 4가지)를 가지처럼 그려. 두 번째 구슬을 뽑을 때도 마찬가지로 각 가지에서 또 4가지씩 가지를 그려. 세 번째 구슬까지 하면 총 4 x 4 x 4 = 64가지의 가능한 결과가 생겨.
- 결과: 우리가 관찰한 "파랑, 하양, 파랑"이라는 결과를 얻기 위해 각 경우의 수에서 몇 개의 경로가 있는지 세는 거야. 예를 들어, 주머니에 파란 구슬 1개, 흰 구슬 3개가 있다면 "파랑, 하양, 파랑"이 나올 수 있는 경우는 3가지야.
4. 가능성 비교하기
각 경우의 수에 대해 관찰된 데이터를 얻을 수 있는 경우의 수를 세고 나면, 이 숫자들을 비교해서 어떤 가정이 가장 가능성이 높은지 알 수 있어.
- 예시:
- 주머니에 파란 구슬 1개, 흰 구슬 3개: "파랑, 하양, 파랑"이 나올 수 있는 경우 3가지
- 주머니에 파란 구슬 2개, 흰 구슬 2개: "파랑, 하양, 파랑"이 나올 수 있는 경우 8가지
- 주머니에 파란 구슬 3개, 흰 구슬 1개: "파랑, 하양, 파랑"이 나올 수 있는 경우 9가지
- 결론: 이 예시에서는 주머니에 파란 구슬 3개, 흰 구슬 1개가 있을 때 "파랑, 하양, 파랑"이라는 결과가 나올 가능성이 가장 높다고 추론할 수 있어.
5. 베이즈 추론의 핵심 원리
- "더 많은 방법으로 일어날 수 있는 것이 더 가능성 높다." 이게 베이즈 추론의 전부야.
- 데이터를 통해 배우기: 우리는 가정을 하고, 그 가정이 데이터에 얼마나 잘 맞는지(경우의 수를 세어)를 통해 어떤 가정이 더 합리적인지 판단하는 거야.
6. 지구 물 비율 문제로 돌아가기 (무한한 경우의 수)
이제 지구 물 비율 문제로 돌아가서, 설명 가능한 경우의 수가 무한대일 때 어떻게 하는지 볼 거야.
- 문제: 지구 표면의 물 비율은 0부터 1까지 어떤 숫자든 될 수 있어.
- 해결: 각 가능한 물 비율(예: 0.1, 0.2, 0.5 등)에 대해, 우리가 관찰한 데이터(예: 땅, 물, 땅, 땅, 물...)가 나올 수 있는 경우의 수를 세는 거야.
- 그래프: 이 과정을 그래프로 나타낼 수 있어. 가로축은 물 비율, 세로축은 그 비율이 관찰된 데이터를 설명할 가능성(밀도)이야.
- 사전 분포 (Prior): 데이터를 보기 전에 우리가 가지고 있던 각 물 비율에 대한 믿음. 처음에는 모든 비율이 똑같이 가능하다고 가정할 수 있어 (평평한 선).
- 사후 분포 (Posterior): 데이터를 보고 나서 각 물 비율에 대한 믿음이 업데이트된 결과. 데이터가 특정 비율을 더 지지하면 그 비율의 가능성이 높아져.
- 업데이트: 새로운 데이터가 들어올 때마다 기존의 사후 분포에 새로운 데이터를 곱해서(경우의 수를 세는 것과 같은 원리) 업데이트할 수 있어. 이걸 베이즈 업데이트라고 해.
7. 베이즈 추론의 특징
- 최소 표본 크기 없음: 데이터가 하나만 있어도 추론을 시작할 수 있어. 데이터가 적으면 불확실성이 크지만, 추론 자체는 가능해.
- 표본 크기의 역할: 표본 크기는 따로 계산에 넣는 것이 아니라, 사후 분포의 모양(좁고 높아지는 것)에 자연스럽게 반영돼.
- 점 추정치 대신 분포: 베이즈 추론에서는 하나의 "최적의 값"을 찾기보다는, 가능한 모든 값들의 분포(사후 분포)를 결과로 제시해. 이 분포 자체가 추정치인 셈이지.
- 구간 추정의 유연성: 95% 구간처럼 특정 구간을 정하는 것은 관례일 뿐, 베이즈 추론에서는 원하는 어떤 구간이든 보고할 수 있어. 중요한 것은 분포의 전체적인 모양이야.
8. 실제 계산: "부엉이 그리기"
이론적인 설명과 함께 실제 코드를 통해 어떻게 계산하는지도 보여줄 거야.
- 격자 근사 (Grid Approximation): 가능한 물 비율을 아주 많은 작은 구간으로 나누고, 각 구간에서의 가능성을 계산하는 방법이야. 복잡한 수학 계산 대신 컴퓨터로 쉽게 할 수 있어.
- 사후 예측 분포 (Posterior Predictive Distribution): 업데이트된 사후 분포를 가지고 앞으로 얻게 될 새로운 데이터가 어떤 모양일지 예측하는 거야. 이건 모델이 얼마나 잘 학습되었는지 확인하는 데 중요해.
요약
베이즈 추론은 각 가설(설명)에 대해 데이터가 나올 수 있는 경우의 수를 세고, 그 경우의 수를 비교하여 가장 가능성 높은 가설을 찾는 논리적인 방법이야. 복잡한 수학 대신 샘플링과 데이터 요약을 통해 실제 계산을 수행할 수 있으며, 이를 통해 불확실성을 명확하게 파악하고 예측할 수 있어.