서성욱(2023). 결정하는 마음

5장. 베이지안 사고방식

베이지안 모델
- 의사결정을 위한 필요조건이란? ‘확률의 불확실성을 측정’하는 것
- 확률의 불확실성을 측정하는 하나의 방식 = ‘베이지안 모델(확률 기반 모델)’
- 베이즈 정리 = 일종의 역확률을 풀어내는 과정
- 그렇다면 먼저 순확률이란? 순확률을 알기 위해서는 전지적 시점에서 집단 전체의 비율을 알아야 함. 순확률은 곧 참확률로서, ‘확률 자체의 불확실성’은 없음
- 하지만 현실에서는? 전체 집단을 모른다면, 일부 샘플 집단을 통해서 확률을 구해야 함. 이 때 필요한 ‘샘플 집단이 전체 집단을 대표한다’는 가정 하에, 추론을 통해 순확률을 구할 수 있음. 그러나, 이렇게 구한 값이 참확률과 정확히 일치하지는 않을 것
- 베이지안 추론은 샘플을 여러 번 반복해서 뽑고, 관찰 확률을 업데이트하면서 참확률을 찾아가는 방법 (예를 들어, 어떤 색깔의 공이 몇 개가 들어있는지 알 수 없는 상자에서 계속해서 공을 뽑으면서 관찰 확률을 구함) -> 역확률. 기존의 지식 또는 기존의 믿음 ‘사전 확률’을 바탕으로 ‘사후 확률’을 얻는 것. https://www.youtube.com/watch?v=Y4ecU7NkiEI
- 관찰된 데이터(D)가 사전의 가설(H)에서부터 나왔을 가능도를 구할 수 있고, 그 역확률을 구할 수 있음.
결정장애의 해결법: 베이지안 추론에 의한 신념과 논리의 융합
- 만약, 진리 집단을 정확히 반영하는 빅데이터가 존재한다면, 데이터에 기반한 귀납적 의사결정은 가장 합리적인 방법일 것. 그러나, 아주 많은 데이터가 균등하게 확보되기 전까지는 어떤 의사결정도 불가능함
- 한편, 귀납적 방식을 활용한 판단을 할 때, 증거가 없으면 어려움. 그러나, 베이지안 추론 방법은 사전 지식을 이용하므로, 현실의 가능한 한 적은 데이터로도 의사결정을 할 수 있음
- 베이지안 추론 방법은 신념, 직관, 과거의 경험 등을 무시하지 않고, 이를 사전지식으로 활용함. 즉, 사전 지식에 바탕을 두면서도 현실의 결과를 반영해(업데이트 하면서) 사후 의사결정을 수행함. https://www.youtube.com/watch?v=me–WQKQQAo
베이지안과 유사한 인간의 사유 방식: 베이지안 브레인
- 베이지안 브레인은 외부에서 인지된 데이터를 학습하고, 판단의 가치를 시뮬레이션(우리 뇌에 있는 외부세계에 대한 가상 현실 모델)을 통해 예측하며, 이를 근거로 의사결정을 수행함. 베이지안 추론과 같이, 새로운 증거를 외부에서 수집하고, 자신의 내적 모델을 업데이트 함. 즉, 관찰된 데이터를 통해 외부 세계의 정보를 내적 모델에 학습시킴.
- 위 과정을 통해 우리 뇌는 자신만의 현실에 대한 관념 또는 가설을 만들고 그 모델을 현실 세계의 경험을 통해 검증하고 수정함으로써 세상에 대한 자신만의 모델을 실제 세상과 좀더 유사하게 만들어 감
- 이렇듯 우리는 자신이 만든 내적 세계를 통해 외부 세계를 인지하며, 인지 단계에서 조차 주관적일 수 밖에 없는 한계를 지니고 있음
- 칼 프리스턴의 주장에 따르면, 베이지안 브레인은 자유에너지 또는 엔트로피(무질서한 정도)가 적은 방향으로 결정을 내림. 즉, 불확실성이 크지 않은 방향으로 판단하는데, 이는 ‘효용성’의 문제와 유사함
- 베이지안 브레인은 불확실성이 큰 문제에 대해 엔트로피를 줄이고자 많은 증거를 수집하려 하고, 불확실하며 엔트로피가 증가하는 방향으로 외부 세계를 관찰하고 그 작동 원리를 찾아내려 하는 등 자신의 내적 모델을 개선시키고자 노력함
베이지안 브레인과 유사한 인공지능의 추론 방식
- 베이지안 확률 모델도 학습을 위해 사전 확률 분포가 필요함. 가상의 데이터를 추출(샘플링)하고, 그 값을 실제 참데이터와 비교해 확률 분포를 변경해 감. 어떠한 분포도 가정하지 않고 무작위로 데이터를 뽑는 ‘몬테카를로 방법’이 있음.
- 그러나, 몬테카를로 방법은 시간과 비용 측면에서 비효율적임. 무작위 대신 일정한 범위의 초기 분포를 가정하고, 그 내부에서 샘플을 추출하면서 분포를 찾아가는 ‘제안 분포’ 방법이 있음. 물론 만약, 제안 분포가 너무 엉뚱한 곳에 있다면, 학습을 전혀 못 하게 될 수도 있음
- 제안 분포는 베이지안 브레인이 갖는 내적 세상과 유사하다 볼 수 있음. 예컨대, 인간은 초기 분포인 내적 세상에서 가능한 선택을 수행하면서(샘플을 추출 하면서), 선택의 결과와 현실 세계의 결과를 비교하며 초기 제안 분포를 업데이트 해 나감.

7장. 본격적인 인과관계 분석

의학 데이터에서 연관성의 오류, 빅데이터 활용의 문제점
- 후향적 연구: 과거의 데이터를 이용하는 연구(이미 관찰된 결과를 활용)
- 실험 데이터와 비교해 과거의 데이터는 관찰된 데이터라고도 하며, 인공지능 강화학습에서는 실시간으로 학습되는 데이터 즉, 온라인 데이터가 아니라는 점에서 오프라인 데이터라고 부르기도 함
- 데이터 분석 결과, 감기약을 복용한 환자가 감기가 더 오래 지속되었다고 가정해보자. 그러나, 감기약을 복용한 환자의 경우 초기 감기 증상이 훨씬 심했기 때문에 약을 복용했을 수 있음. 이처럼 감기의 초기증상은 최종 결과(감기의 지속 기간)에도 영향을 주지만, 약 복용 여부의 선택에도 영향을 주는데, 이와 같은 요소를 통계학에서는 교란 변수(confounder)라고 부름
- 즉, 교란 변수는 상호 연관성이 없는 두 사건에 동시에 영향을 줌으로써, 마치 두 사건이 연관성이 있는 것처럼 보이게 함 (과거 데이터를 연구할 때는 먼저 교란 변수를 찾는 것이 중요)

(P.175) 예컨대, 활액막 육종암 환자 SEER데이터에서 방사선 치료 여부에 따른 각 변수의 기준 값차이를 보면, 방사선 치료를 한 그룹이 그렇지 않은 그룹에 비해 병기가 확연히 낮음. 그러나, 낮은 병기는 항암 치료보다 방사선 치료를 선호하게 된 동기로 작용했을 수 있음. 그래서, 낮은 병기가 교란 변수로 작용해 좋은 예후와 방사선 치료 간 거짓된 연관관계를 만들었다고 볼 수 있음
그렇다면, 과연 방사선 치료와 환자의 예후에는 직접적인 인과관계가 없는 것인가? 과거의 데이터를 활용해서 치료와 같은 행위의 효과를 알 수 없는 것일까?

인과추론 (1)
- 인과관계의 추론은 1934년 수얼 라이트의 경로 분석(path analysis)에서 기원한 인과관계 그래프에서 시작됨
- 진정한 인과관계 그래프를 그리기 위해서는 ‘실험’을 해야 함. 펄은 ‘조정(do)’된 인과관계 모델을 일반적인 연관성과 구별하기 위해 do-calculus 형태로 표현함. 인과관계가 확인된 조건부 확률
- 펄은 과거의 데이터로 발견한 연관관계가 인과관계 즉, do-calculus 형태가 되기 위해서는 다음 조건을 만족시켜야 한다고 주장함:
1. Y에 직접적인 영향을 주는 모든 변수 Z가 T를 결정하는 데 아무런 영향을 주지 않으면, do-calculus 성립 가능함. 무작위 실험은 T를 결정하는 데 아무런 요소도 작용하지 못하게 함으로써 이 조건을 만족시킴
2. 관찰 데이터에서 뒷문 경로(인과관계 그래프에서 교란 변수와 treatment의 연관관계; backdoor path)가 차단된다면 do-calculus가 성립될 수 있음. 즉, treatment를 결정하는 데 영향을 주는 요소들의 효과를 차단하는 것. 이 과정을 de-confounding이라고 함
  - 그래서 만약 과거의 데이터를 이용해 특정 치료법의 효과를 알고자 한다면? -> 매칭! * 환자의 결과에 영향을 주는 치료를 제외한 모든 요소를 찾아 내기 * 이들 중 치료군(T=1)과 비치료군(T=0)에 편향적으로 존재하는 변수들 Z를 골라 내기 * Z가 동일한 조건하에서 치료군과 비치료군을 비교 * 앞서, 희귀 암 활액막 유종은 암의 예후에 결정적인 영향을 주는 병기의 분포가 치료군과 비치료군에서 편향적으로 존재했음. 그 외에도 예후에 영향을 미치는 나이, 수술 및 항암 치료 여부도 두 집단 간에 차이를 보였다. 따라서, 이 모든 교란 변수가 유사한 환자들 가운데 치료를 시행한 사람과 치료하지 않은 사람의 예후를 비교해야 만함
  - 이외에도 경향성 함수(Propensity function)를 사용하는 방법이 있음. 경향성 함수는 조건부 확률로 나타낼 수 있음. 즉, 주어진 변수 Z에 의해 치료 여부가 영향을 받는 정도. 이는 데이터 분포의 편향된 비율을 나타내므로, 역수를 취해 가중치로 사용하면 분포의 편향된 비율을 교정할 수 있음. 이를 역경향성 가중치(Inversed Propensity Weight)라고 함
인과추론 (2)
- 또 다른 관점. 잠재적 결과(Potential Outcome). 특정 옵션을 선택했을 때의 결과와 그 옵션을 선택하지 않았을 때의 예상 결과의 차이를 그 옵션의 효과로 봄.
- 그런데, 만약은 실제로 존재하지 않기 때문에 이는 존재하지 않는 데이터임 Counter factual.
- 따라서, 각 개인의 반-사실 결과를 추정하는 대신, 유사하다고 인정되는 소그룹의 환자들에게서 추정한 것을 반-사실 결과로 가정하는 것으로 타협점을 찾기도 함
- 유사성이 확보된 집단에서는 서로 기대되는 결과가 동일하다는 가정 하에, 집단 내에서 치료군과 비치료군의 기댓값을 추정하고 그 차이를 계산할 수 있음 (매칭과 유사한 개념)
- 평균 치료/처치 효과 (Average Treatment Effect; ATE)는 전체 집단에서 이 치료/처치가 효과를 보이는 지 파악하는 것. 이를테면, 특정 소그룹에서 효과가 없거나 부작용이 있더라도 이는 무시됨.
- 그런데 만약 소집단의 치료 효과 또는 개인별 치료 효과를 계산할 수 있다면? -> 환자 개인별 맞춤 치료가 가능해질 것.
- 최근, 치료군과 비치료군의 잠재적 결과를 예측하는 알고리즘
- 혹은 개인의 counterfactual 데이터를 추론하는 알고리즘이 최근 의료계의 가장 중요한 연구 분야.

References

서성욱(2023). 결정하는 마음. 글항아리.

Twitter Facebook LinkedIn

Kina Park

서성욱(2023). 결정하는 마음

5장. 베이지안 사고방식

7장. 본격적인 인과관계 분석

References

공유하기

참고

연립일차방정식과 행렬의 뜻

KoBERT를 이용한 학생 역량 점수 분류

컨조인트 분석 & 인과추론

랜덤포레스트와 SHAP