최근 회사 업무에서 부품 샘플의 전압 편차가 파워 편차로 어떻게 나타나는지를 계산해야 할 때가 있었습니다. 저는 통계에 대해 무지한데 다행히 통계학과 출신의 아내가 있어서 잘 해결했어요. 이것을 계기로 저도 통계학을 알아야겠다고 생각했습니다. 생각보다 쉽고 재미있게 책이 쓰여 있어서 앉은 자리에서 다 봤어요.
이 책에서 가장 흥미롭게 읽은 부분은 ‘몬티홀 문제’입니다. 제가 간단하게 옮겨봤어요.
몬티홀은 미국의 인기 게임쇼 Lets makeadeal 진행자 이름입니다. 이 프로그램은 시청자 앞에 놓인 3개의 문 중에서 자동차 상품이 놓인 문을 선택하면 상품을 획득하는 프로그램이었다고 해요. 여기서 프로그램의 재미를 높이기 위해 시청자가 하나를 선택하면, 진행자는 나머지 두 개의 문 중에서 꽝에 해당하는 문을 열어 보이면서 나머지 문으로 바꿀 것인지, 아니면 처음에 자신이 선택한 문을 고수할 것인지 묻습니다. 얼핏 보면 어떤걸 고르든 확률은 1/2로 보여요. 하지만 그 당시 IQ 228로 여겨지는 마릴린의 생각은 달랐다고 합니다. 그녀는 “몬티홀 문제로 문을 바꾸면 당첨될 확률은 두 배가 됩니다”라고 말했습니다. 그녀는 그 당시에 수학자를 포함해서 많은 사람들로부터 비난을 받았다고 합니다. 한 수학자가 컴퓨터 시뮬레이션에서 그녀의 주장이 맞았음을 증명했습니다.
어떻게 된 일일까요? 극단적인 사례를 들어서 생각해 보면 이해할 수 있어요. 문이 100개라고 생각해봅시다. 첫 번째 시청자가 문을 하나 선택했다면, 그 문이 정답일 확률은 1/100이고, 99 문 중에 하나가 정답일 확률은 99/100입니다. 이때남은글98개를삭제하면사회자가남긴글하나의확률은99/100이됩니다.

https://en.wikipedia.org/wi ki/Monty_Hall_problemMonty Hall problem From Wikipedia, the free encyclopedia The Monty Hall problem is a brain teaser, in the form of a probability puzzle, loosely based on the American television game show Let’s Make a Deal and named after its original host, Monty Hall . The problem was originally posed (and solved)..en.wikipedia.org
또 하나 재미있었던 내용은 홍차부인의 에피소드입니다. 어떤 부인이 홍차를 맛보면 우유와 홍차 중에서 무엇을 먼저 찻잔에 담았는지 구별할 수 있다고 주장한다면 어떻게 진위를 가릴 것인가 하는 문제입니다. 바꿔 말할 확률이 1/2이기 때문에 몇 번 연속해서, 아니면 몇 번 맞추면 우연이 아니라 실력으로 인정받는가 하는 문제입니다. 여기서 중요한 건 우연과 실력을 가르는 기준이에요. 귀무가설에 의해서 일어나기 어려운 우연이라면, 실력이라고 규정하는 것입니다. 통계적으로 유의성을 말하자면 보통 5%의 확률을 기준으로 합니다. 일어날 확률이 5% 미만이면 실력으로 봐도 된다는 거죠. 아래 표는 1/2 확률의 이항 분포를 나타내고 있습니다. 8~10까지 더하면 약 5.5% 정도 됩니다. 홍차 부인이 홍차 맞추기를 약 10회 했을 때 8회 이상 맞출 확률이 5.5% 이내라는 것입니다. 즉 홍차 부인이 10번 중 8번 이상 맞추면 실력을 인정해도 좋지 않을까 생각합니다.

https://www.thoughtco.co m/binomial-table-n-10-n-11-3126257See a binomial distribution table for n = 10 and 11 and a variety of probabilities.www.thoughtco.com
다음은 제가 이해한 내용을 정리해 보았습니다.
- 정규 분포
- 정규 분포곡선에서 ‘평균 +/-표준편차’까지의 범위는 특정 데이터가 해당 범위에 포함될 확률을 나타냅니다.

평균에서 +/-1 시그마(표준편차) 안에 들어갈 확률은 68.27% 평균에서 +/-2 시그마(표준편차) 안에 들어갈 확률은 95.73% 평균에서 +/-3 시그마(표준편차) 안에 들어갈 확률은 99.73%
그러나 보통 95%와 99%의 확률처럼 뚝 떨어지는 숫자를 사용하기 때문에 95%에 해당하는 표준편차는 1.96시그마, 99%에 해당하는 2.58시그마를 많이 사용합니다.
2. 표본을 이용하여 모집단의 특징을 추정하는 말대로 여러 표본의 평균을 이용하여 모집단의 성격을 파악할 수 있는 기법입니다. 책에서는 과수원의 사과를 예로 들고 있습니다. 과수원의 사과를 여러 사람에게 똑같이 10개씩 나눠주었다면, 각 개인이 받은 사과의 평균 무게로 히스토그램을 그리면 정규 분포를 그리게 될 것입니다. 이렇게표본평균분포를이용하는것을중심극한정리라고합니다.
<중심 극한 정리 – Central Limit Theorem>3, 시청률 추정 시청률은 95% 구간 추정 시 다음과 같이 구할 수 있습니다.p는 조사에 의한 시청률, n은 추출 세대수라고 하면…
이때 시청률은 정규분포가 아닌 이항분포이므로 표준편차가 sqrt(p*(1-p))로 계산됩니다.여기서 p를 당기면 표본오차가 있어요.
우리가 선거를 치르고 출구조사를 하면 95% 신뢰수준에서 오차범위는 어떻다는 게 이런 뜻이에요.
#이렇게쉬운통계학 #서평 #알기쉬운 #통계학 #몬티홀문제 #MontyHallProblem #홍차부인 #시청률