(AI 작성) 수리통계학 회고 (1) — 분포 만지작거리기
대학 8학기, 마지막 학기에 들었던 MAS355 수리통계학 수업을 정리해보려고 한다. 이미 확률 및 통계 기초를 듣고 들어왔지만, 이 수업은 그 위에서 한 층을 더 쌓아 올리는 느낌이었다. 바닥부터 다시 깔리는 분포의 변환, 그리고 그 위에 얹어지는 추정과 검정. HW가 총 6번 있었는데, 이번 글에서는 HW1과 HW2를 다룬다. 분포를 손으로 만지작거리며 익숙해지는 단계.
HW1 — 분포의 기본기
HW1은 사실상 ‘확률 1’ 복습 + α 같았다.
- 1번은 그냥 Binomial로 $P(1 \le Y) \ge 0.70$이 되는 가장 작은 $n$ 찾기. $(3/4)^n \le 0.3$에서 $n=4$.
- 2번은 1000개 중 5% 또는 10% 불량인 상황에서 Hypergeometric으로 정확히 계산하고, Binomial로 근사하는 비교 문제. “정확값과 근사값이 얼마나 차이날까”라는 감을 만드는 연습이었다.
- 3번이 좀 재밌었다. $p(x,y) = e^{-2}/{x!(y-x)!}$인 joint pmf의 mgf와 상관계수를 구하는 문제. mgf를 정리하다 보니 $X \sim \text{Poisson}(1)$, $Y \sim \text{Poisson}(2)$가 떨어졌고, 결국 $\text{Corr}(X, Y) = 1/\sqrt{2}$. Poisson 두 개가 joint로 들어가 있는 걸 mgf로 분해해내는 경험.
- 4번은 iid 지수분포 3개의 min과 max. min은 $\text{Exp}(3)$, max는 $3(1-e^{-y})^2 e^{-y}$.
- 5번은 감마 분포의 합. mgf 곱하니 $Y \sim \Gamma(8, 6)$.
- 6번. $U, V \sim N(0,1)$ 독립일 때 $E[e^{tUV}]$. joint pdf를 깔고 $v$에 대해 적분하면서 가우시안 적분 두 번 쓰는 문제. 결과는 $(1-t^2)^{-1/2}$. 어떤 잡지의 퍼즐 같은 깔끔함이 있다.
- 7번이 압권. $W \sim N(0,1)$, $V \sim \chi^2(r)$ 독립일 때 $T = W/\sqrt{V/r}$의 pdf를 구해서 t-분포 유도하기. change of variable 두 번 쓰고, marginal pdf를 적분해 내는데, $\Gamma$ 함수와 $u$ 치환이 줄줄이 엮인다.
손으로 직접 t-분포의 pdf를 유도해보니, “통계학 책 부록에 적힌 그 식”의 위상이 한 단계 내려갔다. 원래 외워서 쓰던 식이 이제는 “원하면 다시 만들어낼 수 있는” 식이 된 느낌.
HW2 — 다변량 정규에서 신뢰구간까지
HW2부터 분위기가 바뀐다. 이제는 분포를 갖고 노는 게 아니라, 분포로부터 추론을 시작한다.
1번: 다변량 정규의 선형 결합
$\mathbf{X} \sim N_3(\mathbf{0}, \Sigma)$에서 $Y = X_1 - 2X_2 + X_3 = A\mathbf{X}$의 분산은 $A \Sigma A^\top = 4$. 그러니 $Y \sim N(0, 2^2)$. $P(Y^2 > 15.36) = 2P(Z > 1.96) = 0.05$. 풀고 나서 “오, 이거 신뢰구간 임계값에서 본 그 1.96”이라는 작은 쾌감이 있다. 다변량 정규의 선형 결합도 정규고, 분산 행렬을 $A \Sigma A^\top$로 압축할 수 있다는 사실의 위력.
2번: F-분포의 정체
$X_1, X_2, X_3 \sim \chi^2$ 독립일 때, $Y_1 = X_1/X_2$와 $Y_2 = X_1 + X_2$가 독립이고 $Y_2 \sim \chi^2(r_1 + r_2)$임을 보이는 문제. change of variable로 joint pdf를 인수분해해서 보인 다음, F-분포의 정의로부터 두 비율의 독립성을 끌어낸다. F-분포가 그냥 “두 카이제곱의 비율”이 아니라, 그 비율이 왜 분모와 또 다른 카이제곱과 독립이 되는지를 손으로 확인하는 과정이었다.
3번: σ를 알 때와 모를 때
$n=9$인 정규 표본에서 신뢰구간 길이를 비교한다.
- $\sigma$ 기지: $\bar{X} \pm 1.96\,\sigma/3$. 길이는 $\frac{2 \cdot 1.96 \sigma}{3} = 1.31\sigma$.
- $\sigma$ 미지: $t$-분포로. $E[S]$를 계산해서 (카이 분포로 가서 감마 함수까지 통과) 기대 길이 $\approx 1.49\sigma$.
답이 다르다. $\sigma$를 모를 때는 표본으로 추정해야 하니까 더 보수적으로 (= 더 넓게) 잡아야 한다. 이건 머리로는 알지만, 직접 길이 비를 계산해서 “정말 1.14배 정도 더 넓구나”를 확인하는 게 의미 있었다.
4번: F-분포로 분산비 신뢰구간
두 정규 모집단의 분산비 $\sigma_1^2/\sigma_2^2$의 신뢰구간. F-분포 임계값으로 양쪽을 자르는 표준 절차.
5번: Poisson exact CI
$n=25$, $\bar{x}=5$일 때 $\theta$의 90% 신뢰구간. 근사를 쓰지 말라는 단서가 붙어 있었다. $n\bar{X} \sim \text{Poisson}(n\theta)$를 이용해서 $\theta$가 신뢰구간 양 끝값일 때의 cdf 값으로 직접 부등식을 풀었다. 계산을 해보면 $(4.289, 5.8)$ 정도가 나온다. 정규 근사로 $(4.34, 5.66)$이 나오는 것과 비교해보면, 비대칭임을 확인할 수 있다.
돌아보며
HW1과 HW2는 도구함을 채우는 단계였다. mgf, change of variable, chi-square, t, F. 이 다섯 개를 자유자재로 조합할 수 있어야 다음 단계의 추정과 검정으로 갈 수 있다. 그땐 매주 새벽까지 적분하면서 “왜 이걸 손으로 풀어야 하나” 싶은 순간도 있었는데, 나중에 보니 이 손풀이의 기억이 머리에 한 줄씩 남아 있더라. mgf 적분하는 손맛이라는 게 있다.



