(AI 작성) 수리통계학 회고 (2) — n이 커지면 보이는 것들
1편에서 분포를 만지작거리는 단계였다면, HW3은 한 단계 점프해서 n을 무한대로 보내면 무슨 일이 일어나는가 에 대한 이야기. chi-square 독립성 검정으로 시작해서, 확률 수렴, 극한 분포, delta method, 그리고 CLT까지. 한 주에 점근이론의 거의 모든 핵심 도구가 나왔다.
1번 — 카이제곱 독립성 검정
$3 \times 4$ 분할표에서 두 속성 $A$, $B$의 독립성 검정. $H_0: P(A_i \cap B_j) = P(A_i) P(B_j)$.
귀무가설 하의 기대도수를 계산해서 (행합 × 열합 / 총합),
\[Q = \sum_{i=1}^3 \sum_{j=1}^4 \frac{(X_{ij} - n \hat P(A_i) \hat P(B_j))^2}{n \hat P(A_i) \hat P(B_j)} \approx \chi^2_{(3-1)(4-1)} = \chi^2_6\]계산하니 $Q = 12.94$. 임계값 $\chi^2_{0.05, 6} = 13.592$. 딱 한 끗 차이로 기각 못 함. 살짝 아쉬운 마음이 드는 결과였다. 실제 자료에서 이런 미묘한 차이로 결론이 갈리는 게, 검정의 두려운 점이자 매력이다.
2번 — Chebyshev로 확률 수렴 보이기
$W_n$이 평균 $\mu$, 분산 $b/n^p$ ($p > 0$)일 때 $W_n \xrightarrow{P} \mu$. Chebyshev 부등식 한 줄로 끝난다.
\[P(|W_n - \mu| \ge \varepsilon) \le \frac{\sigma^2}{\varepsilon^2} = \frac{b}{n^p \varepsilon^2} \to 0\]처음 보면 너무 간단해 보이지만, “분산이 0으로 가면 확률적으로 수렴한다” 라는 직관을 가장 깔끔하게 표현하는 도구. 이후 모든 일치성(consistency) 증명의 기본 패턴이 된다.
3번 — 두 번째 순서통계량의 극한분포
연속분포에서 표본의 두 번째 작은 값 $Y_2$를 갖고, $W_n = nF(Y_2)$의 극한분포를 구한다.
$Y_2$의 cdf를 직접 세는 게 핵심. “표본 중 0개 또는 1개만 $y$ 이하”의 여사건으로,
\[P(Y_2 \le y) = 1 - n F(y) [1 - F(y)]^{n-1} - [1 - F(y)]^n\]$W_n = nF(Y_2)$로 변환하고 $n \to \infty$ 보내면,
\[\lim_{n \to \infty} P(W_n \le w) = 1 - e^{-w}(w+1)\]미분하면 $f(w) = w e^{-w}$, 즉 $W_n \xrightarrow{d} \Gamma(2, 1)$.
두 번째 순서통계량의 극한이 감마라니, 처음엔 의외였다. 첫 번째 순서통계량이 지수분포로 가는 건 익숙한데, 두 번째는 모양이 하나 더 늘어난 감마로 간다. $k$-번째 순서통계량은 $\Gamma(k, 1)$로 가는 일반 패턴의 한 케이스라는 걸 나중에 알았다.
4번 — mgf로 보는 CLT, 그리고 delta method
$X_1, \ldots, X_n \overset{iid}{\sim} \text{Exp}(1)$, $Y_n = \sqrt{n}(\bar X_n - 1)$.
(a) mgf를 차근차근 계산해서
\[M_{Y_n}(t) = \left[e^{t/\sqrt{n}} - (t/\sqrt{n}) e^{t/\sqrt{n}}\right]^{-n}\](b) $n \to \infty$ 극한. 사실 한 번 잘못 풀어서 줄로 지운 흔적이 사진에 남아 있다. $e^{t/\sqrt n}$을 Taylor 전개하고 묶으면,
\[\lim_{n \to \infty} M_{Y_n}(t) = \lim_{n \to \infty} \left[1 - \frac{t^2}{2n} + (\cdots)\right]^{-n} = e^{-t^2/2}\]이때 답안지 한 켠에 “분모가 $n^{1.5}$ 이상이므로 0으로 간다”라고 한국어로 메모해뒀다. 영어 풀이 사이에 한국어 한 줄. 그날 새벽에 자기 자신한테 남긴 메모 같다. $\therefore Y_n \xrightarrow{d} N(0, 1)$. 이게 mgf로 보는 CLT.
(c) delta method. $g(x) = \sqrt{x}$로 두면 $g’(1) = 1/2$이고,
\[\sqrt n (\sqrt{\bar X_n} - 1) \xrightarrow{d} N(0, 1/4)\]delta method를 한 줄에 적용하는 깔끔함. “비선형 함수의 극한도 결국 선형 근사로 다시 정규로 간다”라는 통계학의 가장 사랑스러운 도구 중 하나라고 생각한다.
5번 — Weibull로 가는 첫 순서통계량
$f(x) = 5x^4$, $0 < x < 1$. cdf는 $F(x) = x^5$. $Z_n = n^p Y_1$이 극한분포를 갖도록 $p$를 정하는 문제.
\[P(Z_n \le z) = 1 - \left(1 - (z/n^p)^5\right)^n = 1 - \left(1 - \frac{z^5}{n^{5p}}\right)^n\]$n \to \infty$ 극한이 비자명해지려면 $n^{5p} = n$, 즉 $\boxed{p = 1/5}$. 그러면 $\lim P(Z_n \le z) = 1 - e^{-z^5}$, 즉 Weibull.
“왜 1/5인가”의 본질은 샘플 수에 맞게 스케일을 잡아야 비로소 의미 있는 극한이 나온다 라는 것. 점근이론의 핵심 직관이 5번에 압축되어 있다.
6번 — CLT 한 줄
$\bar X$의 표본 크기 $n = 128$, 모집단 $\Gamma(2, 4)$. $E(X) = 8$, $\text{Var}(X) = 32$.
\[\frac{\sqrt{128}(\bar X - 8)}{\sqrt{32}} = 2(\bar X - 8) \xrightarrow{d} N(0, 1)\]$P(7 < \bar X < 9) = P(-2 < Z < 2) \approx 0.9546$.
3번부터 5번까지 머리를 쓰다가 마지막에 CLT 한 줄로 마무리. 출제자의 자비를 느꼈다.
돌아보며
HW3 한 회차에 “$n$이 커지면” 시리즈의 거의 모든 도구가 나왔다. Chebyshev로 일치성, mgf로 CLT, change of variable로 극한분포, delta method로 비선형 변환, 그리고 마지막에 CLT의 응용.
수리통계학에서 가장 좋아하게 된 부분이 바로 점근이론이었던 것 같다. 유한한 $n$에서는 정확한 분포를 모르지만, 무한대로 보내면 깔끔한 정규나 카이제곱이 떨어진다는 것. 그 사실 자체가 너무나 위안이 된다. 세상은 복잡하지만 큰 그림에서는 평균으로 수렴한다는, 거의 인생훈에 가까운 메시지.


