Post

(AI 작성) 수리통계학 회고 (4) — 증거가 충분한가, 그리고 가장 좋은 추정량

(AI 작성) 수리통계학 회고 (4) — 증거가 충분한가, 그리고 가장 좋은 추정량

마지막 편. HW5는 가설 검정, HW6은 충분통계량과 MVUE. 앞의 3편에서 “효율적인 추정량”을 봤다면, 이제는 “최소분산 불편 추정량 (MVUE)” 이라는 더 강한 개념과, 그것을 보장하는 충분통계량까지 간다. 그리고 가설 검정에서는 우도비 검정(LRT)을 중심으로 Wald, Score까지 한 묶음으로 다룬다.

수업 후반부의 모든 도구가 여기서 합쳐진다.

HW5 — 가설 검정의 세 얼굴

1번: LRT가 만드는 검정통계량

$f(x; \theta) = \theta \exp(-|x|^\theta) / (2 \Gamma(1/\theta))$. $\theta = 1$이면 double exponential, $\theta = 2$이면 정규. $H_0: \theta = 2$ vs $H_1: \theta = 1$.

likelihood ratio를 정리하면 (지수 부분만 떼서)

\[\Lambda = \frac{L(2)}{L(1)} = (\text{상수}) \cdot \exp\left(-\sum (X_i^2 - |X_i|)\right)\]
$\Lambda \le c$는 $\sum (X_i^2 -X_i) \ge c’$와 동치.
즉, **검정통계량은 $W = \sum (X_i^2 -X_i)$**.
문제 자체가 “LRT의 핵심은 검정통계량으로 환원하는 것”임을 가르치는 케이스. 두 분포의 형태 차이가 결국 $X^2$ 항 vs $X$ 항의 무게 차이로 나타난다는 게 직관적.

2번: Bernoulli에서 세 가지 검정

$X \sim \text{Bernoulli}(\theta)$, $H_0: \theta = 1/3$ vs $H_1: \theta \ne 1/3$.

(a) LRT. $\hat \theta = \bar X$, MLE 대입하고 정리.

\[\Lambda = \frac{(1/3)^{\Sigma X} (2/3)^{n - \Sigma X}}{\bar X^{\Sigma X} (1 - \bar X)^{n - \Sigma X}}\]

$-2 \log \Lambda$는 한 줄로 정리되고, 점근적으로 $\chi^2(1)$.

(b) Wald. $\sqrt n (\hat \theta - 1/3) / \sqrt{\hat\theta(1-\hat\theta)/n}$ 형태로, $N(0,1)$ 점근.

(c) Score (Rao). $\theta = 1/3$에서의 score function과 Fisher 정보량으로

\[\chi^2_R = \frac{[\sqrt n (\bar X - 1/3)]^2}{(1/3)(2/3)}\]

세 가지가 모두 점근적으로 같은 $\chi^2(1)$ 분포를 따르지만, 표본이 작을 때는 결론이 미묘하게 갈릴 수 있다. 하나의 가설을 세 가지 통계량으로 검정할 수 있다는 사실 자체가 통계학의 깊이를 느끼게 했던 문제.

3번: regularity가 깨질 때의 LRT

$Y_1 < \cdots < Y_n \sim \text{Uniform}(0, \theta)$, $H_0: \theta = \theta_0$.

$Y_n \le \theta_0$이면 $\Lambda = (Y_n/\theta_0)^n$, 아니면 $\Lambda = 0$.

여기서 핵심. 귀무가설 하에서 $-2 \log \Lambda$가 보통 $\chi^2(1)$로 가지 않고, 정확히 $\chi^2(2)$.

$U = Y_n/\theta_0$의 분포가 $f_U(u) = nu^{n-1}$이라는 걸 이용해서, $-2 \log \Lambda = -2n \log U$의 정확한 분포를 계산하면 정확히 자유도 2의 카이제곱이 나온다.

이전의 HW4 4번에서 본 것처럼, support가 모수에 의존하면 정규성 조건이 깨지고, 점근 결과가 일반적인 $\chi^2(1)$ 자유도 공식을 따르지 않는다. 이 사실을 직접 손으로 확인하는 게 이 문제의 묘미.

4번: 제약 있는 MLE

두 Bernoulli, $0 \le p_1 \le p_2 \le 1$.

표본평균이 $Y/n \le Z/n$이면 그대로 $\hat p_1 = Y/n$, $\hat p_2 = Z/n$. $Y/n > Z/n$이면 제약을 만족시키지 못하므로, 경계 $p_1 = p_2$에서 최적화. 합치면 $\hat p_1 = \hat p_2 = (Y+Z)/(2n)$.

이전 회차에서 본 “제약이 있으면 경계해가 가능하다”의 또 다른 버전.

5번: 두 지수 모수의 LRT

$X \sim \text{Exp}(\theta_1)$, $Y \sim \text{Exp}(\theta_2)$ 독립. $H_0: \theta_1 = \theta_2$.

LRT를 정리하면 결국 통계량 $\bar X / \bar Y$의 함수로 표현되고, $H_0$ 하에서

\[\frac{2 n_1 \bar X / \theta}{2 n_2 \bar Y / \theta} \cdot \frac{n_2}{n_1} = \frac{\bar X}{\bar Y} \sim F(2 n_1, 2 n_2)\]

두 지수 표본 비교가 F-분포 검정으로 환원된다. LRT가 결국 우리가 익숙한 분포의 검정으로 변환되는 패턴이 점차 익숙해진다.

6번: 이변량 정규의 LRT

$(X_i, Y_i) \sim$ Bivariate Normal, $\sigma_1^2 = \sigma_2^2 = \sigma^2$, $\rho = 1/2$ 고정. $H_0: \mu_1 = \mu_2 = 0$.

이번 학기에서 가장 계산이 길었던 문제. likelihood를 quadratic form으로 정리하고, $H_0$ 하의 MLE($\sigma^2$만 free)와 일반 MLE($\mu_1, \mu_2, \sigma^2$ free)를 각각 구해서 비율 계산.

결과적으로 $\Lambda$는 $\bar X^2 + \bar Y^2$ 같은 통계량의 함수로 정리되고, 알려진 분포(카이제곱 변형)로 환원된다.

HW5 1페이지

[HW5 1페이지] 1번 LRT 변환과 2번 세 가지 검정, 3번 Uniform LRT, 4번 제약 MLE.

HW5 2페이지

[HW5 2페이지] 5번 두 지수 비교 (F-분포)와 6번 이변량 정규의 LRT.

HW6 — 충분통계량과 MVUE

1번: shifted exponential의 MVUE

$f(x; \theta) = e^{-(x - \theta)}$, $\theta < x < \infty$.

$Y_1 = \min X_i$가 완전충분통계량임을 보이고, 이것의 함수로 $\theta$의 MVUE를 만든다. $Y_1 \sim$ shifted exponential with rate $n$. $E[Y_1] = \theta + 1/n$. 따라서 $\hat \theta_{\text{MVUE}} = Y_1 - 1/n$.

Lehmann-Scheffé 정리의 깔끔한 응용.

2번: 새로운 분포에서 MVUE

$f(x; \theta) = \theta^2 x e^{-\theta x}$, $0 < x < \infty$ — Gamma(2, 1/θ).

$Y = \sum X_i \sim \Gamma(2n, 1/\theta)$이 완전충분. $E[1/Y] = \theta/(2n - 1)$ 계산이 핵심 (감마 함수 정리하면 떨어진다).

$\hat \theta_{\text{MVUE}} = (2n - 1)/Y$.

3번: 한 모수, 두 가지 표현, MVUE는 같지 않다

$f(x) = \theta^{-1} e^{-x/\theta}$ (mean-parametrization) vs $f(x) = \tau e^{-\tau x}$ (rate-parametrization). 즉 $\tau = 1/\theta$.

  • $\theta$의 MVUE: $\bar X$.
  • $\theta$의 MLE: $\bar X$.
  • $\tau = 1/\theta$의 MLE: $1/\bar X$ (MLE의 불변성).
  • $\tau$의 MVUE: $(n-1)/(n \bar X)$. $1/\bar X$가 아니다.

MLE는 변환에 불변하지만, MVUE는 그렇지 않다. 이 사실이 이 문제의 충격이었다. $E[1/\bar X]$가 $1/E[\bar X] = 1/\theta = \tau$와 같지 않기 때문 ($1/x$가 볼록 함수라서 Jensen 부등식). $1/\bar X$를 보정해서 $(n-1)/(n\bar X)$를 만들어야 비로소 unbiased가 된다.

이거 하나로 MVUE와 MLE의 본질적 차이가 명확해진다.

4번: complete sufficient의 위력

$Y_i$가 정규 표본의 순서통계량, $T = (Y_i + Y_{n+1-i})/2$ 같은 location-invariant 통계량.

(a) $T - \bar X$가 location-invariant이므로 $\theta$에 의존하지 않는 분포 → ancillary. $\bar X$는 complete sufficient. Basu의 정리에 의해 $T - \bar X \perp \bar X$.

(b) 이 독립성으로부터

\[\text{Var}(T) = \text{Var}(\bar X) + \text{Var}(T - \bar X)\]

이 등식이 곧 “$\bar X$가 모든 location-equivariant 추정량 중 분산이 가장 작다“는 사실의 다른 표현이다.

Basu의 정리가 이렇게 우아하게 쓰이는 걸 본 게 이 한 학기에서 가장 인상적인 순간 중 하나였다. “complete sufficient는 ancillary와 독립”이라는 한 줄이, 추정량 비교에 대한 모든 비교 부등식의 뿌리가 된다.

5번: power function 계산

$N(\mu_1, 400)$ vs $N(\mu_2, 225)$, $\theta = \mu_1 - \mu_2$, $H_0: \theta = 0$ vs $H_1: \theta > 0$. $\bar X - \bar Y \ge c$로 기각.

$\gamma(0) = 0.05$, $\gamma(10) = 0.90$ 조건에서 $n$과 $c$를 풀면,

  • $c / \sqrt{625/n} = 1.645$
  • $(10 - c) / \sqrt{625/n} = 1.28$

두 식에서 $n = 53$, $c = 5.62$.

검정의 power function을 한 점이 아니라 두 점에서 동시에 맞추는 design 문제. 표본 크기 계산이 어떻게 이루어지는지를 손으로 직접 해본 경험.

HW6 1페이지

[HW6 1페이지] 1번부터 3번까지. Lehmann-Scheffé로 MVUE를 만드는 과정과, MLE/MVUE의 미묘한 차이.

HW6 2페이지

[HW6 2페이지] 3번 (f) 분산 비교, 4번 Basu 정리 적용, 5번 power function 설계.

돌아보며 — 학기를 마치며

수업이 끝나고 보니, MAS355 한 학기는 한 줄로 요약할 수 있다.

분포 → 추정 → 검정. 그리고 그 사이에 점근이론.

  • HW1, HW2: 분포를 손에 익혔고
  • HW3: 점근이론의 도구 상자를 채웠고
  • HW4: 추정량을 평가하는 잣대를 배웠고
  • HW5, HW6 (이 글): 검정의 세 가지 방식과 MVUE의 본질을 봤다.

수업을 들으면서 가장 좋아하게 된 두 정리를 꼽으라면, Cramér-RaoLehmann-Scheffé. 하나는 “이보다 더 정밀하게 추정할 수는 없다”는 하한을 그어주고, 다른 하나는 “충분통계량의 함수로 만들면 그게 최선이다”라는 보장을 준다. 두 정리 사이의 거리 가 통계학의 거의 모든 흥미로운 이야기인 것 같다.

손으로 적분하고, mgf 곱하고, Newton-Raphson 돌리던 새벽들이 지나고 나니, 머신러닝과 베이지안 통계로 넘어가서도 이 학기에 쌓아둔 도구상자가 자주 꺼내진다. EM, 변분추론, MCMC, 베이지안 검정 — 다 결국 이 수업에서 본 likelihood, 점근정규성, 충분통계량 위에 얹혀 있다.

수리통계학은 단순히 “어려운 과목”이 아니라, 모든 통계적 사고의 문법 이었다. 그 문법을 손으로 한 번 써본 경험이, 이후 통계학자로서의 모든 글쓰기에 깔리는 베이스라인이 됐다.

This post is licensed under CC BY 4.0 by the author.