(AI 작성) 수리통계학 회고 (4) — 증거가 충분한가, 그리고 가장 좋은 추정량

Posted May 21, 2026

By Minsol Park

12 min read

마지막 편. HW5는 가설 검정, HW6은 충분통계량과 MVUE. 앞의 3편에서 “효율적인 추정량”을 봤다면, 이제는 “최소분산 불편 추정량 (MVUE)” 이라는 더 강한 개념과, 그것을 보장하는 충분통계량까지 간다. 그리고 가설 검정에서는 우도비 검정(LRT)을 중심으로 Wald, Score까지 한 묶음으로 다룬다.

수업 후반부의 모든 도구가 여기서 합쳐진다.

HW5 — 가설 검정의 세 얼굴

1번: LRT가 만드는 검정통계량

$f(x; \theta) = \theta \exp(-|x|^\theta) / (2 \Gamma(1/\theta))$. $\theta = 1$이면 double exponential, $\theta = 2$이면 정규. $H_0: \theta = 2$ vs $H_1: \theta = 1$.

likelihood ratio를 정리하면 (지수 부분만 떼서)

\[\Lambda = \frac{L(2)}{L(1)} = (\text{상수}) \cdot \exp\left(-\sum (X_i^2 - |X_i|)\right)\]

$\Lambda \le c$는 $\sum (X_i^2 -	X_i	) \ge c’$와 동치.
즉, **검정통계량은 $W = \sum (X_i^2 -	X_i	)$**.

문제 자체가 “LRT의 핵심은 검정통계량으로 환원하는 것”임을 가르치는 케이스. 두 분포의 형태 차이가 결국 $X^2$ 항 vs $

$ 항의 무게 차이로 나타난다는 게 직관적.

2번: Bernoulli에서 세 가지 검정

$X \sim \text{Bernoulli}(\theta)$, $H_0: \theta = 1/3$ vs $H_1: \theta \ne 1/3$.

(a) LRT. $\hat \theta = \bar X$, MLE 대입하고 정리.

\[\Lambda = \frac{(1/3)^{\Sigma X} (2/3)^{n - \Sigma X}}{\bar X^{\Sigma X} (1 - \bar X)^{n - \Sigma X}}\]

$-2 \log \Lambda$는 한 줄로 정리되고, 점근적으로 $\chi^2(1)$.

(b) Wald. $\sqrt n (\hat \theta - 1/3) / \sqrt{\hat\theta(1-\hat\theta)/n}$ 형태로, $N(0,1)$ 점근.

(c) Score (Rao). $\theta = 1/3$에서의 score function과 Fisher 정보량으로

\[\chi^2_R = \frac{[\sqrt n (\bar X - 1/3)]^2}{(1/3)(2/3)}\]

세 가지가 모두 점근적으로 같은 $\chi^2(1)$ 분포를 따르지만, 표본이 작을 때는 결론이 미묘하게 갈릴 수 있다. 하나의 가설을 세 가지 통계량으로 검정할 수 있다는 사실 자체가 통계학의 깊이를 느끼게 했던 문제.

3번: regularity가 깨질 때의 LRT

$Y_1 < \cdots < Y_n \sim \text{Uniform}(0, \theta)$, $H_0: \theta = \theta_0$.

$Y_n \le \theta_0$이면 $\Lambda = (Y_n/\theta_0)^n$, 아니면 $\Lambda = 0$.

여기서 핵심. 귀무가설 하에서 $-2 \log \Lambda$가 보통 $\chi^2(1)$로 가지 않고, 정확히 $\chi^2(2)$.

$U = Y_n/\theta_0$의 분포가 $f_U(u) = nu^{n-1}$이라는 걸 이용해서, $-2 \log \Lambda = -2n \log U$의 정확한 분포를 계산하면 정확히 자유도 2의 카이제곱이 나온다.

이전의 HW4 4번에서 본 것처럼, support가 모수에 의존하면 정규성 조건이 깨지고, 점근 결과가 일반적인 $\chi^2(1)$ 자유도 공식을 따르지 않는다. 이 사실을 직접 손으로 확인하는 게 이 문제의 묘미.

4번: 제약 있는 MLE

두 Bernoulli, $0 \le p_1 \le p_2 \le 1$.

표본평균이 $Y/n \le Z/n$이면 그대로 $\hat p_1 = Y/n$, $\hat p_2 = Z/n$. $Y/n > Z/n$이면 제약을 만족시키지 못하므로, 경계 $p_1 = p_2$에서 최적화. 합치면 $\hat p_1 = \hat p_2 = (Y+Z)/(2n)$.

이전 회차에서 본 “제약이 있으면 경계해가 가능하다”의 또 다른 버전.

5번: 두 지수 모수의 LRT

$X \sim \text{Exp}(\theta_1)$, $Y \sim \text{Exp}(\theta_2)$ 독립. $H_0: \theta_1 = \theta_2$.

LRT를 정리하면 결국 통계량 $\bar X / \bar Y$의 함수로 표현되고, $H_0$ 하에서

\[\frac{2 n_1 \bar X / \theta}{2 n_2 \bar Y / \theta} \cdot \frac{n_2}{n_1} = \frac{\bar X}{\bar Y} \sim F(2 n_1, 2 n_2)\]

두 지수 표본 비교가 F-분포 검정으로 환원된다. LRT가 결국 우리가 익숙한 분포의 검정으로 변환되는 패턴이 점차 익숙해진다.

6번: 이변량 정규의 LRT

$(X_i, Y_i) \sim$ Bivariate Normal, $\sigma_1^2 = \sigma_2^2 = \sigma^2$, $\rho = 1/2$ 고정. $H_0: \mu_1 = \mu_2 = 0$.

이번 학기에서 가장 계산이 길었던 문제. likelihood를 quadratic form으로 정리하고, $H_0$ 하의 MLE($\sigma^2$만 free)와 일반 MLE($\mu_1, \mu_2, \sigma^2$ free)를 각각 구해서 비율 계산.

결과적으로 $\Lambda$는 $\bar X^2 + \bar Y^2$ 같은 통계량의 함수로 정리되고, 알려진 분포(카이제곱 변형)로 환원된다.

[HW5 1페이지] 1번 LRT 변환과 2번 세 가지 검정, 3번 Uniform LRT, 4번 제약 MLE.

[HW5 2페이지] 5번 두 지수 비교 (F-분포)와 6번 이변량 정규의 LRT.

HW6 — 충분통계량과 MVUE

1번: shifted exponential의 MVUE

$f(x; \theta) = e^{-(x - \theta)}$, $\theta < x < \infty$.

$Y_1 = \min X_i$가 완전충분통계량임을 보이고, 이것의 함수로 $\theta$의 MVUE를 만든다. $Y_1 \sim$ shifted exponential with rate $n$. $E[Y_1] = \theta + 1/n$. 따라서 $\hat \theta_{\text{MVUE}} = Y_1 - 1/n$.

Lehmann-Scheffé 정리의 깔끔한 응용.

2번: 새로운 분포에서 MVUE

$f(x; \theta) = \theta^2 x e^{-\theta x}$, $0 < x < \infty$ — Gamma(2, 1/θ).

$Y = \sum X_i \sim \Gamma(2n, 1/\theta)$이 완전충분. $E[1/Y] = \theta/(2n - 1)$ 계산이 핵심 (감마 함수 정리하면 떨어진다).

$\hat \theta_{\text{MVUE}} = (2n - 1)/Y$.

3번: 한 모수, 두 가지 표현, MVUE는 같지 않다

$f(x) = \theta^{-1} e^{-x/\theta}$ (mean-parametrization) vs $f(x) = \tau e^{-\tau x}$ (rate-parametrization). 즉 $\tau = 1/\theta$.

$\theta$의 MVUE: $\bar X$.
$\theta$의 MLE: $\bar X$.
$\tau = 1/\theta$의 MLE: $1/\bar X$ (MLE의 불변성).
$\tau$의 MVUE: $(n-1)/(n \bar X)$. $1/\bar X$가 아니다.

MLE는 변환에 불변하지만, MVUE는 그렇지 않다. 이 사실이 이 문제의 충격이었다. $E[1/\bar X]$가 $1/E[\bar X] = 1/\theta = \tau$와 같지 않기 때문 ($1/x$가 볼록 함수라서 Jensen 부등식). $1/\bar X$를 보정해서 $(n-1)/(n\bar X)$를 만들어야 비로소 unbiased가 된다.

이거 하나로 MVUE와 MLE의 본질적 차이가 명확해진다.

4번: complete sufficient의 위력

$Y_i$가 정규 표본의 순서통계량, $T = (Y_i + Y_{n+1-i})/2$ 같은 location-invariant 통계량.

(a) $T - \bar X$가 location-invariant이므로 $\theta$에 의존하지 않는 분포 → ancillary. $\bar X$는 complete sufficient. Basu의 정리에 의해 $T - \bar X \perp \bar X$.

(b) 이 독립성으로부터

\[\text{Var}(T) = \text{Var}(\bar X) + \text{Var}(T - \bar X)\]

이 등식이 곧 “$\bar X$가 모든 location-equivariant 추정량 중 분산이 가장 작다“는 사실의 다른 표현이다.

Basu의 정리가 이렇게 우아하게 쓰이는 걸 본 게 이 한 학기에서 가장 인상적인 순간 중 하나였다. “complete sufficient는 ancillary와 독립”이라는 한 줄이, 추정량 비교에 대한 모든 비교 부등식의 뿌리가 된다.

5번: power function 계산

$N(\mu_1, 400)$ vs $N(\mu_2, 225)$, $\theta = \mu_1 - \mu_2$, $H_0: \theta = 0$ vs $H_1: \theta > 0$. $\bar X - \bar Y \ge c$로 기각.

$\gamma(0) = 0.05$, $\gamma(10) = 0.90$ 조건에서 $n$과 $c$를 풀면,

$c / \sqrt{625/n} = 1.645$
$(10 - c) / \sqrt{625/n} = 1.28$

두 식에서 $n = 53$, $c = 5.62$.

검정의 power function을 한 점이 아니라 두 점에서 동시에 맞추는 design 문제. 표본 크기 계산이 어떻게 이루어지는지를 손으로 직접 해본 경험.

[HW6 1페이지] 1번부터 3번까지. Lehmann-Scheffé로 MVUE를 만드는 과정과, MLE/MVUE의 미묘한 차이.

[HW6 2페이지] 3번 (f) 분산 비교, 4번 Basu 정리 적용, 5번 power function 설계.

돌아보며 — 학기를 마치며

수업이 끝나고 보니, MAS355 한 학기는 한 줄로 요약할 수 있다.

분포 → 추정 → 검정. 그리고 그 사이에 점근이론.

HW1, HW2: 분포를 손에 익혔고
HW3: 점근이론의 도구 상자를 채웠고
HW4: 추정량을 평가하는 잣대를 배웠고
HW5, HW6 (이 글): 검정의 세 가지 방식과 MVUE의 본질을 봤다.

수업을 들으면서 가장 좋아하게 된 두 정리를 꼽으라면, Cramér-Rao 와 Lehmann-Scheffé. 하나는 “이보다 더 정밀하게 추정할 수는 없다”는 하한을 그어주고, 다른 하나는 “충분통계량의 함수로 만들면 그게 최선이다”라는 보장을 준다. 두 정리 사이의 거리 가 통계학의 거의 모든 흥미로운 이야기인 것 같다.

손으로 적분하고, mgf 곱하고, Newton-Raphson 돌리던 새벽들이 지나고 나니, 머신러닝과 베이지안 통계로 넘어가서도 이 학기에 쌓아둔 도구상자가 자주 꺼내진다. EM, 변분추론, MCMC, 베이지안 검정 — 다 결국 이 수업에서 본 likelihood, 점근정규성, 충분통계량 위에 얹혀 있다.

수리통계학은 단순히 “어려운 과목”이 아니라, 모든 통계적 사고의 문법 이었다. 그 문법을 손으로 한 번 써본 경험이, 이후 통계학자로서의 모든 글쓰기에 깔리는 베이스라인이 됐다.

공부, 수리통계학

This post is licensed under CC BY 4.0 by the author.