Post

(AI 작성) 수리통계학 회고 (3) — 좋은 추정량이란 무엇인가

(AI 작성) 수리통계학 회고 (3) — 좋은 추정량이란 무엇인가

2편이 점근이론이었다면, HW4는 본격적으로 추정에 들어간다. MLE를 손으로 구하고, 그게 얼마나 좋은 추정량인지를 Fisher 정보량과 효율성으로 평가하는 한 주. 처음으로 Python을 켜서 수치해석으로 MLE를 구한 회차이기도 했다.

1번 — Binomial MLE의 응용

도수표가 주어진 $\text{Binomial}(5, p)$ 표본에서 $P(X \ge 3)$의 MLE를 구하는 문제.

먼저 $p$의 MLE는 익숙한 $\hat p = \bar X / 5$. 도수표에서 $\bar X = (0 \cdot 6 + 1 \cdot 10 + \cdots + 5 \cdot 1)/50$를 계산하니 $\hat p = 0.424$. MLE의 함수 불변성에 의해 $P(X \ge 3)$의 MLE는

\[\widehat{P(X \ge 3)} = \binom{5}{3} \hat p^3 (1-\hat p)^2 + \binom{5}{4} \hat p^4 (1-\hat p) + \hat p^5 \approx 0.3597\]

이 문제의 교훈은 “MLE는 변환에 대해 닫혀 있다”는 것. 추정하려는 양이 무엇이든, 일단 모수의 MLE를 구한 다음 그 함수에 넣으면 된다. 수리통계학에서 가장 잘 쓰이는 한 가지 원칙.

2번 — Cauchy MLE, Newton-Raphson으로

이 문제가 진짜 재밌었다.

$X_1, \ldots, X_5$가 위치모수 $\theta$인 Cauchy 분포에서 추출됐을 때, MLE를 수치적으로 구하라. log-likelihood를 미분하면

\[\ell'(\theta) = \sum_{i=1}^n \frac{-2(\theta - x_i)}{1 + (\theta - x_i)^2}\]

이 식은 $\theta$의 비선형 함수라 손으로 못 푼다. 그래서 Newton-Raphson을 직접 Python으로 짰다.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
def l_prime(x, theta):
    sum = 0
    for x_i in x:
        sum += -2*(theta - x_i) / (1 + (theta - x_i)**2)
    return sum

def l_twoprime(x, theta):
    sum = 0
    for x_i in x:
        sum += -2 / (1 + (theta - x_i)**2)**2
    return sum

x = [-1.94, 0.59, -5.98, -0.08, -0.77]
theta = x[0]

for i in range(10):
    lp = l_prime(x, theta)
    lpp = l_twoprime(x, theta)
    new_theta = theta - lp / lpp
    theta = new_theta

초기값을 $\theta^{(0)} = -1.94$ (그냥 $x_1$)로 잡고 돌리니까,

1
2
3
4
5
theta_1 = -1.124
theta_2 = -0.735
theta_3 = -0.607
...
theta_10 = -0.5345

10번 만에 $\hat \theta \approx -0.534$로 수렴. 표본 중에 $-5.98$이라는 큰 음수가 하나 있었는데, Cauchy가 두꺼운 꼬리(heavy tail) 분포라 이 극단값에 휘둘리지 않고 중앙 근처에서 안정적으로 수렴한 게 인상적이었다. 만약 정규 분포의 MLE(= 표본평균)였다면 $-1.6$ 근처로 끌려갔을 텐데.

Newton-Raphson 수렴 과정

[Python 출력] Newton-Raphson 10번 반복. 한 번에 큰 점프, 그 다음부터는 미세 조정.

3번 — 제약 있는 Poisson MLE

$X_1, \ldots, X_n \sim \text{Poisson}(\theta)$, 단 $0 < \theta \le 2$일 때 MLE.

제약이 없으면 답은 $\bar X$지만, 여기서는 $\theta \le 2$라는 상한이 있다. log-likelihood $\ell(\theta) = -n\theta + \log\theta \sum x_i - \sum \log x_i!$의 도함수가 0이 되는 점은 $\theta = \bar X$. $\bar X \le 2$이면 그대로 $\hat \theta = \bar X$. $\bar X > 2$이면 어떻게 될까? $\ell’(\theta) = -n + \sum x_i / \theta = n(\bar X / \theta - 1) > 0$ for $\theta < \bar X$. 즉 $\ell$이 구간 $(0, 2]$에서 단조 증가. 따라서 최댓값은 경계 $\hat \theta = 2$에서 달성.

$\boxed{\hat \theta = \min(\bar X, 2)}$.

이 문제로 처음 알았다. 제약이 있으면 MLE가 경계값(corner solution)이 될 수 있다. 머리로는 당연한 얘기인데, 실제로 도함수를 따라가다가 “어, 도함수가 0이 안 되네?” 싶을 때 정신을 차리는 게 중요했다.

4번 — 정규성 조건이 깨질 때

$f(x; \theta) = 1/\theta$, $0 < x < \theta$. Uniform 분포의 MLE 이야기.

$\partial \log f / \partial \theta = -1/\theta$이니까, 형식적으로 계산하면

\[\frac{1}{n E[(\partial \log f / \partial \theta)^2]} = \frac{1}{n \cdot 1/\theta^2} = \frac{\theta^2}{n}\]

그런데 실제로 $(n+1) Y_n / n$ (단, $Y_n = \max$)이 $\theta$의 unbiased estimator이고, 그 분산을 직접 계산해보면

\[\text{Var}\left(\frac{n+1}{n} Y_n\right) = \frac{\theta^2}{n(n+2)}\]

놀랍게도 형식적 CRLB보다 작다. 이게 가능한 이유는, support가 $\theta$에 의존하기 때문에 regularity condition R1이 깨지기 때문. Cramér-Rao 부등식의 가정이 깨지면, “이론적 하한”이라고 믿었던 게 더 이상 하한이 아니게 된다.

이 문제는 “CRLB가 절대적인 진리가 아니다” 라는 교훈을 주는 케이스. 흔히 잊고 살다가 한 번씩 발 헛디디게 만드는 함정.

5번 — Gamma의 효율적 MLE

$X \sim \Gamma(4, \theta)$, $\beta = \theta$가 모수.

  • Fisher 정보량: $I(\theta) = 4/\theta^2$.
  • MLE: $\hat \theta = \bar X / 4$.
  • $\text{Var}(\hat \theta) = \text{Var}(X)/(16n) = 4\theta^2/(16n) = \theta^2/(4n)$.
  • CRLB: $1/(nI(\theta)) = \theta^2/(4n)$.

분산과 하한이 정확히 일치. MLE가 efficient. 그리고 점근적으로

\[\sqrt n (\hat \theta - \theta) \xrightarrow{d} N(0, \theta^2/4)\]

CRLB를 만족하는 추정량을 직접 손으로 확인하는 첫 경험. 이론과 계산이 한 점에서 맞아떨어질 때 묘한 쾌감이 있다.

6번 — 정규 분포의 분산 추정

$N(\mu, \theta)$, $\mu$ 기지. 표본분산 $S^2$의 효율성.

  • $E(S^2) = \theta$이라 unbiased.
  • $\text{Var}(S^2) = 2\theta^2/(n-1)$.
  • Fisher 정보량: $I(\theta) = 1/(2\theta^2)$, $1/(nI) = 2\theta^2/n$.
  • 효율성 = $\frac{2\theta^2/n}{2\theta^2/(n-1)} = (n-1)/n$.

$n$이 커지면 1로 가지만, 유한 $n$에서는 1보다 작다. $\mu$가 알려져 있을 때 MLE는 $\hat \theta = \frac{1}{n} \sum (X_i - \mu)^2$이고, 이건 efficient. 점근분포는 $\sqrt n (\hat \theta - \theta) \xrightarrow{d} N(0, 2\theta^2)$.

표본분산 $S^2$와 $\mu$ 기지 MLE의 차이를 손으로 비교해보는 좋은 연습.

HW4 1페이지

[HW4 1페이지] 1번 Binomial MLE와 2번 Cauchy MLE의 수기 풀이. "I used Python (will upload the code and result!)" 메모.

HW4 2페이지

[HW4 2페이지] 4번 regularity 위배 케이스, 5번 Gamma efficient MLE, 6번 정규분포 분산.

돌아보며

HW4는 한 마디로 “추정량을 평가하는 잣대”를 배운 회차였다.

  • 좋은 추정량의 기준: 불편(unbiased), 일치(consistent), 효율(efficient).
  • 평가 도구: Fisher 정보량, CRLB, 점근정규성.
  • 함정: regularity 조건이 깨지면 모든 게 뒤집힌다.

특히 2번에서 처음으로 “손풀이가 불가능한 MLE를 컴퓨터로 푼” 경험은, 이후의 통계 공부에서 패러다임이 됐다. 세상의 거의 모든 흥미로운 모델은 닫힌 형태의 MLE가 없다. EM 알고리즘, 변분추론, MCMC 같은 도구들이 다 이 지점에서 시작된다는 걸, 그때는 어렴풋이만 알고 있었다.

This post is licensed under CC BY 4.0 by the author.