이항분포 \(\mathrm{B}(n,p)\)를 따르는 확률변수 \(X\)의 평균과 분산은 다음과 같습니다.
평균 \(\mathrm{E}(X)=np\)
분산 \(\mathrm{V}(X)=npq,\ q=1-p\)
이 글에서는 이항계수의 흡수 항등식과 소소하지만 확실한 테크닉 1개만을 사용하여 이 결과를 증명해 보겠습니다. (2017학년도 서울시립대 논술 2번)
필요한 개념과 테크닉
이항계수의 흡수 항등식(→이항계수의 흡수 항등식)
자연수 \(r(1\leq r \leq k)\)에 대하여, $$_kC_r=\frac{k}{r}\times _{k-1}C_{r-1}$$ 또는 $$r\times _nC_r=n\times _{n-1}C_{r-1}$$
수열의 합의 위끝과 아래끝 변환(→수열의 합의 위끝과 아래끝 변환)
$$\sum_{k=m}^na_{k}=\sum_{k=m-p}^{n-p}a_{k+p}$$
\(\mathrm{E}(X)=np\) 의 증명
흡수 항등식을 사용해 \(r\)을 이항계수 \(_nC_r\)에 흡수시킨다.
확률변수 \(X\)가 이항분포 \(\mathrm{B}(n,p)\)를 따르고, \(q=1-r\) 이라고 할 때, 확률변수 \(X\)의 평균 $$\begin{align}\mathrm{E}(X)&=\sum_{r=0}^n r\times\mathrm{P}(X=r)\\&=\sum_{r=0}^n r\times_nC_rp^rq^{n-r}\tag{1}\label{eq1}\end{align}$$입니다. \(r\times_nC_rp^rq^{n-r}\)을 보면, 이항계수 \(_nC_r\)앞에 합의 인덱스 \(r\)이 곱해져 있기 때문에 이대로는 합을 구하는 것이 쉽지 않습니다. 이럴 때에는 이항계수의 흡수 항등식을 사용하면 \(r\)이 이항계수 안으로 흡수되어 버리기 때문에 합을 쉽게 구할 수 있습니다. $$\begin{align}&_nC_r=\frac{n}{r}\times{_{n-1}C_{r-1}}\\&\Rightarrow r\times _nC_r=n\times _{n-1}C_{r-1}\tag{2}\label{eq2}\end{align}$$
흡수 항등식을 사용하기 위해 수열의 아래끝을 1로 바꾼다.
하지만 아직 흡수 항등식 \(\eqref{eq2}\)를 그대로 식\(\eqref{eq1}\)에 적용할 수는 없습니다. \(\eqref{eq1}\)의 아래끝은 0이지만 흡수 항등식\(\eqref{eq2}\)은 \(r=1\)부터 사용할 수 있기 때문입니다. 따라서 \(r=0\)일 때에는 흡수 항등식을 사용할 수 없습니다. 그러므로 \(\eqref{eq2}\)의 합을 구하기 위해서는 다음과 같이 \(r=0\)일 때를 따로 떼어내어 처리해 주어야 합니다. $$\begin{align}&\sum_{r=0}^n r\times _nC_rp^rq^{n-r}\\
&=0\times _nC_0p^0q^n+\sum_{\color{red}{r=1}}^n r\times _nC_rp^rq^{n-r}\\
&=0+\sum_{\color{red}{r=1}}^n r\times _nC_rp^rq^{n-r}\\
&=\sum_{\color{red}{r=1}}^n r\times _nC_rp^rq^{n-r}\tag{3}\label{eq3}\end{align}$$ 결과적으로 아무 것도 새로 더하지 않고 \(\eqref{eq1}\)의 아래끝을 0에서 1로 바꿀 수 있었습니다. 이제 식\(\eqref{eq3}\)에 흡수 항등식을 사용해보겠습니다. $$\begin{align}&\mathrm{E}(X)\\
&=\sum_{r=0}^n r\times _nC_rp^rq^{n-r}\\
&=\sum_{r=1}^n r\times _nC_rp^rq^{n-r}\\
&=\sum_{r=1}^n n\times _{n-1}C_{r-1}p^rq^{n-r}\tag{4}\label{eq4}\end{align}$$ 흡수 항등식을 사용한 결과 \(r\)이 이항계수 안으로 흡수되어 사라졌고, 대신 \(n\)이 나타났습니다. 하지만 \(n\)은 합을 구하는 과정에서 상수로 취급할 수 있기 때문에 합의 계산이 \(r\)이 들어있을 때보다 훨씬 쉬워집니다.
이항정리를 사용할 수 있도록 수열의 아래끝을 다시 0으로 바꿈
지금까지 흡수 항등식을 사용하여 \(r\)이 사라지도록 식을 바꾸었습니다. 이제 다음 단계는 이항정리를 사용할 수 있도록 합의 아래끝을 다시 0으로 바꾸어주는 것입니다. (이항정리는 합의 아래끝이 0일 때 사용할 수 있습니다.) 이제 소소하지만 확실한 테크닉(→수열의 합의 위끝과 아래끝 변환)이 등장할 차례입니다. 수열의 합의 아래끝이 0부터 시작할 수 있도록 기존의 합의 위끝과 아래끝에서 1씩 빼줍니다. $$\begin{align}&\text{아래끝 : }r=1\to r=0,\\&\text{위끝 : }n\to n-1\end{align}$$ 대신 합을 구하려는 식에서는 \(r \to r+1\) 로 바꾸어줍니다. 이 테크닉을 사용하여 식\(\eqref{eq4}\)의 계산을 이어서 하면 다음과 같습니다. $$\begin{align}&\mathrm{E}(X)\\
&=…\\
&=\sum_{r=1}^n(n\times _{n-1}C_{r-1}p^rq^{n-r})\\
&=n\sum_{\color{red}{r=0}}^{\color{red}{n-1}}{_{n-1}C_rp^{r+1}q^{n-(r+1)}}\\
&=np\sum_{r=0}^{n-1}{_{n-1}C_rp^rq^{(n-1)-r}}\\
&=np(p+q)^{n-1}\\
&=np\tag{5}\label{eq5}\end{align}$$를 얻을 수 있습니다.
\(\mathrm{V}(X)=npq\) 의 증명
분산을 구하는 과정은 평균을 구할 때보다 조금 더 복잡합니다. 하지만 달라지는 것은 이항계수의 흡수 항등식을 두번 사용해야 하는 것 뿐입니다. 이산확률 변수 \(X\)의 분산 $$\begin{align}\mathrm{V}(X)&=\mathrm{E}(X^2)-\{\mathrm{E}(X)\}^2\\&=\mathrm{E}(X^2)-(np)^2\end{align}$$ 이므로 분산을 구하기 위해서는 \(\mathrm{E}(X^2)\)을 구해주어야 합니다.
흡수 항등식을 사용해 \(r\)을 이항계수 \(_nC_r\)에 흡수시킨다.
$$\mathrm{E}(X^2)=\sum_{r=0}^n{r^2\times _nC_rp^rq^{n-r}}$$입니다. 이 식에 흡수 항등식을 사용해주면 \(r^2\) 중 \(r\) 한 개를 이항계수 안으로 흡수 시킬 수 있습니다. 그런데 이 합 역시 아래끝이 0부터 시작하므로 \(\mathrm{E}(X)\)를 구할 때와 마찬가지로 합에서 \(r=0\)인 경우를 따로 떼어내어 합의 아래끝이 1이 될 수 있도록 해주어야 합니다. 그런데 $$0^2\times _nC_0p^0q^n=0$$이므로 평균을 구할 때와 마찬가지로 새로 더하는 것 없이 단순히 아래끝을 0에서 1로 바꾸어 계산을 계속해 주면 됩니다. $$\begin{align}
&\mathrm{E}(X^2)\\
&=\sum_{r=0}^n{r^2\times _nC_rp^rq^{n-r}}\\
&=0^2\times _nC_0p^0q^n+\sum_{\color{red}{r=1}}^n{r\times n\times _{n-1}C_{r-1}p^rq^{n-r}}\\
&=n\sum_{r=1}^n{r\times _{n-1}C_{r-1}p^rq^{n-r}}\tag{6}\label{eq6}
\end{align}$$
흡수 항등식을 한번 더 사용해 \(r-1\)을 이항계수 \(_{n-1}C_{r-1}\)에 흡수시킨다.
분산을 구하는 과정 중에서 제일 기교적인 부분입니다. 흡수 항등식을 사용해서 \(r^2\)중 한 개를 흡수 시킬 수 있었습니다. 하지만 여전히 식\(\eqref{eq6}\)에 \(r\)이 한개 남아 있는 상태입니다. 합을 구하기 위해서는 남은 \(r\) 역시 흡수시켜주어야 합니다. \(r\)을 \(_{n-1}C_{r-1}\)에 흡수시킬 수 있을까요? \(\eqref{eq2}\)에서 \(n\)과 \(r\)대신 \(n-1\)과 \(r-1\)을 대입하면 \(r\geq2\)인 자연수 일때, $$\begin{align}&_{n-1}C_{r-1}=\frac{n-1}{r-1}\times _{n-2}C_{r-2}\\
&\Rightarrow (r-1)\times_{n-1}C_{r-1}=(n-1)\times _{n-2}C_{r-2}\tag{7}\label{eq7}\end{align}$$이 됩니다. 이 식을 잘 보면 \(_{n-1}C_{r-1}\)에는 \(r\)이 아닌 \(r-1\)을 흡수 시킬 수 있습니다. 그러나 식 \(\eqref{eq6}\)의 $$\color{red}{r}\times _{n-1}C_\color{blue}{r-1}$$에는 \(\color{blue}{r-1}\)이 아닌 \(\color{red}r\)이 곱해져 있습니다. 따라서 흡수 항등식을 사용하기 위해서는 $$r=(r-1)+1$$로 변형하여 \(r-1\)을 이항계수 \(_{n-1}C_{r-1}\)에 흡수시킬 수 있도록 해줍니다. 이 방법으로 식\(\eqref{eq6}\)을 계속해서 계산해보겠습니다.
$$\begin{align}
&\mathrm{E}(X^2)\\
&=…\\
&=n\sum_{r=1}^n{r\times _{n-1}C_{r-1}p^rq^{n-r}}\\
&=n\sum_{r=1}^n{\{\color{red}{(r-1)+1}\}\times _{n-1}C_{r-1}p^rq^{n-r}}\\
&=\underbrace{n\sum_{r=1}^n{(r-1)\times _{n-1}C_{r-1}p^rq^{n-r}}}_{\text{합ⓐ}}+\underbrace{n\sum_{r=1}^n{_{n-1}C_{r-1}p^rq^{n-r}}}_{\text{합ⓑ}}
\end{align}$$
먼저 합ⓐ를 구해보겠습니다. 앞서 말한 바와 같이 식\(\eqref{eq7}\)을 사용하면 \(r-1\)이 \(_{n-1}C_{r-1}\)에 흡수되어 버립니다. 하지만 식\(\eqref{eq8}\)은 \(r=2\)일 때 부터 성립하지만 합ⓐ의 아래끝은 1이므로, 이 합에서 \(r=1\)인 경우는 따로 때어내고 나머지 부분에 흡수 항등식을 사용해 주어야 합니다. 하지만 $$(1-1)\times _{n-1}C_{1-1}=0\times _{n-1}C_0=0$$이므로 새로 더해주는 것 없이 아래끝을 2부터 시작하는 것이 가능합니다. $$\begin{align}
&\text{합ⓐ}\\
&=n\sum_{r=1}^n{(r-1)\times _{n-1}C_{r-1}p^rq^{n-r}}\\
&=(1-1)\times _{n-1}C_{1-1}+n\sum_{\color{red}{r=2}}^n{(r-1)\times _{n-1}C_{r-1}p^rq^{n-r}}\\
&=0+n\sum_{\color{red}{r=2}}^n{(n-1)\times _{n-2}C_{r-2}p^rq^{n-r}}\\
&=n(n-1)\sum_{\color{red}{r=2}}^n{_{n-2}C_{r-2}p^rq^{n-r}}\\
\end{align}$$
이항정리를 사용할 수 있도록 수열의 아래끝을 다시 0으로 바꿈
평균을 구할 떄와 마찬가지로, 이항정리를 사용하기 위해서는 합의 아래끝을 다시 0으로 바꾸어주어야 합니다. 위끝과 아래끝에서 2를 빼주고 $$\begin{align} &\text{아래끝 : }r=2\to r=0\\
&\text{위끝 : }n\to n-2\end{align}$$ 그리고 합을 구해야 하는 식에서는 반대로 \(r \to r+2\) 로 바꾸어줍니다.
$$\begin{align}
&\text{합ⓐ}\\
&=n(n-1)\sum_{r=2}^n{_{n-2}C_{r-2}p^rq^{n-r}}\\
&=n(n-1)\sum_{\color{red}{r=0}}^{\color{red}{n-2}}{_{n-2}C_{\color{red}{(r+2)}-2}p^{\color{red}{r+2}}q^{n-\color{red}{(r+2)}}}\\
&=n(n-1)p^2\sum_{r=0}^{n-2}{_{n-2}C_r p^rq^{(n-2)-r}}\\
&=n(n-1)p^2(p+q)^{n-2}\\
&=n(n-1)p^2\tag{8}\label{eq8}
\end{align}$$
다음으로 합ⓑ를 구해보겠습니다. 합ⓑ를 잘 보면 식\(\eqref{eq4}\)와 같다는 것을 알 수 있습니다. 따라서 $$\begin{align}&\text{합ⓑ}\\
&=n\sum_{r=1}^n{_{n-1}C_{r-1}p^rq^{n-r}}\\
&=np\end{align}$$입니다. 따라서 $$\begin{align}\mathrm{E}(X^2)&=\eqref{eq8}+\eqref{eq4}\\&=n(n-1)p^2+np\end{align}$$
\(\mathrm{V}(X)\)
지금까지의 결과를 이용해 마지막으로 분산을 구하면 다음과 같습니다. $$\begin{align}
\mathrm{V}(X)&=\mathrm{E}(X^2)-\{\mathrm{E}(X)\}^2\\
&=n(n-1)p^2+np-(np)^2\\
&=-np^2+np\\
&=np(1-p)\\
&=npq
\end{align}$$
이항분포식을 이해하는데 도움이 많이 되었습니다.
특히 수열의 위끝 아래끝 변환은 평행이동이라는 이름으로 다른 사이트에서 보았지만, 원리가 없어서 아쉬웠는데,
링크를 따라가서 원리를 보니까 이해가 아주 잘 되었습니다. 감사합니다.