NTU MH3500 Statistics

Notes for NTU MH3500 Statistics.

这学期学了门叫做 Statistics 的课,然后发现有点学不明白,所以记点笔记。

除了上课听到的,应该还会记一些书里看到的和自己想到的。

教材用的是这三本:

2024 Spring 的课,lecturer 是 Yeo Kwee Poo 老师,tutor 是 Mu Yue 老师。

应该会想到啥写啥,所以可能比较混乱。另外因为里面有一大堆我自己乱七八糟的想法,所以里面的东西不一定对。


什么是 statistics

首先是 population, property, population distribution, random sample 这些名词,应该不用咋写。

Static inference 是指用 sample 来推断整个 population 的性质。

就是假设我们随机抽取了 \(n\) 个 sample \(x_1, x_2, \dots, x_n\),我们称 \(x_1, x_2, \dots, x_n\) are the realizations of i.i.d. random variables \(X_1, X_2, \dots, X_n\)。也称 \(x_1, x_2, \dots, x_n\) are observations of \(X_1, X_2, \dots, X_n\)。

而 statistic 事实上指的是 a real valued function, \(T(X_1, X_2, \dots, X_n)\)。需要注意的是,这个 function 之和 \(X_1, X_2, \dots, X_n\) 有关,而不是 \(x_1, x_2, \dots, x_n\)。

然后 the distribution of a statistic is called a sampling distribution。也就是说,sampling distribution 是很多变量的 distribution,而 population 只是一个变量的 distribution。

Sample mean 是 \(\overline{X} = \frac{1}{n} \sum_{i=1}^n X_i\),sample variance 是 \(S^2 = \frac{1}{n-1} \sum_{i=1}^n (X_i - \overline{X})^2\)。

为什么是 \(\frac{1}{n-1}\)

感性理解是,你这 \(n\) 个东西的平均值,事实上是根据这 \(n\) 个东西的“趋向”有一定偏移的。就比如说我现在有一个 \(\mathcal{N}(0, 1)\),我取两个 sample,假设拿到了 \(x_1=-1, x_2=2\),这个时候他的 $\overline{X}$ 其实不是 \(0\),而是 \(\frac{1}{2}\),也就是被往右边拉过去了一点的。这时候如果我们用 \(\frac{1}{n}\) 计算,那事实上算出来的值应该是偏小的(因为这里的 \(\overline{X}\) 根据样本的抽取结果“调整”了一下)。而 \(\frac{1}{n-1}\) 正好抵消了这一点。

下面是严格的数学证明。

我们有 \(\mathbb{E}(S^2)=\sigma^2\)。

我们考虑 \(\mathbb{E}(S^2)=\frac{1}{n-1}\sum_{i-1}^n\mathbb{E}\left[(X_i-\overline{X})^2\right]\),于是我们考虑计算 \(\mathbb{E}\left[(X_i-\overline{X})^2\right]\):

\[\begin{aligned} \mathbb{E}\left[\left(X_i-\overline{X}\right)^2\right] &= \mathbb{E}\left[\left((X_i-\mu)-(\overline{X}-\mu)\right)^2\right] \\ &= \mathbb{E}\left[(X_i-\mu)^2+(\overline{X}-\mu)^2-2(X_i-\mu)(\overline{X}-\mu)\right]\\ &=\mathbb{E}\left[(X_i-\mu)^2\right]+\mathbb{E}\left[(\overline{X}-\mu)^2\right]-2\mathbb{E}\left[(X_i-\mu)(\overline{X}-\mu)\right]\\ &=\mathrm{Var}(X_i)+\mathrm{Var}(\overline{X})-2\cdot\mathrm{Cov}(X_i,\overline{X})\\ &=\sigma^2+\mathrm{Var}\left(\frac{1}{n}\sum_{j=1}^nX_j\right)-2\cdot\mathrm{Cov}\left(X_i,\frac{1}{n}\sum_{j-1}^nX_j\right)\\ &=\sigma^2+\frac{1}{n^2}\sum_{j=1}^n\mathrm{Var}(X_j)-\frac{2}{n}\mathrm{Cov}(X_i,X_i)\\ &=\sigma^2+\frac{1}{n}\sigma^2-\frac{2}{n}\sigma^2\\ &=\frac{n-1}{n}\sigma^2 \end{aligned}\]

于是我们有 \(\mathbb{E}(S^2)=\frac{1}{n-1}\sum_{i-1}^n\mathbb{E}\left[(X_i-\overline{X})^2\right]=\frac{1}{n-1}\sum_{i-1}^n\frac{n-1}{n}\sigma^2=\sigma^2\)。

有一个好玩的性质是 如果 \(X_i\sim \mathcal{N}(\mu, \sigma^2)\) 的话,\(\overline{X}\) 和 \(S^2\) 是独立的。上课老师讲了中方法但我有点没搞懂,Rice 书里有一个证法,感觉清楚一些。

上课老师讲的证法

其实我至今没搞懂他到底是咋搞的。因为他用了一个结论,就是两个协方差为 \(0\) 的 normal distribution 是相互独立的。不是很清楚不用 MGF 这玩意儿还能咋证(用 MGF 的话,那还不如 Rice 的证法呢)。

当然如果这玩意儿是成立的,那就好办了。就是毕竟我们是知道 \(\overline{X}\sim N\left(\mu, \frac{\sigma^2}{n}\right)\),然后 \(X_i-\overline{X}\sim N\left(0, \sigma^2\right)\) 的。那我们只要搞出他俩的 covariance 就行了。

那我们算算:

\[\begin{aligned} \mathrm{Cov}\left(\overline{X}, X_i-\overline{X}\right)&=\mathrm{Cov}\left(\overline{X},X_i\right)-\mathrm{Cov}\left(\overline{X},\overline{X}\right)\\ &=\mathrm{Cov}\left(\frac{1}{n}\sum_{j=1}^nX_j,X_i\right)-\frac{\sigma^2}{n}\\ &=\frac{1}{n}\mathrm{Cov}\left(X_i, X_i\right)-\frac{\sigma^2}{n}\\ &=\frac{\sigma^2}{n}-\frac{\sigma^2}{n}\\ &=0 \end{aligned}\]

然后他们就独立了。

Rice Book 的证法

考虑到 \(S^2=\frac{1}{n-1}\sum_{i=1}^n(X_i-\overline{X})^2\),我们其实只要证明 \(\overline{X}\) 和 \(X_i-\overline{X}\) 是独立的就可以了。

首先我们需要知道一件事情,就是假设有一个 \(r\),使得:

\[M_{\boldsymbol{X}}(\boldsymbol{t})=M_{\boldsymbol{X}}(t_1, t_2, \dots, t_r, 0, \dots, 0)\cdot M_{\boldsymbol{X}}(0, \dots, 0, t_{r+1}, t_{r+2}, t_n)\]

那么 \((t_1, t_2, \cdots, t_r)\) 和 \((t_{r+1}, t_{r+2}, \dots, t_n)\) 是独立的。

这个证明是假设我们随机两次,第一次是 \(\boldsymbol{X}\),第二次是 \(\boldsymbol{\widetilde{X}}\)。我们考虑:

\[Y=(X_1, \dots, X_r, \widetilde{X}_{r+1}, \dots, \widetilde{X}_{n})\]

由于 \(\boldsymbol{X}\) 和 \(\boldsymbol{\widetilde{X}}\) 是独立的,所以我们有:

\[M_{\boldsymbol{Y}}(\boldsymbol{t})=M_{\boldsymbol{X}}(t_1, t_2, \dots, t_r, 0, \dots, 0)\cdot M_{\boldsymbol{\widetilde{X}}}(0, \dots, 0, t_{r+1}, t_{r+2}, t_n)\]

而又因为 \(\boldsymbol{X}\) 和 \(\boldsymbol{\widetilde{X}}\) 其实是一样的,\(M_{\boldsymbol{X}}(\boldsymbol{t})=M_{\boldsymbol{\widetilde{X}}}(\boldsymbol{t})\),也就是说:

\[M_{\boldsymbol{Y}}(\boldsymbol{t})=M_{\boldsymbol{X}}(t_1, t_2, \dots, t_r, 0, \dots, 0)\cdot M_{\boldsymbol{X}}(0, \dots, 0, t_{r+1}, t_{r+2}, t_n)\]

也就是 \(M_{\boldsymbol{X}}=M_{\boldsymbol{Y}}\),也就是对于任意集合 \(A_1, A_2, \dots, A_n\),我们有:

\[\begin{aligned} &\mathbb{P}\left\{(X_1\in A_1)\land (X_2\in A_2)\land\dots\land (X_n\in A_n)\right\}\\ =\ &\mathbb{P}\left\{(X_1\in A_1)\land \dots\land(X_r\in A_r)\land\left(\widetilde{X}_{r+1}\in A_{r+1}\right)\land\dots\land\left(\widetilde{X}_{n}\in A_n\right)\right\}\\ =\ &\mathbb{P}\left\{(X_1\in A_1)\land \dots\land(X_r\in A_r)\right\}\cdot\mathbb{P}\left\{\left(\widetilde{X}_{r+1}\in A_{r+1}\right)\land\dots\land\left(\widetilde{X}_{n}\in A_n\right)\right\} \end{aligned}\]

所以我们令 \(\boldsymbol{\widehat{X}}=\left(\overline X, X_1-\overline{X}, \dots, X_n-\overline{X}\right)\),\(\boldsymbol{\widehat{t}}=(s, t_1, t_2,\dots, t_n)\)。

考虑到 \(X_1-\overline{X}, X_2-\overline{X},\dots,X_n-\overline{X}\) 这些玩意儿的独立性是显然的,所以其实我们要证明的就是:

\[M_{\boldsymbol{\widehat{X}}}\left(\boldsymbol{\widehat{t}}\right)=M_{\overline{X}}(s, 0, \dots, 0)\cdot M_{\boldsymbol{X}-\overline{X}}(0, t_1, \dots, t_n)\]

然后我们接下来想做的是能不能把 \(M_{\widehat{\boldsymbol{X}}}(\widehat{\boldsymbol{t}})\) 和 \(M_{\boldsymbol{X}}(\boldsymbol{a})\) 联系起来。

为啥要这样转化呢?因为虽然我们现在不知道 \(\widehat{\boldsymbol{X}}\) 的独立性,但是 \(\boldsymbol{X}\) 的精神状态咋样我们是知道的。这样我们就能通过 \(\boldsymbol{X}\) 把整个 MGF 给拆解开来,从而计算这个 MGF 到底是啥。

我们是这样做的:

\[\begin{aligned} M_{\boldsymbol{\widehat{X}}}\left(\boldsymbol{\widehat{t}}\right)&=\mathbb{E}\left[\exp\left({\widehat{\boldsymbol{X}}^\mathrm{T}\widehat{\boldsymbol{t}}}\right)\right]\\ &=\mathbb{E}\left[\exp\left({s\overline{X}+\sum_{i=1}^nt_i\left(X_i-\overline{X}\right)}\right)\right]\\ &=\mathbb{E}\left[\exp\left(\frac{s}{n}\sum_{i=1}^nX_i+\sum_{i=1}^nt_iX_i-\left(\sum_{i=1}^nt_i\right)\cdot\left(\frac{1}{n}\cdot\sum_{i=1}^nX_i\right)\right)\right]\\ &=\mathbb{E}\left[\exp\left(\sum_{i=1}^n\left(\frac{s}{n}+t_i-\overline{t}\right)X_i\right)\right] \end{aligned}\]

于是乎我们就可以令 \(a_i=\frac{s}{n}+t_i-\overline{t}\),于是我们就有:

\[M_{\boldsymbol{\widehat{X}}}\left(\boldsymbol{\widehat{t}}\right)=M_{\boldsymbol{X}}\left(\boldsymbol{a}\right)\]

然后我们就能根据 \(\boldsymbol{X}\) 的独立性把 \(M_{\boldsymbol{X}}\left(\boldsymbol{a}\right)\) 拆开来了:

\[\begin{aligned} M_{\boldsymbol{\widehat{X}}}\left(\boldsymbol{\widehat{t}}\right)&=M_{\boldsymbol{X}}\left(\boldsymbol{a}\right)\\ &=\prod_{i=1}^nM_{X_i}\left(a_i\right)\\ &=\prod_{i = 1}^n\exp\left(\mu a_i+\frac{1}{2}\sigma^2a_i^2\right)\\ &=\exp\left(\mu\sum_{i=1}^na_i+\frac{\sigma^2}{2}\sum_{i=1}^na_i^2\right) \end{aligned}\]

考虑到:

\[\begin{aligned} \sum_{i=1}^na_i&=\sum_{i=1}^n\left(\frac{s}{n}+t_i-\overline{t}\right)\\ &=s+\sum_{i=1}^nt_i-n\overline{t}\\ &=s\\ \sum_{i=1}^na_i^2&=\sum_{i=1}^n\left(\frac{s}{n}+t_i-\overline{t}\right)^2\\ &=\sum_{i=1}^n\left(\left(\frac{s}{n}\right)^2+2\cdot\frac{s}{n}\left(t_i-\overline t\right)+\left(t_i-\overline{t}\right)^2\right)\\ &=\frac{s^2}{n}+\sum_{i=1}^n\left(t_i-\overline{t}\right)^2 \end{aligned}\]

于是我们就有:

\[\begin{aligned} M_{\boldsymbol{\widehat{X}}}\left(\boldsymbol{\widehat{t}}\right)&=\exp\left(\mu\sum_{i=1}^na_i+\frac{\sigma^2}{2}\sum_{i=1}^na_i^2\right)\\ &=\exp\left(\mu s+\frac{\sigma^2}{2}\left(\frac{s^2}{n}+\sum_{i=1}^n\left(t_i-\overline{t}\right)^2\right)\right)\\ &=\exp\left(\mu s+\frac{\sigma^2}{2}\frac{s^2}{n}+\frac{\sigma^2}{2}\sum_{i=1}^n\left(t_i-\overline{t}\right)^2\right)\\ &=\exp\left(\mu s+\frac{1}{2}\cdot\frac{\sigma^2}{n}s^2\right)\cdot\prod_{i=1}^n\exp\left(\frac{\sigma^2}{2}\left(t_i-\overline{t}\right)^2\right) \end{aligned}\]

酱紫我们就已经把 \(M_{\boldsymbol{\widehat{X}}}\left(\boldsymbol{\widehat{t}}\right)\) 给算出来了。简单算算就能发现

\[M_{\boldsymbol{\widehat{X}}}\left(\boldsymbol{\widehat{t}}\right)=M_{\overline{X}}(s, 0, \dots, 0)\cdot M_{\boldsymbol{X}-\overline{X}}(0, t_1, \dots, t_n)\]

这玩意儿是成立的。于是我们就证完了。

接下来我们讨论的是数据的分类。对于一个 variable,根据以下的方式分个类:


Summarizing Data

首先 Mean,Median,Mode 就不说了。

Skewness 说的是数据往哪儿偏,其实就是 standardize 之后的 3rd moment:

\[\gamma_1=\frac{\mathbb{E}[(X-\mu)^3]}{\sigma^3}= \frac{\mathbb{E}[(X-\mu)^3]}{\mathbb{E}[(X-\mu)^2]^{3/2}}\]
不同 skewness 的图像

其中尾巴在左边的(\(\gamma_1<0\))就叫 left-skewed,尾巴在右边的(\(\gamma_1>0\))就叫 right-skewed。

\(\log\) and \(\exp\) transformation

说一下我傻傻分不清的 \(\log\) 和 \(\exp\) transformation。

考虑到 \(\log\) 函数是前面陡后面平的,他把左边那段的尾巴给拉长了。所以假如说 \(X\sim\mathcal{N}(\mu, \sigma^2)\) 的话,那么 \(\log X\) 他就是一个 left-skewed 的。同样的考虑到 \(\exp\) 是后面比较陡,所以他把右边那一段给拉长了,于是 \(\exp X\) 是 right-skewed 的。

接着是 trimmed mean,就是我们比赛的时候看到的那种去掉最高分最低分的感觉。为啥要用 trimmed mean 捏?感性来讲的话,就是我们考虑到 mean 是很容易受到极端情况影响的,而 median 不会。但是 median 又没法反应整体情况。那办法就是去掉一些极端情况,因为其实 median 就是 trim 掉 \(0.5\) 的 mean 嘛。

如果想更理性一点说的话。就是我们要考虑一个叫做 standard error 的东西。就是为啥咱有些时候不去 trim 捏?因为假设这个 distribution 是 normal distribution 的话,其实 trim 掉是比较亏的。就是我们考虑在做 normal distribution 的时候,所观测到 mean 和 median 的 standard error 是多少。考虑到 mean 其实就是 \(\mathcal{N}(\mu, \frac{\sigma^2}{n})\),而 median 其实是 \(\mathcal{N}(\mu, \frac{\pi}{2}\cdot\frac{\sigma^2}{n})\)。所以其实我们是可以通过 mean 和 median 的 standard error 来判断我们是不是要 trim 的。


From Normal Distribution

第一个需要讨论的是 Chi Square Distribution。就是我现在有 \(n\) 个 i.i.d. \(\mathcal{N}(0, 1)\) 的 random variables,\(X_1, X_2, \dots, X_n\),我们定义 \(Z=\sum_{i=1}^nX_i^2 \sim \chi^2_n\)。

那就是我们咋计算这个 \(\chi^2_n\) 呢,因为显然我们发现 \(\chi^2_n\) 其实是 \(n\) 个 \(\chi^2_1\) 的和,所以我们第一件事就是计算 \(\chi^2_1\)。

这个好算,我们假设 \(Y\sim \mathcal{N}(0, 1), X=Y^2\),那么 \(X\sim \chi_1^2\):

\[\begin{aligned} F_X(x)&=\mathbb{P}(X\leq x)\\ &=\mathbb{P}(Y^2\leq x)\\ &=\mathbb{P}(-\sqrt{x}\leq Y\leq\sqrt{x})\\ &=\Phi(\sqrt{x})-\Phi(-\sqrt{x})\\ &=2\Phi(\sqrt{x})-1 \end{aligned}\]

然后我们两边求个到得到 PDF:

\[\begin{aligned} f_X(x)&=\frac{\mathrm{d}F_X(x)}{\mathrm{d}x}\\ &=2\phi(\sqrt{x})\cdot\frac{1}{2\sqrt{x}}\\ &=\frac{1}{\sqrt{x}}\cdot\frac{1}{\sqrt{2\pi}}e^{-\frac{x}{2}}\\ &=\frac{1}{\sqrt{2\pi x}}e^{-\frac{x}{2}} \end{aligned}\]

然后就发现其实这玩意儿就是 \(\mathrm{Gamma}\left(\frac{1}{2}, 2\right)\)。

而考虑到 \(n\) 个 \(\chi_1^2\) 相加,那就是 \(n\) 个 \(\mathrm{Gamma}\left(\frac{1}{2}, 2\right)\) 相加,也就是 \(\mathrm{Gamma}\left(\frac{n}{2}, 2\right)\)。

不同自由度的 Chi Square Distribution
Gamma Distribution

写到这里的时候发现一些 Gamma Distribution 的细节已经给忘光光了。

首先需要复习的是 Gamma Distribution 的引入。他主要是想要推广 exponential distribution。就是我们想知道第 \(n\) 次发生事情的时候,我们需要等多久。

我们是通过 Poisson Distribution 推下来的。就是我们考虑这个新 distribution 的 CDF \(F(t)\),其实表示的是在 \(1\sim t\) 这段时间里要发生大于等于 \(n\) 次。于是我们有:

\[F(t)=\sum_{k=n}^\infty\frac{(\lambda t)^ke^{-\lambda t}}{k!}\]

那么我们就能轻松得到他的 PDF:

\[\begin{aligned} f(t)&=\frac{\mathrm{d}F(t)}{\mathrm{d}t}\\ &=\sum_{k=n}^{\infty}\frac{k\lambda^kt^{k-1}e^{-\lambda t}-\lambda^{k+1}t^ke^{-\lambda t}}{k!}\\ &=e^{-\lambda t}\left(\sum_{k=n}^\infty\frac{\lambda^k t^{k-1}}{(k-1)!}-\sum_{k=n}^\infty\frac{\lambda^{k+1}t^k}{k!}\right)\\ &=e^{-\lambda t}\left(\sum_{k=n-1}^{\infty}\frac{\lambda^{k+1}t^k}{k!}-\sum_{k=n}^\infty\frac{\lambda^{k+1}t^k}{k!}\right)\\ &=e^{-\lambda t}\cdot\frac{\lambda^nt^{n-1}}{(n-1)!} \end{aligned}\]

然后我们将 \((n-1)!\) 推广成 \(\Gamma(n)=\int_{0}^{+\infty} x^{n-1}e^{-x}\mathrm{d}x\),就得到了 Gamma Distribution 的 PDF:

\[f(t)=\frac{\lambda^n}{\Gamma(n)} t^{n-1}e^{-\lambda t}\]

不过上课的时候老师比较习惯用 \(\Gamma(\alpha,\beta)\) 来表示,也就是 \(\beta=\frac{1}{\lambda}\),于是乎 PDF 就变成了:

\[f(t)=\frac{t^{\alpha-1}e^{-\frac{t}{\beta}}}{\beta^\alpha\Gamma(\alpha)}\]

一个有趣的性质就是 Gamma Distribution 的 \(n\) 阶矩:

\[\begin{aligned} \mathbb{E}(X^n)&=\int_{0}^{+\infty}x^nf(x)\mathrm{d}x\\ &=\int_0^{+\infty}x^n\frac{\lambda^\alpha}{\Gamma(\alpha)}x^{\alpha-1}e^{-\lambda x}\mathrm{d}x\\ &=\frac{\lambda^\alpha}{\Gamma(\alpha)}\int_0^{+\infty}x^{n+\alpha-1}\cdot\frac{1}{-\lambda}\cdot\mathrm{d}\left(e^{-\lambda x}\right)\\ &=-\frac{\lambda^{\alpha-1}}{\Gamma(\alpha)}\left(\left.x^{n+\alpha-1}e^{-\lambda x}\right|_0^{+\infty}-\int_0^{+\infty}e^{-\lambda x}\cdot\mathrm{d}\left(x^{n+\alpha-1}\right)\right)\\ &=\frac{\lambda^{\alpha-1}}{\Gamma(\alpha)}\int_0^{+\infty}e^{-\lambda x}\cdot(n+\alpha-1)x^{n+\alpha-2}\mathrm{d}x\\ &=\frac{n+\alpha-1}{\lambda}\int_{0}^{+\infty}x^{n-1}\frac{\lambda^\alpha}{\Gamma(\alpha)}x^{}e^{-\lambda x}\mathrm{d}x\\ &=\frac{n+\alpha-1}{\lambda}\mathbb{E}(X^{n-1}) \end{aligned}\]

而 \(\mathbb{E}(X^{0})=1\),所以

\[\begin{aligned} \mathbb{E}(X^n)&=\frac{1+\alpha-1}{\lambda}\cdot\frac{2+\alpha-1}{\lambda}\cdots\frac{n+\alpha-1}{\lambda}\\ &=\frac{\alpha^{\overline{n}}}{\lambda^n} =\frac{\Gamma(n+\alpha)}{\Gamma(\alpha)\lambda^n} \end{aligned}\]

下面是一点小小的想法,就是这个 Gamma Function 是咋来的。其实就是考虑我们要把 \(n\) 拓展到实数 \(\alpha\),那么我们是必须要保证 \(\int_{0}^{+\infty}e^{-\lambda t}\cdot\frac{\lambda^\alpha t^{\alpha-1}}{\Gamma(\alpha)}=1\)。于是我们就可以得到:

\[\Gamma(\alpha)=\int_{0}^{+\infty}e^{-\lambda t}\lambda^\alpha t^{\alpha-1}\mathrm{d}t\]

而我们要的 \(\Gamma(\alpha)\) 是想和 \(\lambda\) 无关的,这时候我们考虑换元:

\[\begin{aligned} \Gamma(\alpha)&=\int_{0}^{+\infty}e^{-\lambda t}\lambda^\alpha t^{\alpha-1}\mathrm{d}t\\ &=\int_{0}^{+\infty}e^{-(\lambda t)}(\lambda t)^{\alpha-1}\mathrm{d}(\lambda t)\\ &=\int_{0}^{+\infty}e^{-x}x^{\alpha-1}\mathrm{d}x \end{aligned}\]

于是我们就得到了一个能够拟合 \((n-1)!\) 的 Gamma 函数。

下面是不同 \(\alpha\) 和 \(\beta\) 的 Gamma Distribution 的图像:

接着我们要讨论的是当 \(X_1, X_2, \dots, X_n\sim \mathcal{N}(\mu, \sigma^2)\) 时,\(S^2\) 的分布和 Chi-Square Distribution 的关系:

\[\frac{(n-1)S^2}{\sigma^2}\sim \chi_{n-1}^2\]
证明

首先我们需要观察到的是:

\[\sum_{i=1}^n\left(\frac{X_i-\mu}{\sigma}\right)^2\sim\chi^2_n\]

接着我们考虑通过 \(\left(X_i-\mu\right)^2\) 来得到 \(\left(X_i-\overline{X}\right)^2\):

\[\begin{aligned} \sum_{i=1}^n\left(\frac{X_i-\mu}{\sigma}\right)^2&=\frac{1}{\sigma^2}\sum_{i=1}^n\left(\left(X_i-\overline{X}\right)+\left(\overline{X}-\mu\right)\right)^2\\ &=\frac{1}{\sigma^2}\sum_{i=1}^n\left(X_i-\overline{X}\right)^2+\frac{2}{\sigma^2}\sum_{i=1}^n\left(X_i-\overline{X}\right)\left(\overline{X}-\mu\right)+\frac{1}{\sigma^2}\sum_{i=1}^n\left(\overline{X}-\mu\right)^2\\ &=\frac{1}{\sigma^2}\sum_{i=1}^n\left(X_i-\overline{X}\right)^2+\frac{2}{\sigma^2}\left(\overline{X}-\mu\right)\sum_{i=1}^n\left(X_i-\overline{X}\right)+\frac{n}{\sigma^2}\left(\overline{X}-\mu\right)^2\\ &=\frac{1}{\sigma^2}\sum_{i=1}^n\left(X_i-\overline{X}\right)^2+\left(\frac{\overline{X}-\mu}{\sigma/\sqrt{n}}\right)^2 \end{aligned}\]

然后我们发现其实他是一个 \(W=U+V\) 的形式,其中 \(W=\sum_{i=1}^n\left(\frac{X_i-\mu}{\sigma}\right)^2\sim \chi_n^2\),\(V=\left(\frac{\overline{X}-\mu}{\sigma/\sqrt{n}}\right)^2\sim \chi_1^2\),我们唯一不知道也是想要知道的是 \(U=\frac{1}{\sigma^2}\sum_{i=1}^n\left(X_i-\overline{X}\right)^2=\frac{(n-1)S^2}{\sigma^2}\)。

由于 \(X_i-\overline{X}\) 和 \(\overline{X}\) 是独立的,于是 \(U\) 和 \(V\) 也是独立的。于是我们有:

\[M_W(t)=M_U(t)\cdot M_V(t)\]

那我们很容易解出:

\[\begin{aligned} M_U(t)&=\frac{M_W(t)}{M_v(t)}\\ &=\frac{(1-2t)^{-\frac{n}{2}}}{(1-2t)^{-\frac{1}{2}}}\\ &=(1-2t)^{-\frac{n-1}{2}} \end{aligned}\]

也就是

\[\frac{(n-1)S^2}{\sigma^2}\sim \chi_{n-1}^2\]

于是就证完了。

接下来是 \(t\) distribution。Motivation 是这样的,我们现在还是有 \(n\) 个 i.i.d. \(\mathcal{N}(\mu, \sigma^2)\) 的 random variables,\(X_1, X_2, \dots, X_n\)。我们知道 \(\frac{\overline{X}-\mu}{\sigma/\sqrt{n}}\sim \mathcal{N}(0, 1)\),我们现在想知道的是 \(Z=\frac{\overline{X}-\mu}{S/\sqrt{n}}\) 的 distribution 长啥样。

我们考虑:

\[Z=\frac{\frac{\overline{X}-\mu}{\sigma/\sqrt{n}}}{\sqrt{\frac{(n-1)S/\sigma^2}{n-1}}}=\frac{C}{\sqrt{D/(n-1)}}\]

我们发现 \(C=\frac{\overline{X}-\mu}{\sigma/\sqrt{n}}\sim \mathcal{N}(0, 1)\),\(D=\frac{(n-1)S}{\sigma^2}\sim \chi_{n-1}^2\),而且 \(C\) 和 \(D\) 是独立的。

于是我们就这样考虑定义一个新的 distribution:

\[t_k=\frac{C}{\sqrt{D_k/k}}\]

其中 \(C\sim \mathcal{N}(0, 1)\),\(D_k\sim \chi_k^2\) 且 \(C\) 和 \(D_k\) 是独立的。

于是我们有:

\[\frac{\overline{X}-\mu}{S/\sqrt{n}}\sim t_{n-1}\]

而我们知道在 \(n\) 越来越大的时候,\(S\) 是越来越趋向于 \(\sigma\) 的,也就是说当 \(n\) 变大的时候,\(t_{n}\) 会越来越像 \(\mathcal{N}(0, 1)\)。

不同自由度的 \(t\) Distribution

接下来是 \(t_n\) 的表达式,我们有:

\[f_T(t)=\frac{\Gamma\left(\frac{n+1}{2}\right)}{\sqrt{n\pi}\cdot\Gamma\left(\frac{n}{2}\right)}\left(1+\frac{t^2}{n}\right)^{-\frac{n+1}{2}}\]
证明

首先一个需要解决的小问题就是我们需要知道俩随机变量是咋除的。

我们考虑现在有俩独立的随机变量 \(X, Y\),然后我们考虑 \(Z = \frac{X}{Y}\)。

我们考虑:

\[\begin{aligned} F_Z(z)&=\mathbb{P}(Z\leq z)\\ &=\mathbb{P}\left(\frac{X}{Y}\leq z\right)\\ &=\mathbb{P}\left(X\geq zY\land Y<0\right)+\mathbb{P}\left(X\leq zY\land Y>0\right)\\ &=\int_{-\infty}^{0}\mathbb{P}(X\ge zy)f_Y(y)\mathrm{d}y+\int_{0}^{+\infty}\mathbb{P}(X\le zy)f_Y(y)\mathrm{d}y\\ &=\int_{-\infty}^0\left(\int_{zy}^{+\infty}f_X(x)\mathrm{d}x\right)f_{Y}(y)\mathrm{d}y+\int_{0}^{+\infty}\left(\int_{-\infty}^{zy}f_X(x)\mathrm{d}x\right)f_Y(y)\mathrm{d}y \end{aligned}\]

于是我们可以通过两边求导得到 \(f_Z(z)\):

\[\begin{aligned} f_Z(z)&=\frac{\mathrm{d}F_Z(z)}{\mathrm{d}z}\\ &=\int_{-\infty}^0\left(-y\cdot f_{X}(zy)\right)\cdot f_Y(y)\mathrm{d}y+\int_{0}^{+\infty}\left(y\cdot f_{X}(zy)\right)\cdot f_Y(y)\mathrm{d}y\\ &=\int_{-\infty}^{+\infty}|y|\cdot f_X(zy)\cdot f_Y(y)\mathrm{d}y \end{aligned}\]

于是乎我们就能通过这玩意儿来说明 \(t_k\) 是啥。

当然在此之前我们先把 \(\sqrt{D_n/n}\) 的 PDF 给求出来。

我们考虑到:

\[\begin{aligned} F_{\sqrt{D_n/n}}(t)&=\mathbb{P}\left(\sqrt{\frac{D_n}{n}}\leq t\right)\\ &=\mathbb{P}\left(-nt^2\le D_n\leq nt^2\right)\\ &=\int_{-nt^2}^{nt^2}f_{D_n}(x)\mathrm{d}x\\ &=\int_{0}^{nt^2}\frac{x^{\frac{n}{2}-1}e^{-\frac{x}{2}}}{2^{\frac{n}{2}}\Gamma\left(\frac{n}{2}\right)}\mathrm{d}x\\ &=\frac{1}{2^{\frac{n}{2}}\Gamma\left(\frac{n}{2}\right)}\int_{0}^{nt^2}x^{\frac{n}{2}-1}e^{-\frac{x}{2}}\mathrm{d}x \end{aligned}\]

然后我们对两边求个导:

\[\begin{aligned} f_{\sqrt{D_n/n}}(t)&=\frac{\mathrm{d}F_{\sqrt{D_n/n}}(t)}{\mathrm{d}t}\\ &=\frac{1}{2^{\frac{n}{2}}\Gamma\left(\frac{n}{2}\right)}\cdot 2nt\cdot (nt^2)^{\frac{n}{2}-1}e^{-\frac{nt^2}{2}}\\ &=\frac{n^{\frac{n}{2}}{t}^{n-1}e^{-\frac{nt^2}{2}}}{2^{\frac{n}{2}-1}\Gamma\left(\frac{n}{2}\right)} \end{aligned}\]

当然是 \(t\ge 0\) 的时候,当 \(t<0\) 的时候就是 \(0\) 了。

然后我们带入公式得到 \(f_{T}(t)\):

\[\begin{aligned} f_T(t)&=\int_{-\infty}^{+\infty}|y|\cdot f_{C}(ty)\cdot f_{\sqrt{D_k/k}}(y)\mathrm{d}y\\ &=\int_{0}^{+\infty}y\cdot\frac{1}{\sqrt{2\pi}}e^{-\frac{(ty)^2}{2}}\cdot\frac{k^{\frac{k}{2}}{y}^{k-1}e^{-\frac{ky^2}{2}}}{2^{\frac{k}{2}-1}\Gamma\left(\frac{k}{2}\right)}\mathrm{d}y\\ &=\frac{k^{\frac{k}{2}}}{\sqrt{2\pi}\cdot 2^{\frac{k}{2}-1}\cdot \Gamma\left(\frac{k}{2}\right)}\int_{0}^{+\infty}y^ke^{-\frac{(k+t^2)y^2}{2}}\mathrm{d}y \end{aligned}\]

我们发现这个后面那个积分式子特别像 \(\Gamma\) 函数,于是我们来凑一凑。考虑到 \(\Gamma\) 函数中 \(e\) 那边是个 \(e^{-t}\) 的形式,那么就换个元。为了方便书写我们假设 \(\alpha=\frac{k+t^2}{2}\),\(u=\alpha y^2\)。

于是乎我们就有:

\[\begin{aligned} \int_{0}^{+\infty}y^ke^{-\frac{(k+t^2)y^2}{2}}\mathrm{d}y&=\int_{0}^{+\infty}\left(\frac{u}{\alpha}\right)^\frac{k}{2}e^{-u}\cdot \mathrm{d}\left(\sqrt{\frac{u}{\alpha}}\right)\\ &=\int_0^{+\infty}\left(\frac{u}{\alpha}\right)^{\frac{k}{2}}e^{-u}\cdot \frac{1}{\alpha}\cdot\frac{1}{2}\cdot\sqrt{\frac{\alpha}{u}}\cdot\mathrm{d}u\\ &=\frac{1}{2\alpha}\int_0^{+\infty}\left(\frac{u}{\alpha}\right)^\frac{k-1}{2}e^{-u}\mathrm{d}u\\ &=\frac{1}{2\alpha^{\frac{k+1}{2}}}\int_0^{+\infty}u^{\frac{k-1}{2}}e^{-u}\mathrm{d}u\\ &=\frac{1}{2\alpha^{\frac{k+1}{2}}}\int_0^{+\infty}u^{\left(\frac{k+1}{2}\right)-1}e^{-u}\mathrm{d}u\\ &=\frac{1}{2\alpha^{\frac{k+1}{2}}}\cdot\Gamma\left(\frac{k+1}{2}\right)\\ \end{aligned}\]

然后我们最后把所有东西一股脑代进去大概整理一下得到答案:

\[\begin{aligned} f_T(t)&=\frac{k^{\frac{k}{2}}}{\sqrt{2\pi}\cdot 2^{\frac{k}{2}-1}\cdot \Gamma\left(\frac{k}{2}\right)}\int_{0}^{+\infty}y^ke^{-\frac{(k+t^2)y^2}{2}}\mathrm{d}y\\ &=\frac{k^{\frac{k}{2}}}{\sqrt{2\pi}\cdot 2^{\frac{k}{2}-1}\cdot\Gamma\left(\frac{k}{2}\right)}\cdot\frac{1}{2\alpha^{\frac{k+1}{2}}}\cdot\Gamma\left(\frac{k+1}{2}\right)\\ &=\frac{\Gamma\left(\frac{k+1}{2}\right)\cdot 2^{\frac{k+1}{2}}\cdot k^{\frac{k}{2}}}{\sqrt{\pi}\cdot\Gamma\left(\frac{k}{2}\right)\cdot 2^{\frac{k+1}{2}}\cdot\left(k+t^2\right)^{\frac{k+1}{2}}}\\ &=\frac{1}{\sqrt{\pi}}\cdot\frac{\Gamma\left(\frac{k+1}{2}\right)}{\Gamma\left(\frac{k}{2}\right)}\cdot\frac{k^{\frac{k}{2}}}{\left(k+t^2\right)^{\frac{k+1}{2}}}\\ &=\frac{1}{\sqrt{\pi}}\cdot\frac{\Gamma\left(\frac{k+1}{2}\right)}{\Gamma\left(\frac{k}{2}\right)}\cdot\frac{1}{\sqrt{k}}\cdot\left(\frac{k}{k+t^2}\right)^{\frac{k+1}{2}}\\ &=\frac{\Gamma\left(\frac{k+1}{2}\right)}{\sqrt{k\pi}\cdot\Gamma\left(\frac{k}{2}\right)}\cdot\left(1+\frac{t^2}{k}\right)^{-\frac{k+1}{2}} \end{aligned}\]

于是我们就得到了最终的 PDF:

\[f_T(t)=\frac{\Gamma\left(\frac{k+1}{2}\right)}{\sqrt{k\pi}\cdot\Gamma\left(\frac{k}{2}\right)}\cdot\left(1+\frac{t^2}{k}\right)^{-\frac{k+1}{2}}\]

接下来是 \(F\) distribution。Motivation 是我们有俩 i.i.d. 的 random variables \(U_m\sim \chi_m^2, V_n\sim \chi_n^2\),我们想知道 \(F=\frac{U_m/m}{V_n/n}\) 的 distribution 长啥样。

PDF 是这样的:

\[f(w)=\frac{\Gamma\left(\frac{n+m}{2}\right)}{\Gamma\left(\frac{m}{2}\right)\Gamma\left(\frac{n}{2}\right)}\cdot\left(\frac{m}{n}\right)^{\frac{m}{2}}\cdot w^{\frac{m}{2}-1}\cdot\left(1+\frac{m}{n}w\right)^{-\frac{m+n}{2}}\]
证明

首先我们先要知道 \(U_m/m\) 长啥样。

\[\begin{aligned} F_{U_m/m}(t)&=\mathbb{P}\left(\frac{U_m}{m}\leq t\right)\\ &=\mathbb{P}\left(U_m\leq mt\right)\\ &=F_{U_m}(mt)\\ \end{aligned}\]

然后两边求导:

\[\begin{aligned} f_{U_m/m}(t)&=\frac{\mathrm{d}F_{U_m/m}(t)}{\mathrm{d}t}\\ &=f_{U_m}(mt)\cdot m\\ &=\frac{m\cdot (mt)^{\frac{m}{2}-1}\cdot e^{-\frac{mt}{2}}}{2^{\frac{m}{2}}\cdot \Gamma\left(\frac{m}{2}\right)}\\ &=\frac{m^{\frac{m}{2}}\cdot t^{\frac{m}{2}-1}\cdot e^{-\frac{mt}{2}}}{2^{\frac{m}{2}}\cdot \Gamma\left(\frac{m}{2}\right)}\\ \end{aligned}\]

于是我们也有:

\[f_{V_n/n}(t)=\frac{n^{\frac{n}{2}}\cdot t^{\frac{n}{2}-1}\cdot e^{-\frac{nt}{2}}}{2^{\frac{n}{2}}\cdot \Gamma\left(\frac{n}{2}\right)}\]

于是我们带入之前两个变量除法的柿子:

\[\begin{aligned} f_F(w)&=\int_{-\infty}^{+\infty}|t|\cdot f_{U_m/m}(tw)\cdot f_{V_n/n}(t)\mathrm{d}t\\ &=\int_{0}^{+\infty}t\cdot f_{U_m/m}(tw)\cdot f_{V_n/n}(t)\mathrm{d}t\\ &=\int_0^{+\infty}t\cdot\frac{m^{\frac{m}{2}}\cdot (tw)^{\frac{m}{2}-1}\cdot e^{-\frac{mtw}{2}}}{2^{\frac{m}{2}}\cdot \Gamma\left(\frac{m}{2}\right)}\cdot\frac{n^{\frac{n}{2}}\cdot t^{\frac{n}{2}-1}\cdot e^{-\frac{nt}{2}}}{2^{\frac{n}{2}}\cdot \Gamma\left(\frac{n}{2}\right)}\mathrm{d}t\\ &=\frac{m^\frac{m}{2}n^\frac{n}{2}\cdot w^{\frac{w}{2}-1}}{2^{\frac{m+n}{2}}\cdot \Gamma\left(\frac{m}{2}\right)\cdot \Gamma\left(\frac{n}{2}\right)}\int_0^{+\infty}t^{\frac{m+n}{2}-1}\cdot e^{-\frac{(mw+n)\cdot t}{2}}\mathrm{d}t \end{aligned}\]

故技重施换个元:

\[u=\frac{(mw+n)}{2}t\]

于是我们整理一下就可以了!

\[\begin{aligned} f_F(w)&=\frac{m^\frac{m}{2}n^\frac{n}{2}\cdot w^{\frac{w}{2}-1}}{2^{\frac{m+n}{2}}\cdot \Gamma\left(\frac{m}{2}\right)\cdot \Gamma\left(\frac{n}{2}\right)}\int_0^{+\infty}t^{\frac{m+n}{2}-1}\cdot e^{-\frac{(mw+n)\cdot t}{2}}\mathrm{d}t\\ &=\frac{m^{\frac{m}{2}}n^{\frac{n}{2}}\cdot w^{\frac{m}{2}-1}}{2^{\frac{m+n}{2}}\Gamma\left(\frac{m}{2}\right)\Gamma\left(\frac{n}{2}\right)}\int_{0}^{+\infty}\left(\frac{2u}{mw+n}\right)^{\frac{m + n}{2} - 1}e^{-u}\cdot\frac{2}{mw+n}\mathrm{d}u\\ &=\frac{m^{\frac{m}{2}}n^{\frac{n}{2}}\cdot w^{\frac{m}{2}-1}}{(mw+n)^{\frac{m + n}{2}}\Gamma\left(\frac{m}{2}\right)\Gamma\left(\frac{n}{2}\right)}\int_{0}^{+\infty}u^{\frac{m+n}{2}-1}e^{-u}\mathrm{d}u\\ &=\frac{\Gamma\left(\frac{m+n}{2}\right)}{\Gamma\left(\frac{m}{2}\right)\Gamma\left(\frac{n}{2}\right)}\cdot\frac{m^{\frac{m}{2}}n^{\frac{n}{2}}\cdot w^{\frac{m}{2}-1}}{(mw+n)^{\frac{m + n}{2}}}\\ &=\frac{\Gamma\left(\frac{m+n}{2}\right)}{\Gamma\left(\frac{m}{2}\right)\Gamma\left(\frac{n}{2}\right)}\cdot w^{\frac{m}{2}-1}\cdot\left(\frac{m}{n}\right)^{\frac{m}{2}}\cdot n^{\frac{m}{2}}\cdot n^{\frac{n}{2}}\cdot\frac{1}{(mw+n)^{\frac{m + n}{2}}}\\ &=\frac{\Gamma\left(\frac{m+n}{2}\right)}{\Gamma\left(\frac{m}{2}\right)\Gamma\left(\frac{n}{2}\right)}\cdot\left(\frac{m}{n}\right)^{\frac{m}{2}}\cdot w^{\frac{m}{2}-1}\cdot\left(\frac{n}{mw+n}\right)^{\frac{m + n}{2}}\\ &=\frac{\Gamma\left(\frac{m+n}{2}\right)}{\Gamma\left(\frac{m}{2}\right)\Gamma\left(\frac{n}{2}\right)}\cdot\left(\frac{m}{n}\right)^{\frac{m}{2}}\cdot w^{\frac{m}{2}-1}\cdot\left(1+\frac{m}{n}w\right)^{-\frac{m + n}{2}} \end{aligned}\]

当然很多教材上我们会引入一个很像组合数的 Beta 函数:

\[B(z_1, z_2)=\frac{\Gamma(z_1)\Gamma(z_2)}{\Gamma(z_1+z_2)}\]

然后就能简写上面的式子。

不同自由度的 \(F\) Distribution

关于 \(t\) distribution 和 \(F\) distribution 有一定联系:

\[t_n^2\sim \frac{\mathcal{N}(0, 1)^2}{\chi_n^2/n}\sim \frac{\chi_1^2/1}{\chi_n^2/n}\sim F(1, n)\]

Limit Theorems

这玩意儿其实我学概率的时候就没咋学好。

就是首先是俩不等式。

第一个是 Markov Inequality,就是假设有一个非负的随机变量 \(X\),我们可以预测其尾部事件发生的概率上界:

\[\mathbb{P}(X\ge c)\le\frac{\mathbb{E}(X)}{c}\]

当然也有教材(比如 Hogg 那本 )说的是随便一个随机变量 \(X\),然后如果 \(u(X)\) 为非负函数,那么:

\[\mathbb{P}(u(X)\ge c)\le\frac{\mathbb{E}(u(X))}{c}\]

不过反正都是一样的其实。

一个简单的理解方式就是,“不超过 \(\frac{1}{n}\) 的人拥有超过平均 \(n\) 倍的工资”。

证明

其实证明是很简都嘟,我们首先考虑“不超过 \(\frac{1}{n}\) 的人拥有超过平均 \(n\) 倍的工资”这个命题。因为如果超过 \(\frac{1}{n}\) 了,那么就算其他人啥都没有(也就是 \(0\)),那平均也已经超过 \(\frac{1}{n}\times n\times \mathbb{E}(x)\) 了,那显然是だめ的。

那我们照猫画虎证明一下尊命题。就是因为我们考虑到 \(X>0\) 所以说 \(x\cdot f(x)>0\)。那么很显然的

\[\begin{aligned} \mathbb{E}(X)&=\int_0^\infty x\cdot f(x)\mathrm{d}x\\ &\ge \int_{c}^\infty x\cdot f(x)\mathrm{d}x\\ &\ge c\int_{c}^\infty f(x)\mathrm{d}x\\ &=c\cdot \mathbb{P}(X\ge c) \end{aligned}\]

第二个是 Chebyshev’s Inequality。就是假设 \(\mathbb{E}(X)\) 和 \(\mathrm{Var}(X)\) 都存在的情况下,我们考虑变量离均值的距离:

\[\mathbb{P}(|X - \mathbb{E}(X)|\ge t)\le \frac{\mathrm{Var}(X)}{t^2}\]
证明

这个其实就是一个 Markov Inequality 的拓展,我们考虑:

\[\begin{aligned} \mathbb{P}(|X - \mathbb{E}(X)|\ge t)&=\mathbb{P}((X - \mathbb{E}(X))^2\ge t^2)\\ &\le \frac{\mathbb{E}((X - \mathbb{E}(X))^2)}{t^2}\\ &=\frac{\mathrm{Var}(X)}{t^2} \end{aligned}\]

然后是跟朋友讨论的时候看到的一个有趣的不等式,是一个很像 Chebyshev’s Inequality 的东西,叫做 Cantelli’s Inequality。其实就是单边的 Chebyshev’s Inequality:

\[\mathbb{P}(X - \mathbb{E}(X)\ge t)\le \frac{\mathrm{Var}(X)}{\mathrm{Var}(X) + t^2}\]
证明

当时是他们期中考的一道考题,然鹅我想了半天没想出来。

我们考虑的是把整个变量平移之后再平方,使得左边那部分可以忽略。假设我们平移了 \(a\):

\[\begin{aligned} \mathbb{P}(X - \mathbb{E}(X)\ge t)&=\mathbb{P}((X) - \mathbb{E}(X) + a\ge t + a)\\ &\le \mathbb{P}\left(\left|X - \mathbb{E}(X) + a\right|\ge t + a\right)\\ &=\mathbb{P}\left(\left(X - \mathbb{E}(X) + a\right)^2\ge \left(t + a\right)^2\right)\\ &\le \frac{\mathbb{E}\left(\left(X - \mathbb{E}(X) + a\right)^2\right)}{\left(t + a\right)^2}\\ &=\frac{\mathbb{E}\left(\left(X - \mathbb{E}(X)\right)^2+2\cdot a\cdot\left(X - \mathbb{E}(X)\right)+a^2\right)}{\left(t + a\right)^2}\\ &=\frac{\mathbb{E}\left((X - \mathbb{E}(X))^2\right) + a^2}{\left(t + a\right)^2}\\ &=\frac{\mathrm{Var}(X) + a^2}{\left(t + a\right)^2} \end{aligned}\]

然后我们因为是要求一个下届,也就是这个 \(a\) 是可以随便取的。那我们就求个导,看看取什么 \(a\) 最好:

\[\begin{aligned} \frac{\partial}{\partial a}\left(\frac{\mathrm{Var}(X) + a^2}{\left(t + a\right)^2}\right)&=\frac{2a(t+a)^2-2(t+a)\cdot\left(a^2+\mathrm{Var}(X)\right)}{(t+a)^4}\\ &=\frac{2at-2\cdot\mathrm{Var}(X)}{(t+a)^3} \end{aligned}\]

现在我们要让这个东西等于 \(0\),那么我们就有:

\[\frac{2at-2\cdot\mathrm{Var}(X)}{(t+a)^3}=0\]

也就是:

\[a=\frac{\mathrm{Var}(X)}{t}\]

那我们把这个 \(a\) 代回去就可以了:

\[\begin{aligned} \mathbb{P}(X - \mathbb{E}(X)\ge t)&\le \frac{\mathrm{Var}(X) + a^2}{\left(t + a\right)^2}\\ &=\frac{\mathrm{Var}(X) + \left(\frac{\mathrm{Var}(X)}{t}\right)^2}{\left(t + \frac{\mathrm{Var}(X)}{t}\right)^2}\\ &=\frac{\mathrm{Var}(X)\cdot t^2+\left(\mathrm{Var}(X)\right)^2}{\left(t^2 + \mathrm{Var}(X)\right)^2}\\ &=\frac{\mathrm{Var}(X)\cdot\left(\mathrm{Var}(X) + t^2\right)}{\left(\mathrm{Var}(X) + t^2\right)^2}\\ &=\frac{\mathrm{Var}(X)}{\mathrm{Var}(X) + t^2} \end{aligned}\]

于是乎我们就得到了一个比较紧的不等式。

弱大数定理的描述很简单,其实就是说当样本足够大的时候,sample mean 会收敛到 population mean。更数学一点,就是对于任意的 \(\epsilon>0\),我们都有:

\[\mathbb{P}\left(\left|\overline{X}_n-\mu\right|>\epsilon\right)\to 0 \text{ as } n\to\infty\]

证明的话用切比雪夫搞搞就可以了。

然后是 Central Limit Theorem (CLT)。我们令:

\[S_n=\sum_{i=1}^nX_i\]

那么:

\[\lim_{n\to\infty}\mathbb{P}\left(\frac{S_n}{\sigma\sqrt{n}}\le x\right)=\Phi(x)\]
证明

上课的时候是只证了 MGF 存在的情况,看看暑假的时候有没有空写一写用 characteristic functions 的方法。

就我们假设 \(Z_n=\frac{S_n}{\sigma\sqrt{n}}\),\(\frac{X_i-\mu}{\sigma}\) 的 MGF 是 \(M(t)\)。

我们考虑:

\[M_{\frac{S_n-n\mu}{\sigma}}(t)=\left(M(t)\right)^n\]

于是我们考虑 \(Z_n\) 的 MGF:

\[\begin{aligned} M_{Z_n}(t)&=\mathbb{E}\left[e^{tZ_n}\right]\\ &=\mathbb{E}\left[e^{t\frac{S_n-n\mu}{\sigma\sqrt{n}}}\right]\\ &=\mathbb{E}\left[e^{\frac{t}{\sqrt{n}}\cdot\frac{\left(S_n-\mu\right)}{\sigma}}\right]\\ &=M_{\frac{S_n-n\mu}{\sigma}}\left(\frac{t}{\sqrt{n}}\right)\\ &=\left(M\left(\frac{t}{\sqrt{n}}\right)\right)^n \end{aligned}\]

然后我们考虑 \(M(t)\) 的泰勒展开:

\[M(t)=M(0)+M'(0)t+\frac{M''(0)}{2!}t^2+\varepsilon(t)\]

其中:

\[\lim_{t\to 0}\frac{\varepsilon(t)}{t^2}=0\]

然后我们考虑到:

\[\begin{cases} \mathbb{E}\left[\frac{X-\mu}{\sigma}\right]=0\\ \mathrm{Var}\left[\frac{X-\mu}{\sigma}\right]=1 \end{cases}\]

于是我们有:

\[\begin{cases} M(0)=1\\ M'(0)=\mathbb{E}\left[\frac{X-\mu}{\sigma}\right]=0\\ M''(0)=\mathbb{E}\left[\left(\frac{X-\mu}{\sigma}\right)^2\right]=\mathrm{Var}\left[\frac{X-\mu}{\sigma}\right]=1 \end{cases}\]

然后代进去!

\[\begin{aligned} M_{Z_n}(t)&=\left(M\left(\frac{t}{\sqrt{n}}\right)\right)^n\\ &=\left(M(0) + M'(0)\cdot t + M''(0)\cdot \frac{\left(\frac{t}{\sqrt{n}}\right)^2}{2}+\varepsilon\left(\frac{t}{\sqrt{n}}\right)\right)^n\\ &=\left(1 + \frac{t^2}{2n} + \mathcal{O}\left(\frac{t^2}{n}\right)\right)^n \end{aligned}\]

又因为我们知道:

\[\lim_{n\to\infty}\left(1 + \frac{t}{2n}\right)^n=e^{t}\]

于是乎我们有:

\[\lim_{n\to\infty}M_{Z_n}(t)=e^{\frac{t^2}{2}}\]

而 \(e^{\frac{t^2}{2}}\) 就是 \(\mathcal{N}(0, 1)\) 的 MGF,于是乎我们成功证明了 CLT。


Parameter Estimation