確率論と数理統計

2024-09-10 2024-09-10

序文

初版序文

[[2024-09-14]] 今日、追試験がようやく終了した。本試験では過去問がそのまま出題されると聞き、ここ数日インターネットで入手した「西安電子科技大学の過去問」（21年分と23年分2セット）をひたすら解いていた。午前中に21年の問題を解き、午後の試験では4分の1が一字一句変わらない同じ問題だったので、思わず笑ってしまった。

戴浩教授はかつて「全力でQianクラス（特別優待クラス）に最良の教師を配置する」と語っていたが、今や数学統計学院には人材がいなくなったのか？教え方が下手なのは「教育に重点を置いていない」「教える才能がない」と言い訳できるが、試験問題を作成するのに過去数年の問題をそのまま流用し、誤りや不備も多いのには呆れ返った。

自分で作成した試験問題に全く価値がなく、自分でも解こうとしない。これは態度の問題だ。期末試験で水増し採点するのは結構だが、古いネタで学生を騙し続けるのはやめてほしい。学生にはイノベーションを説きながら、自分自身は適当に済ませようとする。これは学問に対する態度でもなければ、教育者としてあるべき姿でもない。

確率論はこれで一段落。この2日間、ノートを繰り返し見直し、問題を解き、多くの誤りを訂正することで、この科目の知識体系が明確になった。内容はまだ少ないが、期末試験の復習材料としては十分だろう。この版を最終版とする（おそらく）。中秋節には電磁気学とデジタル信号処理の整理を続ける予定だ。

第二版序文

何事も最終などない!!! ——銭学森

分布関数の左右連続性について補足した。この科目がfinalになるにはまだ遠いようだ…

事象演算から論理演算への変換

$A \cup B=A+B$
$A \cap B=A \cdot B$
$A-B=A \bar{B}$ $A$事象が発生し$B$事象が発生しない場合。ベン図で簡単に証明可能。 $-B$を$\cdot (-B)$と解釈でき、$-B$は$\bar{B}$に相当。
$A \subset B$の場合、$A \cup B=B,A \cap B=A$

事象演算を論理演算に変換後、ほとんどの法則が共通。デジタル回路で学んだ論理関数の演算と簡略化を用いて、複雑な事象演算を簡略化可能。ヒント：カルノー図

四大確率公式

$$ \begin{cases} P(A+B)=P(A)+P(B)-P(AB)\\ P(A-B)=P(A)-P(AB)=P(A \bar{B})\\ P(AB)=P(B) \cdot P(A|B)=P(A) \cdot P(B|A)\\ P(A|B)=\frac{P(AB)}{P(B)}\\ \end{cases} $$

推論

$P(A+B+C)$において、$A+B$を一つの事象と見なし、上記の加法定理を適用し、二回分解すると：

$$ P(A+B+C)=P(A)+P(B)+P(C)-P(AB)-P(AC)-P(BC)+P(ABC) $$

より多くの和事象の確率はこの方法で再帰的に求められる。

余事象：$A$が発生しない確率。ベン図で一目瞭然。

$$ P(\bar{A})=P(1 \cdot \bar{A})=P(1-A)=P(1)-P(1 \cdot A)=1-P(A) $$

非負性と規格化

非負性：任意の事象$A$に対して、$0 \le P(A) \le 1$。規格化：全事象$\Omega$に対して、$P(\Omega)=1$。

相互独立

$$ \begin{cases} P(AB)=P(A) \cdot P(B)\\ P(A|B)=P(A) \end{cases} $$

独立は相互独立を包含。

古典的確率モデル

各基本事象の発生確率が等しい。

例：コイン投げ、サイコロ振り……

$$ P(A)=\frac{Aに含まれる基本事象数}{\Omega中の基本事象数} $$

古典的条件付き確率公式

$$ P(B|A)=\frac{P(AB)}{P(A)}=\frac{A,B両方に含まれる基本事象数}{Aに含まれる基本事象数} $$

ベルヌーイ試行（二項分布）

$n$回の独立試行で、各試行の結果は$A,\bar{A}$の2通り。

$X \sim B(n,p)$

$$ P_n(k)=C_n^kp^k(1-p)^{n-k} $$

ここで、$p=P(A),1-p=P(\bar{A})$

幾何的確率モデル

事象が占める線/面/体積部分と全体の長さ/面積/体積の比率。事象の占める空間次元が全事象空間$\Omega$の次元より低い場合、その事象の確率は常に0。 ==注意==：確率0は必ずしも発生しないことを意味しない。例：円内の点をランダムに選ぶ場合、任意の点を選ぶ確率は0だが、発生し得る。

一様分布

$x \sim U(a,b)$ 幾何分布における線形分布に近似。各点の確率密度：

$$ f(x)= \begin{cases} 0,x \le a\\ \frac{1}{b-a},a \lt x \le b\\ 0,x \gt b\\ \end{cases} $$

分布関数：

$$ F(x)= \begin{cases} 0,x \le a\\ \frac{x-a}{b-a},a \lt x \le b\\ 1,x \gt b\\ \end{cases} $$

指数分布

$x \sim E(\lambda)$

確率密度

$$ f(x)= \begin{cases} \lambda e^{-\lambda x},x \gt 0\\ 0,x \le 0\\ \end{cases} $$

分布関数

$$ F(x)= \begin{cases} 1-e^{-\lambda x},x \ge 0\\ 0,x \lt 0\\ \end{cases} $$

ポアソン分布

$X \sim \pi(\lambda)$

$$ P(X=k)=\frac{e^{-\lambda}\lambda^k}{k!} $$

正規分布

$x \sim N(\mu,\sigma^2)$

確率密度

$$ f(x)=\frac{1}{\sqrt{2 \pi} \sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}},x \in R,\sigma \gt 0 $$

分布関数

$$ F(x)=\int^{x}_{-\infty}f(t)dt $$

明らかに、$F(\mu)=\frac{1}{2}$、すなわち$P(x \le \mu)=P(x \gt \mu)=\frac{1}{2}$。

標準正規分布

$\mu=0,\sigma=1$の場合、この分布は標準正規分布となる。

$$ \varphi(x)=\frac{1}{\sqrt{2\pi}}e^{-\frac{x^2}{2}} $$

$$ \varPhi(x)=\int^{x}_{-\infty}\varphi(t)dt $$

推論

$$ \varPhi(-x)=1-\varPhi(x) $$

$$ F(x)=\varPhi(\frac{x-\mu}{\sigma}) $$

正規分布の標準化：

$$ X \sim N(\mu,\sigma^2),Z=\frac{X-\mu}{\sigma}\sim N(0,1) $$

全確率公式

完全事象群

$$ \begin{cases} B_1 \cup B_2 \cup B_3 \cup \cdots \cup B_n=\Omega\\ B_i \cap B_j=\varnothing,i \ne j,1 \le i \le n,1 \le j \le n\\ \end{cases} $$

$B_1,B_2,B_3,\cdots B_n$は$\Omega$の完全事象群を構成する。

全確率公式

$$ \begin{align} P(A) &=P(AB_1 \cup AB_2 \cup \cdots \cup AB_n)\\ &=P(AB_1)+P(AB_2)+\cdots +P(AB_n)\\ &=P(B_1)P(A|B_1)+P(B_2)P(A|B_2)+\cdots +P(B_n)P(A|B_n)\\ \end{align} $$

ベイズの定理

$$ P(B_1|A)=\frac{P(AB_1)}{P(A)}=\frac{P(B_1)P(A|B_1)}{P(A)} $$

一次元離散確率変数

確率分布

$$ P(X=x_i)=p_i=\frac{X=x_iの場合数}{総場合数},i=1,2,\cdots $$

分布関数

$$ F(x)=\sum_{x_i \lt x}p_i,x \in R $$

一次元連続確率変数

確率密度

$$ f(x)=F'(x) $$

分布関数

$$ F(x)=\int_{-\infty}^xf(t)dt $$

区間確率

$$ P(a \lt x \le b)=\int_a^bf(x)dx=F(b)-F(a) $$

$\because$ $P(x=a)=0,a \in R$ $\therefore$ 区間の両端の等号は任意

規格化

$$ F(\infty)=\int^{\infty}_{-\infty}f(x)dx=1 $$$$ F(-\infty)=0 $$

二次元離散確率変数

結合確率分布

$P(X=x_i,Y=y_j)$ X、Yの取り得る値を二次元表にし、対応する確率を記入。

周辺分布

$P(X=x_i),P(Y=y_j)$ 結合確率分布の行/列を合計し、$f_Y(x),f_X(y)$を得る。

条件付き分布

$P(X=x_i|Y=y_j),P(Y=y_i|X=x_j)$ 結合確率分布の各行/列をその行/列に対応する周辺分布で割る。つまり、各行/列の結合確率分布を比例項に変換し、各項の和を1とする。

二変数の独立性

==ここでの独立性は線形無関係を指し、完全な独立無関係を意味しない。== 結合分布表を行列$\vec{A}$と見なすと、$\det \vec{A}=0$の時XとYは独立。または：結合分布表の各行/列が比例する場合、XとYは独立。または：結合確率≠周辺確率の積、すなわち$P(X=x_i,Y=y_j)\ne P(X=x_i)P(Y=y_j)$の場合、XとYは相互独立でない。

二次元連続確率変数

結合密度関数

$$ f(x,y) $$

規格化

$$ \int^{\infty}_{-\infty}\int^{\infty}_{-\infty}f(x,y)dxdy=1 $$

周辺密度関数

$$ f_X(x)=\int^{\infty}_{-\infty}f(x,y)dy $$

$$ f_Y(y)=\int^{\infty}_{-\infty}f(x,y)dx $$

条件付き密度

$$ f_{Y|X}(y|x)=\frac{f(x,y)}{f_X(x)} $$

独立性

$$ f(x,y)=f_X(x)f_Y(y) $$

上記条件を満たす時、XとYは相互独立。

分布関数

$Z=X-Y$とすると、

$$ \begin{align} F_Z(z) &=P(Z \lt z)\\ &=P(X-Y \lt z)\\ &=P(X \lt Y+z)\\ &=\int^{y}_{-\infty}\int^{y+z}_{-\infty}f(x,y)dxdy\\ \end{align} $$

つまり分布関数$F_Z(z)=\iint_Df(x,y)dxdy$。分布関数を微分して確率密度関数$f_Z(z)$を得る。 ==注意==：$F_Z(z)$は規格化条件を満たす。

期待値と分散

関係式

$$ DX=EX^2-(EX)^2 $$

$$ D(cX)=c^2DX $$

$$ D(X+Y)=D(X)+D(Y)+2Cov(X,Y) $$

XとYが相互独立の場合$Cov(X,Y)=0$。

主要な期待値と分散

$(0,1)$分布

$$ EX=p,DX=p(1-p) $$

$B(n,p)$二項分布

$$ EX=np,DX=np(1-p) $$

$U(a,b)$一様分布

$$ EX=\frac{a+b}{2},DX=\frac{(b-a)^2}{12} $$

$E(\lambda)$指数分布

$$ EX=\frac{1}{\lambda},DX=\frac{1}{\lambda^2} $$

$P(\lambda)$ポアソン分布

$$ EX=\lambda,DX=\lambda $$

$N(\mu,\sigma^2)$正規分布

$$ EX=\mu,DX=\sigma^2 $$

共分散と相関係数

共分散

$$ Cov(X,Y)=E(XY)-E(X)E(Y) $$

明らかに、$X=Y$の場合、$Cov(X,X)=DX$。

$$ Cov(X+Y,Z)=Cov(X,Z)+Cov(Y,Z) $$

$$ Cov(X-Y,Z)=Cov(X,Z)+Cov(-Y,Z)=Cov(X,Z)-Cov(Y,Z) $$

相関係数

$$ \rho_{XY}=\frac{Cov(X,Y)}{\sqrt{DX \cdot DY}} $$

$|\rho|$が大きいほど相関が強い。 $Y=X$の場合、$X$と$X$の相関が最も強く、$\rho=1$を得る。 $Y=-X$の場合、$-X$と$X$の相関が最も強く、$\rho=-1$を得る。明らかに$|\rho| \le 1$。 $\rho=0$の場合、$X$と$Y$は無相関。 ==注意==：無相関$\nRightarrow$独立、独立$\Rightarrow$無相関。

チェビシェフの不等式による確率推定

$$ P(|X-EX|\ge \varepsilon)\le \frac{DX}{\varepsilon^2} $$

中心極限定理

多数の独立変数が同一分布に従う場合、正規分布で近似可能。 $x_1,x_2,\cdots,x_n$が独立かつ同一分布の場合、

$$ \sum_{i=1}^nx_i \sim N(\sum^{n}_{i=1}E(x_i),\sum^{n}_{i=1}D(x_i)) $$

三大分布

$\chi^2$（カイ二乗）分布

$$ X=x_1^2+x_2^2+\cdots +x_n^2 \sim \chi^2(n),x_i \sim N(0,1)かつ相互独立 $$

上側$\alpha$分位点$\chi^2_\alpha(n)$ 密度関数は第一象限に存在

$t$分布

$$ X=\frac{x_1}{\sqrt{x_2/n}}\sim t(n),x_1 \sim N(0,1),x_2 \sim \chi^2(n),x_1とx_2は相互独立 $$

上側$\alpha$分位点$t_\alpha(n)$ 密度関数は正規分布に似ており、左右対称

$F$分布

$$ X=\frac{x_1/n_1}{x_2/n_2} \sim F(n_1,n_2),x_1 \sim \chi^2(n_1),x_2 \sim \chi^2(n_2),x_1とx_2は相互独立 $$

上側$\alpha$分位点$F_\alpha(n_1,n_2)$ 密度関数は第一象限に存在

推定法

単純無作為標本が相互独立かつ同一分布の場合、未知パラメータを推定。

モーメント法

標本数が大きい場合、標本を平均分布で近似し、標本平均で母平均を代替（母モーメント=標本モーメント）。

与えられた確率分布/密度関数から期待値$EX$（一次母モーメント）を求める
与えられた標本から標本平均$\bar{X}$（一次標本モーメント）を求める
$EX=\bar{X}$として$\theta_0$を解き、$\hat{\theta}$を得る

最尤推定法

推定値が標本の発生確率を最大化する。標本の尤度関数：

$$ L(x_1,x_2,\cdots,x_n;\theta)= \begin{cases} P(X=x_1)P(X=x_2)\cdots P(X=x_n),離散型\\ f(x_1;\theta)f(x_2;\theta)\cdots f(x_n;\theta),連続型\\ \end{cases} $$

$L$の最大値を求めるため、微分して極点を得る。積の微分が煩雑なため、まず対数形式に変換後、未知パラメータ$\theta$で微分。

$$ (\ln L)'= \begin{cases} (\ln P_1+\ln P_2+\cdots +\ln P_n)',離散型\\ [\ln f(x_1;\theta)+\ln f(x_2;\theta)+\cdots +\ln f(x_n;\theta)]',連続型\\ \end{cases} =0 $$

極点$\theta_0$を解き、推定値$\hat{\theta}$を得る。

不偏性と有効性

$E(\hat{\theta})=\theta$の場合、$\hat{\theta}$

新しいバージョンが見つかりました

序文

初版序文

第二版序文

事象演算から論理演算への変換

四大確率公式

推論

非負性と規格化

相互独立

古典的確率モデル

ベルヌーイ試行（二項分布）

幾何的確率モデル

一様分布

指数分布

確率密度

分布関数

ポアソン分布

正規分布

確率密度

分布関数

標準正規分布

推論

全確率公式

完全事象群

全確率公式

ベイズの定理

一次元離散確率変数

確率分布

分布関数

一次元連続確率変数

確率密度

分布関数

区間確率

規格化

二次元離散確率変数

結合確率分布

周辺分布

条件付き分布

二変数の独立性

二次元連続確率変数

結合密度関数

規格化

周辺密度関数

条件付き密度

独立性

分布関数

期待値と分散

関係式

主要な期待値と分散

$(0,1)$分布

$B(n,p)$二項分布

$U(a,b)$一様分布

$E(\lambda)$指数分布

$P(\lambda)$ポアソン分布

$N(\mu,\sigma^2)$正規分布

共分散と相関係数

共分散

相関係数

チェビシェフの不等式による確率推定

中心極限定理

三大分布

$\chi^2$（カイ二乗）分布

$t$分布

$F$分布

推定法

モーメント法

最尤推定法

不偏性と有効性

いつまた一杯の酒を飲み、細かい論文を議論するのか。