序文
初版序文
[[2024-09-14]] 今日、追試験がようやく終了した。本試験では過去問がそのまま出題されると聞き、ここ数日インターネットで入手した「西安電子科技大学の過去問」(21年分と23年分2セット)をひたすら解いていた。午前中に21年の問題を解き、午後の試験では4分の1が一字一句変わらない同じ問題だったので、思わず笑ってしまった。
戴浩教授はかつて「全力でQianクラス(特別優待クラス)に最良の教師を配置する」と語っていたが、今や数学統計学院には人材がいなくなったのか?教え方が下手なのは「教育に重点を置いていない」「教える才能がない」と言い訳できるが、試験問題を作成するのに過去数年の問題をそのまま流用し、誤りや不備も多いのには呆れ返った。
自分で作成した試験問題に全く価値がなく、自分でも解こうとしない。これは態度の問題だ。期末試験で水増し採点するのは結構だが、古いネタで学生を騙し続けるのはやめてほしい。学生にはイノベーションを説きながら、自分自身は適当に済ませようとする。これは学問に対する態度でもなければ、教育者としてあるべき姿でもない。
確率論はこれで一段落。この2日間、ノートを繰り返し見直し、問題を解き、多くの誤りを訂正することで、この科目の知識体系が明確になった。内容はまだ少ないが、期末試験の復習材料としては十分だろう。この版を最終版とする(おそらく)。 中秋節には電磁気学とデジタル信号処理の整理を続ける予定だ。
第二版序文
何事も最終などない!!! ——銭学森
分布関数の左右連続性について補足した。この科目がfinalになるにはまだ遠いようだ…
事象演算から論理演算への変換
- $A \cup B=A+B$
- $A \cap B=A \cdot B$
- $A-B=A \bar{B}$ $A$事象が発生し$B$事象が発生しない場合。ベン図で簡単に証明可能。 $-B$を$\cdot (-B)$と解釈でき、$-B$は$\bar{B}$に相当。
- $A \subset B$の場合、$A \cup B=B,A \cap B=A$
事象演算を論理演算に変換後、ほとんどの法則が共通。 デジタル回路で学んだ論理関数の演算と簡略化を用いて、複雑な事象演算を簡略化可能。 ヒント:カルノー図
四大確率公式
$$ \begin{cases} P(A+B)=P(A)+P(B)-P(AB)\\ P(A-B)=P(A)-P(AB)=P(A \bar{B})\\ P(AB)=P(B) \cdot P(A|B)=P(A) \cdot P(B|A)\\ P(A|B)=\frac{P(AB)}{P(B)}\\ \end{cases} $$推論
$P(A+B+C)$において、$A+B$を一つの事象と見なし、上記の加法定理を適用し、二回分解すると:
$$ P(A+B+C)=P(A)+P(B)+P(C)-P(AB)-P(AC)-P(BC)+P(ABC) $$より多くの和事象の確率はこの方法で再帰的に求められる。
余事象:$A$が発生しない確率。ベン図で一目瞭然。
$$ P(\bar{A})=P(1 \cdot \bar{A})=P(1-A)=P(1)-P(1 \cdot A)=1-P(A) $$非負性と規格化
非負性:任意の事象$A$に対して、$0 \le P(A) \le 1$。 規格化:全事象$\Omega$に対して、$P(\Omega)=1$。
相互独立
$$ \begin{cases} P(AB)=P(A) \cdot P(B)\\ P(A|B)=P(A) \end{cases} $$独立は相互独立を包含。
古典的確率モデル
各基本事象の発生確率が等しい。
例:コイン投げ、サイコロ振り……
$$ P(A)=\frac{Aに含まれる基本事象数}{\Omega中の基本事象数} $$古典的条件付き確率公式
$$ P(B|A)=\frac{P(AB)}{P(A)}=\frac{A,B両方に含まれる基本事象数}{Aに含まれる基本事象数} $$ベルヌーイ試行(二項分布)
$n$回の独立試行で、各試行の結果は$A,\bar{A}$の2通り。
$X \sim B(n,p)$
$$ P_n(k)=C_n^kp^k(1-p)^{n-k} $$ここで、$p=P(A),1-p=P(\bar{A})$
幾何的確率モデル
事象が占める線/面/体積部分と全体の長さ/面積/体積の比率。 事象の占める空間次元が全事象空間$\Omega$の次元より低い場合、その事象の確率は常に0。 ==注意==:確率0は必ずしも発生しないことを意味しない。 例:円内の点をランダムに選ぶ場合、任意の点を選ぶ確率は0だが、発生し得る。
一様分布
$x \sim U(a,b)$ 幾何分布における線形分布に近似。各点の確率密度:
$$ f(x)= \begin{cases} 0,x \le a\\ \frac{1}{b-a},a \lt x \le b\\ 0,x \gt b\\ \end{cases} $$分布関数:
$$ F(x)= \begin{cases} 0,x \le a\\ \frac{x-a}{b-a},a \lt x \le b\\ 1,x \gt b\\ \end{cases} $$指数分布
$x \sim E(\lambda)$
確率密度
$$ f(x)= \begin{cases} \lambda e^{-\lambda x},x \gt 0\\ 0,x \le 0\\ \end{cases} $$分布関数
$$ F(x)= \begin{cases} 1-e^{-\lambda x},x \ge 0\\ 0,x \lt 0\\ \end{cases} $$ポアソン分布
$X \sim \pi(\lambda)$
$$ P(X=k)=\frac{e^{-\lambda}\lambda^k}{k!} $$正規分布
$x \sim N(\mu,\sigma^2)$
確率密度
$$ f(x)=\frac{1}{\sqrt{2 \pi} \sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}},x \in R,\sigma \gt 0 $$分布関数
$$ F(x)=\int^{x}_{-\infty}f(t)dt $$明らかに、$F(\mu)=\frac{1}{2}$、すなわち$P(x \le \mu)=P(x \gt \mu)=\frac{1}{2}$。
標準正規分布
$\mu=0,\sigma=1$の場合、この分布は標準正規分布となる。
$$ \varphi(x)=\frac{1}{\sqrt{2\pi}}e^{-\frac{x^2}{2}} $$$$ \varPhi(x)=\int^{x}_{-\infty}\varphi(t)dt $$推論
$$ \varPhi(-x)=1-\varPhi(x) $$$$ F(x)=\varPhi(\frac{x-\mu}{\sigma}) $$正規分布の標準化:
$$ X \sim N(\mu,\sigma^2),Z=\frac{X-\mu}{\sigma}\sim N(0,1) $$全確率公式
完全事象群
$$ \begin{cases} B_1 \cup B_2 \cup B_3 \cup \cdots \cup B_n=\Omega\\ B_i \cap B_j=\varnothing,i \ne j,1 \le i \le n,1 \le j \le n\\ \end{cases} $$$B_1,B_2,B_3,\cdots B_n$は$\Omega$の完全事象群を構成する。
全確率公式
$$ \begin{align} P(A) &=P(AB_1 \cup AB_2 \cup \cdots \cup AB_n)\\ &=P(AB_1)+P(AB_2)+\cdots +P(AB_n)\\ &=P(B_1)P(A|B_1)+P(B_2)P(A|B_2)+\cdots +P(B_n)P(A|B_n)\\ \end{align} $$ベイズの定理
$$ P(B_1|A)=\frac{P(AB_1)}{P(A)}=\frac{P(B_1)P(A|B_1)}{P(A)} $$一次元離散確率変数
確率分布
$$ P(X=x_i)=p_i=\frac{X=x_iの場合数}{総場合数},i=1,2,\cdots $$分布関数
$$ F(x)=\sum_{x_i \lt x}p_i,x \in R $$一次元連続確率変数
確率密度
$$ f(x)=F'(x) $$分布関数
$$ F(x)=\int_{-\infty}^xf(t)dt $$区間確率
$$ P(a \lt x \le b)=\int_a^bf(x)dx=F(b)-F(a) $$$\because$ $P(x=a)=0,a \in R$ $\therefore$ 区間の両端の等号は任意
規格化
$$ F(\infty)=\int^{\infty}_{-\infty}f(x)dx=1 $$$$ F(-\infty)=0 $$二次元離散確率変数
結合確率分布
$P(X=x_i,Y=y_j)$ X、Yの取り得る値を二次元表にし、対応する確率を記入。
周辺分布
$P(X=x_i),P(Y=y_j)$ 結合確率分布の行/列を合計し、$f_Y(x),f_X(y)$を得る。
条件付き分布
$P(X=x_i|Y=y_j),P(Y=y_i|X=x_j)$ 結合確率分布の各行/列をその行/列に対応する周辺分布で割る。 つまり、各行/列の結合確率分布を比例項に変換し、各項の和を1とする。
二変数の独立性
==ここでの独立性は線形無関係を指し、完全な独立無関係を意味しない。== 結合分布表を行列$\vec{A}$と見なすと、$\det \vec{A}=0$の時XとYは独立。 または:結合分布表の各行/列が比例する場合、XとYは独立。 または:結合確率≠周辺確率の積、すなわち$P(X=x_i,Y=y_j)\ne P(X=x_i)P(Y=y_j)$の場合、XとYは相互独立でない。
二次元連続確率変数
結合密度関数
$$ f(x,y) $$規格化
$$ \int^{\infty}_{-\infty}\int^{\infty}_{-\infty}f(x,y)dxdy=1 $$周辺密度関数
$$ f_X(x)=\int^{\infty}_{-\infty}f(x,y)dy $$$$ f_Y(y)=\int^{\infty}_{-\infty}f(x,y)dx $$条件付き密度
$$ f_{Y|X}(y|x)=\frac{f(x,y)}{f_X(x)} $$独立性
$$ f(x,y)=f_X(x)f_Y(y) $$上記条件を満たす時、XとYは相互独立。
分布関数
$Z=X-Y$とすると、
$$ \begin{align} F_Z(z) &=P(Z \lt z)\\ &=P(X-Y \lt z)\\ &=P(X \lt Y+z)\\ &=\int^{y}_{-\infty}\int^{y+z}_{-\infty}f(x,y)dxdy\\ \end{align} $$つまり分布関数$F_Z(z)=\iint_Df(x,y)dxdy$。分布関数を微分して確率密度関数$f_Z(z)$を得る。 ==注意==:$F_Z(z)$は規格化条件を満たす。
期待値と分散
関係式
$$ DX=EX^2-(EX)^2 $$$$ D(cX)=c^2DX $$$$ D(X+Y)=D(X)+D(Y)+2Cov(X,Y) $$XとYが相互独立の場合$Cov(X,Y)=0$。
主要な期待値と分散
$(0,1)$分布
$$ EX=p,DX=p(1-p) $$$B(n,p)$二項分布
$$ EX=np,DX=np(1-p) $$$U(a,b)$一様分布
$$ EX=\frac{a+b}{2},DX=\frac{(b-a)^2}{12} $$$E(\lambda)$指数分布
$$ EX=\frac{1}{\lambda},DX=\frac{1}{\lambda^2} $$$P(\lambda)$ポアソン分布
$$ EX=\lambda,DX=\lambda $$$N(\mu,\sigma^2)$正規分布
$$ EX=\mu,DX=\sigma^2 $$共分散と相関係数
共分散
$$ Cov(X,Y)=E(XY)-E(X)E(Y) $$明らかに、$X=Y$の場合、$Cov(X,X)=DX$。
$$ Cov(X+Y,Z)=Cov(X,Z)+Cov(Y,Z) $$$$ Cov(X-Y,Z)=Cov(X,Z)+Cov(-Y,Z)=Cov(X,Z)-Cov(Y,Z) $$相関係数
$$ \rho_{XY}=\frac{Cov(X,Y)}{\sqrt{DX \cdot DY}} $$$|\rho|$が大きいほど相関が強い。 $Y=X$の場合、$X$と$X$の相関が最も強く、$\rho=1$を得る。 $Y=-X$の場合、$-X$と$X$の相関が最も強く、$\rho=-1$を得る。 明らかに$|\rho| \le 1$。 $\rho=0$の場合、$X$と$Y$は無相関。 ==注意==:無相関$\nRightarrow$独立、独立$\Rightarrow$無相関。
チェビシェフの不等式による確率推定
$$ P(|X-EX|\ge \varepsilon)\le \frac{DX}{\varepsilon^2} $$中心極限定理
多数の独立変数が同一分布に従う場合、正規分布で近似可能。 $x_1,x_2,\cdots,x_n$が独立かつ同一分布の場合、
$$ \sum_{i=1}^nx_i \sim N(\sum^{n}_{i=1}E(x_i),\sum^{n}_{i=1}D(x_i)) $$三大分布
$\chi^2$(カイ二乗)分布
$$ X=x_1^2+x_2^2+\cdots +x_n^2 \sim \chi^2(n),x_i \sim N(0,1)かつ相互独立 $$上側$\alpha$分位点$\chi^2_\alpha(n)$ 密度関数は第一象限に存在
$t$分布
$$ X=\frac{x_1}{\sqrt{x_2/n}}\sim t(n),x_1 \sim N(0,1),x_2 \sim \chi^2(n),x_1とx_2は相互独立 $$上側$\alpha$分位点$t_\alpha(n)$ 密度関数は正規分布に似ており、左右対称
$F$分布
$$ X=\frac{x_1/n_1}{x_2/n_2} \sim F(n_1,n_2),x_1 \sim \chi^2(n_1),x_2 \sim \chi^2(n_2),x_1とx_2は相互独立 $$上側$\alpha$分位点$F_\alpha(n_1,n_2)$ 密度関数は第一象限に存在
推定法
単純無作為標本が相互独立かつ同一分布の場合、未知パラメータを推定。
モーメント法
標本数が大きい場合、標本を平均分布で近似し、標本平均で母平均を代替(母モーメント=標本モーメント)。
- 与えられた確率分布/密度関数から期待値$EX$(一次母モーメント)を求める
- 与えられた標本から標本平均$\bar{X}$(一次標本モーメント)を求める
- $EX=\bar{X}$として$\theta_0$を解き、$\hat{\theta}$を得る
最尤推定法
推定値が標本の発生確率を最大化する。 標本の尤度関数:
$$ L(x_1,x_2,\cdots,x_n;\theta)= \begin{cases} P(X=x_1)P(X=x_2)\cdots P(X=x_n),離散型\\ f(x_1;\theta)f(x_2;\theta)\cdots f(x_n;\theta),連続型\\ \end{cases} $$$L$の最大値を求めるため、微分して極点を得る。積の微分が煩雑なため、まず対数形式に変換後、未知パラメータ$\theta$で微分。
$$ (\ln L)'= \begin{cases} (\ln P_1+\ln P_2+\cdots +\ln P_n)',離散型\\ [\ln f(x_1;\theta)+\ln f(x_2;\theta)+\cdots +\ln f(x_n;\theta)]',連続型\\ \end{cases} =0 $$極点$\theta_0$を解き、推定値$\hat{\theta}$を得る。
不偏性と有効性
$E(\hat{\theta})=\theta$の場合、$\hat{\theta}$

いつまた一杯の酒を飲み、細かい論文を議論するのか。