本気で学ぶ統計学(03/31) - 「大人の教養・知識・気付き」を伸ばすブログ

　統計学を真剣に学ぶ人のために、個人的にまとめているノートを公開する。
　底本として

新装改訂版現代数理統計学

作者:彰通, 竹村
学術図書出版社

Amazon

を用いる。

前回

power-of-awareness.com

前回
2.　統計学のための確率論
次回
参考文献

2.　統計学のための確率論

2.4　確率分布と期待値

　確率実験における結果は数値によるものであるとは限らない。しかし数値でないと数学的な取り扱いとしては不便な場合が多い。そもそも考えている根元事象と観測できるものが異なる場合というのは充分にあり得る。
　そこで数値を取り扱うために、または根元事象と観測した数値とを対応付けるために、標本空間 $\Omega$ 上の各事象 $\omega$ に1つの実数値を対応させることで各事象を数値に対応づけ事象に基づいて定義された確率空間をその対応（した実数値）に基づいた新たな空間での議論に紐づけることを考えたい。このとき問題はそのように紐づけたとして、その紐づけたものに「確率」を与えることが可能なのか、またそこで与えた「確率」が元々の結果の「確率」と同一であると考えて良いのか、そしてより重要なのは、それを一意に定義できるのかということである。実はそれらはいずれも可能である。

定義2.8　確率変数の定義　標本空間 $\Omega$ 上の各事象 $\omega$ に1つの実数値 $X(\omega)$ を対応させるような対応 $X:\Omega\rightarrow \mathbb{R}$ を考えるとき、この対応を $(\Omega,A)$ 上の確率変数という。より厳密には、確率空間 $(\Omega,\mathcal{A},P)$ を考えるとき、 $\Omega$ 上の実数値関数 $X(\omega)$ が $\mathcal{A}/\mathcal{B}^1$ 可測、すなわちすべての $B∈\mathcal{B}$ について

$\begin{aligned} X^{-1}(B)=\{\omega\in\Omega|X(\omega)\in\mathcal{B}\}\in \mathcal{A} \end{aligned}$

を満たすとき、 $X$ を $\Omega$ の上の確率変数と呼ぶ*1。

　このように確率変数を導入したことで、事象 $\omega$ を扱う代わりに実数値を取る確率変数 $X(\omega)$ を扱って確率実験を数値として扱うための概念を導入することができる。もっとも当初の疑問にはまだ答えていない。すなわち確率は事象 $\omega$ を伴う $(\Omega,\mathcal{A})$ 上で集合に対して定義された関数であり、確率変数 $X(\omega)$ を取り扱うのであれば実数上での「確率」を別に考えなければならない。またその実数上の「確率」ともともと考えていた集合関数としての確率との対応関係を議論しなければならない。
　確率空間 $(\Omega,\mathcal{A},P)$ を考える。また $X$ を $\Omega$ の上の確率変数とするとき、集合関数 $P^X$ を

$\begin{aligned} P^X (B):=P\{X^{-1}(B)\},B\in\mathcal{B}^1 \end{aligned}$

と定めることで $P^X(\cdot)$ は $(\mathbb{R}^1,\mathcal{B}^1)$ 上の確率となる。このとき $P^X$ を像測度、または $X$ の確率分布（probability distribution）と呼ぶ*2。
　このように定義された確率分布 $P^X$ が確率の性質を満たすことを確認しておく：

(1)特に $\emptyset\in \mathcal{B}$ について

$\begin{aligned} X^{-1} (\emptyset)=\emptyset\in\mathcal{A} \end{aligned}$

であるから

$\begin{aligned} P^{X} (\emptyset)=P(\emptyset)=0 \end{aligned}$

が成り立つ。

(2) $\mathcal{B}$ は $\sigma$ 加法族であるから任意の $B\in \mathcal{B}$ について $B^C\in\mathcal{B}$ が成立する。したがって $P^X(B^C)$ を考えることができ、

$\begin{aligned} P^X (B^C)&=P\{X^{-1}(B^C)\}=P\{\omega\in\Omega|X(\omega)\in B^C\}\\ &=1-P\{\omega\in \Omega|X(\omega)\in B\}=1-P^X(B). \end{aligned}$

(3) $B_1,B_2,\cdots,B_n,\cdots\in\mathcal{B},B_i\cap B_j=\emptyset ,i\neq j,\ i,j\in\{1,2,\cdots\}$ に対して

$\begin{aligned} P^{X} (\bigcup_{i=1}^{\infty}B_i)&=P\{X^{-1}(\bigcup_{i=1}^{\infty}B_i)\}=P\left\{\omega\in\Omega|X(\omega)\in\bigcup_{i=1}^{\infty}B_i\right\}\\ &=P\left(\bigcup_{i=1}^{\infty}\{\omega\in\Omega|X(\omega)\in B_i\}\right)\\ &=\displaystyle{\sum_{i=1}^{\infty}P\{\omega\in\Omega|X(\omega)∈B_i\}}\\ &=\displaystyle{\sum_{i=1}^{\infty}P^X(B_i)} \end{aligned}$

以上から分布もまた当初導入した意味での確率の定義を満たすことを確認できた。
　分布を更に扱いやすいようにすべく、分布関数を定義する。

定義2.9　分布関数　確率空間 $(\Omega,\mathcal{A},P)$ において確率変数 $X$ が定義されているときに、

$\begin{aligned} F(x):=P^{X}( (\infty,x]) \end{aligned}$

で定義した確率分布を分布関数と呼ぶ*3。

　このように定義したことで実数値 $x\in \mathbb{R}$ に対応する「確率」にまで議論を持ってくることができた。なお複数の確率変数に対してそれぞれの分布関数を議論する場合には各分布関数とそれに対応する確率変数を強調するために $F_X(x)$ といった表記をすることが多い。
　また関数 $F_X(x)$ の定義域を $A$ とするとき、以下の3つが成り立つことが $F_X(x)$ が分布関数であることの必要十分条件であることが知られている：

(1) $\displaystyle{\lim_{x\rightarrow-\infty}⁡F_X (x)}=0,\ \displaystyle{\lim_{x\rightarrow\infty}⁡F_X (x)}=1⁡$
(2) $x_1\lt x_2\Rightarrow F(x_1 )\lt F(x_2)$
(3) ${}^{\forall}a\in X\left(\displaystyle{\lim_{x\rightarrow a}F_X (x)}=F_X (a)\right)$

　確率変数 $X$ が連続値でその分布関数 $F_X(x)$ が $x$ に関して微分可能なとき、

$\begin{aligned} f(x)=\displaystyle{\frac{d}{dx}}F(x) \end{aligned}$

を確率密度関数という。

2.5　期待値と分散

2.5.1　期待値

　確率 $P$ に関して特殊な積分を定義することができる *4。確率空間 $(\Omega,\mathcal{A},P)$ を考え、その上の確率変数 $X$ を考える。Lebesgue積分の意味での積分

$\begin{aligned} EX=\displaystyle{\int X(\omega)dp(d\omega)} \end{aligned}$

を期待値(または平均)とよぶ。
　Lebesgue積分の議論から積分は基本的に非負値に定義される。そこで
そこで

$\begin{aligned} x^{+}=\max\{x,0\},\ x^{-}=\max\{-x,0\} \end{aligned}$

と定義したときに、

$\begin{aligned} EX:=EX^{+}-EX^{-} \end{aligned}$

が $EX^{+}\lt\infty$ または $EX^{-}\lt\infty$ のときに期待値が存在するという*5。
　具体的に期待値を計算するためには、確率を(確率)分布に変換してやれば実数に対する積分へと帰着することができる。すなわち実確率変数の族 $\{X_i \}_{i=1}^{n}$ と可測関数 $f:\mathbb{R}^n\rightarrow \mathbb{R}$ に対して $h(\omega):=f(X_1(\omega),\cdots,X_n(\omega))$ とおく。 $h$ が可積分ならば

$\begin{aligned} E[h(\omega)]&=\displaystyle{\int h dP}=\displaystyle{\int_{\mathbb{R}^n}f(x_1,\cdots,x_n)P^{\mathbb{X}}(dx_1,\cdots,dx_n)},\\\mathbb{X}&=(X_1,\cdots,X_n) \end{aligned}$

が得られる*6。

2.5.2　分散と共分散

　確率変数 $X$ を確率空間 $(\Omega,\mathcal{A},P)$ 上で定義されたものとする。期待値が存在するとして

$\begin{aligned} VX:=E(X-EX)^2 \end{aligned}$

が存在するとき、 $VX$ を分散という。慣例として期待値は $\mu$ ,分散は $\sigma^2$ と書くことが多い*7。これらは分布（像測度）を通じ、前章で確率の議論を導入する前に定義した平均や分散と対応（一致）する。
　さらに二乗可積分実確率変数 $X,Y$ に対して

$\begin{aligned} \mathrm{Cov}[X,Y]=E(X-EX)(Y-EY) \end{aligned}$

を $X,Y$ の共分散といい、

$\begin{aligned} \rho(X,Y)=\displaystyle{\frac{\mathrm{Cov}[X,Y]}{\sqrt{VX\ VY}}} \end{aligned}$

を $X,Y$ の相関係数という。

2.5.3　期待値・(共)分散の性質

定理2.10　期待値の性質　
　関数 $g(X),g_1(X),g_2(X)$ の期待値が存在するとき、 $a,b,c\in\mathbb{R}$ として以下が成り立つ：

(1) $E[c]=c$ ,特に $E[1]=1$
(2) $E[a g_1 (X)+b g_2 (X)]=a E[g_1(X)]+b E[g_2(X)]$
(3) ${}^{\forall}x\in\mathbb{R}(g(x)\geq0\Rightarrow E[g(X)]\geq0)$
(4) ${}^{\forall}x\in\mathbb{R}(g_1(x)\geq g_2(x)\Rightarrow E[g_1(X)]\geq E[g_2(X)])$

( $\because$ 　それぞれについて

(1) 期待値の定義および確率密度関数の定義から

$\begin{aligned} E[c]=\displaystyle{\int c dP(d\omega)}=c\displaystyle{\int dP(d\omega)}=c \end{aligned}$

である。

(2) 期待値の定義から

$\begin{aligned} E[a g_1(X)+b g_2(X)]&=\displaystyle{\int \left(ag_1(X)+bg_2(X)\right) dP(d\omega)}\\ &=a\displaystyle{\int g_1(X) dP(d\omega)}+b\displaystyle{\int g_2(X)dP(d\omega)}\\ &=aE[g_1(X)]+bE[g_2(X)] \end{aligned}$

(3) 任意の $x\in\mathbb{R}$ に対して $g(x)\geq 0$ であると仮定すると、確率の定義を踏まえれば

$\begin{aligned} E[g(X)]=\displaystyle{\int g(x) dP(d\omega)\geq 0} \end{aligned}$

(4) 任意の $x\in\mathbb{R}$ に対して $g_1(x)\leq g_2(x)$ であると仮定すると、

$\begin{aligned} \displaystyle{\int g_1(x) dP(d\omega)}\leq \displaystyle{\int g_2(x) dP(d\omega)}\\ \therefore E[g_1(X)]\leq E[g_2(X)] \end{aligned}$

である。　 $\blacksquare$ )

定理2.11　共分散の性質　二乗可積分実確率変数 $X,Y,Z$ および $a,b\in\mathbb{R}$ に対して以下が成り立つ：

(1) $\mathrm{Cov}[X,Y]=\mathrm{Cov}[Y,X]$
(2) $\mathrm{Cov}[aX+bY,Z]=a \mathrm{Cov}[X,Z]+b \mathrm{Cov}[Y,Z]$
(3) $\mathrm{Cov}[X,X]=V[X]\geq0$ である。等号は $X=E[X],a.s.$ で成り立つ。
(4) $\mathrm{Cov}[X,1]=0,\mathrm{Cov}[aX+b,Y]=a\mathrm{Cov}[X,Y]$
(5) $\mathrm{Cov}[X,Y]=E[XY]-E[X]E[Y]$

( $\because$ 　それぞれについて
(1)定義より、期待値(積分)が順序交換できることに注意して

$\begin{aligned} \mathrm{Cov}[X,Y]&=E[(X-E[X])(Y-E[Y])]\\ &=E[(Y-E[Y])(X-E[X])]\\ &=\mathrm{Cov}[Y,X] \end{aligned}$

(2)定義より

$\begin{aligned} \mathrm{Cov}[aX+bY,Z]=&E[\{(aX+bY)-E[aX+bY]\}(Z-E[Z])]\\ =&E[\{a(X-E[X])+b(Y-E[Y])\}(Z-E[Z])]\\ =&a\displaystyle{\int(X-E[X])(Z-E[Z])dP}\\ &+b\displaystyle{\int(Y-E[Y])(Z-E[Z])dP}\\ =&a\mathrm{Cov}[X,Z]+b\mathrm{Cov}[Y,Z] \end{aligned}$

(3)定義より

$\begin{aligned} \mathrm{Cov}[X,X]=E[(X-E[X])^2]=V[X]\geq0 \end{aligned}$

　等号が成立するときは

$\begin{aligned} E[(X-E[X])^2]=0\ \ \ \ \therefore\ X=E[X],a.s. \end{aligned}$

(4)定義より

$\begin{aligned} \mathrm{Cov}[X,1]=E[(X-E[X])(1-E[1])]=0 \end{aligned}$

であり、(2)において $Y=1,Z=Y$ に置き換えて、(1)を適用することで

$\begin{aligned} \mathrm{Cov}[aX+b,Y]=a\mathrm{Cov}[X,Y]+b\mathrm{Cov}[1,Y]=a\mathrm{Cov}[X,Y] \end{aligned}$

(5)定義より

$\begin{aligned} \mathrm{Cov}[X,Y]&=E[(X-E[X])(Y-E[Y])]\\ &=E[XY-E[X]⋅Y-X⋅E[Y]+E[X]E[Y]]\\ &=E[XY]-E[X]E[Y]-E[X]E[Y]+E[X]E[Y]\\ &=E[XY]-E[X]E[Y] \end{aligned}$

である。　 $\blacksquare$ )

　期待値は本質的に(Lebesgue)積分であるから、積分に対して成立するさまざまな不等式が成立する。

$\begin{aligned} \|X\|_p=\left(E[\|X\|^{p}]\right)^{\frac{1}{p}} \end{aligned}$

とおくと、

(1)Hölderの不等式
　 $p,q\in(1,\infty),\displaystyle{\frac{1}{p}+\frac{1}{q}}=1$ のとき

$\begin{aligned} \|XY\|_1=\|X\|_{p}\|Y\|_{q} \end{aligned}$

(2) Minkovskyの不等式
　 $0\lt p\lt q\leq \infty$ に対して

$\begin{aligned} \|X\|_{p}\leq \|Y\|_{q} \end{aligned}$

(3) Markovの不等式
　非減少可測関数 $\varphi:\mathbb{R}_{+}\rightarrow\mathbb{R}_{+}$ が $\varphi(A)\gt0$ を満たすとき

$\begin{aligned} E[\|X\|\boldsymbol{1}_{\{\|Y\|\geq A\}}(Y)]&\leq \varphi(A)^{-1}E[\|X\|\varphi(\|Y\|)\boldsymbol{1}_{\{\|Y\|\geq A\}}(Y)]\\ &\leq \varphi(A)^{-1}E[\|X\|\varphi(\|Y\|)] \end{aligned}$

が成り立つ。ここで確率変数 $X$ および集合 $A$ に対して

$\begin{aligned} \boldsymbol{1}_{A}(X)=\begin{cases} 1,&X\in A\\ 0,&X\notin A \end{cases} \end{aligned}$

とする。とくに可積分確率変数 $X$ に対してChebyshevの不等式が成り立つ：

$\begin{aligned} P\{|X-E[X]| \geq A\}\leq \displaystyle{\frac{V[X]}{A^2}} \end{aligned}$

(4)Jensenの不等式
　開区間 $I$ , 凸関数 $\psi:I\rightarrow\mathbb{R},P\{X\in I\}=1$ さらに $X, \psi(X)$ を可積分とすると

$\begin{aligned} \psi(E[X])\leq E[\psi(X)] \end{aligned}$

詳しくは後で説明する。

2.6　その他の代表量：特性関数

　それ以外の代表値についても数学的に定義、導入することができる。その具体的な計算のために有用な関数をまずは導入する。

　一般に $r\in\mathbb{N},r\geq2$ に対し、 $X$ の平均を $\mu$ として

$\begin{aligned} \mu_r^{\prime}:=E[X^r],\ \mu_r:=E[(X-\mu)^r] \end{aligned}$

をそれぞれ原点周りの $r$ 次モーメント、平均周りの $r$ 次モーメント（中心モーメント）と呼ぶ*8。
　 $\mu_{r}^{\prime}$ の計算には、 $X$ が連続値の場合には、モーメント母関数

$\begin{aligned} g_{X}(\theta)&:=E[e^{\theta X}]\\ &=\displaystyle{\int_{-\infty}^{\infty}e^{\theta x}f(x) dx}\\ &=\displaystyle{\sum_{j=0}^{\infty}\frac{\mu_r^{\prime}\theta^j}{j!}} \end{aligned}$

を利用する。ここで $F(x)$ は $X$ の分布関数、 $f(x)$ は $X$ の確率密度関数である。
　モーメント母関数は、独立な2つの確率変数 $X,Y$ のモーメント母関数は個々のモーメント母関数の積で計算できるという性質がある。
　またモーメント母関数の対数をとった

$\begin{aligned} \kappa_{X}(\theta)=\log{g_X(\theta)}=\displaystyle{\sum_{j=0}^{\infty}\frac{\kappa_j \theta^j}{j!}} \end{aligned}$

をキュムラント母関数という。対数は、2つの変数の積の対数を取るとそれが個々の対数の和に等しいという性質をもつから、独立な2つの確率変数 $X,Y$ のキュムラント母関数は個々のキュムラント母関数の積で計算できるという計算上の利点を持つ。
　（非負の）離散確率変数の分布を調べる際には確率母関数を用いる。 $|s|\leq1$ とするとき $s$ を変数とする確率母関数を

$\begin{aligned} G(s)=E[s^{X}]=\displaystyle{\sum_{x=0}^{\infty}s^{x}p(x)} \end{aligned}$

で定義する。
　確率母関数について $s\in\mathbb{C},|s|=1$ とし、

$\begin{aligned} s=e^{it}=\cos{⁡t}+i\sin{⁡t},0\leq t\lt 2\pi \end{aligned}$

とおく。任意の整数 $h$ に対して

$\begin{aligned} \displaystyle{\int_{-\pi}^{\pi}e^{iht}}dt&=\displaystyle{\int_{-\pi}^{\pi}(\cos{ht}+i\sin{ht})}dt\\ &=\begin{cases} \left[\displaystyle{\frac{1}{h}\sin{ht}}\right]_{-\pi}^{\pi}+i\left[-\displaystyle{\frac{1}{h}\cos{ht}}\right]_{-\pi}^{\pi},&h\neq0\\ 2\pi,&h=0 \end{cases} \end{aligned}$

である。したがって非負整数 $k$ に対して

$\begin{aligned} \displaystyle{\frac{1}{2\pi}\int_{-\pi}^{\pi}e^{-ikt}G(e^{it})dt}&=\displaystyle{\int_{-\pi}^{\pi}\left(\frac{1}{2\pi}e^{-ikt}\sum_{j=0}^{\infty}e^{ijt}\right)p(j)}dt\\ &=\displaystyle{\frac{1}{2\pi}\sum_{j=0}^{\infty}\left(\int_{-pi}^{\pi}e^{-i(k-j)t}dt\right)}p(j)\\ &=p(k) \end{aligned}$

が成り立つ。
　連続・離散に限らず、 $s=e^{\theta},\theta\in\mathbb{R}$ と置いたもの、すなわち確率変数 $X$ に対して

$\begin{aligned} \phi(\theta)=E[e^{\theta X}] \end{aligned}$

を積率母関数という。 $\theta\leq0$ とおけば $s=e^{\theta}\leq1$ であるから確率母関数と同等となる。
　積率母関数は、積分と微分が交換できるという条件の下で

$\begin{aligned} \left.\displaystyle{\frac{d^k}{d{\theta}^k}}\phi(\theta)\right|_{\theta=0}=\left.E[X^{k}e^{\theta X}]\right|_{\theta=0}=E[X^k]=\mu_k^{\prime} \end{aligned}$

が成り立つ。 $\phi(\theta)$ の $0$ における（高次の）微係数が $X$ の原点まわりのモーメントを表す。平均まわりのモーメントを求めるには、

$\begin{aligned} e^{-\mu\theta}\phi(\theta)=E[e^{\theta(X-\mu)}] \end{aligned}$

に注意すれば、 $\phi(\theta)$ の代わりに $\phi(\theta)e^{-\theta\mu}$ を積率母関数として用いればよい。ただし積率母関数は $E[e^{\theta X}]$ が存在するとは限らないため、必ずしも値が存在するわけではない。
　積率母関数は、 $0\in (-a,b),a,b\gt0$ となるような区間においてその値が存在する場合、すべての次数のモーメントが存在し微分・積分の交換が保証される。このとき原点のまわりで

$\begin{aligned} \phi(\theta)&=E[e^{\theta X}]=E\left[1+\theta X+\displaystyle{\frac{\theta^2 X^2}{2!}}+\cdots\right]\\ &=1+\theta \mu_1^{\prime}+\displaystyle{\frac{\theta^2}{2!}}\mu_2^{\prime}\\ &=\displaystyle{\sum_{k=0}^{\infty}\frac{\theta^k}{k!}}\mu_k^{\prime} \end{aligned}$

が成り立つ。
　また $s=e^{it},t\in\mathbb{R}$ としたもの、すなわち

$\begin{aligned} \phi(t)=E[e^{itX}]=E[\cos(tX)+i\sin(tX)],\ i=\sqrt{-1} \end{aligned}$

を特性関数という。
$\left|e^{itX}\right|=1$ であるから、特性関数は任意の分布および任意の実数 $t$ について存在する。
　 $X$ の $k$ 次モーメントが存在すれば、微分と積分の交換が保証され、

$\begin{aligned} \mu_k^{\prime}=E[X^k]=i^{-k}\phi^{(k)}(0) \end{aligned}$

となる。特性関数においても

$\begin{aligned} \displaystyle{\int_{-\infty}^{\infty}|\phi(t)|dt}\lt\infty \end{aligned}$

が成り立つならば

$\begin{aligned} f(x)=\displaystyle{\frac{1}{2\pi}\int_{-\infty}^{\infty}e^{-itx}\phi(t)dt} \end{aligned}$

となることが知られている。
　一般の分布に対して逆転公式が存在するから、母関数(特性関数)からもとの確率分布を求める公式を母関数の逆転公式という。この公式があるために確率分布と母関数が一対一で対応することが分かる。

次回

power-of-awareness.com

参考文献

Lehmann, E.L., Casella, George(1998), "Theory of Point Estimation, Second Edition", (Springer)
Lehmann, E.L., Romano, Joseph P.(2005), "Testing Statistical Hypotheses, Third Edition", (Springer)
Sturges, Herbert A.,(1926) "The Choice of a Class Interval", (Journal of the American Statistical Association, Vol. 21, No. 153 (Mar., 1926)), pp. 65-66
上田拓治（2009）「44の例題で学ぶ統計的検定と推定の解き方」(オーム社)
大田春外（2000）「はじめよう位相空間」(日本評論社)
小西貞則（2010）「多変量解析入門――線形から非線形へ――」(岩波書店)
小西貞則,北川源四郎（2004）「シリーズ予測と発見の科学2　情報量基準」(朝倉書店)
小西貞則,越智義道,大森裕浩（2008）「シリーズ予測と発見の科学5　計算統計学の方法」(朝倉書店)
佐和隆光（1979）「統計ライブラリー　回帰分析」(朝倉書店)
清水泰隆（2019）「統計学への確率論,その先へ　―ゼロからの速度論的理解と漸近理論への架け橋」(内田老鶴圃)
鈴木武, 山田作太郎（1996）「数理統計学　基礎から学ぶデータ解析」(内田老鶴圃)
竹内啓・編代表（1989）「統計学辞典」(東洋経済新報社)
竹村彰通（1991）「現代数理統計学」(創文社)
竹村彰通（2020）「新装改訂版　現代数理統計学」(学術図書出版社)
東京大学教養学部統計学教室編（1991）「基礎統計学Ⅰ　基礎統計学」(東京大学出版会)
東京大学教養学部統計学教室編（1994）「基礎統計学Ⅱ　人文・社会科学の統計学」(東京大学出版会)
東京大学教養学部統計学教室編（1992）「基礎統計学Ⅲ　自然科学の統計学」(東京大学出版会)
豊田秀樹（2020）「瀕死の統計学を救え！ ―有意性検定から「仮説が正しい確率」へ―」(朝倉書店)
永田靖（2003）「サンプルサイズの決め方」(朝倉書店)
柳川堯（2018）「Ｐ値　その正しい理解と適用」(近代科学社)

*1:対応として $\mathbb{X}:\Omega\rightarrow \mathbb{R}^n,\ n\geq2$ とした場合、 $\mathbb{X}$ を確率ベクトルという。

*2:像測度は主に測度論における呼称であり、確率論では後者、もしくは単に分布と呼ぶ。本ノートでも以降は(確率)分布と呼ぶことにする。

*3:確率ベクトル $\mathbb{X}$ に対しても同様の定義をすることが出来、このときも $F$ を分布関数と呼ぶ。

*4:分布に関してではないことに注意せよ。ただし後の注記でも触れるように実用面では気にする必要はない。

*5:すなわち期待値は不定形は許容しない一方で、 $\pm\infty$ を取ることは許容している。

*6:ここで初めて確率に対して定義された期待値と分布とに対応が付いた。以降の議論では敢えて確率に対して各値を定義していくが、分布に対して定義しても良い。慣習上、確率に対して定義した場合は $EX,\ VX$ のように書く一方で、分布に対して定義、計算する際には $E[X],V[X]$ と書くことが多い。