本気で学ぶ統計学(01/31) - 「大人の教養・知識・気付き」を伸ばすブログ

　統計学を真剣に学ぶ人のために、個人的にまとめているノートを公開する。
　底本として

新装改訂版現代数理統計学

作者:彰通, 竹村
学術図書出版社

Amazon

を用いる。

前回

power-of-awareness.com

前回
1.　統計学の基礎
次回
参考文献

1.　統計学の基礎

　統計学とは現象の法則性に関する関心から生まれた。当初の統計学は現象をすべて調べ上げてその法則性を見出す、現在で言えば「統計」に近い記述統計学と、確率論を用いて一部を観察してそこから論理性のある推測で全体の法則性を発見する統計的推測からなる。
　いずれの場合でも何らかの目的に応じて獲得した観測値の集合体である「データ」を整理してそれらが示唆する有用な情報を取り出すための方法論である。いかなるものであっても、まずはデータとは何かを整理するところから始める。

1.1　統計データの類別と解析プロセス

　データはその性質からさまざまな種類に類別が可能である。

　まずそのデータが定量的な値で与えられるのか、そうではなくある特定の状態にあるかを表すものなのかで定量データと定性データとに分類できる。次に次元数に応じて分類することができる。すなわち各観測対象に対して1種類の観測値が与えられる場合と複数の観測地が得られる場合がある。それらをそれぞれ1次元データ、多次元データと呼ぶ。さらに観測時点・場所に応じてデータの種類が変わってくる。同一の対象の異なる時点での観測値からなるデータを時系列データと呼ぶ一方で異なる対象について観測値を得たデータの集まりをクロスセクション・データという。一定範囲の対象に対する時系列データの集まりをパネル・データという。

　また同じデータでも尺度に応じて4つに分類できる：

尺度名	内容	例
名目尺度	ある対象が他とは異なるのか同一なのかを示す判断のみの基準。	性別、病因
順序尺度	ある対象が他よりも大きい（小さい）といった順序を与える判断の基準。	例：満足度（良い・普通・悪い）
間隔尺度	ある対象が他よりもある単位によって隔たりを表現できそれだけが意味を持つ判断の基準。	例：気温、自国
比率尺度	ある対象が他よりもある単位で比率での大小を表現できる判断の基準。	例：身長・体重

1.2　リサーチ・デザイン

　統計データを解析する際には、いきなりデータを取得することを考えてはならない。データは何らかの科学的仮説を裏付ける（ないし反証する）ために用いるものだからである。すなわちデータ解析のプロセスは以下のとおりになる：

(1)		自分が答えようとしている（科学的な）問いを明確化する。
(2)		そうした問いに対して何を対象にいかなることを分析するのかを明確化する。
(3)		問いに対する科学的仮説を立てる。
(4)		仮説に則りデータの取得方法を考える：
	(a)	すでに公刊されたデータが存在するならばそれを採集する。
	(b)	分析に必要なデータが存在しないならば、実験（または調査）を計画しデータを採取する。
(5)		得たデータを適切に解析することで自身が立てた仮説の真偽について結論を出す。

1.3　探索的データ解析：データの縮約と記述統計量

　統計学的知見を用いて意思決定を行うにあたっては、データがもつ「情報」を読み取り、それを手掛かりにして判断を下す。まずは各データについて下手に加工する前にデータがあるがままに持つ特徴を抽出したい。
　なぜならば、データを加工する際、特に後述する統計的モデルのような複雑な数学的操作を用いる際、より適当なモデルを選択するためにもデータのどのような特徴をモデル化するかを明確化する必要があるものの、そのためにはそもそもデータが有する特徴を理解していなければならないからである。またそうしたモデルは様々な仮定を置くことが少なくなく、安易にモデルを設定すると不適切なモデルを利用してしまった結果として誤った意思決定を行って損失を生じる（モデル・リスク）こともあるからだ。さらに意思決定の内容によってはモデル構築がオーバースペック、すなわちそこまでする必要のない場合もあり得るからでもある。
　したがって下手に統計的モデルなどの仮定を置くことなく、まずはデータのもつ特徴を多面的に解析する。これを探索的データ解析という。この解析ではグラフ化による視覚化や記述統計量への要約など直観的かつ簡単な加工を通じてデータが持つ情報を抽出していく。
　統計学がデータから何らかの知見を得るための方法論である以上、データ自体を如何に解釈すべきかに関する方法論を提供することが第一の要請となる。データを解釈するためには「正しく」「効率的」に行うことが肝要である。すなわちデータを得たならば、集団としての特徴を記述すべくデータを整理・要約しそこから有用な情報を読むこととなる。そのための方法である記述統計学を説明する。
　データから情報を抽出するためのアプローチには、大別すると

	(1)	表・グラフにして視覚的に捉える方法
	(2)	数量的に要約する方法

の2つがある。いずれかの方法が絶対的に良いというわけではない。いずれの手法もとある特徴を分かりやすくするためのものであって、そのために別の情報を削っている場合もあり得る。またそれらは各々特長や注意点があるため、通常、複数の方法を組み合わせて多面的にデータを解釈するのが当たり前であり、むしろそうすべきである。
　また記述統計による分析を行う際には分析目的に応じて1次元のものを扱う場合と多次元のものを扱う場合がある。前者の場合であれば、1種類の観測値自体の特徴を捉えることが目的であるのに対して、後者の場合であれば複数の観測値の関係性を知ることが目的である。

1.4　データの可視化：1次元

　人間はその他の五感よりも非常に大きく視覚に依存している。逆に言えば、データを視覚化する手法というのはその全体感を概観するには非常に有効であるといえる。データを解析する際にはその全容を掴むべく、いの一番にそうした手法を用いるのも普通である。どのような特徴に注目したいのかに応じて様々な手法を用いて可視化する。
　この整理により期待したいのは、

	(1)	どのような値が発生し得るのか。
	(2)	どのような値が発生しやすいのか。

について情報を得ることである。

1.4.1　1次元データの可視化：度数分布表

　まずデータから全体の分布状況を掴むために、表や図に整理する。そのための最も基本的なものの一つが度数分布表である。観測値の取り得る値をいくつかの階級に分けてそれぞれの階級にいくつの観測値が所属するかの度数を数える。
　各階級の代表値として階級値を定義する。階級値は通常、各階級の中で一様に分布しているとして上限値と下限値の中間値を用いる。また分布状況を調べるのに、観測値の総数を $1$ としたときの各階級に属する観測値数の割合で相対度数を定義する。総数が異なるデータの比較に有用である。さらに累積度数、累積相対度数も用いる。それらは度数を下の階級から順に積み上げたときの度数、相対度数の累積和である。

図表1.1　標準正規乱数10,000個の度数分布表

1.3.2　1次元データの可視化：ヒストグラム

　度数分布表を用いてもデータの傾向性を見ることができるものの、これをグラフ化した方がより一覧性が増しデータの特徴を捉えやすくなる。度数または相対度数をグラフ化したものをヒストグラムという。

図表1.2　標準正規乱数10,000個のヒストグラム

　度数分布表の作成に当たり課題なのは、階級数と階級幅である。これらを定める絶対的なルールは存在しない。参考としては、これは度数分布から平均などを計算するのに階級幅をどうすべきかを与えるための公式として、階級数 $k$ に対するスタージェスの公式がある：

$\begin{aligned} k\approx 1+\log_{2}{⁡n} \end{aligned}$

　この公式では、データについてすべての数が2の冪で与えられており、階級の真の度数分布が二項係数により与えられているものと仮定している。具体的に階級数を $k$ としたときにある階数 $i$ の度数が ${}_{k-1}C_i$ であるとき、データ数の合計 $n$ は二項定理より

$\begin{aligned} n=\displaystyle{\sum_{i=1}^{k-1}{}_{k-1}C_i}=(1+1)^{k-1}=2^{k-1} \end{aligned}$

が成り立つ。ここから上記の公式が導かれる。
　このようにデータの分布として二項分布を前提としており、これは $k\rightarrow\infty$ となれば正規分布に近づくこともまた前提視していることになる。したがってヒストグラムをいくつか適当に作成してみて分布が偏っているようと判断できるようであれば、この公式が妥当だとは言えない点に注意が必要である。

1.3.3　1次元データの可視化：箱ひげ図

　データのばらつき具合を示すために用いる方法の1つが箱ひげ図である。箱ひげ図は四分位を用いてデータの散らばりを表す。四分位とはデータを昇順に並べた際に1番目の値から数えて総数の25%数目に当たる値を第一四分位、全体の50%目に当たる値を第二四分位(中央値、メディアンともいう)、全体の75%目に当たる値を第三四分位という。
　箱ひげ図を描くときの1つの考え方として、四分位から外れ値を考える。第一四分位および第二四分位、第三四分位をそれぞれ $X_{25\%},X_{50\%},X_{75\%}$ とするとき、

$\begin{aligned} Q=X_{75\%}-X_{25\%} \end{aligned}$

を四分位範囲と定義し、それを2で割った値を四分位偏差(QD)という(後述)。箱ひげ図では、この $QD$ を偏差の尺度として外れ値を導出する。すなわち区間 $[X_{50\%}-QD,X_{50\%}+QD]$ を外れるものを外れ値と見なす。

図表1.3　Excelの標準設定で描かせた箱ひげ図の例

1.5　1次元の代表値

　データをグラフなどで可視化する手段は視覚に頼るため、一覧性や効率性に優れる一方で恣意性があり厳密性に欠けるという欠点がある。そこでデータの整理・要約の手段として得られた情報を数量表現として加工する方法も存在する。すなわち特定の考えに則りデータを計算・加工することで客観性をもたせつつデータを代表する値（代表値）に加工する。
　ただし代表値にも欠点がある。それは計算・加工するためにデータが持つ情報の一部が欠損する恐れがある点である。極端な例ではあるが、たとえば2つの観測値 $\{0,0\},\ \{-10,000,10,000\}$ の単純平均を考えるといずれも $0$ である。しかしこれらを同じものと見なすのは妥当とは言い難い。したがって可視化することや複数の代表値を組み合わせることで多面的にデータを見ることが重要である。

1.5.1　水準の代表値：平均

　まずデータの水準感を知るための代表値を考える。これは分布の位置合いを意味する。もっとも代表的なものは平均である。観測値の水準感を要約するために用いる一つの方法である。平均はデータの種類や目的に応じて複数の計算方法がある。もっとも単純なのは算術平均によるものである。
　以下、観測した各データを $x_1,\cdots,x_n$ とする。

(1)	算術平均	観測値の総和を観測値の総数 $n$ で割る。	$\begin{aligned}\bar{x}=\displaystyle{\frac{x_1+x_2+\cdots+x_n}{n}}\end{aligned}$ ※データが離散的で同じ値の観測値が複数存在する場合にはその度数 $f_1,\cdots,f_n$ を加味する。すなわち $\begin{aligned}\bar{x}=\displaystyle{\frac{\displaystyle{\sum_{k=1}^{n}f_k x_k}}{\displaystyle{\sum_{k=1}^{n}}f_k}}\end{aligned}$
(2)	幾何平均	成長率のように積として扱うような正の値を取る観測値について用いる。	$\begin{aligned}x_G=\sqrt[n]{\displaystyle{\prod_{k=1}^{n}x_k}}\end{aligned}$
(3)	調和平均	除数として扱う観測値について用いる。	$\begin{aligned}x_H=\displaystyle{\frac{1}{\displaystyle{\frac{1}{n}} \displaystyle{\frac{1}{x_1+\cdots+x_n}}}}\end{aligned}$

　相加相乗平均の関係から、常に

$\begin{aligned} \bar{x}\geq x_G \end{aligned}$

が成り立つ。

1.5.2　水準の代表値：中央値

　平均は算出が容易で分かりやすいという利点を有するものの、それ以外の値よりも著しく乖離する値（外れ値という。）が存在すると、外れ値にその値が影響を受けやすいという欠点を有する。そうしたときの代替となり得るのが中央値（メディアン）である。すなわちデータ $x_1,\cdots,x_n$ を昇順に並び替えた $x_{(1)}\leq\cdots\leq x_{(n)}$ に対して

$\begin{aligned} Med=\begin{cases} x_{(m+1)},\ \ \ &n=2m+1\\ \displaystyle{\frac{x_{(m)}+x_{(m+1)}}{2}},\ \ \ &n=2m \end{cases} \end{aligned}$

と定義する*1。また分布の峰に対応する値を最頻値という。

1.5.3　バラつきの代表値：偏差

　次にデータのバラつきを知るための代表値を与える。これはデータの水準感を通じて分布の位置を把握した後に分布の形状を理解するための指標となる。これは中央値(メディアン)を用いて水準感を判断する場合、合わせてその他の四分位点を把握することでデータの散らばり具合を判断することも少なくない。
　分布の存在範囲を示す尺度としてレンジがある。データ $x_1,\cdots,x_n$ を観測したとして

$\begin{aligned} Range=\max⁡\{x_1,\cdots,x_n\}-\min\{x_1,\cdots,x_n\} \end{aligned}$

箱ひげ図(図表1.3)において用いられることがある。

　観測値を昇順に並べ替えたときに小さい方から $100p\%(0\leq p\leq1)$ *2の所にある値を100pパーセンタイル、または $100p$ %分位点、100 $p$ %点という。この分位点を用いてバラつきを判断するものとして、既に箱ひげ図のところで述べたように四分位偏差がある。第一四分位点 $Q_1$ 、第二四分位点(メディアン) $Q_2$ 、第三四分位点 $Q_3$ をそれぞれ25%(分位)点、50%(分位)点、75%(分位)点といい、これらを基に

$\begin{aligned} QD=\displaystyle{\frac{1}{2}\left(Q_3-Q_1\right)} \end{aligned}$

と定義する。
　これらよりも最もよく使われるものとして偏差がある。

平均偏差*3：
$\begin{aligned}d=\displaystyle{\frac{1}{n}\sum_{i=1}^{n}\left|x_i-\bar{x}\right|},\ \bar{x}=\displaystyle{\frac{1}{n}\sum_{i=1}^{n}x_i}\end{aligned}$
分散：
$\begin{aligned}S^2=\displaystyle{\frac{1}{n}\sum_{i=1}^{n}(x_i-\bar{x})^2}\end{aligned}$
分散の平方根を取ったものを標準偏差という。観測値 $v_1,\cdots,v_n$ に対し度数分布 $f_1,\cdots,f_n$ が存在する際は以下で定義する：
$\begin{aligned}S^2=\displaystyle{\frac{1}{\displaystyle{\sum_{i=1}^{n}f_i}}\sum_{j=1}^{n} f_j (v_j-\bar{v})^2}\end{aligned}$
変動係数：分散もまた水準情報を持っているため、異なる分布に対して散らばり具合を比較する際に水準があまりにも相違する場合は、それを調整する必要がある。そのために変動係数を定義する：
$\begin{aligned}CV=\displaystyle{\frac{S}{\bar{x}}},\ S=\sqrt{\displaystyle{\frac{1}{n-1}\sum_{i=1}^{n}(x_i-\bar{x})^2}}\end{aligned}$
標準得点：位置 $b$ および尺度 $a$ を用いて
$\begin{aligned}\bar{z}=a\bar{x}+b,\ {S_z}^2=a^2{S_x}^2,\ S_z=|a|S_x\end{aligned}$
と一次変換する。特に $a=\displaystyle{\frac{1}{S}},\ b=-\displaystyle{\frac{\bar{x}}{S}}$ としたものを標準化という。また更に $T_i=10z_i+50$ としたものを偏差値得点という。

1.6　データの可視化：2次元

　組となったデータについてその関係性を分析することも必要となる。一方がもう一方を決定する様子や程度を調べるのに利用する。

1.6.1　2次元データの可視化：散布図

　1組の量的データ $(x_i,y_i ),i=1,\cdots,n$ があるときにこれらを平面上にプロットしたものを散布図という。この図において各点がばらばらに散らばっていれば両者に関係はなく、他方で何らかの傾向をもてば両者には関係があり得ると考えられる。

図表1.4　散布図の例*4

1.6.2　2次元データの可視化：ローレンツ曲線

　累積度数を用いて折れ線グラフを作成することができる。その中でもローレンツ曲線が重要である。2つのデータの累積相対度数を組み合わせて作成する曲線である。

図表1.5　ローレンツ曲線の例

1.7　2次元の代表値

　組となったデータについてその関係性を定量化する。そこでは一方の増減に対してもう一方がどのように動くかを調べる。

1.7.1　相関係数

　両者の相互関係を要約するために扱う指標に相関係数がある。

　その前段階として共分散を導入する。1組の量的データ $(x_i,y_i ),$ $i=1,\cdots,n$ があるときに

$\begin{aligned} C_{xy}=&\displaystyle{\sum_{i=1}^{n}(x_i-\bar{x})(y_i-\bar{y})},\\ \bar{x}=&\displaystyle{\frac{1}{n}\sum_{i=1}^{n}x_i},\\ \bar{y}=&\displaystyle{\frac{1}{n}\sum_{i=1}^{n}y_i} \end{aligned}$

を共分散という。
　そして共分散をそれぞれの標準偏差で除して規格化したものを相関係数という。

$\begin{aligned} r_{xy}=\displaystyle{\frac{C_{xy}}{\sigma_{x}\sigma_{y}}}=\displaystyle{\frac{\displaystyle{\sum_{i=1}^{n}(x_i-\bar{x})(y_i-\bar{y})}}{\sqrt{\displaystyle{\sum_{i=1}^{n}(y_i-\bar{y})^2}} \sqrt{\displaystyle{\sum_{i=1}^{n}(x_i-\bar{x})^2}}}} \end{aligned}$

　相関係数は $-1\leq r_xy\leq 1$ を満たす。実際、変数 $x$ の分散を $V_x$ 、変数 $y$ の分散を $V_y$ とすると任意の実数 $t\in\mathbb{R}$ について

$\begin{aligned} V_{x}t^2-2C_{xy} t+V_{y}&=\displaystyle{\frac{1}{n}}\left[\left\{\displaystyle{\sum_{i=1}^{n}(x_i-\bar{x})^2}\right\}t^2-2t \displaystyle{\sum_{i=1}^{n}(x_i-\bar{x})(y_i-\bar{y})}+\left\{\displaystyle{\sum_{i=1}^{n}(y_i-\bar{y})^2}\right\}\right]\\ &=\displaystyle{\frac{1}{n}\sum_{i=1}^{n}\left\{(x_i-\bar{x})^2t^2-2(x_i-\bar{x})(y_i-\bar{y})t+(y_i-\bar{y})^2\right\}}\\ &=\displaystyle{\frac{1}{n}\sum_{i=1}^{n}\left\{(x_i-\bar{x})t-(y_i-\bar{y})\right\}^2}\geq0 \end{aligned}$

が成り立つ。以上から $f(t)=V_{x}{t}^2-2C_{xy}t+V_y=0$ を2次式と見ればその判別式 $D$ について以下が成り立つ：

$\begin{aligned} &\ \displaystyle{\frac{D}{4}}={C_{xy}}^2-V_x V_y\leq 0\\ \Leftrightarrow &\ {C_{xy}}^2\leq V_x V_y\\ \Leftrightarrow &\ {r_{xy}}^2\leq 1\\ \therefore &\ -1\leq r_{xy}\leq 1\\ \end{aligned}$

$r_{xy}=\pm 1$ になるときは $f(t)=0$ となる実数 $t$ が存在するときであり、このとき $0$ でない実数 $t$ について

$\begin{aligned} (x_i-\bar{x})t-(y_i-\bar{y})=0,\ i=1,2,\cdots,n \end{aligned}$

が成り立つ。すなわち $y_i-\bar{y}=t(x_i-\bar{x})$ と $n$ 個の観測値が一直線上に乗ることを意味する。このことから相関係数は2変数に直線的な比例関係があるのかを判断する尺度であることが分かる。逆に言えば両者に非線形な関係がある場合、誤判断を下す恐れがある。

1.7.2　偏相関係数と順位相関係数

　相関係数にはもう1つ、適用に当たり考慮すべきことがある。たとえばあるスーパーマーケットにおいて素麺とアイスクリームの売上が高いとする。そのとき、それらに関係があると考えるよりは気温や季節の影響が大きいと考えるだろう。このように高い相関があったとしてもその変数同士に直接的な関係があるとは限らず、別の双方に影響を与える要素があるかもしれない*5。そこで、3つ以上の種類の変数がある中でその中の1組の関係を考える際には、普通の相関係数から他の変数からの影響を除外した相関の概念もある。

　3個の変数の組 $(x_1,y_1,z_1),⋯,(x_n,y_n,z_n)$ があるときに

$\begin{aligned} r_{xy\cdot z}=\displaystyle{\frac{r_{xy}-r_{xz}r_{yz}}{\sqrt{1-r_{xz}}\sqrt{1-r_{yz}}}} \end{aligned}$

を偏相関係数という。

　質的変数に対しても同様の指標を考えたい。2つの順序の定義された質的基準または量的変数に対して順位を与える。すなわち1組の量的データ $(x_i,y_i),i=1,\cdots,n$ があるときに $x_i,y_i$ それぞれを昇順に並び替えて

$\begin{aligned} x_{(k)}=x_i,\ y_{(l)}=y_i,\ x_{(1)}\leq \cdots\leq x_{(n)},\ y_{(1)} \leq \cdots\leq y_{(n)},k,l\in\{1,2,\cdots,n\} \end{aligned}$

と対応付けることで写像

$\begin{aligned} R:i→k,R^{\prime}:i→l \end{aligned}$

を定義する。このときにSpearmanの順位相関係数を

$\begin{aligned} \rho=1-\displaystyle{\frac{6}{n^3-n}\sum_{i=1}^{n}(R_i-R^{\prime}_i)^2} \end{aligned}$

で定義する。またKendallの順位相関係数を

$\begin{aligned} \tau&=\displaystyle{\frac{G-H}{{}_nC_{2}}},\\ G&=\sharp\{(i,j)\in X_2;(x_i\lt x_j,y_i\lt y_j)\lor(x_i\gt x_y,y_i\gt y_j)\}\\ H&=\sharp\{(i,j)\in X_2;(x_i\lt x_j,y_i\gt y_j)\lor(x_i\gt x_y,y_i\lt y_j)\} \end{aligned}$

で定義する。ここで集合 $X_k$ は集合 $\{1,2,\cdots,n\}$ の $k$ 個の元から成るすべての部分集合を元に持つ集合とする。
　順位相関は変数がもつ順位の関係に関する“情報”を抽出している。すなわち一方の変数が変化したときにもう一方の変数がどの程度変化するかの量(差分)は考慮しない代わりに、一方が増加したときにもう一方も増加するのか、それとも減少するのかという情報を抜き出している。そのため順位さえ定義されていれば計算できる点、また両者に非線形の相関があってもそれを検知し得る点が前述した(Pearsonの)相関係数と異なる点である。

次回

power-of-awareness.com

参考文献

Lehmann, E.L., Casella, George(1998), "Teory of Point Estimation, Second Edition", (Springer)
Lehmann, E.L., Romano, Joseph P.(2005), "Testing Statistical Hypotheses, Third Edition", (Springer)
Sturges, Herbert A.,(1926) "The Choice of a Class Interval", (Journal of the American Statistical Association, Vol. 21, No. 153 (Mar., 1926)), pp. 65-66
上田拓治（2009）「44の例題で学ぶ統計的検定と推定の解き方」(オーム社)
大田春外（2000）「はじめよう位相空間」(日本評論社)
小西貞則（2010）「多変量解析入門――線形から非線形へ――」(岩波書店)
小西貞則,北川源四郎（2004）「シリーズ予測と発見の科学2　情報量基準」(朝倉書店)
小西貞則,越智義道,大森裕浩（2008）「シリーズ予測と発見の科学5　計算統計学の方法」(朝倉書店)
佐和隆光（1979）「統計ライブラリー　回帰分析」(朝倉書店)
清水泰隆（2019）「統計学への確率論,その先へ　―ゼロからの速度論的理解と漸近理論への架け橋」(内田老鶴圃)
鈴木武, 山田作太郎（1996）「数理統計学　基礎から学ぶデータ解析」(内田老鶴圃)
竹内啓・編代表（1989）「統計学辞典」(東洋経済新報社)
竹村彰通（1991）「現代数理統計学」(創文社)
竹村彰通（2020）「新装改訂版　現代数理統計学」(学術図書出版社)
東京大学教養学部統計学教室編（1991）「基礎統計学Ⅰ　基礎統計学」(東京大学出版会)
東京大学教養学部統計学教室編（1994）「基礎統計学Ⅱ　人文・社会科学の統計学」(東京大学出版会)
東京大学教養学部統計学教室編（1992）「基礎統計学Ⅲ　自然科学の統計学」(東京大学出版会)
豊田秀樹（2020）「瀕死の統計学を救え！ ―有意性検定から「仮説が正しい確率」へ―」(朝倉書店)
永田靖（2003）「サンプルサイズの決め方」(朝倉書店)
柳川堯（2018）「Ｐ値　その正しい理解と適用」(近代科学社)

*1:このように外れ値が存在してもその影響を受けづらい代表値をロバスト性があるという。

*2:100個のデータがあり $p=0.99$ とすれば、下から $100\times 0.99=99$ 番目のデータになる。

*3:単純に偏差の総和を取ると、

$\begin{aligned}\displaystyle{\frac{1}{n}\sum_{i=1}^{n} (x_i-\bar{x})}&=\displaystyle{\frac{1}{n}\sum_{i=1}^{n} x_i}-\displaystyle{\frac{1}{n}\sum_{i=1}^{n} \bar{x}}\\&=\displaystyle{\frac{1}{n}\sum_{i=1}^{n} x_i}-\displaystyle{\frac{1}{n}\sum_{i=1}^{n} \displaystyle{\frac{1}{n}\sum_{i=1}^{n} x_i}}\\&=\displaystyle{\frac{1}{n}\sum_{i=1}^{n} x_i}-\displaystyle{\frac{1}{n}\sum_{i=1}^{n} x_i}\\&=0\end{aligned}$

と常に0を取るために絶対値を取るといった加工を行う。

*4:この図では $(x_i,y_i),\ x_i\sim N(0,1),y_i=0.5+0.9x_i+\varepsilon_i,\ \varepsilon\sim N(0,1),$ $\ i=1,2,\cdots,300$ をプロットした。ここでは明示的に直線関係を持たせて $y_i$ を生成したが、実際にグラフからこの関係が垣間見える。

*5:まして因果関係があるとは限らない。相関関係は因果関係よりも“弱い”概念であり、相関があっても因果関係があるわけではない。

前回

1. 統計学の基礎

1.1 統計データの類別と解析プロセス

1.2 リサーチ・デザイン

1.3 探索的データ解析：データの縮約と記述統計量

1.4 データの可視化：1次元

1.4.1 1次元データの可視化：度数分布表

1.3.2 1次元データの可視化：ヒストグラム

1.3.3 1次元データの可視化：箱ひげ図

1.5 1次元の代表値

1.5.1 水準の代表値：平均

1.5.2 水準の代表値：中央値

1.5.3 バラつきの代表値：偏差

1.6 データの可視化：2次元

1.6.1 2次元データの可視化：散布図

1.6.2 2次元データの可視化：ローレンツ曲線

1.7 2次元の代表値

1.7.1 相関係数

1.7.2 偏相関係数と順位相関係数

次回