Home


統計思考の世界

曼荼羅で読み解くデータ解析の基礎


三中信宏

2018年6月1日第1刷刊行

技術評論社,東京, 239 pp.
本体価格2,300円
ISBN:978-4-7741-9753-1

版元ページ書評等

発売中 → amazon | e-hon


Statistical Mandala

An Introduction to Data Analysis and Abductive Inference

Nobuhiro Minaka

Gijutsu-Hyohron Co., Tokyo, ca 240 pp.
ISBN:978-4-7741-9753-1
Published in June 2018
本書『統計思考の世界』は2冊の姉妹書である『系統体系学の世界』ならびに『思考の体系学』とともに単系統群を構成します.



目次

まえがき — 高座の出囃子が聞こえてくる前に 2

プロローグ:統計曼荼羅の拝み方 ― 統計学の世界を鳥瞰するために 9

   めくるめく統計学の世界へようこそ 9
   統計学とともに生きる道 9
   私がたどってきた四半世紀を振り返りつつ 10
   統計曼荼羅というチャートを手に 11
   みなさんの日々の統計修行のために 13

第1講 素朴統計学:涙なしの統計ユーザーへの道 15

 統計学のロジックとフィーリング:ある思考実験 15
 統計思考の認知心理的ルーツを探る 18
   普遍的な統計的センス:素朴統計学の観点から 18
   宿命としての認知バイアスと心理的本質主義 18
   認知と論理のはざまを進む 20  アブダクションという推論様式の進化的起源 20
   統計学的推論:ネイマン-ピアソン vs. パース 20
   痕跡解読型パラダイムと推論の起源 21

第2講 グラフィック統計学:数と図のリテラシー 23

 統計学は「見る」ことから始まる 23
   データ可視化と統計グラフィクス 24
   経験的システムと合理的システムは車の両輪 25
 百聞は一見にしかず:グラフを用いた可視化の事例 25
   インデックス・プロット:データをそのまま並べる 26
   ドット・プロット:大小順にソートする 28
   ドット・チャート:実験ごとにグループ化する 28
   箱ひげ図:データセットの中央値とばらつきの表示 29
   二次元散布図:二変量間の共変動を見る 30
   三次元散布図:三変量間の共変動を見る 32
 ポアソン・クランピングの陥穽:統計的直感の “誤作動” の例として 33
   ないものが見えてしまう認知リスクへの対処 36

第3講 観察データから統計モデルへ 37

 観察データと統計モデルとの関係 37
   統計モデルと心理的本質主義 38
 数学と現実の架け橋:カール・ピアソンの先駆的業績 39
   カール・ピアソン(1894)の論文を読む 40
   正規分布を現実世界にあてはめる 42
 統計学の誤解と誤用:農業試験研究の場合 44

第4講 統計学をめぐる論争は今なおやまず 47

 「p値」をめぐるせめぎあい — ある統計学論争 47
   アメリカ統計学会が表明した警告文 48
 統計的推論の目標は何か?:強い推論と弱い推論 49
   統計手法は水晶玉ではない 49
 フィッシャーを経由してネイマン-ピアソンへ 50
   フィッシャー vs. ネイマン-ピアソン:帰納的推論か意思決定か 52
 ネイマン-ピアソンを超えて:証拠に基づくアブダクション 53
   意思決定パラダイムからの離脱:証拠・尤度・アブダクション 54

第5講 統計的思考に必要なリテラシー:文字・数字・図表 56

 統計学をめぐるある生物分類論争:ウラジーミル・ナボコフ vs. F・マーティン・ブラウン 57
   「自然科学にとって統計学はどうでもいい」 57
   直感と論理の衝突:環世界センスと統計学は両立しないのか 59
 リテラシー,ニューメラシー,ヴィジュアル・リテラシー 61
   数字の代わりにダイアグラムで理解する 62
 知識の体系化と情報の可視化 63

第6講 パラメトリック統計学:数理の世界 65

 統計理論の要塞を見上げる:統計曼荼羅ふたたび 65
 確率変数と確率分布:母集団のモデル化として 67
   確率分布の位置パラメーター 67
   確率分布の分散パラメーター 69
 標本に基づく母集団パラメーターの推定 72
   平均からの偏差とその性質 73
   偏差を集計する:絶対値和と平方和 73
   平方和の抱えるある問題 74
   記述統計学と推測統計学:計算された統計量が目指すもの 75
   自由度による平方和の補正:不偏推定量という概念 76
 確率分布曼荼羅:確率分布の類縁関係を見わたす 78

第7講 実験計画法(1):完全無作為化法への道 84

 なぜ正規分布はパラメトリック統計学を統治しているのか 84
 実験計画法の理念と射程 86
 完全無作為化法:実験計画と統計モデル 87
   水準の反復実施と実験区の無作為化 88
   線形統計モデルの構築 89
 偏差,平方和,平均平方,そしてF値 90
   全偏差を処理偏差と誤差偏差に分割する 91
   全平方和を処理平方和と誤差平方和に分割する 92
   自由度を用いて平均平方(分散)を求める 93
   分散比としてのF値とその直感的理解 94

第8講 実験計画法(2):分散分析と多重比較 96

 統計的検定の枠組み:帰無仮説と対立仮説 96
   帰無仮説のもとでの線形統計モデル 97
   正規分布からカイ二乗分布,そしてF分布へ 97
 分散分析:F分布を用いた仮説検定 98
   計算されたF値を帰無仮説のF分布に照らし合わせる 100
   F検定:帰無仮説と対立仮説の対峙と意思決定 101
   まとめとしての分散分析表 102
 多重比較:水準間の有意差を判定する諸方法 104
   二群間の平均の比較:t検定 104
   多群間の平均の比較:多重比較 107

第9講 実験計画法(3):乱塊法,要因実験,交互作用 111

 実験区をブロック化する 111
   一要因乱塊法の実験計画 112
   一要因乱塊法の分散分析 114
 要因実験:複数の実験要因の組合せと交互作用 116
   二要因乱塊法の実験計画 116
   二要因乱塊法の分散分析(交互作用を含む) 117
 分割区法:乱塊法の応用として 123
   分割区法の実験計画 124
   分割区法の分散分析(一次要因と二次要因および交互作用を含む) 127

第10講 線形統計モデルのさらなる拡張 130

 線形モデル:その仮定と問題点 130
   正規性と等分散性の仮定 130
   一般線形モデル:回帰分析・共分散分析・多項式回帰分析 131
 拡張(1):一般化線形モデル 134
   一般化線形モデルの登場 136
   比率データのロジスティック回帰の例 137
 拡張(2):混合効果モデル 140
   固定効果とランダム効果 140

第11講 統計モデル選択論:統計学的アブダクションのために 142

 パラメーター推定問題とモデル選択問題 142
   パラメーター推定問題:与えられたモデルのもとでのパラメーター最適化 145
   モデル選択問題:統計モデルの構造そのものをどう選ぶか 146
 データに対するモデルの当てはめ:尤度による評価 147
   乱数データへの直線モデルの当てはめ 148
   乱数データへの多項式モデルの当てはめ 150
 よい統計モデルとは何か?:AICによるモデル選択 155
   AICを導きだす 156
   AICを用いて対立モデルを比較する 160

第12講 コンピューター統計学:データに自らを語らせる 161

 母集団からのサンプリング vs. データからのリサンプリング 162
 リサンプリング統計手法:ブーツストラップとジャックナイフ 166
   ジャックナイフ法:重複を許さず無作為削除リサンプリングを反復する 168
   ブーツストラップ法:重複を許して無作為同数リサンプリングを反復する 169
 データははたしてものを言うのか:理想と現実 171

第13講 ベイズの世界:論よりラン 175

 ベイズの定理:条件付き確率からの出発 175
 ベイズ的推論:事前から事後へ 179
 事後確率分布∝尤度×事前確率分布 183
   ベータ事前分布をもつ二項分布パラメーターの事後分布 184
   正規事前分布をもつ正規分布の平均パラメーターの事後分布 188
 ベイジアンMCMC:福音か災厄か 191

第14講 多変量解析の細道をたどる 197

 変量間の共変動:その視覚化と定量化 197
 一変量から二変量へ,そして多変量へ 201
 高次元データの攻略に向けて 209
   グラフ化による可視化:クラスター分析の例 214
   次元削減による可視化:主成分分析の例 215

エピローグ 統計曼荼羅の下張り ― 過去の産物としての現在 221

   可視化と統計グラフィクス 221
   テューキーと探索的データ解析 222
   もっと図表を! 223
   統計曼荼羅をひとりひとりの手に 224

附録:統計学へのお誘い本リスト 227
いささか長めの謝辞 — あとがきに代えて 230
文献リスト 233
索引 238



口上

読者のみなさんがいま手にしている本書は,ワタクシのこれまで約30年間にわたる統計学高座をふまえた “講義録” です.大学はもちろん国や都道府県の農林水産試験研究機関そして民間企業など全国各地のお座敷に呼ばれるたびに,さまざまなお客さんを前にして統計噺をする経験を積んできました.その内容については,講義資料を受講者に配布したり,YouTubeで動画公開したことはありますが,一冊の本としてまとめて公開するのは本書が初めてです.

高座の幕が上がるまでにはまだ時間があるようなので,少しばかりお付き合いください.ワタクシが統計学の本を書いたのは本書『統計思考の世界:曼荼羅で読み解くデータ解析の基礎』が2冊目です(1冊目は2015年に羊土社から出した『みなか先生といっしょに 統計学の王国を歩いてみよう:情報の海と推論の山を越える翼をアナタに!』です).統計データ解析を本務とするワタクシにとっては,こういう統計学本を書くことは “オモテ” の仕事の一環として何となく期待されているのかもしれません.しかし,「オモテの人生」だけがすべてではけっしてないでしょう.誰しも多かれ少なかれ「ウラの人生」をひそかに生きるときもあるにちがいありません.少なくとも私は “オモテ” と “ウラ” の両面の研究者人生を長く続けてきました.

本書のような生物統計学の本は,ワタクシが想定する読者層である国や都道府県などの農林水産研究機関研究員のみなさんにもおおいに “役立つ” と自負しているのですが,農林水産省が求める “社会実装” なる曖昧模糊とした基準に照らせば個人業績としてはおそらく高くは評価されないでしょう.ワタクシの周りを見回しても,英語で原著論文を書くことには執着しても,本書のような日本語の単著を書くような研究者はほとんどいなくなっているのが実情です.自分の専門分野のアウトリーチのためにも,さらには科学研究のいまを周知するためにも,一般(の日本人)に向けて「本を書く」ことは「論文を書く」のと同等あるいはそれ以上の意義があると私は確信しているのですが,残念ながらそれはワタクシの周囲では共通認識ではないようです.

そういう世知辛い研究者の世の中にもかかわらず,ワタクシがほぼ毎年のように,役に立つ立たないに関係なく,日本語の本を出し続けてきたのは,“空気” をまったく読まない “天動説” の気質が昔からあったからだろうと思います.

あ,出囃子が聞こえてきました.みなさんとはきっと何かの縁があったにちがいありません.ぜひこの機会に統計学の世界を存分に堪能していただければ噺家冥利に尽きます.それでは,失礼して高座に上がらせていただきます.

[「まえがき — 高座の出囃子が聞こえてくる前に」と「いささか長めの謝辞 — あとがきに代えて」から抜粋加筆: 2018年4月6日]


Last Modified: 20 April 2018 by MINAKA Nobuhiro