生物統計学への前口上:歩み始める前の心構えとして


たとえ確率論や統計学をまったく学んだことがなくても、日常生活を営む上で、実は私たち人間は必ず確率的あるいは統計的な推論を行なっています。「生物統計学(biometrics)」は、人間が生物界を観察したときに気づいたデータの変動から結論にいたる推論をするための道具として整備されてきました。「統計学」と聞くと、多くの学生はいやな数式やらめんどうな計算を条件反射的につい思い出してしまいます。けれども、生物統計学の核は「統計」ではなく、むしろ「生物」にあります。みなさんが日常的に取り組んでいるさまざまな生物学的問題 —— 生態・行動・遺伝・進化・生理などなど —— がまずはじめにあるわけです。生物統計学はこれらの生物学的問題から発する推論問題を解く道具を提供します。ですから、生物学畑の統計ユーザーにとって必要なのは、どのような統計手法が自分にとって道具となり得るのか(あるいは、なり得ないのか)、そしてユーザーが選んだ統計手法をどこまで責任をもって使いこなせるのか、という問題意識であると私は考えます。生物統計学を身につけるためには、基本となる統計学的なものの考え方が何よりも重要です。

まずはじめに、統計学的なデータ解析の対象となる変量とその記述方法について理解する必要があります。自然現象を反映する数値データはある確率をともなってばらつく「変量(variate)」と呼ばれます。この変量を対象とするデータ解析・推定・検定・予測そして意思決定をおこなう学問が統計学です。ものごとの因果関係が必ずしも明らかではないあいまいな状況のもとで、変量に関する限られた知見に基づいてある仮説の是非を判定することは日常生活では頻繁に生じます。私たち人間はそういう不確定状況での推論能力(素朴な確率論・統計学)をもちあわせています。しかし、人間がもつ素朴な確率統計の感覚的認知は必ずしもつねに妥当であるとはいえません。場合によっては、あるバイアスがかかった確率統計的認知を行ない、結論を誤ることがあることもあるでしょう。ですから、必ずしも無謬ではない発見的思考法としての素朴確率統計認知が人間にもともと備わっていることを前提として、生物統計学の合理的な利用法を考える必要があります。統計学の理論を長らく支えてきたのは、人間が行なう直感的判断への健全な懐疑心 —— すなわち経験主義の哲学 —— にほかなりません。直感にたよっているかぎり、統計理論の出る幕はないのです。しかし、人間は実際に誤りを犯すことのある生き物であるからこそ、どれくらい人間は確率統計的判断を誤るのか、その誤りを事前に防ぐにはどうすればよいのかという問題意識を生物統計学は問い続けてきました。

数理統計学という数学の一分野は、とりわけ農学系や生物学系の統計学ユーザーにとっては手ごわい相手と一般にみなされています。その理由はおそらく変量の誤差構造の定量的分析という一見わかりにくいものの考え方にあるのかもしれません。ある変量がどのような確率で値を生じるかという確率分布のモデル化を研究したドイツの数学者カール・フリードリッヒ・ガウス(Carl Friedrich Gauss)は、誤差のばらつきを表現するために正規分布という関数を開発しました。この正規分布という確率分布は、現在もなお数理統計学の定礎の地位を保ち続けています。確かに、正規分布を前提とする数理統計学の理論体系は、推定と検定のためのさまざまなモデルと道具を生物統計学者に提供してきました。その貢献は正しく評価する必要があるでしょう。

しかし、正規分布の定礎の上にそびえ立つ理論の城を見上げる多くの農学系・生物系学習者は、数理統計学を学ぶためには正規分布に基づく理論体系を会得することが城門の通過儀礼として求められていると思い込み、そして悩み続けています。その悩みのある部分は、学習者の初等的な数学的能力の欠如に起因するのですが、別の部分ははたして正規分布に基づく数理統計学が農学・生物学研究の現場にどれほど通用するのかという疑念に起因しています。生物統計学を実践するには「正規分布を学べ」というスローガンだけでは学習者の心理的動機づけとしては不十分なのです。

今日では、機能的にも操作的にもすぐれた多くの統計解析ソフトウェアが高速のパーソナル・コンピューター上で比較的容易に利用できるようになりました。大量の統計計算そのものに苦労したかつての時代とは彼我の感があります。しかし、ハードウェアとソフトウェアの進歩の恩恵を受け、統計計算の負担から解放された今日の統計学ユーザーには次なる陥穽が待ちかまえています。それは、得られたデータを手近にある適当な統計解析プログラムに無思慮に投げ込んでそれで満足してしまうという現代ならではの症候群です。

いったん現場で開発された生物統計学の手法は、数学的に磨き上げればごく一般的な数理統計学の理論となります。数学的に洗練されてしまうと、データの形式さえ適合しているかぎり、どんな統計的手法でも適用できます。たとえ、その手法の前提条件が満たされていなかったとしても、統計計算はつつがなく完了し、計算結果はきれいに出力され、ユーザーはその出力をみて満足してしまう —— 残念なことに、この症候群はしだいに蔓延しつつあるようです。

しかし、ある統計的手法の適用が妥当であるかどうかは、数学的にではなく、むしろ生物学的に判断されるべきです。そのためには、ある統計理論が生まれ出てきた生物学的ルーツこそ学ぶべきでしょう。そのときはじめてある統計的手法の適用限界がわかるからです。その手法の生物学的ルーツを知ったあとで、現代的に洗練された数学理論と格闘しようと決心してもあるいは使用する統計解析プログラムのマニュアルをひもといてもけっして遅くはないはず。

生物統計学のたどってきたルーツをふりかえるとき、きわめて逆説的ながら「数学は統計学にとって必須ではない」と断言できます。われわれ統計学ユーザーにとって本当に必要なのは、日常的に取り組んでいる農学・生物学上の具体的な問題状況の把握である。生物統計学で現在用いられている多くの理論はいずれも特定の生物学的問題の解決を目指して開発されたものです。たとえば、分散分析は、当時イギリスのロザムステッド農業試験場にいたロナルド・フィッシャー(Ronald A. Fisher)が圃場データを解析するために開発した方法でした。また回帰分析は、生物統計学の祖であるフランシス・ゴルトン(Francis Galton)が親子間での関連性を解決するために編み出した手法でした。

世には「統計学イコール数学」とか「数学は統計学の基礎である」という通説がまかり通っています。この通説のせいで、多くの統計学ユーザーは統計学の理論的背景に関して思考停止してしまい、結果として上記症候群の広範な蔓延をもたらす結果となりました。もうそろそろこの通説から卒業してもいい頃でしょう。本末転倒してはいけない —— わたしたちは、統計理論の会得やソフトウェアの習熟などではなく、なによりもまず農学・生物学上の具体的問題の解決を目指していたはずだから。

データはばらつく —— たとえ精密を期した工業製品であっても、製造工程でのさまざまな確率的要因の関与により、製品の特性値にはばらつきが生じます。ましてや、生物では、遺伝的変動および環境的変動の複雑な絡み合いにより、観察データの中にはばらつきが生まれるはずです。統計学が要求されるのは、ばらつきのあるすなわち変動のあるデータからある未知のパラメーターに関する推論をしなければならない状況においてです。

データのばらつきとは、次の二段階を経てはじめて定量化できるでしょう。まずはじめに、複数データ点の平均を計算することにより数空間のなかでのデータ点のおおまかな位置付けができます。つぎに、それぞれのデータ点が計算された平均値からどれほどばらついているかを分散として数値化することにより、データ集合としてのばらつきの評価が可能になります。統計分析の出発点はこのばらつきすなわちデータの変動です。

一変量データ・多変量データの別を問わず、われわれが統計理論を用いるときの出発点はデータの変動です。観察されたデータの値がばらつくとき、その原因は処置した実験処理の結果でしょうか、それとも偶然誤差に起因したのでしょうか。複数の実験処理を組み合せたとき、それらの要因の間にはどのような関連があるのでしょうか。統計学的な推定・検定とは、これらの問いに答えるための方法です。ある被検集団の平均値(パラメーター)の値を複数の無作為標本のデータ値から推定(点推定または区間推定)したり、あるいは平均値のパラメーターの大きさに関する仮説を検定することを通して、わたしたちは未知のパラメーターに関する推論を行なうことができます。統計学的な推論は、データに照らして不適当な仮説を棄却することによって進められます。

これらの統計学的な疑問に答えるには、まずはじめにデータの変動というあいまいな現象をモデル化したり定量化したりする必要があります。上述のガウスの正規分布関数はそのための強力な武器の1つです。しかし現実には正規分布に正確に従うデータはありません。正規分布(あるいは他のパラメトリック確率分布)からのずれが小さいときは、近似的にもしくは変数変換によって、正規分布ベースの推定・検定方法のようなパラメトリックな標準的統計手法を利用するのがこれまでの常套手段でした。しかし、正規分布以外の確率分布に基づく一般化線形モデルの理論を背景とする統計モデリングは前途有望です.場合によっては、検出力は多少落ちてもノンパラメトリックな統計手法を用いるという手もあるでしょう。また、ブーツストラップなど新たなコンピューター集約型の統計手法を駆使して統計量の確率分布を生成するというやり方も広く利用されるようになってきました。広範な応用可能性が期待されるベイズ統計学は私たちの統計データ解析のツールボックスに新たな道具をもちこんでいます。このような生物統計学の「現場」の事情に合わせて、既存の統計学の理論を鍛え直していく試みは今後も続けられていくでしょう —— そして、賢明な統計学ユーザーはこのような手法の進歩が今なお続いていることを知っています。

一変量統計学・多変量解析のいかんを問わず、そこで用いられる数学は言葉である。統計学者が数式を多用するのは、それが便利な言葉であるからにほかならなりません。しかし、統計学ユーザーはその学問的慣習に必ずしもなじむ必要はないのです。統計学の哲学的基盤は経験主義であり、その認知的ルーツはわれわれ自身がもっている素朴確率統計推論です。したがって、現在利用されている統計理論の根幹はすべて直感的に理解できるし、それをまず目指すべきでしょう。統計学とは「内なる科学」なのです。

私が自分のデータを統計解析するとき、あるいは他人に頼まれて統計コンサルティングをするとき、ユーザーがあらゆる統計理論に通暁することは現在では不可能です。おそらくほとんどの農学系・生物系ユーザーは、自らの限られた統計学の知識を酷使して問題解決にあたっているという方がむしろ事実に近いでしょう。事態をさらに悪くしているのは、統計学の世界があまりに広すぎるため、数理統計学に一生を捧げている専門の統計学者以外、この世界のどこにどのような統計手法があるのか、それらの手法の間の相互関係はどうなっているのかについてまったく闇の中という現実です。

とりわけ、統計学をはじめて学ぶ者にとって、いま学んでいる手法が統計ワールドの中のどこに位置しているのかをまったく知らされないまま、数式や理論や分析ツールをいじらされるというのは、教育上のみならず精神衛生上もよいはずがありません。この点で統計学ユーザーに望みたいのは、統計学の世界の鳥瞰です。できるだけ広く遠く生物統計学の裾野を見渡してみようということです。自分の抱えている問題解決にとって、いま使っている統計手法ははたして適切なのか、他にももっと使える方法があるのではないか —— この素朴な知的好奇心こそ、蔓延する無思考症候群を予防し、主体的かつ積極的な統計学ユーザーへの道を拓くのです。

三中信宏(1 September 2003|12 April 2015 加筆修正)