クラスター分析の光と闇
――なぜヒトは分類に憑かれるのか?――


三中信宏
農業環境技術研究所
minaka@affrc.go.jp
http://cse.niaes.affrc.go.jp/minaka/


●はじめに――"To classify is human"
分類(classification)は,秩序(order)を求める人間の基本的欲求に由来する行為である.分類の対象は生物であっても非生物であってもかまわない.個物としての多様な対象物のありようを理解するために私たちはつねに分類し続けている.人間は生まれながらの分類者(classifier)である.採集狩猟をしながら進化してきた過去数十万年の間に,ヒトは自然界に存在するパターンを認知し理解するように,認知カテゴリー化および帰納的推論の様式を自然淘汰によって獲得してきたと考えられる.
 分類とは外在する離散的実体を発見する行為であると考えるのはまちがいである.むしろ,時空的に連続する外界を人間が理解するために,離散的なカテゴリー(類や群)を認知的に造りだしていると考えるべきだろう.分類は分類学(taxonomy)の専売特許ではない.分類学者(taxonomist)だけがものを分けているのではない.むしろ,分類学者ならぬ私たち自身が,実は生得的な分類者として日常生活の中で分類し続けている――この現実をまずはじめに理解しておきたい.
 「クラスター分析(cluster analysis)」とは,多変量解析の手法のひとつとして今日その位置づけがなされている.それは,多変量データに基づいて対象を群(クラスター)に分ける手法であると理解されている.しかし,他の多くの統計的手法がそうであるように,クラスター分析もまたそれが生みだされる契機となった歴史的な文脈があった.なぜ統計学は分類の世界に足を踏み入れたのだろうか? そこには「客観的な分類」すなわち「自然分類」が統計学により実現できるのではないかという理想が語られた時代があった.結果としてその理想は潰え,クラスター分析は分類学においてその栄光の地位を失うことになった.しかし,それは悲しむべきことではない.むしろ,クラスター分析は,私たち人間が根源的にもつ,ある認知的性向に現代的な光を当てているのである――「分類するは人の常」.

●認知カテゴリーと心理的本質主義
なぜ私たちは対象物を「カテゴリー化」するのか? その理由は,多様な対象物をカテゴリーとして類別することにより,記憶の負担を軽減し,情報の貯蔵と検索の効率を上げられるからである.文化人類学者が比較したように,連続的波長のスペクトルによって変化する色の離散的なカテゴリー(「赤」とか「緑」のように)を造ることで色彩のありさまを理解するように,認知カテゴリーが果たしてきた機能は分類という行為のもつ意義を明らかにする.「記憶術」としての分類が今なお実用的価値を保持していることは,ほかならない私たち自身が日常生活の中で日々実感している.
 生物分類学を過去2000年にわたって支配した本質主義(essentialism)は,生物の分類群(タクソン)を定義できる本質的性質の発見を求めてきた.ここでいう本質主義は,群には本質(essence)が存在するとみなす立場であり,その立場に立つと自然界は本質をもつ群で構成されているという教義――「自然類(natural kinds)の教義」と呼ばれるものに行き着く.
 もちろん,現代の進化学は生物に関するこの本質主義は反進化的であるとして全面的に排除する.なぜなら,本質によって定義された群は原理的に進化できないからである.しかし,むしろやっかいなのは,学問的なレベルで本質主義が拒絶できたとしても,もっと心理的・認知的なレベルで本質主義を排除し切れるのかという問題である.「なぜヒトはそれにもかかわらず本質を求めるのか?」という点にあると私は考える.最近の発達心理学の研究は,人間の幼児が,机や椅子のような人工物の類とは異なり,イヌやトリのような「生きものの類」の中に本質が潜在すると認知してカテゴリー化していることを明らかにした.すなわち,人間は生得的に心理的本質主義(psychological essentialism)をビルトインされているということだ.分類の認知的な基盤は進化的思考と根本的に相容れない.分類対象が時空的に進化するケースでは,このような矛盾が表面化する.

●理想の分類を目指して――「数量表形学」の登場
分類は人間ともにあった.実用的記憶術としての分類の認知的ルーツは,いまなお私たちが日常的に行なう分類の基本線を決定している:1)互いに類似した対象物を離散的にカテゴリー化することにより名称の数を減らす;2)つくったカテゴリーを階層化し,階層的分類体系として構造化する;3)構築した分類体系はできるだけ大規模な変更を回避し,部分的な改良でしのぐ――記憶のためのこれら3つの認知的方策(離散カテゴリー・階層的構造・安定性)は,いずれも生物分類学者たちが実用的な分類体系のもつべき望ましい特性として挙げたものである.望ましい分類とは覚えやすい分類である.
 記憶術としての分類の有用性を改良しようと分類学者がもし考えるのであれば,人間による対象物の認知カテゴリー化についてより深く知る必要がきっとあるだろう.認知を抜きにして分類を論じてもしかたがない.分類カテゴリー化を行なう主体としての人間の認知構造の仕様を探るのが最良の道だろう.分類学の長年のゴールだった自然分類(natural classification)なるものがもし実現可能だとしたら,それは認知科学の中から生まれてくるものだと私は考える.
 しかし,分類学の歴史を振り返ると,必ずしもそのような道筋をたどってきたわけではない.むしろ,分類群の本質主義的性格をそのまま温存して,数量化への道を驀進した時代があった.それが1950年代後半から始まった生物分類学における数量表形学(numerical phenetics)すなわち数量分類学(numerical taxonomy)の運動だった.多変量解析法としてのクラスター分析は数量表形学の中で生まれ育ち,新興の数量表形学にとってまさに「剣」だった.
 数量表形学は,数値化された多変量データに基づいて分類対象(OTU: operational taxonomic unit)の間の近さを距離(全体的類似度overall similarity)として計算し,距離の近いものを群(クラスター)にまとめていくというクラスター分析の手法を生物分類体系の構築に適用する.数量表形学者は,系統という実証不可能な概念を含む分類体系だめだと批判し,系統に代わる生物間の関係を表現する尺度として,多数の形質に基づく全体的類似度を用いようとした.自然分類とはできるだけ多くの形質を共有する分類群から成るべきであり,そういう分類体系はより多くの予測を可能にする一般的な分類体系(general purpose classification)であるという信念に鼓舞された数量表形学者たちは,伝統的な進化分類学への攻勢を強めた.
 数量表形学の教義は次の四つである:1)分類体系の再現性と客観性を目指す;2)等しく重み付けした多数の形質から計算された定量的類似度を用いること;3)形質の相関に基づいて情報量の大きな群を構築すること;4)表形的考察と系統的考察とを峻別すること.系統に頼らなくても客観的な分類体系は構築できるという信念がここに読み取れる.
 クラスター分析それ自体は純粋に数学の世界に属する手法である.生物分類学という数学とは無縁の学問分野に,なぜ数量表形学のような学派が生じたのかという疑問は誰しも抱くだろう.数量分類学派の歴史をたどると,進化や系統に基づく分類に対する伝統的分類学側の反発が大きかったことが数量表形学の追い風になったようだ.
 勃興しつつあった数量分類学を象徴するSokal and Sneath(1963)『数量分類学の原理』("Principles of Numerical Taxonomy")の出版を契機として,進化分類学派は,数量表形学派に反撃をしかけた.進化分類学派にしてみれば,表形学に潜む類型論(typology)は時代錯誤のイデオロギーであり,それが容認する本質主義は反進化と同義だった.数量表形学派が,形而上学や科学方法論のレベルでの論議でナイーヴ過ぎたことは確かだった.

●数量表形学の敗退――生物分類学は「ノー」と言った
クラスター分析を武器に闘いを挑んだ数量表形学派はその後どのような運命をたどったか? 1970年代半ばから80年代はじめにかけて「分類情報量論争」において一つの決着がつけられた.数量表形学派は,分類体系と元データとの一致性を示す尺度として共表形相関係数(cophenetic correlation coefficient)を提唱した.この指数は,元データである類似度行列の成分とそれから導かれたデンドログラム(表形図phenogram)の上で計測される操作的分類単位(OTU)間の共表形行列(cophenetic matrix)の成分との行列相関係数として定義される.この共表形相関係数は、与えられた類似度行列とデンドログラムとの適合性の尺度であり、与えられた形質情報がある分類体系の中にどれくらい正確に保存されているのかをあらわす.
 数量表形学派はクラスター分析に基づく表形的分類体系の方が系統に基づく分類体系よりも共表形相関係数が高いと主張してきた.進化や系統による分類体系では、分岐情報は別として、生物間の分化の程度をあらわす類似度(あるいは非類似度)の情報をうまく反映できないだろうという論拠だった.
 しかし,実際にこの点を調べるほど,実は系統的な分類体系の方が表形的な分類体系よりも共表形相関係数が高いという皮肉な結果が明らかになってきた.その理由は,系統的分類体系では系統樹の枝に沿った距離(path-length distance)として類似度情報を保存するのに対し、表形的分類体系ではクラスター分析から出力されたデンドログラムの連鎖レベル(linkage level:クラスターどうしの結合する類似度指数の大きさ)によってしか距離情報を保存できないからだ.要するに,クラスター分析から出力されるデンドログラムは,その構造上の特性により,距離情報をごく近似的な荒っぽいやり方でしか保存できなかったのである.
 さらに,時期を同じくした「分類安定性論争」の中でも,数量表形学派は地滑り的勝利をおさめることができなかった.表形学派は,その初期から,表形分類は他の分類体系よりも安定であると主張した。しかし、他学派との論争の中で、表形的分類体系には客観性・安定性・情報量が欠けているのではないかという疑念が次第に広がってきた。双方の主張は平行線をたどった.

●しかしクラスター分析は不滅だ――認知分類のツールとして
生物分類学での数十年にわたる論争は,数量表形学派(およびクラスター分析)にとっては苦い経験だった.結論からいえば、数量表形学派は生物分類の世界から足を洗い,勝負から撤退した。数学には関心があっても哲学には疎い数量表形学者にとっては,もともと勝ち目のない勝負といってもよかっただろう.さらに,表形学派の主たる論点である表形的分類体系の情報量や安定性がことごとく論破されたため,客観的な分類体系を樹立するという同派の目標達成に陰りがさしたことも敗因の一つに挙げられるだろう.より根本的には,全体的類似度という尺度による分類体系は,進化的なスタンスによる系統体系学とは反りが合わなかったという点も無視できないだろう.系統関係を推定する技法が進歩して,精度の高い系統樹が推定できるようになったという別の要因も絡んでいた.
 理由は単純ではなかったのかもしれないが,現実は単純だ――数量表形学は生物分類の世界から消えた.しかし,それは数量表形学やクラスター分析が絶滅したことを意味してはいない.第一に,クラスター分析はもともとピュアな数学的手法ゆえ適用範囲にこだわらないという特徴がある.生物学では,生物統計学・生態学・遺伝学・形態測定学などの分野にクラスター分析が適用されてきた.外に目を向けると、心理学・社会学・認知科学などもその恩恵を受けている.何も生物分類学だけにこだわる必要はないし,そこでの論争だけにエネルギーを注いではいられなくなったということだ.1980年代以降の数量表形学派は、分類学の外に新たな活動ニッチに発見し進出していったと私は考えている.
 もし,クラスター分析が分類への適用をなお考えるとしたならば,認知分類への利用可能性が残されているように私は思う.上述したように,生物の系統進化を前提とする系統体系学が主流となっている現在の生物分類学の世界では数量表形学派は生き続けることはできない.しかし,認知科学としての分類カテゴリー化の問題に表形学的な技法を利用することはきっと意義があるだろう.私たちが自然であると認知する分類群のクラスター構造が明らかになるかもしれない.
 クラスター分析の結果を「深読み」してはいけない.クラスター分析は,類似度指数の選択やクラスタリング・アルゴリズムの選択を変更することにより,結果のデンドログラムが大きく変わってしまうという欠点がある.どれが妥当なクラスター分析のオプション設定であるかを答えることは不可能である(客観的分類のための設定が主観的に選ばれるという皮肉).もちろん,このことはどのオプションを使ってもかまわないという意味ではない.生物学関連分野に限定するかぎり,数あるクラスター分析のオプションの中で,UPGMA(群平均法)以外のすべては現在まったく使われていないことは指摘しておくべきだろう.したがって,あるオプション設定に基づくクラスター分析の結果が何かしら「真実」を言い当てていると信ずるのは思慮が足りない.クラスター分析によって何かが推定されたりテストされたりしているわけではない.
 クラスター分析は,多変量データから対象物(OTU)の間の関係を読み取るための視覚化(visualization)のツールである.この点では主成分分析(principal component analysis)や因子分析(factor analysis)と同列の手法である.その主たる利用法はあくまでも「発見的利用(heuristics)」にあり,ユーザーがインスピレーションを得られればよしとしなければならない.認知分類はわれわれの脳の中に生まれる.表形的なデータ(かたち,生態,行動)に基づく認知分類は,無意識のうちに多変量データを扱っているのかもしれない.クラスター分析がその認知分類のあり方とカテゴリー化を解明するツールとして発見的に用いられるかぎり,クラスター分析は不滅である.

●参考文献リスト
クラスター分析の手法のみを説明した数理統計学本は数知れずある.しかし,クラスター分析がどのような問題状況の中で成立したのかを知るには,母体となった数量表形学派ならびにそれを取り巻く当時の生物分類学界のようすを知る必要がある.下記に挙げたいくつかの文献は,そういう関心をもつ読者にとってきっと役に立つだろう.

【書名】Principles of Numerical Taxonomy
【著者】Sokal, R.R. and P.H.A. Sneath
【刊行】1963年
【出版】W.H.Freeman, San Francisco
【頁数】xviii+359pp.
【ISBN】なし

【書名】Numerical Taxonomy:
    The Principles and Practice of
    Numerical Classification

【著者】Sneath, P.H.A. and R.R. Sokal
【刊行】1973年
【出版】W.H. Freeman, San Francisco.
【頁数】xvi+573pp.
【ISBN】0-7167-0697-0
【備考】西田英郎・佐藤嗣二訳 (1994) 数理分類学. 内田老鶴圃, 東京, xvi+696 pp., 本体価格15,000円.(※ただし,訳文のクオリティは絶悪である.)

【書名】過去を復元する:最節約原理・進化論・推論
【著者】エリオット・ソーバー
【訳者】三中信宏
【刊行】1996年07月15日
【出版】蒼樹書房,東京
【頁数】318 pp.
【価格】5,000円(本体価格)
【ISBN】4-7891-3055-X
【原書】Elliott Sober 1988
Reconstructing the Past: Parsimony, Evolution, and Inference
The MIT Press (A Bradford Book), Cambridge, xviii+265pp.

【書名】生物系統学
【著者】三中信宏
【刊行】1997年12月15日
【出版】東京大学出版会,東京
【叢書】Natural History Series
【頁数】xiv+458 pp.
【価格】5,600円(本体価格)
【ISBN】4-13-060172-5

【題名】生物体系学におけるポパー哲学の比較受容
【著者】三中信宏・鈴木邦雄
【所収】ポパー哲学研究会(編)批判的合理主義・第2巻:応用的諸問題
【刊行】2002年08月30日
【出版】未來社,東京
【頁数】Pp.71-124.
【価格】4,800円
【ISBN】4-624-01161-9

(3 September 2003)