● 7月2日(月):カフェ・デュ・モンドで夜明けのベニエを

◇午前4時に目が覚めてしまう.カイエを書きまくり,気がつけばもう午前8時だ.外は晴れて窓ガラスが熱い.昨日の最高気温/最低気温/湿度は,華氏で91度/73度/62%だった.メキシコ国境に近い地域では110度超という猛暑になったとのこと.連日,これだけ暑い日が続くと,体調が夏モードになってしまって,日本に帰国したらかえってまごついてしまうかもしれない.

◇午前9時からシンポジウム〈Phylogenomics〉が始まっている.いまひとつこのキーワードがどれほどの統率力があるのかがぴんとこない.しかし,それよりも先に,昨日の記憶を書き留めておかないといけない.記憶は揮発するためにあるので,とにかく何かに書いておくにかぎる.ぼくの場合はこの日録が備忘メモとしてたいへん役立っていて,「アレ,何だったっけ?」と思い出せないときは,自分の日録を Google 検索すると,たいてい該当する月日がヒットする.日録は自分のために書くのだ(利己主義者).

で,その Google なのだが,Systematic Biology の最新号に Google Earth を tree viewer として利用する論文(→ DOI:10.1080/10635150701266848)を書いた Daniel Janies と昨夜のバンケットで話す機会があった.Google Earth で系統樹を描くのはめんどうかと訊いたら,「ぜんぜんそんなことはない.形質データと GISデータさえあればすぐに描けるし,近いうちに Rod Page が TreeView のアップデートで,この機能を付け加えるはずだ」と言っていた.Janies のトークはいま目の前で話されている.〈Mesquite〉のモジュールをうまく利用しているようだ.

◇さて,昨日の〈Alignment〉シンポジウムで書き残したことをまとめておく —— Ward Wheelerの講演「Complexity-Based Optimality and Sensitivity Analysis」が興味深かったのは,彼が「MDL(=Minimum Description Length)基準」に準拠して,系統推定の最適化を統一しようと考えているからだ.コルモゴロフ複雑性の理論はチューリング・マシンの長さによって複雑性を測る.ある配列 x の複雑性を bit 単位で K(x) と表す.この K(x) を最小化するアラインメントと樹形を同時に推定するというのが目標である.ある系統樹の複雑性は:Ktree=K(vroot)+Σ[1〜2n−2]K(vi|vj) [j は i の祖先]と表現できる.

MDL基準は,L() を長さとして,L(H)+L(D|H) を最小化する(Hは仮説,Dはデータ).つまり,この基準をみたす仮説がベストであると判定される.このLをKで置き換えると,K(H)+K(D|H) を最小化するという基準になる.Indelsのみを考えたときMDL基準は最節約基準になり,Log(indels frequency)を最節約コストととする一般化最節約推定になる.しかし,このコストを「IndelsSub」あるいは「AffineIndels」で置き換えることにより,最尤法やベイズ法にもなるという.つまり,単一のMDL基準さえあれば,従来の最節約法・最尤法・ベイズ法は統一的に最節約基準のもとにまとめられるということだ.

—— なお,「MDL原理」に関しては:下平英寿・伊藤秀一・久保川達也・竹内啓『モデル選択:予測・検定・推定の交差点』(2004年12月22日刊行, 岩波書店[〈統計科学のフロンティア〉第3巻],ISBN:4-00-006843-1→目次)に所収されている伊藤秀一の解説記事(第II部「情報圧縮と確率的複雑さ:MDL原理」,pp. 77-138)がタイトルと内容から言ってぴったりだろうと思う.さらにさかのぼれば,同じ岩波の〈応用数学〉講座にMDL原理に言及した本があった:韓太舜・小林欣吾『情報の符号化と数理』(1994年12月22日刊行, 岩波書店[岩波講座〈応用数学〉対象11], ISBN:4-00-010523-X→目次).

◇ランチタイムをはさんで午後の最初は fellow meeting.Fellow になったのでぼくも出席した.でも10分ほどですぐ終わってしまった.続く,最後の一般講演セッションでは,いくつか興味深いトークがあった.Mario de Pinna「Homoplasy, Information and Hierarchical Correlation」では,ホモプラジーの持つ意味を再検討する.ホモプラジーを「形質と樹形との不一致度」と定義することには問題がないのだが,それを系統学的情報をもたない“ノイズ”とみなすことには問題がある.ここで,「hierarchical correlation」を導入する.それは,形質の全変化が樹形に貢献する役割の程度と定義される.従来は,ある樹形のもとで得られたある形質のステップ数 s =m+h(mは最小数,hはホモプラジー数)というおおざっぱな分割しかしなかったが,さらに細かく分ける必要があると言う.

いまある形質に関する s を si と st に分割する.ここに,si とは系統樹の内部枝で生じる informative な変化の数であり,st とは末端枝で生じる uninformative な変化の数である.そして,si / s を「階層相関指数(hci)」と定義する.全形質に関する集計は,Σsi/Σs=Σsi/L となる.さらに,理論的最大変化数gとの比 st/g を考えることにより,1−st/g を「相対的階層相関指数(rhci)」と定義する.これらの尺度をもちいて形質の weighting が可能だろうというのが趣旨だった.

◇もうひとつ,John Freudenstein & Jerold I. Davis「Going Out on a Limb : An Analysis of Resampling Branch Support」は,parsimony jackknife に焦点を当て,形質データからのリサンプリングの性質を現実の形質データ(植物)に基づいて調べた結果だ.branch support の値が形質リサンプリングのやり方と探索設定によって大きく変わることは今までも知られていたが,その差異を体系的に調べたという点が重要だ.TNT における JAC / XAC と PAUP* での JAC を以下のオプション設定を変えることにより,その影響とちがいを分析した:1) リサンプリング回数; 2) 探索時に hold される樹数; 3) ある試行で保存される樹数; 4) branch-swapping のモード.

その結果,「よく調べるほど値が大きくなる」という一般的傾向は確かにあることがわかる.その一方で,TNTとPAUP*では branch support の値に大きなズレがあり,それは集計方法のちがいであることが示される.PAUP* では,試行ごとに多数決合意樹で頻度が計算されるのに対し,TNTでは試行全体を集計して厳密合意樹を出すからだ.PAUP* のような試行ごとに集計すると artificially high value がはじき出される危険性があると Freudenstein は結論する.recommendation としては,小さなデータセットならばそこそこの反復回数で大丈夫だが,大きなデータセットでは系統樹をしっかりサンプリングするべきだということになる.

◇続く,Rudolf Meier et al.「More on DNA Barcoding and DNA Taxonomy」では,CBOL(=Consortium of Barcoding of Life) が推奨している基準はダメだろうという講演だった.バーコードによってうまく「ギャップ」が見つかれば同定は可能だが,それができるのはデータベースが十全であるという前提があるはずだ.しかし,例えば Diptera の場合,20年かかって1,001種しか登録されていない.記載種はq44,000種あるが,未記載が850,000種もあるという.これでは使い物にならないだろう.CBOLの推奨では,「650bp以上のCOI配列」となっている.しかし,COIだけが同定能力をもっているわけではなく,他の分子マーカーでも同等だ.さらに,650bpもの長さは必要なく,80%程度の同定でよければ300〜400bpもあれば十分で,これだと感想標本からでも取れる可能性が高まるだろうと言う.

—— 午後3時半に大会プログラムをすべて終了.プロデュースしてくれた Mark Siddall に拍手また拍手.来年はアルヘンティーナ,そして再来年はアジアでの初めての開催となるシンガポールだ.

◇さて,すべて終わったので,あとは街中へ出撃だ.めちゃめちゃ暑い〜.日本体感基準で言えば33〜35度くらいか.日射しでくらくらする.ジャクソン広場の Café du Monde の真向かいにあるショップで,チコリ入りのコーヒー缶を買う.360g で5ドルとは安過ぎる.ジャクソン将軍に見下ろされつつ,炎天下のジャクソン広場を横切る.

◇平日になってやっと席が空いた気配のある〈Gumbo Shop〉に入る.ジャンバラヤはまあどこででも食べられるが,ガンボはニューオーリンズでしか味わえない.しかし,酷暑の昼下がりに熱いガンボに惹かれる客はあまりいないらしく,店内は肩すかしを喰わされるほどガラガラだ.週末の長蛇の列はいったいどーしたんだ.Seafood Okra Gumbo とともにサイドメニューで Red Bean を注文する.どちらもスープ(といえばそう)で,ルイジアナ米が入って運ばれてきた.この味わいは格別ですなあ.

日本を離れてニューオーリンズに来てからというもの,実は肉をほとんど口にしていない.よく食べるものは米が中心で,あとはシーフードのみ.オイスターやザリガニを喰っているようではアメリカに来た気がまったくしない.〈Gumbo Shop〉では料理とともに暖かいフランスパンももってきてくれたが,こちらの「フランスパン」というのはバゲットやバタールではなく,コッペパンを巨大にしたようなかたちをした po-boy に使われるパンだ.

—— さ,これで〈Hennig XXVI〉に関わることどもはすべて終わった.明日は未明にホテルをチェックアウトしないといけないので,荷物をまとめて早く寝ないといけない.夜歩きは禁物だ.

◇本日の総歩数=3807歩[うち「しっかり歩数」=0歩/0分].全コース×|×.朝○|昼○|夜△.前回比=未計測/未計測.


Cahier du Vieux Carré「目次」