東京農業大学(つくばアネックス)「応用昆虫学」講義として

Rを用いた基礎統計学 — 幾何学的形態測定学への導入として

三中信宏(東京農業大学客員助教授・応用昆虫学)


日時:2005年4月26日(火)から毎週火曜 13:00〜15:00 に開講
場所:農業環境技術研究所・地球環境部・環境統計ユニット(つくば市観音台 3-1-3)
教材:下記の2冊を教科書として用いる —

Jerold H. Zar (1999)
Biostatistical Analysis (Fourth Edition)
Prentice Hall, Upper Saddle River, Ner Jersey, xii+664+212+12+20+23 pp., ISBN:0-13-081542-X.

M. L. Zelditch, D. L. Swiderski, H. D. Sheets, and W. L. Fink (2004)
Geometric Morphometrics for Biologists: A Primer
Elsevier Academic Press, San Diego, xii+443 pp., ISBN:0-12-778460-8→目次


シラバス

統計学は,観測データがもつ“ばらつき”のパターンを解読することにより,データの背後に潜む現象に関して提示された仮説をテストするための手法である.既知のデータからいかにして未知の現象に関する推論を行なえるのか,そのためにはどのような手順をもちいることが妥当なのかということがつねに問われている.

前半は,数理統計学の基礎をテキストの輪読と統計言語「R」を用いた問題演習を通じて学ぶ.受講生は輪読テキストの演習問題を「R」を用いて解くことが求められている.1変量に関する記述統計量,いくつかの統計手法(推定・検定を含む),そして実験計画と分散分析,回帰分析,分割表分析などが前半のコースに含まれる.数理統計学に関する基礎知識あるいは「R」に関する事前知識はとくに必要ないが,自発的・積極的な学習が期待される.

後半は,前半での統計学の知識を踏まえて,幾何学的形態測定学(geometric morphometrics)に関する講義を行なう.生物あるいは無生物の“かたち”に関する定量的アプローチは,これまで伝統的な多変量解析の一問題とみなされてきた.しかし,“かたち”のデータは単に数値化すればすむ問題ではなく,それがもつ「幾何学的情報」をいかにうまくすくいあげられるかが重要であるという認識がここ20年の間に定着してきた.そこで,“かたち”のもつ幾何学的データの定量化に主眼を置き,幾何学的形態測定学の手法について学ぶことにする.とくに,体系学への応用を目指し,幾何学的形態測定学で得られた知見を系統推定に結びつける手順について触れる予定である.

講義(通年)は基本的に輪読形式で,適宜 R や形態測定学のコンピュータ・デモンストレーションを行なう.講義に用いたハンドアウトと参考文献はこのページにそのつど掲載する.[講師:三中信宏]

【追記】本講義は終了したので,新しいページに移行する.(21 February 2006)


第1回:2005年4月26日(火)

第2回:2005年5月10日(火)

第3回:2005年5月17日(火)

第4回:2005年5月24日(火)

第5回:2005年5月31日(火)

第6回:2005年6月7日(火)

第7回:2005年6月14日(火)

第8回:2005年6月21日(火)

第9回:2005年6月28日(火)

第10回:2005年7月5日(火)

第11回:2005年7月12日(火)

第12回:2005年7月19日(火)

第13回:2005年7月26日(火)

第14回:2005年8月2日(火)

第15回:2005年8月9日(火)

第16回:2005年8月23日(火)

第17回:2005年8月30日(火)

第18回:2005年9月6日(火)

第19回:2005年9月20日(火)

第20回:2005年9月28日(火)

第21回:2005年10月04日(火)

第22回:2005年10月11日(火)

第23回:2005年10月18日(火)

第24回:2005年10月25日(火)

第25回:2005年11月1日(火)

第26回:2005年11月8日(火)

第27回:2005年11月15日(火)

第28回:2005年11月22日(火)

第29回:2005年11月29日(火)

第30回:2005年12月6日(火)

第31回:2005年12月13日(火)

第32回:2005年12月20日(火)

第33回:2006年1月10日(火)

第34回:2006年1月17日(火)

第35回:2006年1月24日(火)

第36回:2006年2月7日(火)

第37回:2006年2月14日(火)

第38回(最終回):2006年2月21日(火)

参考図書[全般的]


第1回:2005年4月26日(火)

Chapter 1. Introduction(pp. 1〜15)/ Chapter 2. Populations and Samples (pp. 16〜19)

第1章:「統計学」とは,「the analysis and interpretation of data with a view toward objective evaluation of the reliability of the conclusion based on the data」(p. 1)である.統計学には,データを要約する「記述統計学(descriptive statistics)」と,未知のものへの一般化を目指す「推測統計学(inferential statistics)」がある(p. 2).

データの4型(pp. 2-5):

  1. 比率尺度(ratio scale):「体長」や「体重」のデータのように,等間隔の“目盛”をもち,さらに基準としての“ゼロ点”をもつ.基準“ゼロ点”から計測することにより,各データ値の「比率」が意味をもつ.たとえば,「体長100cm」は「体長50cm」の“2倍”であるという表現には意味がある.
  2. 間隔尺度(interval scale):「摂氏温度」のように,等間隔の“目盛”はもつが,基準“ゼロ点”をもたない.したがって,「摂氏30度」が「摂氏10度」よりも“3倍熱い”という表現はできない.(一方,同じ「温度」であっても「絶対温度」は絶対零度を基準“ゼロ点”とする比率尺度である.)
  3. 順序尺度(ordinal scale):順位データのように,数直線上に大小関係にしたがって並べることはできても,間隔が必ずしも等しくないもの.
  4. 名義尺度(nominal scale):定性的カテゴリーのように,数値的大小関係によって整列できないもの.

頻度分布と累積頻度分布についての説明.

第2章:母集団(population)と標本(sample)について.とくに,無作為標本(random sampling).母集団に関する属性をあらわす母数(parameter)に関する推論を行なうために,標本から計算された量を「統計量」(statistic)と呼ぶ.母集団に関する母数としては,中央指標(measure of central tendency)と散布指標(measure of dispersion)が重要であり,それぞれ第3章と第4章でさらに解説する.


第2回:2005年5月10日(火)

Chapter 3. Measures of Central Tendency (pp. 20〜31) / Chapter 4. Measures of Dispersion and Variability (pp. 32 ff.)

第3章では,変量の分布の位置(location)を表わす指標群(平均,モード,メディアンなど)について解説する.本文では詳述されていないが,期待値(expectation)の演算子(E)を離散変数・連続変数に対して定義することでリクツはよりわかりやすくなる.確率変数 X に対して,母平均μ=E[X];母分散σ2 =var[X]=E[(X − E[X])2].さらに,期待値演算のいくつかの性質を説明した:1)E[aX+b]=aE[X]+b(a, b:定数);2)var[aX+b]=a2・var[x].

母平均(μ)に対する標本平均:Xbar=ΣXi/n(nは標本サイズ)に関しては,不偏性:E[Xbar]=E[ΣXi]/n=ΣE[Xi]/n=n・μ/n=μが成り立つ.また,var[Xbar]=var[ΣXi/n]=Σvar[Xi]/n2=n・σ2/n2=σ2/n となる.

母分散(σ2)に対する標本分散S2は,S2=Σ[(Xi − Xbar)2]/(n−1)と定義される.S2が不偏性をもつことは,下記により証明できる――

 Σ[(Xi − μ)2]
  =Σ[{(Xi − Xbar)+(Xbar−μ)}2]
  =Σ[(Xi − Xbar)2]+2・Σ(Xi − Xbar)(Xbar−μ)+Σ[(Xbar−μ)2]
   ※ Σ(Xi − Xbar)=0 ゆえ
  =Σ[(Xi − Xbar)2]+Σ[(Xbar−μ)2]
  =Σ[(Xi − Xbar)2]+n・[(Xbar−μ)2]
移項すると:
 Σ[(Xi − Xbar)2]
  =Σ[(Xi − μ)2]−n・[(Xbar−μ)2]
となる.
したがって――
 E[S2]
  =E[Σ[(Xi − Xbar)2]/(n−1)]
  =E[{Σ[(Xi − μ)2]−n・[(Xbar−μ)2]}/(n−1)]
  ={ΣE[(Xi − μ)2]−n・E[(Xbar−μ)2}]/(n−1)
   ※ 母分散 E[(Xi − μ)2]=σ2 および
   ※ 標本平均分散 E[(Xbar−μ)2}]=σ2/n ゆえ
  ={n・σ2−n・σ2/n}/(n−1)
  =(n−1)・σ2/(n−1)
  =σ2 ■


第3回:2005年5月17日(火)

Chapter 4. Measures of Dispersion and Variability (pp. 32〜47)

データのばらつき(dispersion)の尺度を定義する:レンジ・平均偏差・分散・標準偏差・変動係数・多様度指数.

多様度指数については Zar 自身による研究論文が引用されている.Shannon-Wiener 指数(H=−Σp・log[p])に基づく多様度指数(無限集団からの無作為サンプリングの場合)と Pierou / Brilloin による有限集団からのサンプリングによる多様度指数が解説された.

次の Chapter 5「Probabilities」(pp. 48-63)は,場合の数の計算と確率計算の基本についての章なのでスキップする予定.


第4回:2005年5月24日(火)

Chapter 6. The Normal Distribution (pp. 65〜90)

正規分布 N(μ, σ2) の確率密度関数にしたがう変量Xと,それを標準化1次変換 Z=(X−μ)/σすることで得られる標準正規分布 N(0, 1) を解説.歪度(skewness)と尖度(kurtosis)についてやや詳しい説明がある:k次モーメント(積率)E [(Xーμ)k]に基づく定義と標本からの推定値,そしてその quantileバージョン,さらにβパラメーターについて.確率分布の“形状”に関する描写を行なう.母平均μに関する仮説検定.検定のリクツについて説明する.正規性を仮定したときの計算例.最後に,正規性の検定方法について.


第5回:2005年5月31日(火)

Chapter 7. One-Sample Hypothesis (pp. 91〜98.)

標本平均を検定統計量とする母平均に関する仮説検定の例示.t分布を用いての両側検定と片側検定,そして信頼区間の構築.この手の“生物統計学”の教科書にはありがちなことだが,統計量の確率分布に関する理論的な背景についてはほとんど言及がない.だから,大幅な補足をする.

正規母集団からの無作為標本に基づく標本平均が正規分布にしたがうことを積率母関数(monent generating function)を用いて証明する.積率母関数は,ある確率変数Xに関する期待値の関数 mX(t) = E[eXt] と定義される.変数 t に関して微分をすると

 dmX(t) / dt
   =dE[eXt] / dt
   =E[deXt / dt]
   =E[X・eXt]

したがって,t=0 とおくと

 dmX(t) / dt| t=0 =E[X]

となる.この値は,1次の中心モーメント(central moment)である.同様に,両辺の微分を繰り返して,その都度 t=0 とおくと

 d2mX(t) / dt2| t=0 =E[X2]
 d3mX(t) / dt3| t=0 =E[X3]

というようにして,2次,3次の中心モーメントが求まる.一般に

 dkmX(t) / dtk| t=0 =E[Xk]

となる.このようにして高次のモーメントは積率母関数の高階導関数から容易に計算できる.

積率母関数は,単にモーメントを求めるためだけではなく,統計量の確率密度関数を決定するときにも強力なツールとなる.いま,正規分布集団 N(μ,σ2) から得られた無作為標本 X1, X2, …… , Xn から計算された標本平均 Xbar=ΣXi/n の確率密度関数を求めよう.平均μ,分散σ2をもつ正規分布の積率母関数は

 mX(t)
   =E[eXt]
   =E[e{(X−μ)t+μt}]
   =eμt・∫ e[(X−μ)t−{(X−μ)2/(2σ2)}] / {(2π)(−1/2)・σ}dx
   =eμt・∫ e{(X−μ−σ2・t)2−σ4・t2/(−2σ2)} / {(2π)(−1/2)・σ}dx
   =eμt・e2・t2/2)∫ e{(X−μ−σ2・t)2−σ4・t2/(−2σ2)} / {(2π)(−1/2)・σ}dx

上式の下線部は正規分布 N(μ+σ2・t,σ2) の全確率なので,値は1となる.したがって

 mX(t)=e(μt+σ2・t2/2)

となる.

さて,この正規母集団からの無作為標本 X1, X2, …… , Xn から計算された標本平均 Xbar の積率母関数を計算する.

 mXbar(t)
   =E[eXbar・t]
   =E[e(ΣXi/n)・t]
   =E[Πe(Xi/n)・t]
   =Π{E[eXi・(t/n)]}
   =Π{mXi(t/n)}

すべてのXiは独立かつ同一の正規分布 N(μ,σ2) にしたがうから,その積率母関数を代入すると

 mXbar(t)
   =Π[e{μ(t/n)+σ2・(t/n)2/2}]
   =e[Σ{μt/n)+σ2・(t/n)2/2}]
   =e{μt+(σ2/n)・t2/2}

この積率母関数は,正規分布 N(μ,σ2/n) のそれに等しい.したがって,標本平均 Xbar は正規分布 N(μ,σ2/n) にしたがう.

続いて,その標本から求められた平方和がχ二乗分布をすることを用いて,標準正規変量と分散推定値平方根の比(t統計量)の確率密度関数を変数変換によって導出すること.ただし,これは来週まわしになった.


第6回:2005年6月7日(火)

Chapter 7. One-Sample Hypothesis (pp. 98 - 110.)

正規分布変量から導出される確率密度関数のいくつかを解析的に求める.n個の独立な標準正規変量Ziの平方和Σ(Zi)2が,自由度nのχ二乗分布をすることを積率母関数法(mgf法)によって証明される.さらに,それらの平均Zbarに関して,n(Zbar)2が自由度1のχ二乗分布をすることも同様にして証明できる.ここで

 Σ(Zi)2=Σ(Zi−Zbar)2+n(Zbar)2

このとき,Σ(Zi−Zbar)2とn(Zbar)2が互いに独立であることを利用すると,右辺の積率母関数はそれぞれの積率母関数の積となる.したがって

 mgf[Σ(Zi)2]=mgf[Σ(Zi−Zbar)2]・mgf[n(Zbar)2]
 mgf[Σ(Zi−Zbar)2]=mgf[Σ(Zi)2]/mgf[n(Zbar)2]

右辺の計算結果は,自由度n−1のχ二乗分布の積率母関数となる.したがって,標準正規分布からの無作為標本Zi(i=1, 2, ..., n)から計算された平方和は自由度n−1のχ二乗分布にしたがう.


第7回:2005年6月14日(火)

Chapter 7. One-Sample Hypothesis (pp. 110 ff.)

先週に引き続き,正規分布変量からF分布とt分布の密度関数を解析的に導出する.以下の計算では,ガンマ関数の確率密度関数:

 λ/Γ(r)・(λx)r−1・e−λx

に帰着させることにより,F分布とt分布の密度関数を導き出す.

F分布は,ふたつのχ二乗変量U〜χ2(m)とV〜χ2(n)の比:X=(U/m)/(V/n)の分布である.UとVの同時分布の密度関数に対して,X=(U/m)/(V/n);Y=U という変数変換を行ない,さらにYに関する積分をして,Xの周辺密度関数を求めれば,F分布の密度関数が得られる.

t分布は,標準正規変量Z〜N(0, 1)とχ二乗変量U〜χ2(k)の平方根の比:t=Z/(U/k)1/2の分布である.F分布の導出と同様に,ZとUの同時密度関数に対して,X=Z/(U/k)1/2とY=U という変数変換を行ない,さらにYに関する積分をして,Xの周辺密度関数を求めれば,t分布の密度関数が得られる.

いずれの場合も,計算の最終段階でガンマ分布に帰着させている.


第8回:2005年6月21日(火)

Chapter 8. Two-Sample Hypothesis (pp. 122〜136)

この章では,ふたつの母集団からのサンプリングを行ない,母数(母平均や母分散)の推定・検定に関する説明がある.例によって,リクツが書かれていないので,心中穏やかならざるものがある.

母平均に関するt分布を用いた検定と信頼区間の構築.その後は,標本サイズの決定,検定のパワーについての話.まあ,バックグラウンドの標本分布のことがわかっていればいいと思うのだが.標本サイズの決定はなんだかアヤシイな.コクラン行きか(笑).

うーむ.


第9回:2005年6月28日(火)

Chapter 8. Two-Sample Hypothesis (pp. 136 ff.)

F分布を用いた,分散に関する推定と検定.さらに,Mann-Whitney のU検定によるノンパラメトリック検定.直感的には計算統計学的に説明してもらった方がわかりやすいと思う.

またも標本数の決定をめぐる薮に足を絡めとられる.Zarさんはこういう話題が好きなのか.変動係数やメディアンの検定とか,ちょっとマイナーなことにもページ使ってるし.


第10回:2005年7月5日(火)

Chapter 8. Two-Sample Hypothesis (pp. 145 ff.)

前回に引き続き,Mann-Whitney のU検定について.とくに,検定統計量Uの導出について説明する.ふたつの集団1と2からの無作為標本のサイズをそれぞれn1,n2とする.両標本集団間の対の総数はn1×n2通りある.n1+n2個の標本を大小順によってソートしたとき,集団1と2の順位和をそれぞれR1,R2とする.1+2+……+n1=n1(n1+1)/2は,集団1からの標本がすべて集団2からの標本よりも小さいときの順位和R1に等しい.したがって

  R1−n1(n1+1)/2

は,標本の対の中で集団1からの標本が集団2からの標本よりも大きい場合の数(すなわち集団1の「勝ち」の数)に等しい.よって,検定統計量U

  U=n1×n2−{R1−n1(n1+1)/2}

は,集団間の標本対の比較で集団1が「負ける」場合の数に等しい.


第11回:2005年7月12日(火)

Chapter 9. Paired-Sample Hypotheses (pp. 161 ff.)

標本間に対(pair)のある場合の平均と分散の検定.対の間の「相関」の有無で,paired-sample t testか,それとも通常の two-sample t test かが決まるという話.

差の正規性が満たされない場合には,Wilcoxonの順位検定が代替として使える.

その他,正規分布による近似など.


第12回:2005年7月19日(火)

Chapter 9. Paired-Sample Hypotheses (pp. 169-174)

2×2分割表データに関する「McNemar 検定」と「Gart 検定」.McNemar 検定とふだんよく見る分割表検定(Fisher正確検定あるいはそのχ2近似)とは帰無仮説そのものがちがっていて,McNemar検定では分割表の非対角成分のペアの対称性に関する検定を行なうものだそうだ(通常の分割表検定は行と列の独立性をテストする).Gart 検定は,逐次的処理順序の影響をテストする手法だ.


第13回:2005年7月26日(火)

Chapter 10. Multisample Hypotheses: The Analysis of Variance (pp. 177-189)

1要因の完全無作為化法について.正規性・等分散性の仮定.非等分散の場合の Welch 検定.固定効果モデル(Model I)とランダム効果モデル(Model II)など.さくさく進む.


第14回:2005年8月2日(火)

Chapter 10. Multisample Hypotheses: The Analysis of Variance (pp. 189-195)

分散分析の検定力について.F分布と非心F分布が登場する(密度関数は見ない方がよかったかも).検定力がパラメーターとともにどのように変化するかについて知った.さらに,非心度φを用いたサンプルサイズ,処理水準数,最小可能検出差の算出と最適化の手順について.


第15回:2005年8月9日(火)

Chapter 10. Multisample Hypotheses: The Analysis of Variance (pp. 195-206)

ノンパラメトリック分散分析(Kruskal-Wallis検定)についての説明.等分散性(homoscedasticity)に関する Bartlett検定(数式はいいから考え方を教示してねー).さらに,ディープな変動係数の均一性検定などなど.そろそろ,疲れてきた.


第16回:2005年8月23日(火)

Chapter 11. Multiple Comparisons (pp. 208-217)

多重比較に関する新しい章.まずは Tukey 検定とそのヴァリアントである Newman-Keuls 検定についての解説.その後,平均値とその差に関する信頼区間の構築について.


第17回:2005年8月30日(火)

Chapter 11. Multiple Comparisons (pp. 217-230)

多重比較の続き.対照群と処理群との平均値比較を行なう Dunnett 検定.続いて,Scheffé 検定を用いた多重比較(multiple comparison)とその一般化としての多重対比(multiple contrast)についての解説.ノンパラメトリック法を用いた多重比較法:Kruskal-Wallis 法による分散分析を行なった後では,Nemenyi-Dunn 検定による平均値の多重比較が使える.Dunnett 検定のノンパラ版もある.さらに,多重対比のノンパラ版も開発されている.最後に,メディアンと分散の多重比較について説明された.


第18回:2005年9月6日(火)

Chapter 12. Two-Factor Analysis of Variance (pp. 231-245)

2要因の分散分析について.完全無作為化法のもとでの2要因の実験計画と,それに続く分散分析.とくに,各要因の主効果と要因間の交互作用についての解説.要因効果に関する fixed model(Model I ANOVA) / random model(Model II Anova) / mixed model(Model III ANOVA)について説明が少し.


第19回:2005年9月20日(火)

Chapter 12. Two-Factor Analysis of Variance (pp. 245-250)

各実験処理ごとの反復数が等しくない場合(proportional / not proportional)についての分散分析.とくに,実験上の欠測区が生じた場合は“not proportional”な反復になる.欠測区の数が少ない場合は補填式をもちいて埋めることができるが,多すぎるとダメ.続いて「反復なし」の場合の処理.要するに交互作用項を誤差項とみなしてF検定にもちこもうという算段だろうが,あやしすぎて使い物にならないと思う.ダメダメ.


第20回:2005年9月28日(火)

Chapter 12. Two-Factor Analysis of Variance (pp. 250-261)

乱塊法を用いた実験計画と分散分析についての解説.ここまではよかったのだが,その後「repeated-measures」の節がとても怪しかった.たとえば,動物を用いた実験で各実験処理に対して異なる「個体」を用いるのであれば問題ないのだが,「repeated-measures」とは同一の個体を使い回して,異なる実験処理に対するデータを得ようというやり方だそうだ.この場合,「個体」がブロックに相当し,ムリをすれば,同一「個体」による複数処理のデータは乱塊法とみなせないことはない.しかし,処理間の独立性がすでにないので,形式的には乱塊法的な分散分析は可能でも,Type I エラーが増幅されるというような弊害は隠しようもない(著者も認めている).要するに,ヤバい方法ということでしょう.


第21回:2005年10月04日(火)

Chapter 12. Two-Factor Analysis of Variance (pp. 261-271)

乱塊法のノンパラ版である「Friedman検定」(〈R〉だと Friedman.test)と,nominal data に対する Cochran's Q-test の解説.


第22回:2005年10月11日(火)

Chapter 13. Data Transformations (pp. 273-281)

正規性,等分散性,あるいは相加性のいずれかを達成することを目的に実行されるデータの変換方法に関する解説.この章では,対数変換・平方根変換・アークサイン変換について紹介されている.処理平均に比例して分散が規則的に変化する場合の対処が問題視されている.


第23回:2005年10月18日(火)

Chapter 14. Multiway Factorial Analysis of Variance (pp. 282-300)

3要因以上の多要因実験に関する分散分析の解説.完全無作為化法とラテン方画法の説明はまあいいとして,それに続く“repeated-measures”の分散分析が例によってとてもアヤシイ.前の章でもこのテーマになるとアヤシイ度が増す.勉めて詳細に書かれているので,よけいにアヤシク感じる.早々に立ち去った方がよかろう.


第24回:2005年10月25日(火)

Chapter 15. Nested (hierarchical) Analysis of Variance (pp. 303-311)

ネスト分散分析に関する解説.たいへんわかりやすく書かれていた.単純な2要因実験計画で一方の要因がネストしている場合と,3要因実験計画でふたつはクロスしているが,3番目の要因がネストしている場合が説明されている.


第25回:2005年11月1日(火)

Chapter 16. Multivariate Analysis of Variance (pp. 312-323)

多変量正規分布を仮定する多変量分散分析(MANOVA)の解説.ならびに,変量間の共分散・相関係数について.数式をいじるではなく,図による説明だったので,かえって話がはっきりしなかった.


第26回:2005年11月8日(火)

Chapter 17. Simple Linear Regression (pp. 324-333)

まずはじめに,回帰(regression)と相関(correlation)とのちがいについて.相関は任意の2変量の間で定義される期待値の比である.しかし,回帰は一方の独立変数(定数あるいは変量)に対して説明される他方の従属変数(変量)がどのような関数関係にあるかを示す技法であるから,その“従属性”が現実のものである必要があると著者は考えている.この章では,単回帰に関する回帰係数と切片の計算手順を説明しているのだが,残差平方和の最小化に関する「最小二乗法」の説明が足りないので,この部分を読んだだけではわからないと思う.回帰分析の前提にある諸仮定(正規性,等分散性,線形性,ならびに独立変数の無誤差性)の解説.


第27回:2005年11月15日(火)

Chapter 17. Simple Linear Regression (pp. 333-344)

回帰分析に伴う分散分析と有意性検定.総平均からの全平方和を,回帰直線に関する平方和と残差平方和に分割すること.次いで,従属変数から独立変数に関する「逆推定」を行なう手順について.Zar 本は,単に計算例だけでなく,もっとリクツを書かないといけませんなあ.この点では Rohlf and Sokal の『Biometry』の方がまだマシかもしれない.


第28回:2005年11月22日(火)

Chapter 17. Simple Linear Regression (pp. 344-353)

回帰分析の続き.各独立変量に対する複数個のデータがある場合は,線形性からのズレを分散分析によって検出できるという解説.全平方和=回帰平方和+残差平方和という通常の分割とは別に,全平方和=回帰平方和+線形性残差+群内平方和と分割し,右辺の線形性残差の F 値が有意であるかどうかを検定するということ.


第29回:2005年11月29日(火)

Chapter 18. Comparing Simple Linear Regression Equations (pp. 360-368)

複数の回帰直線の間の比較について.t検定をベースにして,回帰直線の差の検定,切片の差の検定.まあ,この辺まではいいとして,差がないときに,共通の回帰直線を求めるという段になって,自由度の算出基準がわからなくなって,停滞してしまう.なんじゃらほい.“共通の”という制約を付けた時点で,自由度がさらにひとつ減少すると考えればいいのかな.


第30回:2005年12月6日(火)

Chapter 18. Comparing Simple Linear Regression Equations (pp. 369-375)

複数の回帰直線の間での回帰係数と切片の同一性に関する仮説検定と多重比較の手順について.Tukey, Dunnett, そしてScheffé の補正が実行されている.


第31回:2005年12月13日(火)

Chapter 19. Simple Linear Correlation (pp. 377-389)

相関係数に関する解説.2変量正規分布のもとでの Fisher z 変換の導出は当然スキップされている.きちんと追うのはつらいのだろうなあ(Kendall & Stuart の“聖書”を横目に).相関係数に関する信頼区間,検定,標本数の設定など.


第32回:2005年12月20日(火)

Chapter 19. Simple Linear Correlation (pp. 390-398)

相関係数に関する解説の続き.相関係数の差に関する多重比較の補正法について.次いで,ノンパラメトリック法に入り,Spearman のランク相関法の説明.Kendall のランク相関法と比較すると,Spearman の方が「ちょっとだけいい」と書かれている.


第33回:2006年1月10日(火)

Chapter 19. Simple Linear Correlation (pp. 398-410)

扱われた話題は,ランク相関・2×2分割表・intraclass correlation・concordance correlation.この章終わり.


第34回:2006年1月17日(火)

Chapter 20. Multiple Regression and Correlation (pp. 413-424)

単回帰分析の拡張としての重回帰分析の線形モデルについて.とくに,全平方和と回帰平方和の比として求められる重決定係数とその平方根として定義される重相関係数についての説明.さらに,分散分析を用いた回帰モデルのF検定と偏回帰係数のt検定についても.


第35回:2006年1月24日(火)

Chapter 20. Multiple Regression and Correlation (pp. 424-428)

偏回帰係数の検定と信頼区間.説明変量の間の多重共線性(multicollinearity)の弊害とその検出方法について.多重共線性があると,偏回帰係数の誤差が大きくなるため,たとえ分散分析で有意になったとしても,個々の偏回帰係数に関する検定では有意にならないという指摘.多重共線性の検出にはジャックナイフ(あるいはクロスヴァリデーション)的な手順が使われている.次いで,偏相関係数についての解説.多変量正規分布の条件付き確率密度関数に基づいて偏相関係数を定義するのがもっともわかりやすいはずだが,本書ではそういう体系的説明はされていない(だからよくわからない).最後に,偏相関係数に関する検定の話.


第36回:2006年2月7日(火)

Chapter 20. Multiple Regression and Correlation (pp. 428-437)

重回帰分析における変数変換(一次変換)の効果,独立変数のステップダウン削減による,モデルの単純化の手法(偏回帰係数の有意性検定による選択).さらに,ダミー変数の組み込みによるカテゴリー変数のモデルへの取り込み.最後に,変数間の交互作用のモデル化について.交互作用(interaction)とは,複数の独立変数が目的変数に与える同時的効果であり,独立変数の間の相関(intercorrelation)と混同してはならないと著者は言う.


第37回:2006年2月14日(火)

Chapter 20. Multiple Regression and Correlation (pp. 437-443)

複数のデータセットから計算された重回帰モデルのパラメータの差に関する検定について.偏回帰係数についてまずはじめに検定し,その同一性を確認した上で,切片の同一性をテストするという手順をとる.次いで,非線形回帰についての解説.多項式回帰と指数関数族のモデルが登場する.


第38回(最終回):2006年2月21日(火)

Chapter 20. Multiple Regression and Correlation (pp. 443-450)

Kendall の順位相関検定についての解説.複数の変量の間の「関係性」をノンパラメトリックにテストする方法について.


参考図書[全般的]

  • Peter Dalgaard 2002. Introductory Statistics with R. Springer-Verlag, New York, xvi+267 pp., ISBN:0-387-95475-9.
  • 舟尾暢男 2005. 『The R Tips:データ解析環境 R の基本技・グラフィックス活用集』九天社,東京,xvi+383 pp., ISBN:4-86167-039-X.
  • Alexander M. Mood, Franklin A. Graybill and Duane C. Boes 1974. Introduction to the Theory of Statistics, Third Edition. McGraw-Hill, xvi+564 pp., ISBN:0-07-042864-6.
  • Donald F. Morrison 1976. Multivariate Statistical Methods, Second Edition. McGraw-Hill, xvi+415 pp., ISBN:0-07-043186-8.

Last Modified: 22 February 2006 by MINAKA Nobuhiro