Home

租界〈R〉の門前にて —— 統計言語「R」との極私的格闘記録


●統計学への道 —— 出家修行と在家修練



 生物統計学への前口上:歩み始める前の心構えとして
 統計学へのお誘い本リスト
 Inleiding tot de R-statistiek — 統計あれこれ備忘メモ


◇書籍案内

  • 三中信宏『統計思考の世界:曼荼羅で読み解くデータ解析の基礎』2018年6月1日刊行,技術評論社,東京,239 pp., 本体価格2,300円, ISBN:978-4-7741-9753-1 → 版元ページコンパニオンサイト
  • 三中信宏『みなか先生といっしょに 統計学の王国を歩いてみよう:情報の海と推論の山を越える翼をアナタに!』2015年6月5日第1刷刊行|2017年3月15日第2刷刊行,羊土社,東京,191 pp., 本体価格2,300円, ISBN:978-4-7581-2058-6 → 目次版元ページコンパニオンサイト


連載〈統計の落とし穴と蜘蛛の糸〉

羊土社の雑誌『実験医学』に2014年2月号から2015年4月号まで掲載されたワタクシの連載記事〈統計の落とし穴と蜘蛛の糸〉記事のオンライン版です.以前は〈実験医学online〉上で公開されていたコンテンツがまるごと同社の新設サイト〈Smart Lab Life〉にて再公開されましたのでごらんください.[2018年2月3日]

Smart Lab Life 連載トップページ
  第1回 データ解析の第一歩は計算ではない(2014年2月号, pp. 442-447:2017年11月10日公開)
  第2回 データの位置とばらつきを可視化しよう(2014年4月号, pp. 935-940:2017年11月17日公開)
  第3回 データのふるまいをモデル化する(2014年6月号, pp. 1427-1433:2017年11月24日公開)
  第4回 パラメトリック統計学への登り道〔1〕:ばらつきを数値化する(2014年8月号, pp. 2160-2163:2017年12月1日公開)
  第5回 パラメトリック統計学への登り道〔2〕:自由度とは何か(2014年9月号, pp. 2314-2318:2017年12月8日公開)
  第6回 確率変数と確率分布をもって山門をくぐる(2014年10月号, pp. 2642-2645:2017年12月15日公開)
  第7回 正規分布という王様が誕生する(2014年11月号, pp. 2990-2994:2017年12月22日公開)
  第8回 ピアソンが築いたパラメトリック統計学の土台(2014年12月号掲載, pp. 3123-3126:2018年1月5日公開)
  第9回 秘宝:確率分布曼荼羅の発見!(2015年1月号掲載, pp. 110-113:2018年1月12日公開)
  第10回 実験計画はお早めに:完全無作為化法(2015年2月号掲載, pp. 510-513:2018年1月19日公開)
  第11回 正規分布を踏まえたパラメトリック統計学の降臨(2015年3月号掲載, pp. 628-632:2018年1月26日公開)
  第12回 統計データ解析の地上世界と天空世界:連載の総括として(2015年4月号掲載, pp. 978-982:2018年2月2日公開)

※本連載はすでに単行本として出版されています:三中信宏『みなか先生といっしょに 統計学の王国を歩いてみよう:情報の海と推論の山を越える翼をアナタに!』(2015年6月5日刊行,羊土社,東京,191 pp., 本体価格2,300円, ISBN:978-4-7581-2058-6 → 目次版元ページコンパニオンサイト).


農環研ウェブ高座 〈農業環境のための統計学〉

本連載記事は,独立行政法人農業環境技術研究所が発行するウェブマガジン『農業と環境』に2012年8月から2013年8月まで連載されました.

  第1回 前口上:統計学の世界を鳥瞰するためにNo. 148 | 2012年8月1日発行]
  第2回 統計学のロジックとフィーリングNo. 149 | 2012年9月1日発行]
  第3回 直感的な素朴統計学からはじまる道No. 150 | 2012年10月1日発行]
  第4回 統計学的推論としてのアブダクションNo. 151 | 2012年11月1日発行]
  第5回 データを観る・見る・診るNo. 153 | 2013年1月1日発行]
  第6回 情報可視化と統計グラフィクスNo. 154 | 2013年2月1日発行]
  第7回 データのふるまいを数値化する:平均と分散No. 155 | 2013年3月1日発行]
  第8回 記述統計学と推測統計学:世界観のちがいNo. 156 | 2013年4月1日発行]
  第9回 統計モデルとは何か:既知から未知へNo. 157 | 2013年5月7日発行]
  第10回 確率変数と確率分布:確率分布曼荼羅をたどるNo. 158 | 2013年6月1日発行]
  第11回 正規分布帝国とその臣下たちNo. 159 | 2013年7月1日発行]
  第12回 パラメトリック統計学の世界を眺めるNo. 160 | 2013年8月1日発行]

※本連載は技術評論社から刊行される下記書籍の一部として含まれます:三中信宏『統計思考の世界:曼荼羅で読み解くデータ解析の基礎』(2018年6月6日刊行,技術評論社,東京,ca 240 pp., 本体価格2,300円, ISBN:978-4-7741-9753-1 → 版元ページコンパニオンサイト


統計高座中継(YouTube)

以下に公開する統計高座の YouTube 動画ファイルは,2011年2月8日(火)〜10日(木)の三日間にわたって,九州大学大学院比較社会文化研究科(伊都キャンパス)で私が行なった集中講義〈データ解析概論〉の全録画です(→九大・比社文サイト).集中講義のシラバスにしたがって動画ファイルは下記の通り分割され YouTube 上に公開されています.[謝辞]集中講義当日の撮影と動画編集をしていただいた楠見淳子(九大・比文)さんに深く感謝いたします.(23 April 2011)

  • 2月8日(火) ——
    1. 統計学概論−統計学的な「ものの見方」 → 123
    2. R/Rcmdrのインストールとパッケージ動作確認
      1. インストール Win編 → 1
      2. インストール Mac編 → 1
    3. データ解析は視覚化に始まり視覚化に終わる → 123
    4. 確率変数・確率分布とパラメトリック統計理論 → 123
  • 2月9日(水) ——
    1. はじめに「ばらつき」ありき−偏差・平方和・分散 → 12
    2. 実験計画法と分散分析;多重比較;線形モデル
      1. Rでのデータ読み込み → 1
      2. 完全無作為化法 → 123
      3. 多重比較 → 12
      4. 乱塊法 → 1234
      5. 乱塊法応用編 → 123
  • 2月10日(木) ——
    1. モデル選択論;一般化線形モデルへの拡張
      1. モデル選択論 → 123456
      2. 線形モデルを鍛える → 12
      3. 一般線形モデル → 123
    2. 共分散と相関係数;多変量パラメトリック分布 → 123
    3. リサンプリング計算統計学と多変量解析 → 123
    4. ベイズ統計学とベイジアンMCMC/質疑応答 → 123

◇〈R〉への参道

0. 門前まで
  1. Rインストレーションガイド[2016年9月12日バージョン] → R-InstallationGuide.zip(自己解凍ファイル)※R / RStudio / R Commander のインストールガイド.Windows PC を念頭に書かれているが,他のOSでも参考になるだろう.
  2. R最新版のインストール方法 → Cf: RjpWiki「Rのインストール
  3. Windows環境で「R」を導入するための絶対確実な方法(2014年11月12日)
  4. CRANに詣でる
  5. Rを知る[参考になるサイトや資料]→ Cf: RjpWiki「リンク集
  6. Rを学ぶ[教科書・参考書リスト]→ Cf: RjpWiki「参考書リスト
1. 確率分布とグラフィクス
  1. 正規分布のグラフィクスRPubs
  2. 正規分布の棄却域を図示RPubs
  3. カイ二乗分布のグラフィクスRPubs
  4. t分布のグラフィクスRPubs
  5. F分布のグラフィクスRPubs
  6. 二次元正規分布
2. 分散分析の理論と事例集
  1. 実験計画と分散分析——総論
  2. 【Box1】1要因完全無作為化法→データファイル:Box1_R.tabBox1_R.data
  3. 【Box2】1要因乱塊法→データファイル:Box2_R.tabBox2_R.data
  4. 【Box3】2要因乱塊法→データファイル:Box3_R.tabBox3_R.data
  5. 【Box4】2要因分割区法(Split-plot)→データファイル:Box4_R.tabBox4_R.data
  6. 【Box5】2要因細分区法(Strip-plot)→データファイル:Box5_R.tabBox5_R.data
  7. ネスト分散分析
3. クラスター分析と樹形図ユーティリティ
  1. クラスター分析の光と闇
  2. 距離指数の原理
  3. クラスタリング・アルゴリズム
  4. hclust〉→データ
  5. agnes〉→データ
  6. PAUP*〉による系統解析→データ最節約分岐図厳密合意樹
4. 計算機統計学 —— ブーツストラップ,ジャックナイフ,平滑化
   →久保拓弥さんによる「を用いたブーツストラップ法の講義資料
5. 多変量解析概論
6. R の形態測定学パッケージ〈shapes〉:「いろは」の「い」
7. R commander での TukeyHSD 検定の使用の注意点Rcmdr計算スクリプト修正スクリプト


◇大統計大曼荼羅

  JPEG(小)(676KB)
  JPEG(大)(1.4MB)
  3Dバージョン(1.9MB)※徳永幸彦画伯の作品


●講義用のブログやサイト


  • 形態測定学(応用編)の講義用ページ(2007年10月〜2010年3月,通年:東京農業大学)
  • 形態測定学(基礎編)の講義用ページ(2006年2月〜2007年10月,通年:東京農業大学)
  • 生物統計学の講義用ページ(2005年4月〜2006年2月,通年:東京農業大学)

2018年度・東京大学大学院理学系研究科「生物統計学」講義と実習(Sセメスター)
2018年4月5日(木)→ 統計曼荼羅
  • 講義全体のガイダンスとシラバスの説明,成績評価について
  • 統計学概論(統計的なものの考え方と素朴統計学について)
  • 統計環境Rのインストールと作動確認
2018年4月19日(木)→ 実習記録(データ可視化
  • R Commander を用いたデータ可視化演習
2018年4月26日(木)→ 実習記録(箱ひげ図分散不偏推定シミュレーション
  • 箱ひげ図によるデータの特性(位置パラメーターと分散パラメーター)の表示
  • 観察データと統計モデルとの関係
  • 偏差・平方和・分散の導出と自由度の概念
  • 分散パラメーターと分散推定値(不偏性のシミュレーション)
  • 記述統計学と推測統計学のちがい
2018年5月10日(木)
  • パラメトリック統計学への道のり 参考:確率分布曼荼羅(ウェブ版)
  • 正規分布 \( N(\mu,\sigma^2) \) を中心とする確率分布について
  • 正規分布 \( N(\mu,\sigma^2) \) の諸性質(線形変換での正規性保存・関連確率分布の導出・中心極限定理)
2018年5月17日(木)実験計画法(1)
  • 実験計画法の“家訓”(反復実施・無作為化・局所管理)
  • 実験処理区のレイアウトと線形統計モデルの構築
  • 完全無作為化法のもとでのデータ解析の手順
  • 偏差・平方和・平均平方(分散)・ \( F \) 値
  • 正規分布が降臨する
  • 実験計画法での仮説検定の考え方について
2018年5月24日(木)実験計画法(2)→ 実習記録(偏差分割完全無作為化法多重比較
  • 偏差の分割と線形統計モデルの直感的理解
  • 完全無作為化法のRによる実習
  • 分散分析から多重比較へ
2018年5月31日(木)実験計画法(3)→ 実習記録(一要因乱塊法二要因乱塊法
  • 乱塊法のもとでの線形統計モデルとデータ処理の手順
  • 複数の要因を含む実験計画と要因間の交互作用について
  • 二要因乱塊法とその応用
2018年6月7日(木)モデル選択論 → 実習記録(誤差の可視化多項式回帰
  • 線形統計モデルを再考する
  • モデル選択論:尤度とAIC
  • Rを用いたモデル選択の実習:多項式回帰を中心に
2018年6月14日(木)一般化線形モデルとその応用 → 実習記録(比率データのロジスティック回帰
  • 一般化線形統計モデル(GLM)
  • Rを用いたGLMの実習:ロジスティック回帰とポアソン回帰
2018年6月21日(木)多変量解析(1):変量間の共変動と相関係数 → 実習記録(二変量正規分布の性質と描画
  • 二つの変量間の共分散と相関係数
  • Rを用いた2変量正規分布の実習
2018年6月28日(木)多変量解析(2):主成分分析とクラスター分析 → 実習記録(irisデータを用いたクラスター分析と主成分分析
  • 多変量解析:情報の視覚化とインフォグラフィクス
  • Rを用いた多変量解析の実習:クラスター分析と主成分分析
2018年7月5日(木)リサンプリング統計手法 → 実習記録(リサンプリング手法
  • 計算機統計学とリサンプリング手法
  • ブーツストラップ,ジャックナイフ,モンテ・カルロ
  • Rを用いたリサンプリング法の実習
2018年7月12日(木)ベイズ統計学(1)
  • ベイズ統計学の考え方とベイズ的推論について
  • Bayesian Coin Tosser による事前確率と事後確率の関係の実習
2018年7月19日(木)ベイズ統計学(2)→ BayesianMCMC.R(スクリプト) new
  • ベイズ統計モデリングとベイジアンMCMC
  • R と MC Robot を用いたMCMCの説明
  • 統計学ブックガイド(どんな統計本を手にしてはいけないか)→ 統計学ブックガイド
レポート

  1. 講義時間は毎週木曜第4限(14:55〜16:40),教室は本郷キャンパス理学部2号館201号室です.
  2. 講義資料はすべて pdf ファイルとして配布します.
  3. 必要に応じて講義室からインターネットを利用することがあるので,東京大学の学内無線LANあるいは各自Wi-Fi接続できるように設定を確認してください.
  4. 【R事前インストールのお願い】今回の講義で使用するRならびにパッケージ R Commander,さらに RStudio については事前にインストールをお願いいたします.インストールの手順と起動の確認については「R-InstallationGuide.zip(Windows版R)」を参照してください.
  5. 【Mac OSX あるいは Linux ユーザーへの注意】Mac OS X 版あるいは Linux 版の R / Rcmdr / RStudio を使用される場合は,上記と同じくR関連ファイルを前もってインストールした上で,各自の責任で作動確認をお願いいたします.なお,Mac OS X については,事前に〈X11〉をアップルのサイトからインストールしておいてください(→ Apple「X11 および OS X について」).X11 がないと R Commander が使用できなくなりますのでこれは必須です.
  6. 本講義に関する質問回答と情報提供にはツイッターのハッシュタグ #TodaiStat を用います.なお,質問とその回答については毎回まとめて〈Inleiding tot de R-statistiek〉でも公開します.
  7. 参照:東京大学授業カタログ —— 三中信宏「生物統計学


筑波大学生物学類集中講義(数理生物学 I):2018年7月3日(火)〜4日(水)

【講義目標】確率とか統計学の数式や理論をまったく知らなくても、われわれ人間は日常生活を営む上で出くわす不確定な状況では必ず確率的・統計的な推論を行なっている。生物統計学もまた、人間が生物界を観察したときに気づいたデータの変動から結論にいたる推論をするための道具として整備されてきた。「統計学」と聞くと、多くの学生はいやな数式やらめんどうな計算を条件反射的に思い出すであろう。しかし、生物統計学の核は「統計」ではなく、むしろ「生物」にある。研究者が日常的に取り組んでいる生物学的問題−生態・行動・遺伝などなど−がまずはじめにある。統計とはこの生物学的問題から発する推論問題を解く道具を提供する。したがって、生物学畑の統計ユーザーにとって必要なのは、どのような統計手法が自分にとって道具となり得るのか(なり得ないのか)、そしてユーザーが選んだ統計手法をどこまで責任をもって使いこなせるのか、という問題意識であると私は考える。今回の講義と演習では、生物統計学の基本となる統計学的な「ものの考え方」を説明した上で、フリーの統計解析ソフトウェアとして定評のあるRを用いた演習をパソコンを使って行なう。具体的には、データ可視化・パラメトリック統計学・実験計画法・線形統計モデルなどを予定している。生物統計学の事前知識はとくに要求していないが、具体的な問題状況ないし問題意識をもっていると理解が深まるだろう。

タイムテーブル(場所:学術情報メディアセンター・B205室)

  • 7月3日(火): 9:30〜17:30
    • 09:30〜10:30 統計学概論/R起動確認
    • 10:40〜12:00 データ視覚化/パラメトリック統計学の世界観
    • 13:00〜14:30 統計モデルとは何か/確率変数と確率分布
    • 14:40〜16:10 正規分布の諸性質
    • 16:20〜17:30 実験計画法の基本:完全無作為化法
  • 7月4日(水): 9:30〜17:30
    • 09:30〜10:30 実験計画法の応用:乱塊法とその応用
    • 10:40〜12:00 線形統計モデル:パラメーター推定とモデル選択
    • 13:00〜14:30 一般化線形モデルへの拡張
    • 14:40〜16:10 ベイズ統計学の基礎
    • 16:20〜17:30 ベイズ統計学の演習とベイジアンMCMC

上記のタイムテーブルはおおよその予定で,講義と実習とはきっちり分けられてはいません.講義しながら受講生にそのつどRを操作してもらうというやり方で授業を進める予定です.講義スライドならびに実習で用いるRスクリプトは別途ファイルで配布しますので,1GB以上のUSBメモリーを持参してください.R実習には学術情報メディアセンターの Windows PC を用います.

参考:筑波大学 manaba コース情報 → 数理生物学 I(EB64011) ※内部のみ


 →古いハンドアウト類は〈三中信宏・統計学講義のハンドアウト倉庫〉に格納しました.

Last Modified: 19 July 2018 by MINAKA Nobuhiro