読者です 読者をやめる 読者になる 読者になる

StatsBeginner: 初学者の統計学習ノート

初学者が統計学、機械学習、R、Pythonの勉強の過程をメモっていくノート。

南風原朝和『続・心理統計学の基礎』(有斐閣)

 私は、南風原朝和著『心理統計学の基礎』の大ファンです。心理学の研究をするしないにかかわらず「文系の人間が、統計学をきちんと使えることを目指して初歩から勉強する」場合の、最初のテキストとして「神レベル」だと思っています。
 その続編が昨年末についに発売されまして、即買いしました!
 まだ数式を1つ1つ確認するなどの精読はしていないのですが、全体をざっと読んでみたので感想を書いておきます。Amazonにレビューも書いておきました。


続・心理統計学の基礎--統合的理解を広げ深める (有斐閣アルマ)

続・心理統計学の基礎--統合的理解を広げ深める (有斐閣アルマ)


 本書の中で、前作『心理統計学の基礎』は「前編」と呼ばれているので、ここでもそう呼ぶことにします。なお、前編の知識なしに本書を読むのは無謀ですので、必ず前編を読むか、あるいは他のテキストで統計学に「入門」した後に手にとったほうがいいでしょう。決して「ほんとの初心者」向けの本ではなく、次のレベルに進もうとする人向けの本です。


心理統計学の基礎―統合的理解のために (有斐閣アルマ)

心理統計学の基礎―統合的理解のために (有斐閣アルマ)

 


 前編においては、「統計学的なものの考え方」を身につけるための解説と「実際の分析の方法」を身につけるための解説が、いい感じにミックスされていました。
 前者の「ものの考え方」というのは、例えば

  • 「モデル」が元になってそこから「確率分布」に従ってサンプルが生み出される
  • 変数をベクトルとして表現する
  • F分布やt分布など一定の確率分布に従う統計量を用いて「仮説検定」を行う
  • ばらつき=平方和=情報量を、比較したり分割したりする

 といった、基本的な概念の扱いに慣れるということです。
 後者の「分析方法」としては、相関の算出、単回帰・重回帰、t検定、分散分析、因子分析、構造方程式モデリングなどが紹介されておりました。 


 で、本書でも「ものの考え方」の訓練と「分析方法」の訓練とがいい感じにミックスされていると感じました。統計の入門書の「続編」ですから、個々の分析手法のバリエーションを増やして「応用」につなげるという感じなのかなとも思ったのですが、そうではなく、「基礎固めとして、もっと知っとくべきことあるよ」という感じの内容です。


 第1章はイントロで、第2章から具体的な学習が始まります。
 第2章の前半ではまず、「二項分布」「正規分布」「カイ二乗分布」「t分布」「F分布」の間の相互の関係が説明されます。これは、ほんとの「初心者」の状態で読まされると苦痛だと思いますが(理系の人はべつにいいんでしょうけど)、ちょっと統計分析をやってみたあとの状態で読むと「ああそうだったのか」といろいろ腑に落ちる内容になっています。
 第2章の後半では、それらの分布を拡張した非心分布(非心t分布など)が説明されます。非心分布の「非心度」はつまるところ「検定力」を意味していると言え、これが3章以降で「効果量」や「検定力」を詳論するための準備となります。


 第3章・4章は、「効果量」というものについて体系的に考えてみるという内容になっています。
 効果量について議論するということはもちろん、

 
 「検定力=効果量×サンプルサイズ」

 
 の話しが出てくるわけですが、本書第3・4章における効果量の議論はもう少し視野の広いものです。相関係数も決定係数も回帰係数も「効果量の一種」であるとして、それらを統一的な視座のもとで整理していくという内容になっています。
 効果量の中に、標準化されたものとされてないものがあり、また検定力を規定するものと規定しないものがあるのだというふうに分類されていきます。で、効果量の推定方法、それが検定力をいかに規定しているかを理解し、さらに効果量の数字をどのように「解釈」すべきかが一つ一つ解説されていきます(3章は2変量の分析、4章は多変量の分析について)。
 たとえば「平均身長の差」とかをそのまま扱う限り解釈で悩むことはありませんが、標準化した数字を扱い始めるとやはり「どう解釈したらいいのか」は難しくなってくるので、そこらへんを初学者向けに解説してくれているのは大変ありがたいです。
 また、この効果量の話は、第7章の「メタ分析」を理解するための準備になっているとも言えますね。


 第5章は「対比(対比分析)」の解説です。考え方は分散分析に似ていますが、色々な群の平均値を互いに様々な組み合わせで対比させ、差の有無や増減傾向の有無を検定していく手法ですね。
 後半では検定の多重性についても解説されており、これは分散分析の下位検定としての多重比較とも密接に関連してきます。以前ブログのエントリでも書いたように、初学者の頭が混乱しがちなテーマですから、非常に参考になりました。
 

 第6章は「マルチレベルモデル」による分析です。階層線形モデルとも言われるやつですね。固定効果だけでなく「ランダム効果」を導入し、パラメータにも確率分布が導入されて、多段式の推定が行われるというカッコイイやつです(笑)。尤度比検定や、AICによるモデル選択まで解説されます。
 基本的に正規分布、線形モデルの範囲で議論がされるので、『緑本』(『データ解析のための統計モデリング入門』)なんかより範囲としては狭いと言えます。
 
 
 第7章は「メタ分析」です。過去のさまざまな研究で報告されている効果量を統合的に分析するというもので、「ふつうより統計理論に詳しい人がやるやつ」というイメージがありますね(笑)
 ここでは、平均値差を標準化したものと、相関係数に的を絞って、基本的なメタ・アナリシスのやり方が解説されております。固定効果モデルで統合する方法と、研究間のバラつきをランダム効果として組み込みつつ統合する方法の両方が解説されます。
 
 
 そして最後の第8章は、ベイズ統計学入門です。本書のスコープはあくまで「心理統計学の基礎」であり、心理学の研究はまだまだ頻度主義(頻度論的統計学)の枠組みのもとでの研究がほとんどのようです。なのでベイズ統計学は「一応紹介するよ」という程度ではあるんですが、30ページぐらいで条件付き確率とベイズの定理、事前分布と事後分布の関係などがわかりやすく解説されてます。
 「頻度論的統計学における信頼区間は、ベイズ統計学において、無限の分散など非現実的な事前分布を仮定した場合の信用区間に相当する」といった、頻度主義とベイズ主義のつながりについても少し触れられています。


 前編と同じく、初学者が苦痛なく学習を進められるようになっていると感じました。初学者としては、「結局これを計算すると何がうれしいの?」っていうのをいちいち言葉で説明してもらわないと学ぶ気力がなかなか続かないものですが、そのあたりへの配慮が手厚いところが「神テキスト」たるゆえんです。
 数式はけっこう出てきますが(前編より少ない気もしましたが)、数式が出てこない教科書が分かりやすのかというとそうではなく、数式の意味が言葉できちんと説明されていることが大事なわけで、そのあたりはバッチリですね。


 前編と違うところとして、少しですがRでの計算に触れられているという点が挙げられます。まぁほんとに少ししかなく、脚注でたまに出てくるだけですが(笑)
 

 今後は、本書を精読するとともに、同じ本をもう1冊買ってスキャナで自炊しておこうとも思っております(笑)。お気に入りの教科書は、ボールペンなどで書き込みながら何度も読む紙バージョンを所有しつつ、いつでもどこでも見たいときに確認できるように電子データをパソコン(及びクラウドサービス上)に入れておく主義なので。