読者です 読者をやめる 読者になる 読者になる

StatsBeginner: 初学者の統計学習ノート

初学者が統計学、機械学習、R、Pythonの勉強の過程をメモっていくノート。

このブログの趣旨とこれまでの学習について

*このブログについて

 まだまだ初学者ですが、2012年ぐらいから、統計学やRの勉強をしています。このブログでは、勉強の過程をノートにしていこうと思います。
 統計やRを分かってる人間が「初学者向け」に書く解説ブログではなく、「初学者が」勉強の過程をメモっているだけですので、ご注意いただければと思います。
 勉強を始めて日が浅いし、文系だし、プログラミングも全く知らない状態からスタートしてるので、間違いだらけになると思います。だから、このブログに書かれてあること自体はあまり信用せず、べつの文献を当たってご確認いただいたほうがいいのですが、間違いについてはご指摘等頂けるとたすかります。


 が、初学者がどんなところでつまづくのか、どんなところを勘違いしやすいのかが分かるという意味で、将来誰かの役に立つかもしれないと思い、ノートをブログという形式で公開することにしました*1
 勉強してて分からないところをググってみると、同じ疑問を抱いたことがある人の何年も前のブログ記事に助けられることが良くあります。なので私も、しょうもないことでもなるべくネット上に置いていくようにしたいと思います。
 また、べつに人に見てほしいとかはないのですが、やはり公開するために文章でまとめると頭も整理されますね。

勉強しだしたきっかけ

 私はもともと文系の学部を出て*2サラリーマンをやっていましたが、その後色々ありまして、2012年から社会人大学院生として工学研究科の博士課程に在籍しております。
 まぁ、たまたま研究室が工学研究科にあるだけで、私自身がやってることは文系(社会心理学に近い)なのですが、一応実証研究なので、データ分析のためにある程度統計解析を分かっている必要があります。というわけで大学院を受験する頃から勉強を始めまして、2013年からは、別の大学で研究者や院生をやっている友人たちと統計学の勉強を開催したりしています。

とりあえず勉強したこと

 勉強会では主に、心理学でよく使われる範囲を中心とした統計学の基本の勉強と、統計解析ソフト(言語)R*3を使った実際の解析の勉強をしています。Rは、いろいろ勉強してると会社の仕事でも使えるので、けっこう面白く感じてきました。
 勉強会は友人たち4人とやっており、だいたい毎週日曜の朝か夜にSkypeで集合してやっています*4。全員が文系なので、きちんと理解できるようにゆっくり進めていて、教科書の同じ章を数週間つづけて繰り返すこともありました。


 課題図書としてはまず、統計学の教科書として南風原朝和『心理統計学の基礎』を、そしてRの入門書として山田ほか『Rによるやさしい統計学』を並行して扱い、ひと通り終わりました。
 南風原先生の『心理統計学の基礎』は、心理系ではもちろん評判の良い本ですが、文系の人が(たんなる教養ではなく)「自分でデータ解析できるようになること」を目指してイチから統計学を学ぶのであれば、分野に関わらず最強の入門書であるような気がします。数式の展開もけっこう詳しく載ってるし。


 ところどころ、詳しく勉強しておかないと心配なところもあるので、ググって解説や証明をみつけてきたり、「赤本」とも呼ばれる『統計学入門』や、そのシリーズの『自然科学の統計学』、あるいは宮川公男『基本統計学』などの教科書を適宜参照しています。これらの教科書も通読したほうが良いとは思っていますが、まだできていません。


 また、Rの学習としては、『Rによるやさしい統計学』はほんとに初歩の初歩であって、しかもRと統計学が両方とも分からない人向けに書かれた教科書なので、知識としてはまったく足りない。なので、R-Tipsとか関数マニュアルとかRのヘルプを読むのはもちろんなのですが、最近は、青木繁伸『Rによる統計解析』Everitt & Hothorn『Rによる統計解析ハンドブック』(邦訳書)金明哲『Rによるデータサイエンス』の中から、解析の演習をピックアップして勉強しています。これらも通読したいと思っていますが、そこまでの余裕はなく、重要そうなところを抜粋して勉強しているのが現状です。

最近勉強してること

 南風原先生の『心理統計学の基礎』をやると、t検定とか分散分析みたいな単純な分析*5は、ある程度自分でできるようになってきます(もちろん、多重比較とか、サンプル数が異なる場合や等分散性を仮定しない場合の補正など、細かいところにも配慮して使いこなすにはもっと勉強が必要ですが)。また、この教科書が秀逸なのは、重回帰分析や因子分析やパス解析などもふくめて、「線形モデル」とか「SEM」という大きなくくりから同じ理論モデルのバリエーションとして扱えるんだよねということが、初学者にも理解できるようになっているところです。


 ただ、そもそも推測統計とは何なのかとか、確率分布や仮説検定とは何なのかみたいなところから解説している教科書なので、分量的な制約もあって、各種の具体的な分析手法について詳論されているわけではありません。
 そこで、「多変量解析」というくくりの教科書を1冊やろうということになり、永田・棟近『多変量解析法入門』に進みました。この本も、神レベルで分かりやすいです。また、線形代数で分からないところを補うために*6足立堅一『多変量解析入門―線形代数から多変量解析へ』を必要に応じて参照しています*7


 そして、統計モデルというものの理解を進め、正規線形モデルの枠を超えていくための入門書として『データ解析のための統計モデリング』(通称「緑本」)を読み始めたところ、すごい幸運なことにこの緑本の読書会が開催されていることを知りまして(「データ解析のための統計モデリング入門」 読書会、Twitterのハッシュタグは「#みどりぼん」)、第2回から参加させて頂いています。


 というわけで現在は、「多変量解析」と「一般化線形モデル」の学習を並行して進めながら、それらをRでも実行してみたり、大学院での研究において発生する実際のデータ解析(私はあまり高度なことはできませんが)に取り組み中・・・という感じです。

*1:もともと、友人と勉強会をやりながらEvernoteでノートを共有しており、ここはそのブログ版となります。

*2:高3の時は一応理系のクラスで数III・Cまでやりましたが、ほとんど勉強しなかったので、何も覚えてないです。

*3:Rは言語と呼ぶのがいいのか、ソフトと呼ぶのがいいのか、イマイチわかってない。

*4:当初、メンバーが東京、茨城、上海と場所が分かれていて、今も東京と茨城に分かれてるので。

*5:要は「群を分けて平均値を比較する」系のやつで、パラメータ推定(モデリング)をしたり予測をしたりするわけではなく、検定したらとりあえず終わりのもの。

*6:私は高3のときに理系のクラスだったので、一応「行列」の勉強をした記憶がありますが、他のメンバーで文系の日本人だと高校でそもそも行列を習っていない状況です。中国だと文系でも高校で勉強してるらしい。

*7:この足立本を「多変量解析の本」と呼ぶのは無理があり、95%ぐらい「線形代数の本」です。