読者です 読者をやめる 読者になる 読者になる

StatsBeginner: 初学者の統計学習ノート

初学者が統計学、機械学習、R、Pythonの勉強の過程をメモっていくノート。

日記: 統計・プログラミング・機械学習関連の本の立ち読みメモ

 こないだ、日本一大きい書店と言われる大阪のジュンク堂で、統計・プログラミング・機械学習関係の本をいくつか立ち読みしてきたのでメモしておきます。
 あくまでパラパラ立ち読みしてきただけなので中身は理解していません。今後買おうかな〜どうしようかな〜という検討のメモです。
 主に、以前のエントリの参考リンクに挙げた「銀座の〜」ブログで紹介されていた本を中心にチェックしてきました。

言語研究のためのプログラミング入門


言語研究のためのプログラミング入門: Pythonを活用したテキスト処理

言語研究のためのプログラミング入門: Pythonを活用したテキスト処理


 テキストデータの処理を中心に、Pythonの使い方を初心者向けに解説した本という感じでした。プログラミングの基本から、正規表現とかも解説し、形態素解析ぐらいまでやるという内容。
 自然言語処理の勉強というよりも、まずはとにかくプログラムを書いてテキストデータを操れるようになろうぜという感じで、Pythonの基本的な使い方を手取り足取り教えるという本でした。
 私が買った『Pythonスタートブック』みたいな超初心者向けのPython入門書に書かれているような内容も説明してたと思うので、自然言語研究どうのこうのというより、本書を「Pythonの入門書」として読むことも可能だと思いました。とくに、テキストの処理が多くなる人にとっては。
 

集合知プログラミング


集合知プログラミング

集合知プログラミング


 これは、機械学習の基本的なアルゴリズムを、Pythonのコードを書きながらガシガシ体験していくという感じでした。
 パラパラ読んだ限り、Pythonの基本をけっこう勉強したあとでないと、ついていけないと思いました。今の私ではぜんぜん無理なので、当分買わないでしょう。プログラマーの人とかだと余裕でしょうけど。
 ただし、1章30ページぐらいで進んでいくのですが、実際にWeb上で手に入るデータを使って、Webのマーケティングに関連する処理を中心にバンバン実践していくというもので、とても面白そうだとは思いました。Pythonの基本ができているという前提であれば、勉強回とかをやって1回1章ずつとか進んでいくと楽しそうです。
 今の私では読みこなせないので、2年後ぐらいに読めたらなと。
 ↓公式サイトに目次が載ってました。(長いので章タイトルのみコピペ)

O'Reilly Japan - 集合知プログラミング



1章 集合知への招待
2章 推薦を行う
3章 グループを見つけ出す
4章 検索とランキング
5章 最適化
6章 ドキュメントフィルタリング
7章 決定木によるモデリング
8章 価格モデルの構築
9章 高度な分類手法:カーネルメソッドとSVM
10章 特徴を発見する
11章 進化する知性
12章 アルゴリズムのまとめ

 

入門機械学習


入門 機械学習

入門 機械学習

  • 作者: Drew Conway,John Myles White,萩原正人,奥野陽,水野貴明,木下哲也
  • 出版社/メーカー: オライリージャパン
  • 発売日: 2012/12/22
  • メディア: 大型本
  • 購入: 2人 クリック: 41回
  • この商品を含むブログ (11件) を見る


 この本は、パラパラ読んでみたところ、分厚いんですがわかりやすいですね!早速Amazonで注文して到着待ちです。
 Amazonのレビューでは評判が悪いのですが(といっても2件しかないですが)、まぁ誤植が目立つというのは問題だとしても、主として『入門機械学習』というタイトルだけど使われる言語がRなのでR知らないと無理じゃん、っていう突っ込みのようです。サブタイトルに「Rによるなんとかかんとか」ってつけておけば、文句も少なかったんじゃないでしょうか。
 内容的には、「機械学習」という分野の全貌が初心者にも見通しやすいように、アルゴリズムや理論の発展の順を追って、何が重要であるかというポイントも解説されています。あくまでコードをどんどん書いていきましょうという実践の本なので、理論面は詳しくはないですけど、初心者でも「なんとなくそういう雰囲気なのか」と想像できて良いです。  
 こちらも1つのテーマに30ページずつぐらいが割り当てられていて、最初はEメールのスパムフィルタを作るっていう課題からスタートするのですが、そこから順を追って、とにかくRのコードを書きながら(写経しながら)機械学習の基本を学べるというものです。
 機械学習の勉強は、Pythonの基本を勉強した上で、来年ぐらいからPythonで少しずつ始めようかなと思ってたのですが、『集合知プログラミング』が難し過ぎる内容だったので、Pythonに比べれば多少とも慣れているRで学べるこっちのほうがいいかなと心を入れ替えました。内容的にもこっちのほうが簡単そうに思えました。
 友人とやっているRの初心者勉強会で教科書として取り上げてもいいような気がしました。
 ↓公式サイトに目次が載ってます。
 
 

O'Reilly Japan - 入門 機械学習


1章  Rを利用する
  1.1 機械学習のためのR
    1.1.1 Rのダウンロードとインストール
    1.1.2 IDEとテキストエディタ
    1.1.3 Rパッケージの読み込みとインストール
    1.1.4 機械学習のためのRの基礎知識
    1.1.5 Rに関する情報
 
2章 データの調査
  2.1 探索と確証
  2.2 データとは何か?
  2.3 データ内の列の型を推論する
  2.4 意味推論
  2.5 数値による要約
  2.6 平均値、中央値、最頻値
  2.7 分位数
  2.8 標準偏差と分散
  2.9 探索的データの可視化
  2.10 複数の列の関係の可視化
 
3章 分類:スパムフィルタ
  3.1 白か黒か?二値分類
  3.2 やさしい条件付き確率入門
  3.3 初めてのベイズスパム分類器を書く
    3.3.1 分類器を定義し、非スパム(難)でテストする
    3.3.2 分類器をすべての種類の電子メールに対してテストする
    3.3.3 結果を改善する
 
4章 順位付け:優先トレイ
  4.1 並び順のわからないものをソートするには?
  4.2 電子メールメッセージの優先度による並べ替え
    4.2.1 電子メールの優先度の素性
  4.3 優先トレイの実装
  4.3.1 素性を抜き出すための関数群
  4.3.2 順位付けのための重み付け方式の設計
  4.3.3 電子メールのスレッド活動量を重み付けする
  4.3.4 順位付けの訓練と検証
 
5章 回帰:ページビューの予測
  5.1 回帰分析入門
    5.1.1 ベースラインモデル
    5.1.2 ダミー変数を使った回帰
    5.1.3 線形回帰入門
  5.2 ウェブのアクセス数を予測する
  5.3 相関を定義する
 
6章 正則化:テキスト回帰
  6.1 列の非線形関係:直線の先にあるもの
    6.1.1 多項式回帰の紹介
  6.2 過学習を防ぐ方法
    6.2.1 正則化を用いて過学習を防ぐ
  6.3 テキスト回帰
    6.3.1 救いの手、ロジスティック回帰
 
7章 最適化:暗号解読
  7.1 最適化入門
  7.2 リッジ回帰
  7.3 最適化としての暗号解読
 
8章  PCA:株式市場指標の作成
  8.1 教師なし学習
 
9章  MDS:米国上院議員の類似度の視覚的な調査
  9.1 類似度に基づいたクラスタリング
    9.1.1 距離尺度と多次元尺度構成法の概要
  9.2 米国上院議員はどのようにクラスタリングされるか?
    9.2.1 米国上院議員点呼投票データの分析(第101議会〜第111議会)
 
10章  k近傍法:推薦システム
  10.1 k近傍法のアルゴリズム
  10.2 Rパッケージのインストールデータ
 
11章 ソーシャルグラフの分析
  11.1 ソーシャルネットワーク分析
    11.1.1 グラフを使って考える
  11.2 ツイッターのソーシャルグラフデータの調査
    11.2.1 GoogleSocialGraphAPIの利用
  11.3 ツイッターネットワークの分析
    11.3.1 ローカルコミュニティ構造
    11.3.2 クラスタリングされたツイッターネットワークのGephiでの可視化
    11.3.3 独自の「フォローすべき人」エンジンの構築
 
12章 モデル比較
  12.1 SVM:サポートベクターマシン
  12.2 アルゴリズムを比較する

 

統計学がわかる


統計学がわかる (ファーストブック)

統計学がわかる (ファーストブック)


 これは読もうと思ったわけでもなく、統計学の入門書を紹介するみたいなブログ記事だとよく挙げられているので、どんなものなんだろうと確認してみたものです。
 数式をあまり使わずに統計学の基本概念がハンバーガーショップの例などを用いて解説されており、とてもわかり易いと思いました。「研究」ではなく「ビジネス」で統計をゼロから勉強する場合は、この本のほうが良い気がしましたね。研究で使うなら、以前のエントリでも書いたように最初から『心理統計学の基礎』みたいな本を読んだほうが結局速いんじゃないかな〜と思うのですが。
 というか、本来ビジネスであれ研究であれ使うものは同じだと思うので、正確には単なるレベル感の問題で、「会社で薦めやすい」のは本書かなと思った次第です。ふつうのサラリーマンがスキルアップを目指して……という感じでよむ分には、まずこういう本じゃないと気力が続かないかなと。
 大学なら、サラリーマンよりは「根性」及び「義務感」がある状態で読むと思うし、周りに教えてくれる人もいるので、『心理統計学の基礎』みたいなやつから始めればいいと思いました。

統計学がわかる【回帰分析・因子分析編】


統計学がわかる 【回帰分析・因子分析編】 (ファーストブック)

統計学がわかる 【回帰分析・因子分析編】 (ファーストブック)


 上記『統計学がわかる』の続編みたいなやつですね。『統計学がわかる』は、主に平均値の比較みたいな系統のテーマにフォーカスしたもので、要は基本的な検定の解説を通じて、確率分布に基づく統計学的なものの考え方を身につけるという感じ。 
 一方こちらの【回帰分析・因子分析編】は、変数と変数の関係を解き明かしていく系(まぁt検定だってカテゴリ変数と量的変数の関係を解き明かしてはいますが)の分析の入門という感じ。
 レベル感やわかりやすさは、『統計学がわかる』と同じです。