StatsBeginner: 初学者の統計学習ノート

初学者が統計学、機械学習、R、Pythonの勉強の過程をメモっていくノート。

R

R での多項分布に従う乱数の発生(単なるメモ)

R

エントリを起こすほどのことでもない単なるメモですが、ちょっとググった感じでは日本語でrmultinom()関数の使い方がぱっと分かるように書かれたページがぱっとは見つからなかったので、一応書いておきます。ヘルプをみればぱっと分かりますが。 スプラトゥ…

統計メモ:因子分析で斜交回転を行っても、共通性の値は変わらない

2年ぐらい前にブログに書こうと思って、下書きしたまま放置してたネタを見つけました。 今となっては単なる思い出なのですが、せっかくなのでエントリにしておきます。 当時、因子分析における「共通性」の扱いについて勘違いをしていました。 プロマックス…

Pythonのリスト内包表記みたいなのをRで書く方法(とおまけ)

Rの小技 Rでデータ分析するときに最近よくやる書き方があるのですが、よくやるといいながら1か月とか間が開くと忘れているので、メモしておきます。 2個あるのですが、1個目は将来ネットで検索して役に立ててくれる人がいるかもしれないので、1個目の小技…

Rメモ: 分散分析で交互作用を可視化するときのあのグラフを、Rで描きたい

交互作用の可視化 心理学(に限らないが)で分散分析を行う場合に、交互作用を可視化することなどを目的として、折れ線のグラフが作られることがありますよね。 主に2要因の場合で、水準数もさほど多くないときに、第1の要因をX軸に、第2の要因は線の種類…

【作業メモ】テキストファイルの行の先頭の記号を消したい(RとPython)

すごい初歩的なテキストの処理作業のメモです。 Pythonのクラスに関する↓の記事を読んでいたのですが、 http://www.shido.info/py/python7.html この記事に書かれてある「code 1」「code 2」を自分でも実行してみようと思ってコピペしようとすると、各行の先…

RMeCabで単語に品詞を振る作業

前回のエントリで書いたように、外国人向け日本語教科書に登場する単語の分析をしている友人の作業を手伝うために、形態素解析エンジンMeCabのインストールと、RMeCabのインストールを行いました。 今回は、その手伝い作業の内容について書いておきます。 そ…

RでTwitterのデータを分析するための準備(2015年6月現在のやり方)

RでTwitterを触る方法 Twitterのデータを分析しようと思って、手始めに{twitteR}というパッケージを触ってみました*1。 導入前にやることがいくつかあるのですが、ググって出てきた解説サイトに書いてあったとおりにやってみると失敗して数時間苦しみました…

『入門 機械学習』第3章:ベイズスパム分類器の作成

けっこうやっかいな教科書 オライリーの『入門 機械学習』という教科書を、半年ぐらい前に3分の1ぐらい読んで、内容をまとめたりはせずにほっといたのですが、このたび実際にRでコードを写経しながら走らせてみたりしたので、学習ノートとしてエントリを起…

Rで平方和のタイプを選ぶ

年末年始にやっていた実験データの分析の中で、分散分析を何回も行ったのですが、Rで分散分析をやるときに基本関数では平方和のタイプを選べないんですよね。 簡単な内容なのですが、平方和のタイプを選びながら分析する方法を、メモしておきます。 あわせて…

日記: 統計・プログラミング・機械学習関連の本の立ち読みメモ

こないだ、日本一大きい書店と言われる大阪のジュンク堂で、統計・プログラミング・機械学習関係の本をいくつか立ち読みしてきたのでメモしておきます。 あくまでパラパラ立ち読みしてきただけなので中身は理解していません。今後買おうかな〜どうしようかな…

信頼区間の意味と、Rのpredict()関数の使い方の注意点

信頼区間とはなんぞやというのをメモしておこうと思って、簡単なデータで回帰分析を行って図をつくろうかと思ったら、Rのpredict()関数の使い方に落とし穴があったので復習がてらメモ……。 とりあえず単回帰分析する Rの練習用データセット「cars」をつかいま…

Rメモ: サイズの大きいcsvファイルを読み込むときはdata.tableを使う

私はcsvをRに読み込むときはread.csv()でやってたわけですが、↓のような解説を読むと、どうやら大きなデータを読み込むときにread.csv()とかやってる奴は論外らしい。 data.tableパッケージで大規模データをサクッと処理する Rで高速に大量データを読み込ん…

Rメモ:read.csv/write.csvで読み込んだり書き出したりするときの注意点

Rで、CSVのデータを読み込んだり書き出したりするときに、引数をちゃんと設定してなくてミスることがありますね。 いやべつに大したことではなくて、私のような初心者レベルですら「当たり前」なことではあるんですが、今日あるデータを分析してて一部ミスっ…

勉強会:主成分分析・因子分析(金明哲『Rによるデータサイエンス』)

今回の勉強会 こないだの日曜日は友人とやっている週次の統計勉強会で、金明哲『Rによるデータサイエンス』の主成分分析の章と因子分析の章を扱いました。 Rによるデータサイエンス - データ解析の基礎から最新手法まで作者: 金明哲出版社/メーカー: 森北出…

よくダウンロードされているRのパッケージ

RでMD5などのハッシュ値を得るためのツールはないかなと思って検索したら、digestというパッケージがあることがあっさり分かったのだが、検索してる途中にたまたま以下のような記事をみつけた。 Top 100 R packages for 2013 (Jan-May)! | R-statistics blog…

Rの指数表示を回避するoptions(scipen)の法則

Rの指数表示の回避方法 以前、別のブログのほう(リンク)で、Rの指数表示の回避を行う方法についてのエントリを書いたのですが、せっかく統計とRに関するブログを書き始めたので、こっちに転載しておきます。 元の記事ではいろいろ悩んだ過程を書いてるので…

正規性の検定結果の違い

正規性の検定 先のエントリでも触れたように、分布の正規性の検定にはいくつかの種類があります。 参考に、サンプルサイズを変えながらシャピロ・ウィルク検定とコルモゴロフ・スミノルフ検定を実施し、結果の違いを図にしてみました。とりあえず作図しただ…

Rの練習:Rの乱数で中心極限定理を確かめてみる

乱数によるシミュレーションで中心極限定理を確かめる 統計の初学者としての感想なのですが、統計モデルを「乱数発生器」と見なす考え方は学習の初期でしっかり教えてほしかったなと思っております。私が最初に勉強した『心理統計学の基礎』という本にも、よ…

Rで全角数字を半角数字に書き換える

↓このページに、Rで文字列を操作する系のコマンドが色々載っていました。 文字列 | Rを利用して文字列のマッチング,結合,分割,置換を行う関数 これを参考に、データの全角数字を半角数字に入れ替えるというのをやってみたいと思います。 そういえば、はてな…

クロンバックのα(信頼性係数)の計算方法がソフトやパッケージによって違うらしい

メモ。 統計解析ソフトやRのパッケージによってクロンバックのα信頼性係数が違う? - Togetterまとめ 心理学で尺度の解析をやる場合などに、たとえば1つの構成概念(心理的な傾向に名前を付けたもの。たとえば「抑鬱傾向」とか。)に対して10個とかの質問を…

S字型カーブに沿って成長する皮算用をRで行う

S字型皮算用の必要性 サラリーマンなら誰しも、施策の将来効果を推計したりする際、あまり根拠となるデータもないので適当に鉛筆をなめるという局面は、ありまくると思います。そりゃ根拠あったほうがいいに決まってるんですが、データを集めるのにコストか…

Rのprcomp()関数で主成分分析をするときの注意点

Rでの主成分分析の実行 前々回のエントリで学習した永田・棟近教科書の第9章「主成分分析」にのっている計算例を、自分でRにより実行してみることとする。 前半では、教科書の計算例の実行、後半では、Rのprcomp()関数を使うときに注意しなきゃなと思った点…

Rで3次元グラフを描く練習

主成分の分散最大化のグラフを描いてみようと思う Rの操作方法の練習として、前回の主成分分析の学習ノート(前回のエントリへ)のところに出てきた、主成分の分散を表す式、 ・・・(9.7) のグラフを描いてみることにする。とかが動くとがどういうふうに動く…

Rで素因数分解

R

昨日、「素因数分解ってRでどうやるのかな」と思ってググったら、gmpというパッケージがあるようです。(ここで解説をみつけた。) install.packages("gmp", dep=TRUE) library(gmp) factorize(as.bigz("●●●●")) # ●●●●のところに素因数分解したい数字を入れ…