StatsBeginner: 初学者の統計学習ノート

初学者が統計学、機械学習、R、Pythonの勉強の過程をメモっていくノート。

パッケージ・ライブラリ

形態素解析エンジンMeCabをPython3でも使えるようにする(Macの場合)

MeCabのPythonバインディングはPython3で使えない? 日本語の文章を解析する際には欠かせない、形態素解析エンジン"MeCab"の導入に関するエントリを以前書きました(過去エントリ)。 MeCabの公式サイトにいくとPythonバインディングというのが配布されてい…

RでTwitterのデータを分析するための準備(2015年6月現在のやり方)

RでTwitterを触る方法 Twitterのデータを分析しようと思って、手始めに{twitteR}というパッケージを触ってみました*1。 導入前にやることがいくつかあるのですが、ググって出てきた解説サイトに書いてあったとおりにやってみると失敗して数時間苦しみました…

Rメモ: サイズの大きいcsvファイルを読み込むときはdata.tableを使う

私はcsvをRに読み込むときはread.csv()でやってたわけですが、↓のような解説を読むと、どうやら大きなデータを読み込むときにread.csv()とかやってる奴は論外らしい。 data.tableパッケージで大規模データをサクッと処理する Rで高速に大量データを読み込ん…

よくダウンロードされているRのパッケージ

RでMD5などのハッシュ値を得るためのツールはないかなと思って検索したら、digestというパッケージがあることがあっさり分かったのだが、検索してる途中にたまたま以下のような記事をみつけた。 Top 100 R packages for 2013 (Jan-May)! | R-statistics blog…

クロンバックのα(信頼性係数)の計算方法がソフトやパッケージによって違うらしい

メモ。 統計解析ソフトやRのパッケージによってクロンバックのα信頼性係数が違う? - Togetterまとめ 心理学で尺度の解析をやる場合などに、たとえば1つの構成概念(心理的な傾向に名前を付けたもの。たとえば「抑鬱傾向」とか。)に対して10個とかの質問を…