StatsBeginner: 初学者の統計学習ノート

初学者が統計学、機械学習、R、Pythonの勉強の過程をメモっていくノート。

Rでの単位根検定はadf.test()関数よりCADFtest()関数がいいのでは?

時系列データをあまり扱わないのでまじめに考えてなかったんですが、Rで単位根検定をする場合、拡張ディッキー=フラー検定(augmented Dickey–Fuller test)を実施してくれるadf.test()という関数があります。 しかしこの関数は、 考慮するラグの次数を指定…

Rで要素番号の指定の仕方をミスった

考えてみればそりゃそうか、という感じではあるのですが、またいつかミスりそうなのでメモしておきます。 たとえば以下のような感じで、startとendの値を変えて適切な期間を取りたいとします。 > v <- c(1961, 1962, 1963, 1964, 1965, 1966, 1967, 1968, 19…

Pythonの簡単なコードでメールを自動送信してみる

意外と簡単にできた メールを300人ぐらいに発信する必要がありまして、Toに全員入れるわけにはいかないし、BCCで送るのもダサいかなと思って、「1人1人を個別にToに指定して、同じ件名・同じ文面のメールを送る」ってのをPythonでやってみました。*1 標準モ…

Macでの年賀状作成環境について(2018年版)

ブログの趣旨と全然違いますが、備忘のためにまとめておこうと思います。 私は、サボる年もありますが、出す時は年賀状を200人以上に出すので、けっこうな大仕事になっています。 しかも東京周辺の知り合いが多く、3〜4年たつと半分ぐらいの人が引っ越してし…

今更ながら、Rのアンインストール・インストール・初期設定の復習(Macの場合)

備忘のためのメモが必要 Rのバージョンアップをしようとしたんですが、Macの場合はアップデート用のコマンドが使えないらしいので、アンインストールして新バージョンを再インストールをすることにしました。 Rのインストール方法なんて解説サイトが山ほどあ…

ブロックチェーンって「付加価値」が期待されてるわけでもなくね?

久しぶりにブロックチェーンに関する記事を読んだんですが・・・ qiita.com 「ブロックチェーンが経済のあり方を変える!」的な一部世間の風潮にクギを刺すような論調の記事ですが、金融機関や役所でブロックチェーンの活用に取り組んでいる人たちの話とは少…

Pythonメモ: Pandasで文字列検索をループするとかなり遅かった

前回のエントリで、Pandasのデータフレームを文字列で検索すると遅かったと書いたんですが、実際に検索の方法を変えるとどれぐらい違うのかを計測してみました。 結論から言えば、辞書型に変換してから検索したらだいぶ速くなったのですが、それが凄いという…

【Python】MeCabと極性辞書を使ったツイートの感情分析入門

負のオーラを自動検出したい 前回のエントリで、著作権侵害にあたる違法アップロード動画を自分のTwitterで拡散してしまっている懸念を考えて、YouTube動画のリンクが貼ってあるツイートをまとめて削除しました。 前回のエントリでも言いましたが、著作権侵…

エンジニア泣かせの「日本の住所」は誰が決めているのか

住所のデータを機械で扱おうと思った時、日本の住所は「1の1」と「1丁目1番」と「1-1」のように表記が統一されていないことや、アメリカ等のようにカンマでの分かち書きがされていないなどの理由によって、処理が難しいというのはよく知られた話です(分かち…

Python作業メモ: 残しておくとマズそうな自分のツイートをまとめて削除する(YouTubeリンク編)

著作権侵害にあたるYouTube動画へのリンクを削除する たまにツイッターで、YouTubeのリンクを貼り付けたツイートをしていますが、よく考えたら違法アップロードに該当するものを拡散してしまっている可能性があります。可能性とかいう曖昧なレベルで考えるの…

フォルダの差分同期をExcel(VBA)で行う

VBAの勉強エントリです。 自分がデータ分析とかをやる場面ではべつにVBAを使う必要はなく、RやPythonでやればいいのですが、会社の仕事で他の人たちと共同作業する上では、Excelとかのマクロが組めると便利だろうなと思うことが多いです。 しかしほっといた…

メールデータ解析のため、Outlookの分類フォルダをまたいでメッセージを一括テキスト変換

Outlookのマクロ(VBA)に関するエントリです。 オライリーの『入門機械学習』はRによる機械学習の教科書で、正直どっちかというと今は「同じタイトルでPythonによる分析の教科書」の方が欲しい感じなのですが、これもけっこう写経しているだけでも勉強にな…

学術研究費のクラウドファンディング 〜CrowdからTribeへ〜

以下の記事をみてTwitterでシェアしようと思ったら要約が長くなりすぎたのでここにメモしておきます。単に概要を箇条書きしただけです。 Crowdfunding and Tribefunding in Science – The Next Regeneration 政府系の競争的な研究資金を取るのは大変で、研究…

Pythonメモ: Tweepyのややこしいレスポンスデータの読み方 〜Twitter API活用の最初の難関〜

Twitterのbot作りは良い勉強になる 以前のエントリで紹介したように、Tweepyというライブラリを使うと、かなり簡単にPythonでTwitterを自動操作出来るようになります。 www.statsbeginner.net つぶやいたり、フォロー/アンフォローしたり、RTしたりふぁぼっ…

Pythonメモ: Pandasのデータフレームに空のデータフレームを合体させたらint型の列がfloat型になってた

こんな事象に陥る人が他にいるのか分からないのですが、ググって解決しなかった問題が解決したので、せっかくだからメモしておきます。 Pandasのデータフレームに、整数型で値が入っている列があるとします。 >>> import pandas as pd >>> import numpy >>> …

ブログのドメイン変更/TwitterのAPIについての悩み

ブログのURLを変更しました。 旧URL http://statsbeginner.hatenablog.com/ ↓ 新URL http://www.statsbeginner.net/ 旧URLのままでもアクセスできるようですが。 ・・・そのことだけ書いて終わりというのもなんなので、最近の悩みを書いておきます。 Tweepy…

Power Pointのスライドマスタ設定が分かりにくいのでメモ

統計学習とは関係ない話です。 パワポのスライドマスタ機能は分かりにくい 会社でパワポの資料を作るときは、会社の公式のスライドマスタを使うんですが、スライド番号とかconfidentialとか日付の表示について、微妙にマスタをいじることがあります。表示す…

R での多項分布に従う乱数の発生(単なるメモ)

R

エントリを起こすほどのことでもない単なるメモですが、ちょっとググった感じでは日本語でrmultinom()関数の使い方がぱっと分かるように書かれたページがぱっとは見つからなかったので、一応書いておきます。ヘルプをみればぱっと分かりますが。 スプラトゥ…

かけ算の順序にこだわる教え方は擁護できるか

叩かれる先生たち 数日前の茂木健一郎氏のブログ記事に限らず、かけ算の順序にこだわった教授法が不毛だとしてネット上で叩かれているのはよくみかける。Wikipediaにもページが設けられているし、この問題について考察した書籍も出ているようだ。 かけ算には…

機械翻訳に関する記事を読んで面白いと思ったこと(与太話)

短いし大したことは言わないし正確に理解もできていないので、ブログ記事にするのもためらわれますが、Twitterの字数では書けないのでここに書きます。 以下の、機械翻訳の現状に関する記事を読み、大変参考になりました。 rekken.g.hatena.ne.jp それで学説…

Pythonの入門書としても使える『言語処理のためのプログラミング入門』

Python及びテキストマイニングの超初心者向け入門書として 友人と週1回ペースで行っている統計&プログラミングの勉強会で、以前、Pythonの入門書は何がいいだろうかと考えて本書を取り上げました。当時ブログにはまとめていなかったのでまとめておきます。…

数学を勉強しても役に立たないが、「数学化」を学ぶことは役に立つ?

数学は役に立つのか 数学は何の役に立つのか?という、よくある疑問についてのエントリを読みました。 「数学は役に立つ/立たない」について思うこと - 31歳からの数学修士 「数学が何の役に立つ?」と疑っている人でも、数学が本当に何の役にも立ってない…

統計メモ:因子分析で斜交回転を行っても、共通性の値は変わらない

2年ぐらい前にブログに書こうと思って、下書きしたまま放置してたネタを見つけました。 今となっては単なる思い出なのですが、せっかくなのでエントリにしておきます。 当時、因子分析における「共通性」の扱いについて勘違いをしていました。 プロマックス…

ボタンを「押下(おうか)する」という言い方はかなり昔から存在していた(文献引用つき)

「押下する」は変な日本語? IT業界でよく使われる「押下(おうか)する」という言葉について考察したQiitaの記事が話題になっておりました。 qiita.com ブコメをみると「変な日本語だと思ってた」的なコメントが散見されましたが、実際、SIerの人とかと仕事…

社会人学生として博士号を修得したのでメモ

先日、社会人学生として4年間在籍した大学から博士(工学)の学位を授与されました。 ひょっとしたら社会人として大学院進学を目指す人の参考になるかもしれないので、資料としてこれまでの過程や気づいたことをメモしておこうと思います。私も以前、社会人…

質問紙(リッカート尺度)のデータってふつうに分析して大丈夫なのか

アンケート調査なんかで、 Q1. STAP細胞はあります。 □ とてもそう思う □ そう思う □ ややそう思う □ どちらでもない □ あまりそう思わない □ そう思わない □ 全くそう思わない というような質問紙を作成してデータをとり、「とてもそう思う」を7点、「全く…

Pythonのリスト内包表記みたいなのをRで書く方法(とおまけ)

Rの小技 Rでデータ分析するときに最近よくやる書き方があるのですが、よくやるといいながら1か月とか間が開くと忘れているので、メモしておきます。 2個あるのですが、1個目は将来ネットで検索して役に立ててくれる人がいるかもしれないので、1個目の小技…

統計的仮説検定の「p値」にこだわってはいけないのか

(タイトルにやや語弊ありますが、「こだわってはいけない」というような禁止的な議論をしている人とか、「p値はもはや完全に無意味である」というような極端な主張をしている人がいるわけではないということは理解しています。) 検定のロジックはけっこう…

ネットワーク分析ライブラリiGraphをPythonから使うための準備(Macの場合)

ネットワーク分析のツール ネットワーク分析ってありますよね。 表面的な理解としては、こんな風情の図を描いたりするやつです。 頂点(node, vertex)と、頂点を結ぶ線(link, edge)の集まりとしての「グラフ」の性質を記述するグラフ理論というものがあっ…

日本語と英語の、難易度が高い形態素解析の例

小ネタです。 すもももももももものうち 昨日、日本語形態素解析エンジンMeCabに関するエントリを書きました。 statsbeginner.hatenablog.com ところで、MeCabの公式サイト(リンク)にいくと、インストール完了後のテストとして「すもももももももものうち…