読者です 読者をやめる 読者になる 読者になる

StatsBeginner: 初学者の統計学習ノート

初学者が統計学、機械学習、R、Pythonの勉強の過程をメモっていくノート。

フォルダの差分同期をExcel(VBA)で行う

VBAの勉強エントリです。 自分がデータ分析とかをやる場面ではべつにVBAを使う必要はなく、RやPythonでやればいいのですが、会社の仕事で他の人たちと共同作業する上では、Excelとかのマクロが組めると便利だろうなと思うことが多いです。 しかしほっといた…

メールデータ解析のため、Outlookの分類フォルダをまたいでメッセージを一括テキスト変換

Outlookのマクロ(VBA)に関するエントリです。 オライリーの『入門機械学習』はRによる機械学習の教科書で、正直どっちかというと今は「同じタイトルでPythonによる分析の教科書」の方が欲しい感じなのですが、これもけっこう写経しているだけでも勉強にな…

学術研究費のクラウドファンディング 〜CrowdからTribeへ〜

以下の記事をみてTwitterでシェアしようと思ったら要約が長くなりすぎたのでここにメモしておきます。単に概要を箇条書きしただけです。 Crowdfunding and Tribefunding in Science – The Next Regeneration 政府系の競争的な研究資金を取るのは大変で、研究…

Pythonメモ: Tweepyのややこしいレスポンスデータの読み方 〜Twitter API活用の最初の難関〜

Twitterのbot作りは良い勉強になる 以前のエントリで紹介したように、Tweepyというライブラリを使うと、かなり簡単にPythonでTwitterを自動操作出来るようになります。 www.statsbeginner.net つぶやいたり、フォロー/アンフォローしたり、RTしたりふぁぼっ…

Pythonメモ: Pandasのデータフレームに空のデータフレームを合体させたらint型の列がfloat型になってた

こんな事象に陥る人が他にいるのか分からないのですが、ググって解決しなかった問題が解決したので、せっかくだからメモしておきます。 Pandasのデータフレームに、整数型で値が入っている列があるとします。 >>> import pandas as pd >>> import numpy >>> …

ブログのドメイン変更/TwitterのAPIについての悩み

ブログのURLを変更しました。 旧URL http://statsbeginner.hatenablog.com/ ↓ 新URL http://www.statsbeginner.net/ 旧URLのままでもアクセスできるようですが。 ・・・そのことだけ書いて終わりというのもなんなので、最近の悩みを書いておきます。 Tweepy…

Power Pointのスライドマスタ設定が分かりにくいのでメモ

統計学習とは関係ない話です。 パワポのスライドマスタ機能は分かりにくい 会社でパワポの資料を作るときは、会社の公式のスライドマスタを使うんですが、スライド番号とかconfidentialとか日付の表示について、微妙にマスタをいじることがあります。表示す…

R での多項分布に従う乱数の発生(単なるメモ)

R

エントリを起こすほどのことでもない単なるメモですが、ちょっとググった感じでは日本語でrmultinom()関数の使い方がぱっと分かるように書かれたページがぱっとは見つからなかったので、一応書いておきます。ヘルプをみればぱっと分かりますが。 スプラトゥ…

かけ算の順序にこだわる教え方は擁護できるか

叩かれる先生たち 数日前の茂木健一郎氏のブログ記事に限らず、かけ算の順序にこだわった教授法が不毛だとしてネット上で叩かれているのはよくみかける。Wikipediaにもページが設けられているし、この問題について考察した書籍も出ているようだ。 かけ算には…

機械翻訳に関する記事を読んで面白いと思ったこと(与太話)

短いし大したことは言わないし正確に理解もできていないので、ブログ記事にするのもためらわれますが、Twitterの字数では書けないのでここに書きます。 以下の、機械翻訳の現状に関する記事を読み、大変参考になりました。 rekken.g.hatena.ne.jp それで学説…

Pythonの入門書としても使える『言語処理のためのプログラミング入門』

Python及びテキストマイニングの超初心者向け入門書として 友人と週1回ペースで行っている統計&プログラミングの勉強会で、以前、Pythonの入門書は何がいいだろうかと考えて本書を取り上げました。当時ブログにはまとめていなかったのでまとめておきます。…

数学を勉強しても役に立たないが、「数学化」を学ぶことは役に立つ?

数学は役に立つのか 数学は何の役に立つのか?という、よくある疑問についてのエントリを読みました。 「数学は役に立つ/立たない」について思うこと - 31歳からの数学修士 「数学が何の役に立つ?」と疑っている人でも、数学が本当に何の役にも立ってない…

統計メモ:因子分析で斜交回転を行っても、共通性の値は変わらない

2年ぐらい前にブログに書こうと思って、下書きしたまま放置してたネタを見つけました。 今となっては単なる思い出なのですが、せっかくなのでエントリにしておきます。 当時、因子分析における「共通性」の扱いについて勘違いをしていました。 プロマックス…

ボタンを「押下(おうか)する」という言い方はかなり昔から存在していた(文献引用つき)

「押下する」は変な日本語? IT業界でよく使われる「押下(おうか)する」という言葉について考察したQiitaの記事が話題になっておりました。 qiita.com ブコメをみると「変な日本語だと思ってた」的なコメントが散見されましたが、実際、SIerの人とかと仕事…

社会人学生として博士号を修得したのでメモ

先日、社会人学生として4年間在籍したK都大学から博士(工学)の学位を授与されました。 ひょっとしたら社会人として大学院進学を目指す人の参考になるかもしれないので、資料としてこれまでの過程や気づいたことをメモしておこうと思います。私も以前、社…

質問紙(リッカート尺度)のデータってふつうに分析して大丈夫なのか

アンケート調査なんかで、 Q1. STAP細胞はあります。 □ とてもそう思う □ そう思う □ ややそう思う □ どちらでもない □ あまりそう思わない □ そう思わない □ 全くそう思わない というような質問紙を作成してデータをとり、「とてもそう思う」を7点、「全く…

Pythonのリスト内包表記みたいなのをRで書く方法(とおまけ)

Rの小技 Rでデータ分析するときに最近よくやる書き方があるのですが、よくやるといいながら1か月とか間が開くと忘れているので、メモしておきます。 2個あるのですが、1個目は将来ネットで検索して役に立ててくれる人がいるかもしれないので、1個目の小技…

統計的仮説検定の「p値」にこだわってはいけないのか

(タイトルにやや語弊ありますが、「こだわってはいけない」というような禁止的な議論をしている人とか、「p値はもはや完全に無意味である」というような極端な主張をしている人がいるわけではないということは理解しています。) 検定のロジックはけっこう…

ネットワーク分析ライブラリiGraphをPythonから使うための準備(Macの場合)

ネットワーク分析のツール ネットワーク分析ってありますよね。 表面的な理解としては、こんな風情の図を描いたりするやつです。 頂点(node, vertex)と、頂点を結ぶ線(link, edge)の集まりとしての「グラフ」の性質を記述するグラフ理論というものがあっ…

日本語と英語の、難易度が高い形態素解析の例

小ネタです。 すもももももももものうち 昨日、日本語形態素解析エンジンMeCabに関するエントリを書きました。 statsbeginner.hatenablog.com ところで、MeCabの公式サイト(リンク)にいくと、インストール完了後のテストとして「すもももももももものうち…

形態素解析エンジンMeCabをPython3でも使えるようにする(Macの場合)

MeCabのPythonバインディングはPython3で使えない? 日本語の文章を解析する際には欠かせない、形態素解析エンジン"MeCab"の導入に関するエントリを以前書きました(過去エントリ)。 MeCabの公式サイトにいくとPythonバインディングというのが配布されてい…

Rメモ: 分散分析で交互作用を可視化するときのあのグラフを、Rで描きたい

交互作用の可視化 心理学(に限らないが)で分散分析を行う場合に、交互作用を可視化することなどを目的として、折れ線のグラフが作られることがありますよね。 主に2要因の場合で、水準数もさほど多くないときに、第1の要因をX軸に、第2の要因は線の種類…

作業&勉強メモ: Pythonで指定したディレクトリ配下のディレクトリ名とファイル名を取得する

ちょっとした作業のメモです。わたし初心者ですのでヘンなことをやってる可能性あります。 指定したディレクトリ配下のディレクトリ名やファイル名を取得しようと思い、↓のページを参考に作業しました。 qiita.com ただ、以下のような変更を行いました。 リ…

Macに入れた各種Pythonを全部アンインストールしてAnacondaを入れなおす

Pythonいろいろ入れすぎた Python3を単独で入れてみたり、Canopyを入れたりAnacondaを入れたり、Spyderを入れたらその中にもPythonが入っていたり・・・と、わけがわからなくなってきたので、いったんMacに標準で入っているもの以外は全部アンインストールし…

Spyder(PythonのIDE)を入れてみたところ、とても使いやすい

Pythonを使う時、なんとなく、Canopy ExpressっていうIDEを使ってました。 あまり深い理由はなく、オライリーの『Pythonによるデータ分析入門』でCanopy使いましょうって書いてあったり、IPythonのインストール解説ページにいくと、IPythonを使いたいなら単…

【作業メモ】テキストファイルの行の先頭の記号を消したい(RとPython)

すごい初歩的なテキストの処理作業のメモです。 Pythonのクラスに関する↓の記事を読んでいたのですが、 http://www.shido.info/py/python7.html この記事に書かれてある「code 1」「code 2」を自分でも実行してみようと思ってコピペしようとすると、各行の先…

Pythonの"Tweepy"でTwitter APIから取得したデータを読んでみる

[追記] このエントリを書いた後、レスポンスデータの読み方について別途詳しくエントリにまとめました。 www.statsbeginner.net [/追記] 前回のエントリで、PythonのTweepyライブラリを導入し、TwitterのAPIをいじることができるようになりました。 statsbeg…

Tweepyを使って、PythonでTwitterのAPIを超簡単に操作する

PythonでTwitterのAPIを触りたい PythonでTwitterのAPIを操作し、検索の自動化による情報収集・解析とか、自動でつぶやくbotの作成を可能にしたい。 そこでTweepyというライブラリを使うと、とても簡単に態勢が整いました。10行以内のコードで準備が終わりま…

RMeCabで単語に品詞を振る作業

前回のエントリで書いたように、外国人向け日本語教科書に登場する単語の分析をしている友人の作業を手伝うために、形態素解析エンジンMeCabのインストールと、RMeCabのインストールを行いました。 今回は、その手伝い作業の内容について書いておきます。 そ…

形態素解析エンジンMeCabの導入と、R及びPythonからの利用(Macの場合)

MeCabで形態素解析 外国人向けの日本語教育の研究をしてる友人がいて、海外での教材出版などを私も共著者として数回手伝ったりしたのですが、彼が20冊ぐらいの日本語教科書の本文に出てくる単語をひたすらエクセルに入力した表を持っていて、それに品詞名を…

レコード・CD・有料ダウンロード等の販売量推移のグラフ

音楽コンテンツの媒体別販売量の推移が気になって昔グラフにしてたのを久しぶりにみつけたので、2014年まで数字を入れて更新しておいた。 元データはここです。 一般社団法人 日本レコード協会|各種統計 有料ダウンロード件数については「有料音楽配信売上…

「人工知能」はやはり「懐かしい言葉」だった――1980年以降の新聞等に出てくる頻度の推移

ディープラーニングやら何やらの隆盛によって、「人工知能」に関する記事がネット上でも増えていますね。 7月に入ってからはてブで50ブクマ以上いってる記事だけでもこんだけある。 人工知能マシン、人間のしつこい質問にキレる--グーグルの実験より - CNET…

『入門 機械学習』第4章:「重要なメール」を特定する

前置き 本エントリはオライリーの『入門 機械学習』の学習メモです。入門 機械学習作者: Drew Conway,John Myles White,萩原正人,奥野陽,水野貴明,木下哲也出版社/メーカー: オライリージャパン発売日: 2012/12/22メディア: 大型本購入: 2人 クリック: 41回…

RでTwitterのデータを分析するための準備(2015年6月現在のやり方)

RでTwitterを触る方法 Twitterのデータを分析しようと思って、手始めに{twitteR}というパッケージを触ってみました*1。 導入前にやることがいくつかあるのですが、ググって出てきた解説サイトに書いてあったとおりにやってみると失敗して数時間苦しみました…

『入門 機械学習』第3章:ベイズスパム分類器の作成

けっこうやっかいな教科書 オライリーの『入門 機械学習』という教科書を、半年ぐらい前に3分の1ぐらい読んで、内容をまとめたりはせずにほっといたのですが、このたび実際にRでコードを写経しながら走らせてみたりしたので、学習ノートとしてエントリを起…

Rによる分散分析でタイプIII平方和を使う時の落とし穴

デフォルト設定ではダメ 先日、RでタイプIII(タイプ3)平方和を使う方法についてエントリを書いた直後に、落とし穴があったことに気づいて、まとめたエントリを書こうと思ったんですが、勉強が進んでなくてあまりきちんと理解できておりません。しかし放置…

南風原朝和『続・心理統計学の基礎』(有斐閣)

私は、南風原朝和著『心理統計学の基礎』の大ファンです。心理学の研究をするしないにかかわらず「文系の人間が、統計学をきちんと使えることを目指して初歩から勉強する」場合の、最初のテキストとして「神レベル」だと思っています。 その続編が昨年末につ…

Rで平方和のタイプを選ぶ

年末年始にやっていた実験データの分析の中で、分散分析を何回も行ったのですが、Rで分散分析をやるときに基本関数では平方和のタイプを選べないんですよね。 簡単な内容なのですが、平方和のタイプを選びながら分析する方法を、メモしておきます。 あわせて…

どちらも一長一短の「短時間集中 vs 長時間ダラダラ」

効率的なコードが書けない 年末年始、帰省してたのですが、12/28〜1/2ぐらいまで、実家の部屋にこもってずっと実験データの分析をやっていました(たまに家族で食事に出かけたりした)。 まともな体勢で寝た日が1日ぐらいしかなく、机の後ろにベッドがある…

「学術論文の元データって、どれぐらい残っているものなのか?」を調べた論文

今日、知り合いのFacebookで、以下の記事がシェアされていました。 「生データの保存大切」 山中教授、STAP問題で指摘「生データの保存大切」 山中教授、STAP問題で指摘(1/2ページ) - 産経ニュース 内容はタイトルのまんまで、特に思うこともない…

人工知能に関する番組と、素人的に気になること

松尾豊氏のインタビュー動画 マル激(videonews.com)で、人工知能の研究をしている東大の松尾豊准教授のインタビューが放送されていたので、通勤時間にみました。私は会員なのでいつも有料放送もみてますが、これは無料の回なので、YouTubeに全部のっていま…

検定の繰り返しと多重比較について(追記あり)

真ん中らへんに追記しました。 多重比較とは たとえば学校のクラスがA〜Bの3つあって、それぞれの国語のテストの平均値を比較して、「クラスによって国語の成績は異なるかどうか」を調べるときに、とりあえず分散分析を行いますね。しかし分散分析でクラス…

日記: 統計・プログラミング・機械学習関連の本の立ち読みメモ

こないだ、日本一大きい書店と言われる大阪のジュンク堂で、統計・プログラミング・機械学習関係の本をいくつか立ち読みしてきたのでメモしておきます。 あくまでパラパラ立ち読みしてきただけなので中身は理解していません。今後買おうかな〜どうしようかな…

Rの練習: fisher.test()でメモリが足りなくなる

ちょっとしたデータをカイ二乗検定しようとすると、往々にして、期待度数が5に満たないセルが存在するせいで警告が出ます。 > print(d) Group.1 Group.2 Item.1 3 2 Item.2 9 12 Item.3 32 41 Item.4 68 74 Item.5 90 91 Item.6 35 32 Item.7 17 4 > chisq.…

信頼区間の意味と、Rのpredict()関数の使い方の注意点

信頼区間とはなんぞやというのをメモしておこうと思って、簡単なデータで回帰分析を行って図をつくろうかと思ったら、Rのpredict()関数の使い方に落とし穴があったので復習がてらメモ……。 とりあえず単回帰分析する Rの練習用データセット「cars」をつかいま…

首相の「血液型O型」の割合は日本人の平均より有意に多い(産経新聞の記事の数字を検定してみる)

血液型と性格の関係 産経新聞のネット記事で、首相の血液型はO型が多いということや、増税する首相はB型が多いといったことが書かれていました。 この一覧表をみてみると、興味深いことがいくつか浮かび上がってきました。 1つは、O型が突出して多いとい…

『Pythonスタートブック』第6章

全然、Pythonを勉強する時間が取れず、滞っていますw とりあえず、『Pythonスタートブック』の第6章だけやりました。 Pythonスタートブック作者: 辻真吾出版社/メーカー: 技術評論社発売日: 2010/04/24メディア: 大型本購入: 19人 クリック: 199回この商品…

文系がゼロから統計を勉強するときに最初の1年で読むべき本

最初の1年で読むべき本を考える 私の統計学の理解はまだまだ初歩レベルに留まっていますが、昨日飲んでる時に「初心者向けの統計の本ってどういうのが分かりやすいですか」というようなことを訊かれて、「俺に訊かれてもあまり参考には……」とか思う一方、ま…

Rの練習: 因子分析の分析対象から除去すべき項目を割り出すプログラムを書いてみる

心理学で心理測定尺度の因子分析を行う際に、30項目なら30項目の質問を並べて「とても当てはまる」〜「全く当てはまらない」までの7段階の回答を取り、7点〜1点を割り振って、因子分析を行うことがよくあります。 で、たとえば仮説によって「3因子」の構造…

『Pythonスタートブック』第5章をやりました

教科書第5章をやる 昨日は、『Pythonスタートブック』第5章をやりました。進みが遅いですが、まぁ、何かの合間にやってる程度なので…。 Pythonスタートブック作者: 辻真吾出版社/メーカー: 技術評論社発売日: 2010/04/24メディア: 大型本購入: 19人 クリック…