StatsBeginner: 初学者の統計学習ノート

初学者が統計学、機械学習、R、Pythonの勉強の過程をメモっていくノート。

Python

Pythonメモ: Pandasで文字列検索をループするとかなり遅かった

前回のエントリで、Pandasのデータフレームを文字列で検索すると遅かったと書いたんですが、実際に検索の方法を変えるとどれぐらい違うのかを計測してみました。 結論から言えば、辞書型に変換してから検索したらだいぶ速くなったのですが、それが凄いという…

【Python】MeCabと極性辞書を使ったツイートの感情分析入門

負のオーラを自動検出したい 前回のエントリで、著作権侵害にあたる違法アップロード動画を自分のTwitterで拡散してしまっている懸念を考えて、YouTube動画のリンクが貼ってあるツイートをまとめて削除しました。 前回のエントリでも言いましたが、著作権侵…

Pythonメモ: Pandasのデータフレームに空のデータフレームを合体させたらint型の列がfloat型になってた

こんな事象に陥る人が他にいるのか分からないのですが、ググって解決しなかった問題が解決したので、せっかくだからメモしておきます。 Pandasのデータフレームに、整数型で値が入っている列があるとします。 >>> import pandas as pd >>> import numpy >>> …

Pythonの入門書としても使える『言語処理のためのプログラミング入門』

Python及びテキストマイニングの超初心者向け入門書として 友人と週1回ペースで行っている統計&プログラミングの勉強会で、以前、Pythonの入門書は何がいいだろうかと考えて本書を取り上げました。当時ブログにはまとめていなかったのでまとめておきます。…

Pythonのリスト内包表記みたいなのをRで書く方法(とおまけ)

Rの小技 Rでデータ分析するときに最近よくやる書き方があるのですが、よくやるといいながら1か月とか間が開くと忘れているので、メモしておきます。 2個あるのですが、1個目は将来ネットで検索して役に立ててくれる人がいるかもしれないので、1個目の小技…

ネットワーク分析ライブラリiGraphをPythonから使うための準備(Macの場合)

ネットワーク分析のツール ネットワーク分析ってありますよね。 表面的な理解としては、こんな風情の図を描いたりするやつです。 頂点(node, vertex)と、頂点を結ぶ線(link, edge)の集まりとしての「グラフ」の性質を記述するグラフ理論というものがあっ…

形態素解析エンジンMeCabをPython3でも使えるようにする(Macの場合)

MeCabのPythonバインディングはPython3で使えない? 日本語の文章を解析する際には欠かせない、形態素解析エンジン"MeCab"の導入に関するエントリを以前書きました(過去エントリ)。 MeCabの公式サイトにいくとPythonバインディングというのが配布されてい…

作業&勉強メモ: Pythonで指定したディレクトリ配下のディレクトリ名とファイル名を取得する

ちょっとした作業のメモです。わたし初心者ですのでヘンなことをやってる可能性あります。 指定したディレクトリ配下のディレクトリ名やファイル名を取得しようと思い、↓のページを参考に作業しました。 qiita.com ただ、以下のような変更を行いました。 リ…

Macに入れた各種Pythonを全部アンインストールしてAnacondaを入れなおす

Pythonいろいろ入れすぎた Python3を単独で入れてみたり、Canopyを入れたりAnacondaを入れたり、Spyderを入れたらその中にもPythonが入っていたり・・・と、わけがわからなくなってきたので、いったんMacに標準で入っているもの以外は全部アンインストールし…

Spyder(PythonのIDE)を入れてみたところ、とても使いやすい

Pythonを使う時、なんとなく、Canopy ExpressっていうIDEを使ってました。 あまり深い理由はなく、オライリーの『Pythonによるデータ分析入門』でCanopy使いましょうって書いてあったり、IPythonのインストール解説ページにいくと、IPythonを使いたいなら単…

【作業メモ】テキストファイルの行の先頭の記号を消したい(RとPython)

すごい初歩的なテキストの処理作業のメモです。 Pythonのクラスに関する↓の記事を読んでいたのですが、 http://www.shido.info/py/python7.html この記事に書かれてある「code 1」「code 2」を自分でも実行してみようと思ってコピペしようとすると、各行の先…

Pythonの"Tweepy"でTwitter APIから取得したデータを読んでみる

[追記] このエントリを書いた後、レスポンスデータの読み方について別途詳しくエントリにまとめました。 www.statsbeginner.net [/追記] 前回のエントリで、PythonのTweepyライブラリを導入し、TwitterのAPIをいじることができるようになりました。 statsbeg…

Tweepyを使って、PythonでTwitterのAPIを超簡単に操作する

PythonでTwitterのAPIを触りたい PythonでTwitterのAPIを操作し、検索の自動化による情報収集・解析とか、自動でつぶやくbotの作成を可能にしたい。 そこでTweepyというライブラリを使うと、とても簡単に態勢が整いました。10行以内のコードで準備が終わりま…

日記: 統計・プログラミング・機械学習関連の本の立ち読みメモ

こないだ、日本一大きい書店と言われる大阪のジュンク堂で、統計・プログラミング・機械学習関係の本をいくつか立ち読みしてきたのでメモしておきます。 あくまでパラパラ立ち読みしてきただけなので中身は理解していません。今後買おうかな〜どうしようかな…

『Pythonスタートブック』第6章

全然、Pythonを勉強する時間が取れず、滞っていますw とりあえず、『Pythonスタートブック』の第6章だけやりました。 Pythonスタートブック作者: 辻真吾出版社/メーカー: 技術評論社発売日: 2010/04/24メディア: 大型本購入: 19人 クリック: 199回この商品…

『Pythonスタートブック』第5章をやりました

教科書第5章をやる 昨日は、『Pythonスタートブック』第5章をやりました。進みが遅いですが、まぁ、何かの合間にやってる程度なので…。 Pythonスタートブック作者: 辻真吾出版社/メーカー: 技術評論社発売日: 2010/04/24メディア: 大型本購入: 19人 クリック…

Pythonの勉強(実質2日目くらい)を再開

勉強再開 先週のエントリで入門してすぐ1週間ぐらい放置してしまいましたが、今日少しだけPythonの勉強をやりました。 Pythonスタートブック作者: 辻真吾出版社/メーカー: 技術評論社発売日: 2010/04/24メディア: 大型本購入: 19人 クリック: 199回この商品…

Python入門初日:環境の構築など

《2016.1.6追記》 なぜか数日前からこの記事に数名の方にブックマークしていただいているのですが、これは結構古いエントリでして、その後Pythonの環境は、Anacondaというパッケージを入れて同梱されているSpyderというIDEを使う方法で落ち着きましたので、…

Pythonの教科書を2冊買った

Pythonを始めてみようかと Pythonの教科書を2冊買いました。 私はプログラミングはまったくの素人ですし、これから頑張ろうと意気込んでいるわけでもないのですが、Rをいじっていると初心者レベルではあってもプログラミングっぽいものに少し関心が出てきて…