飲み屋であった人が自然言語処理やってるといってたのでオススメのチュートリアルを聞いてみた


よく行く飲み屋にいた人が自然言語処理を仕事でやられているというので、オススメのチュートリアルを伺った。ちょっとやってみる。

色々手を出して、どれもものになっていないのだが、これはあくまで趣味なので問題ない。いろんな小説の頭の方だけ読んだっていいじゃないか。

↓チュートリアル

https://radimrehurek.com/gensim/tutorial.html

Pythonは自分で覚えるように。Gensimというライブラリかなんかをインストールしておくように。でイントロダクションを読むようにと。

It is assumed that the reader is familiar with the Python language, has installed gensim and read the introduction.

とりあえずIntroを読む。

Gensim is a free Python library designed to automatically extract semantic topics from documents, as efficiently (computer-wise) and painlessly (human-wise) as possible.

Gensimは無料のPythonライブラリで、文章から機械的にsemantic topic=多分、意味、もしくは主題を、抽出します。コンピューターの側にとって処理効率がよく、人間にとって苦痛の少ないものになっています。

Gensim is designed to process raw, unstructured digital texts (“plain text”). The algorithms in gensim, such as Latent Semantic Analysis, Latent Dirichlet Allocation and Random Projections discover semantic structure of documents by examining statistical co-occurrence patterns of the words within a corpus of training documents. These algorithms are unsupervised, which means no human input is necessary – you only need a corpus of plain text documents.

Gensimは人間が書いたそのままの、構造化されていないデジタル・テキストを処理します。Gensimのアルゴリズムは…

Once these statistical patterns are found, any plain text documents can be succinctly expressed in the new, semantic representation and queried for topical similarity against other documents.

わ、わからん。とりあえずPytonをインストールする。ラズパイとかでも使うことになるのでよい機会。

↓これを読んでインストールする

http://qiita.com/icoxfog417/items/e8f97a6acad07903b5b0

まずはpyenvを入れる。これはnodebrewみたいなpythonのバージョン管理ツールのようだ。

$ brew install pyenv

その後インストールするわけですが、

なんかエラーが出るので↓をみて対処。

pyenv: 対処法→Python環境のBUILD FAILED – “zipimport.ZipImportError: can’t decompress data; zlib not available”

具体的にはxocodeを入れる。

xcodeselect install

でpyenv install -lsでインストール可能なバージョン一覧から新しいやつを選択して、

pyenv install 3.6.1

でインストールできた。

あとは↓をみてバージョンを指定する。

http://qiita.com/mogom625/items/b1b673f530a05ec6b423

virtualenvをインストールする: pip install virtualenv

これは特定のディレクトリ直下に開発環境を整備するためのもののようだ。node.jsと対比すると、これを使うことでパッケージをローカルにインストールしてそのパッケージを実行するといったnodeだと当たり前の開発環境が実現できる。npm install XXX -D とかってローカルインストールしていくような開発方法が取れる。

↓でnode.jsのpackage.jsonにあたる、インストールしているパッケージの一覧を書き出しできる。他の開発者と環境を整えたければ、このファイルを読み込んでもらえば良い。

pip freeze > requirementx.txt

実行には XX.pi というファイルを作ってそこにかいて、python XX.piで実行できる。例えばprint (“test”)と test.piに書いて、python test.piで実行すると、ターミナルにtestと表示される。

ウェブストームでうまく.piが表示できなかったので調べたらpycharmというIDEがあったのでダウンロードしてみる。Webstormとだいたい同じなので良さげ。Webstormにはpython用のプラグインはない模様。

そしてみんなだいすき www.codecademy のpythonコースで書き方の雰囲気をつかむ。

以下プロジェクトの進め方。

# プロジェクトのフォルダを作成
mkdir myproject 
cd myproject

# 1.仮想環境の作成 venvはフォルダ名でここにプロジェクト用の環境が用意される
virtualenv venv 

# 2.仮想環境を有効化し、pipで必要なモジュールをインストール
# Windowsの場合、venv/Scripts/activate.bat なお、Gitのシェルを利用すると同じようにsourceでできる
# 仮想環境のactivateを行わないと、グローバルにインストールされるので注意 なお、無効化はdeactivate

source venv/bin/activate

pip install xxxx
# pip freezeで作成した一覧(requirements.txt)からインストールする場合は以下
pip install -r requirements.txt

# 3.実行する
python xxx.py

変数名

Pythonでは以下のような変数名は使えない

  • $は使えない。同じく_以外の記号は使えない。
  • 4number 冒頭は数字ではいけない
  • many-people 「-」は使えない。使える記号は_のみ。

変数名は、大文字小文字を区別して認識するので、manyPeople ManyPeople manypeople等々はすべて異なる変数名である。

 

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です