Looking for nltk Answers? Try Ask4KnowledgeBase
Looking for nltk Keywords? Try Ask4Keywords

nltknltkを使い始める


備考

NLTKは、人間の言語データを扱う Pythonプログラムを構築するための最先端のプラットフォームです。それは、分類、トークン化、ステミング、タグ付け、解析、意味論的推論のための一連のテキスト処理ライブラリ、産業強度のNLPライブラリのラッパー、WordNetのような50以上のコーパスおよびレキシカルリソースへの使いやすいインターフェイスを提供します。活発なディスカッションフォーラム

Pythonによる自然言語処理は、言語処理のためのプログラミングを実際に紹介します。 NLTKの作成者が作成したもので、読者はPythonプログラムの作成、コーパスの操作、テキストの分類、言語構造の分析などの基本を学びます。この本はPython 3とNLTK 3のために更新されています(元のPython 2のバージョンはhttp://nltk.org/book_1edでも入手可能です)。

バージョン

NLTKのバージョン履歴

バージョン 発売日
3.2.4( 最新 2017-05-21
3.2 2016-03-03
3.1 2015-10-15

基本条項

コーパス

テキストの本文、単数形。コーパスはこれの複数形です。例:医学雑誌のコレクション。

レキシコン

言葉とその意味例:英語の辞書。しかし、さまざまなフィールドには異なる辞書があると考えてください。たとえば、金融投資家にとって、「ブル」という単語の最初の意味は、「ブル」という単語の最初の意味が動物である一般的な英語辞典と比較して、市場について自信を持っている人です。このように、金融投資家、医者、子供、メカニックなどのための特別なレキシコンがあります。

トークン

ルールに基づいて分割されたものの一部である各「エンティティ」。例として、各単語は、文が単語に「トークン化」されたときのトークンです。段落から文章をトークン化した場合は、各文章をトークンにすることもできます。

インストールまたはセットアップ

NLTKは必要とPython バージョン2.7または3.4+を

これらの命令は、 python バージョン3.5


  • Mac / Unix:

    1. NLTKをインストールする: sudo pip install -U nltk 実行sudo pip install -U nltk
    2. Numpyをインストールする(オプション): sudo pip install -U numpy 実行sudo pip install -U numpy
    3. テストインストール: python を実行し、 import nltk 入力します。

    注:Pythonの古いバージョンでは、setuptools( http://pypi.python.org/pypi/setuptoolsを参照をインストールし、pip(sudo easy_install pip)をインストールする必要があります。


  • Windows:

    これらの手順では、マシンにPythonがインストールされていないことを前提としています。

    32ビットバイナリインストール

    1. Python 3.5をインストールする: http : //www.python.org/downloads/ (64ビット版を避ける)
    2. Numpyをインストールする(オプション): http ://sourceforge.net/projects/numpy/files/NumPy/(pythnon3.5を指定するバージョン)
    3. NLTKをインストールする: http ://pypi.python.org/pypi/nltk
    4. インストールをテストします: Start>Python35 と入力し、 import nltk


リファレンス: http : //www.nltk.org/install.html

CondaとのNLTKインストール。

Continuumのanaconda / conda をインストールするには

Anacondaを使用している場合は、おそらくnltkがすでにルートにダウンロードされている可能性があります(ただし、手動でさまざまなパッケージをダウンロードする必要があります)。

condaconda

conda install nltk 
 

nltk を使用してconda をアップグレードするには:

conda update nltk
 

anaconda

anacondaで複数のpython環境を使用している場合は、最初にnltkをインストールする環境を有効にします。コマンドを使用してアクティブな環境を確認することができます

conda info --envs
 

ディレクトリパスの前にある*記号の付いた環境がアクティブな環境です。アクティブな環境を変更するには

activate <python_version>
for eg. activate python3.5
 

この環境にインストールされているパッケージのリストを、commnadを使って確認してください

conda list
 

リスト内で「nltk」が見つからない場合は、

conda install -c anaconda nltk=3.2.1
 

詳細については、 https://anaconda.org/anaconda/nltkを参照してください


mini-conda aka conda をインストールするには: http : conda

anaconda をインストールするには: https : //docs.continuum.io/anaconda/install

NLTKのダウンロード機能

あなたはpippip install nltk )の上にNLTKをインストールすることができます。インストール後、多くのコンポーネントは存在せず、NLTKの機能のいくつかを使用することはできません。

Pythonシェルから、 ntlk.download() 関数を実行して、UIを使用してインストールする追加パッケージを選択します。あるいは、 python -m nltk.downloader [package_name] 使用することもできます。


  • 利用可能なすべてのパッケージをダウンロードする。
nltk.download('all')
 

  • 特定のパッケージをダウンロードする。
nltk.download('package-name')
 

  • 特定のフォルダのすべてのパッケージをダウンロードする。
import nltk

dwlr = nltk.downloader.Downloader()

# chunkers, corpora, grammars, help, misc, 
# models, sentiment, stemmers, taggers, tokenizers
for pkg in dwlr.packages():
    if pkg.subdir== 'taggers':
        dwlr.download(pkg.id)
 

  • Corpora Folder以外のすべてのパッケージをダウンロードする。
import nltk

dwlr = nltk.downloader.Downloader()

for pkg in dwlr.corpora():
    dwlr._status_cache[pkg.id] = 'installed'

dwlr.download('all')
 

NLTK

NLTK(特に、 nltk.tokenize パッケージ)を使用して文境界検出を実行することができます。

import nltk
text = "This is a test. Let's try this sentence boundary detector."
text_output = nltk.tokenize.sent_tokenize(text)
print('text_output: {0}'.format(text_output))
 

出力:

text_output: ['This is a test.', "Let's try this sentence boundary detector."]