NLTKは、人間の言語データを扱う Pythonプログラムを構築するための最先端のプラットフォームです。それは、分類、トークン化、ステミング、タグ付け、解析、意味論的推論のための一連のテキスト処理ライブラリ、産業強度のNLPライブラリのラッパー、WordNetのような50以上のコーパスおよびレキシカルリソースへの使いやすいインターフェイスを提供します。活発なディスカッションフォーラム 。
Pythonによる自然言語処理は、言語処理のためのプログラミングを実際に紹介します。 NLTKの作成者が作成したもので、読者はPythonプログラムの作成、コーパスの操作、テキストの分類、言語構造の分析などの基本を学びます。この本はPython 3とNLTK 3のために更新されています(元のPython 2のバージョンはhttp://nltk.org/book_1edでも入手可能です)。
バージョン | 発売日 |
---|---|
3.2.4( 最新 ) | 2017-05-21 |
3.2 | 2016-03-03 |
3.1 | 2015-10-15 |
テキストの本文、単数形。コーパスはこれの複数形です。例:医学雑誌のコレクション。
言葉とその意味例:英語の辞書。しかし、さまざまなフィールドには異なる辞書があると考えてください。たとえば、金融投資家にとって、「ブル」という単語の最初の意味は、「ブル」という単語の最初の意味が動物である一般的な英語辞典と比較して、市場について自信を持っている人です。このように、金融投資家、医者、子供、メカニックなどのための特別なレキシコンがあります。
ルールに基づいて分割されたものの一部である各「エンティティ」。例として、各単語は、文が単語に「トークン化」されたときのトークンです。段落から文章をトークン化した場合は、各文章をトークンにすることもできます。
NLTKは必要とPython
バージョン2.7または3.4+を 。
これらの命令は、 python
バージョン3.5
Mac / Unix:
sudo pip install -U nltk
実行sudo pip install -U nltk
sudo pip install -U numpy
実行sudo pip install -U numpy
python
を実行し、 import nltk
入力します。 注:Pythonの古いバージョンでは、setuptools( http://pypi.python.org/pypi/setuptoolsを参照)をインストールし、pip(sudo easy_install pip)をインストールする必要があります。
Windows:
これらの手順では、マシンにPythonがインストールされていないことを前提としています。
32ビットバイナリインストール
Start>Python35
と入力し、 import nltk
サードパーティ製ソフトウェアのインストール:
ご覧ください: https : //github.com/nltk/nltk/wiki/Installing-Third-Party-Software
リファレンス: http : //www.nltk.org/install.html
Continuumのanaconda
/ conda
をインストールするには
Anacondaを使用している場合は、おそらくnltkがすでにルートにダウンロードされている可能性があります(ただし、手動でさまざまなパッケージをダウンロードする必要があります)。
conda
をconda
:
conda install nltk
nltk
を使用してconda
をアップグレードするには:
conda update nltk
anaconda
:
anacondaで複数のpython環境を使用している場合は、最初にnltkをインストールする環境を有効にします。コマンドを使用してアクティブな環境を確認することができます
conda info --envs
ディレクトリパスの前にある*記号の付いた環境がアクティブな環境です。アクティブな環境を変更するには
activate <python_version>
for eg. activate python3.5
この環境にインストールされているパッケージのリストを、commnadを使って確認してください
conda list
リスト内で「nltk」が見つからない場合は、
conda install -c anaconda nltk=3.2.1
詳細については、 https://anaconda.org/anaconda/nltkを参照してください 。
mini-conda aka conda
をインストールするには: http : conda
anaconda
をインストールするには: https : //docs.continuum.io/anaconda/install
あなたはpip
( pip install nltk
)の上にNLTKをインストールすることができます。インストール後、多くのコンポーネントは存在せず、NLTKの機能のいくつかを使用することはできません。
Pythonシェルから、 ntlk.download()
関数を実行して、UIを使用してインストールする追加パッケージを選択します。あるいは、 python -m nltk.downloader [package_name]
使用することもできます。
nltk.download('all')
nltk.download('package-name')
import nltk
dwlr = nltk.downloader.Downloader()
# chunkers, corpora, grammars, help, misc,
# models, sentiment, stemmers, taggers, tokenizers
for pkg in dwlr.packages():
if pkg.subdir== 'taggers':
dwlr.download(pkg.id)
import nltk
dwlr = nltk.downloader.Downloader()
for pkg in dwlr.corpora():
dwlr._status_cache[pkg.id] = 'installed'
dwlr.download('all')
NLTK(特に、 nltk.tokenize
パッケージ)を使用して文境界検出を実行することができます。
import nltk
text = "This is a test. Let's try this sentence boundary detector."
text_output = nltk.tokenize.sent_tokenize(text)
print('text_output: {0}'.format(text_output))
出力:
text_output: ['This is a test.', "Let's try this sentence boundary detector."]