このセクションでは、stanford-nlpの概要と、なぜそれを使用したいのかについて説明します。
また、stanford-nlp内の大きなテーマについても言及し、関連するトピックにリンクしてください。 stanford-nlpのドキュメントは新しくなっているので、それらの関連トピックの初期バージョンを作成する必要があります。
この例では、 GitHubリポジトリからCoreNLPを設定する方法について説明します。 GitHubコードには、公式リリースよりも新しい機能がありますが、不安定になる可能性があります。この例では、CoreNLPの簡単なコマンドライン呼び出しをダウンロード、構築、実行します。
前提条件:
ステップ:
CoreNLP Gitリポジトリをクローン:
git clone git@github.com:stanfordnlp/CoreNLP.git
CoreNLPディレクトリを入力します:
cd CoreNLP
自己完結型のjarファイルにプロジェクトをビルドします。これを行う最も簡単な方法は次のとおりです。
ant jar
最新のモデルをダウンロードしてください。
wget http://nlp.stanford.edu/software/stanford-corenlp-models-current.jar
または、curlを使用します(macOSではデフォルトで何を取得しますか)。
curl -O http://nlp.stanford.edu/software/stanford-corenlp-models-current.jar
クラスパスを設定します。 IDEを使用している場合は、IDEのクラスパスを設定する必要があります。
export CLASSPATH="$CLASSPATH:javanlp-core.jar:stanford-corenlp-models-current.jar";
for file in `find lib -name "*.jar"`; do export CLASSPATH="$CLASSPATH:`realpath $file`"; done
CoreNLPを頻繁に使用する場合、 ~/.bashrc
(または同等の)ファイルに/path/to/corenlp/
を置き換えてCoreNLPを解凍した場所への適切なパス(3つの置換え):
export CLASSPATH="$CLASSPATH:/path/to/corenlp/javanlp-core.jar:/path/to/corenlp/stanford-corenlp-models-current.jar";
for file in `find /path/to/corenlp/lib -name "*.jar"`; do export CLASSPATH="$CLASSPATH:`realpath $file`"; don
やってみよう!たとえば、次の例では、簡単なテキストファイルを注釈付けし、このファイルに対してCoreNLPを実行します。出力はinput.txt.out
JSONファイルとして保存されます。 CoreNLPにはかなりのメモリが必要です。ほとんどの場合、少なくとも2GB( -mx2g
)以上の-mx2g
が必要です。
echo "the quick brown fox jumped over the lazy dog" > input.txt
java -mx2g edu.stanford.nlp.pipeline.StanfordCoreNLP -outputFormat json -file input.txt
この例では、最新の正式リリースからCoreNLPを設定する方法について説明します。この例では、パッケージをダウンロードして、CoreNLPの簡単なコマンドライン呼び出しを実行します。
前提条件:
java -version
は、 java version "1.8.0_92"のような行で正常に終了するはずです。 ステップ:
CoreNLP zipファイルをダウンロードする: http ://stanfordnlp.github.io/CoreNLP/index.html#download:
wget http://nlp.stanford.edu/software/stanford-corenlp-full-2015-12-09.zip
リリースを解凍する:
unzip stanford-corenlp-full-2015-12-09.zip
新しく解凍したディレクトリを入力してください:
cd stanford-corenlp-full-2015-12-09
クラスパスを設定します。 IDEを使用している場合は、IDEのクラスパスを設定する必要があります。
for file in `find . -name "*.jar"`; do export CLASSPATH="$CLASSPATH:`realpath $file`"; done
CoreNLPを頻繁に使用する場合は、 ~/.bashrc
(または同等の)ファイルに/path/to/corenlp/
ディレクトリをCoreNLPを解凍した場所の適切なパスに置き換えると便利です。
for file in `find /path/to/corenlp/ -name "*.jar"`; do export CLASSPATH="$CLASSPATH:`realpath $file`"; done
やってみよう!たとえば、次の例では、簡単なテキストファイルを注釈付けし、このファイルに対してCoreNLPを実行します。出力はinput.txt.out
JSONファイルとして保存されます。 CoreNLPにはかなりのメモリが必要です。ほとんどの場合、少なくとも2GB( -mx2g
)以上の-mx2g
が必要です。
echo "the quick brown fox jumped over the lazy dog" > input.txt
java -mx2g edu.stanford.nlp.pipeline.StanfordCoreNLP -outputFormat json -file input.txt