stanford-nlpstanford-nlp入门


备注

本节概述了stanford-nlp是什么,以及开发人员可能想要使用它的原因。

它还应该提到stanford-nlp中的任何大型主题,并链接到相关主题。由于stanford-nlp的文档是新的,您可能需要创建这些相关主题的初始版本。

GitHub的基本设置

这个例子讨论了如何从GitHub仓库设置CoreNLP。 GitHub代码具有比官方版本更新的功能,但可能不稳定。此示例将指导您下载,构建和运行CoreNLP的简单命令行调用。

先决条件:

  • Java 8或更新版本。
  • Apache Ant
  • 混帐
  • 例如:Bash或类似的shell,以及wget或curl

脚步:

  1. 克隆CoreNLP Git存储库:

    git clone git@github.com:stanfordnlp/CoreNLP.git
     
  2. 输入CoreNLP目录:

    cd CoreNLP
     
  3. 将项目构建为自包含的jar文件。最简单的方法是:

    ant jar
     
  4. 下载最新型号。

    wget http://nlp.stanford.edu/software/stanford-corenlp-models-current.jar
     

    或者使用curl(macOS上默认获得的):

    curl -O http://nlp.stanford.edu/software/stanford-corenlp-models-current.jar
     
  5. 设置类路径。如果您使用的是IDE,则应在IDE中设置类路径。

    export CLASSPATH="$CLASSPATH:javanlp-core.jar:stanford-corenlp-models-current.jar";
    for file in `find lib -name "*.jar"`; do export CLASSPATH="$CLASSPATH:`realpath $file`"; done
     

    如果你经常使用CoreNLP,这是一个有用的行,你的~/.bashrc (或等效的)文件,将目录/path/to/corenlp/ 替换为你解压缩CoreNLP的适当路径(3个替换):

    export CLASSPATH="$CLASSPATH:/path/to/corenlp/javanlp-core.jar:/path/to/corenlp/stanford-corenlp-models-current.jar";
    for file in `find /path/to/corenlp/lib -name "*.jar"`; do export CLASSPATH="$CLASSPATH:`realpath $file`"; don
     
  6. 试试看!例如,以下内容将生成一个简单的文本文件进行注释,并在此文件上运行CoreNLP。输出将作为JSON文件保存到input.txt.out 。请注意,CoreNLP需要相当多的内存。在大多数情况下,你应该给它至少2GB( -mx2g )。

    echo "the quick brown fox jumped over the lazy dog" > input.txt
    java -mx2g edu.stanford.nlp.pipeline.StanfordCoreNLP -outputFormat json -file input.txt
     

官方发布的基本设置

这个例子讨论了如何从最新的官方版本中设置CoreNLP。此示例将指导您下载程序包,并运行CoreNLP的简单命令行调用。

先决条件:

  • Java JVM 8.命令java -version 应该成功完成,例如: java version“1.8.0_92”
  • Zip工具
  • 例如:Bash或类似的shell,以及wget

脚步:

  1. 下载CoreNLP zip文件: http ://stanfordnlp.github.io/CoreNLP/index.html#download:

    wget http://nlp.stanford.edu/software/stanford-corenlp-full-2015-12-09.zip
     
  2. 解压缩版本:

    unzip stanford-corenlp-full-2015-12-09.zip
     
  3. 输入新解压缩的目录:

    cd stanford-corenlp-full-2015-12-09
     
  4. 设置类路径。如果您使用的是IDE,则应在IDE中设置类路径。

    for file in `find . -name "*.jar"`; do export CLASSPATH="$CLASSPATH:`realpath $file`"; done
     

    如果你经常使用CoreNLP,这是一个有用的行,你的~/.bashrc (或等效的)文件,将目录/path/to/corenlp/ 替换为你解压缩CoreNLP的适当路径:

    for file in `find /path/to/corenlp/ -name "*.jar"`; do export CLASSPATH="$CLASSPATH:`realpath $file`"; done
     
  5. 试试看!例如,以下内容将生成一个简单的文本文件进行注释,并在此文件上运行CoreNLP。输出将作为JSON文件保存到input.txt.out 。请注意,CoreNLP需要相当多的内存。在大多数情况下,你应该给它至少2GB( -mx2g )。

    echo "the quick brown fox jumped over the lazy dog" > input.txt
    java -mx2g edu.stanford.nlp.pipeline.StanfordCoreNLP -outputFormat json -file input.txt