stanford-nlpAan de slag met stanford-nlp


Opmerkingen

Deze sectie geeft een overzicht van wat stanford-nlp is en waarom een ontwikkelaar het misschien wil gebruiken.

Het moet ook alle grote onderwerpen binnen Stanford-NLP vermelden en een link naar de gerelateerde onderwerpen bevatten. Aangezien de documentatie voor stanford-nlp nieuw is, moet u mogelijk eerste versies van die gerelateerde onderwerpen maken.

Basisinstellingen van GitHub

Dit voorbeeld gaat over het instellen van CoreNLP vanuit de GitHub-repo . De GitHub-code heeft nieuwere functies dan de officiële release, maar kan onstabiel zijn. Dit voorbeeld leidt u door het downloaden, bouwen en uitvoeren van een eenvoudige opdrachtregelaanroep van CoreNLP.

Vereisten:

  • Java 8 of nieuwer.
  • Apache Ant
  • Git
  • Voor het voorbeeld: Bash of soortgelijke shell, en wget of curl

Stappen:

  1. Kloon de CoreNLP Git repository:

    git clone git@github.com:stanfordnlp/CoreNLP.git
     
  2. Voer de CoreNLP-directory in:

    cd CoreNLP
     
  3. Bouw het project in een zelfstandig jar-bestand. De eenvoudigste manier om dit te doen is met:

    ant jar
     
  4. Download de nieuwste modellen.

    wget http://nlp.stanford.edu/software/stanford-corenlp-models-current.jar
     

    Of gebruik curl (wat u standaard krijgt op macOS):

    curl -O http://nlp.stanford.edu/software/stanford-corenlp-models-current.jar
     
  5. Stel je klassenpad in. Als u een IDE gebruikt, moet u het classpath in uw IDE instellen.

    export CLASSPATH="$CLASSPATH:javanlp-core.jar:stanford-corenlp-models-current.jar";
    for file in `find lib -name "*.jar"`; do export CLASSPATH="$CLASSPATH:`realpath $file`"; done
     

    Als je CoreNLP vaak gebruikt, is dit een handige regel in je ~/.bashrc (of equivalent) bestand, waarbij de map /path/to/corenlp/ door het juiste pad naar waar je CoreNLP hebt uitgepakt (3 vervangingen) ):

    export CLASSPATH="$CLASSPATH:/path/to/corenlp/javanlp-core.jar:/path/to/corenlp/stanford-corenlp-models-current.jar";
    for file in `find /path/to/corenlp/lib -name "*.jar"`; do export CLASSPATH="$CLASSPATH:`realpath $file`"; don
     
  6. Probeer het! Het volgende zal bijvoorbeeld een eenvoudig tekstbestand maken om annotaties te maken en CoreNLP over dit bestand uitvoeren. De uitvoer wordt opgeslagen als input.txt.out als een JSON-bestand. Merk op dat CoreNLP nogal wat geheugen vereist. In de meeste gevallen moet u deze minimaal 2 GB ( -mx2g ) geven.

    echo "the quick brown fox jumped over the lazy dog" > input.txt
    java -mx2g edu.stanford.nlp.pipeline.StanfordCoreNLP -outputFormat json -file input.txt
     

Basisconfiguratie vanaf officiële release

Dit voorbeeld gaat over het instellen van CoreNLP vanaf de nieuwste officiële release. Dit voorbeeld helpt u bij het downloaden van het pakket en het uitvoeren van een eenvoudige opdrachtregelaanroep van CoreNLP.

Vereisten:

  • Java JVM 8. Het commando java -version moet met succes worden voltooid met een regel als: java-versie "1.8.0_92" .
  • Zip-tool
  • Voor het voorbeeld: Bash of vergelijkbare shell en wget

Stappen:

  1. Download het CoreNLP zip-bestand op: http://stanfordnlp.github.io/CoreNLP/index.html#download :

    wget http://nlp.stanford.edu/software/stanford-corenlp-full-2015-12-09.zip
     
  2. Pak de release uit:

    unzip stanford-corenlp-full-2015-12-09.zip
     
  3. Voer de nieuw uitgepakte map in:

    cd stanford-corenlp-full-2015-12-09
     
  4. Stel je klassenpad in. Als u een IDE gebruikt, moet u het classpath in uw IDE instellen.

    for file in `find . -name "*.jar"`; do export CLASSPATH="$CLASSPATH:`realpath $file`"; done
     

    Als je CoreNLP vaak gebruikt, is dit een handige regel in je ~/.bashrc (of equivalent) bestand, waarbij de map /path/to/corenlp/ door het juiste pad naar waar je CoreNLP hebt uitgepakt:

    for file in `find /path/to/corenlp/ -name "*.jar"`; do export CLASSPATH="$CLASSPATH:`realpath $file`"; done
     
  5. Probeer het! Het volgende zal bijvoorbeeld een eenvoudig tekstbestand maken om annotaties te maken en CoreNLP over dit bestand uitvoeren. De uitvoer wordt opgeslagen als input.txt.out als een JSON-bestand. Merk op dat CoreNLP nogal wat geheugen vereist. In de meeste gevallen moet u deze minimaal 2 GB ( -mx2g ) geven.

    echo "the quick brown fox jumped over the lazy dog" > input.txt
    java -mx2g edu.stanford.nlp.pipeline.StanfordCoreNLP -outputFormat json -file input.txt