sqoopAan de slag met sqoop


Opmerkingen

SQOOP Server-configuratiebestanden worden opgeslagen in de server / config-directory van het gedistribueerde artefact samen met andere configuratiebestanden van Tomcat (om de SQOOP-server te hosten).

Bestand sqoop_bootstrap.properties geeft aan welke configuratieprovider moet worden gebruikt voor het laden van de configuratie voor de rest van de Sqoop-server. Standaardwaarde PropertiesConfigurationProvider moet voldoende zijn.

Tweede configuratiebestand sqoop.properties bevat resterende configuratie-eigenschappen die de Sqoop-server kunnen beïnvloeden. Het bestand is zeer goed gedocumenteerd, dus controleer of alle configuratie-eigenschappen in uw omgeving passen. Standaard of heel weinig tweaken zou voldoende moeten zijn, de meest voorkomende gevallen.

Installatie of instellingen

Sqoop wordt geleverd als één binair pakket, maar het is samengesteld uit twee afzonderlijke delen client en server. U moet de server op één knooppunt in uw cluster installeren. Dit knooppunt dient dan als een toegangspunt voor alle verbindende Sqoop-clients. Server fungeert als een mapreduce-client en daarom moet Hadoop worden geïnstalleerd en geconfigureerd op een machine die Sqoop-server host. Clients kunnen op elk willekeurig aantal machines worden geïnstalleerd. Client fungeert niet als een mapreduce-client en daarom hoeft u Hadoop niet te installeren op knooppunten die alleen als een Sqoop-client fungeren.

Kopieer Sqoop-artefact op de machine waarop u de Sqoop-server wilt uitvoeren. Deze machine moet Hadoop hebben geïnstalleerd en geconfigureerd. U hoeft daar geen Hadoop-gerelateerde services te draaien, maar de machine moet wel als Hadoop-client kunnen fungeren.

# Extract Sqoop  tar
tar -xf sqoop-<version>-bin-hadoop<hadoop-version>.tar.gz

# Move decompressed content to any location 
  (you can also setup soft links to sqoop directory)
mv sqoop-<version>-bin-hadoop<hadoop version>.tar.gz /opt/apache/sqoop

# Change working directory
cd /opt/apache/sqoop
 

Installeer afhankelijkheden voor SQOOP

U moet Hadoop-bibliotheken in het Sqoop-serveroorlogbestand installeren. Sqoop biedt hiervoor gemaksscript addtowar.sh.

Als je Hadoop op de gebruikelijke locatie in / usr / lib hebt geïnstalleerd en het uitvoerbare Hadoop op jouw pad is, kun je de automatische Hadoop-installatieprocedure gebruiken:

./bin/addtowar.sh -hadoop-auto
 

Als u Hadoop op een andere locatie hebt geïnstalleerd, moet u de Hadoop-versie en het pad naar Hadoop-bibliotheken handmatig opgeven. U kunt de parameter -hadoop-versie gebruiken om de belangrijkste versie van Hadoop op te geven,

./bin/addtowar.sh -hadoop-version 2.0 -hadoop-path /usr/lib/hadoop-common:/usr/lib/hadoop-hdfs:/usr/lib/hadoop-yarn
 
  • Vereiste JDBC-potten geïnstalleerd voor sqoop om verbinding te maken met de database

./bin/addtowar.sh -jars /path/to/jar/mysql-connector-java-*-bin.jar

Start en stop Sqoop Server Services

./bin/sqoop.sh server start
./bin/sqoop.sh server stop
 

Sqoop Client Configuratiestappen

Kopieer Sqoop-distributieartefact op doelmachine en pak het uit op de gewenste locatie. U kunt de client starten met het volgende commando:

bin/sqoop.sh client
 

Sqoop 2-client kan resourcebestanden op dezelfde manier laden als andere opdrachtregelprogramma's. Aan het begin van de uitvoering controleert de Sqoop-client het bestand .sqoop2rc in de thuismap van de momenteel aangemelde gebruiker. Als een dergelijk bestand bestaat, wordt het geïnterpreteerd vóór eventuele aanvullende acties. Dit bestand wordt geladen in zowel interactieve als batchmodus. Het kan worden gebruikt om batch-compatibele opdrachten uit te voeren.

Voorbeeld bronbestand:

# Configure our Sqoop 2 server automatically
set server --host sqoop2.company.net

# Run in verbose mode by default
set option --name verbose --value true