sqoop开始使用sqoop


备注

SQOOP服务器配置文件与Tomcat的其他配置文件(用于托管SQOOP服务器)一起存储在分布式工件的server / config目录中。

文件sqoop_bootstrap.properties指定应该使用哪个配置提供程序来加载其余Sqoop服务器的配置。默认值PropertiesConfigurationProvider应该足够了。

第二个配置文件sqoop.properties包含可能影响Sqoop服务器的其余配置属性。文件记录良好,因此请检查所有配置属性是否适合您的环境。默认或非常小的调整应该是最常见的情况。

安装或设置

Sqoop作为一个二进制包发布,但它是来自两个独立部分客户端和服务器的复合。您需要在群集中的单个节点上安装服务器。然后,此节点将用作所有连接Sqoop客户端的入口点。服务器充当mapreduce客户端,因此必须在托管Sqoop服务器的计算机上安装和配置Hadoop。客户端可以安装在任意数量的计算机上。客户端不充当mapreduce客户端,因此您不需要在仅充当Sqoop客户端的节点上安装Hadoop。

在要运行Sqoop服务器的计算机上复制Sqoop工件。该机器必须已安装并配置Hadoop。您不需要在那里运行任何Hadoop相关服务,但是该机器必须能够充当Hadoop客户端。

# Extract Sqoop  tar
tar -xf sqoop-<version>-bin-hadoop<hadoop-version>.tar.gz

# Move decompressed content to any location 
  (you can also setup soft links to sqoop directory)
mv sqoop-<version>-bin-hadoop<hadoop version>.tar.gz /opt/apache/sqoop

# Change working directory
cd /opt/apache/sqoop
 

为SQOOP安装依赖项

您需要将Hadoop库安装到Sqoop服务器war文件中。 Sqoop提供了方便的脚本addtowar.sh来做到这一点。

如果您在/ usr / lib中的常规位置安装了Hadoop并且可执行文件中有hadoop,则可以使用自动Hadoop安装过程:

./bin/addtowar.sh -hadoop-auto
 

如果您在不同位置安装了Hadoop,则需要手动指定Hadoop版本和Hadoop库的路径。您可以使用参数-hadoop-version来指定Hadoop主要版本,

./bin/addtowar.sh -hadoop-version 2.0 -hadoop-path /usr/lib/hadoop-common:/usr/lib/hadoop-hdfs:/usr/lib/hadoop-yarn
 
  • 为sqoop安装所需的JDBC jar以连接到数据库

./bin/addtowar.sh -jars /path/to/jar/mysql-connector-java-*-bin.jar

启动和停止Sqoop服务器服务

./bin/sqoop.sh server start
./bin/sqoop.sh server stop
 

Sqoop客户端配置步骤

在目标计算机上复制Sqoop分发工件并将其解压缩到所需位置。您可以使用以下命令启动客户端:

bin/sqoop.sh client
 

Sqoop 2客户端能够像其他命令行工具一样加载资源文件。在执行开始时,Sqoop客户端将检查当前登录用户的主目录中是否存在文件.sqoop2rc。如果存在此类文件,则在任何其他操作之前将对其进行解释。此文件以交互模式和批处理模式加载。它可用于执行任何批量兼容的命令。

示例资源文件:

# Configure our Sqoop 2 server automatically
set server --host sqoop2.company.net

# Run in verbose mode by default
set option --name verbose --value true