sqoop 相关问题

自2012年3月以来,Sqoop是一个开源的顶级Apache项目.Sqoop是一个开源连接框架,有助于在多个关系数据库管理系统(RDBMS)和HDFS之间进行传输。 Sqoop使用MapReduce程序导入和导出数据;进口和出口是并行进行的。

使用JDBC从Spark中的RDBMS读取增量和并行性

我正在从事一个涉及使用JDBC从RDBMS读取数据的项目,并且成功读取了数据。这是我每周都会相当经常地做的事情。所以我一直在尝试...

回答 1 投票 0

除了基本设置以外,还可以提高sqoop的性能

我想提高sqoop导入的性能。我正在使用sqoop版本1.4.7,源数据库是oracle。我有一个事实,其中有将近1亿行。我想加载此数据...

回答 1 投票 0

来自sqoop导入的序列文件

我已经使用sqoop导入了一个表并将其保存为序列文件。如何将此文件读入RDD或数据帧?我已经尝试过sc.sequenceFile(),但是我不确定作为keyClass和...传递的内容...

回答 1 投票 0

数量超过20亿的记录

[我注意到sqoop限制了从Oracle(或通常是?)每次会话提取2147483000条记录,因为这个人还经历过http://community.cloudera.com/t5/Data-Ingestion-Integration/Sqoop-job-。 。

回答 1 投票 1

-不支持配置单元导入的增量lastmodified选项

使用Sqoop 1.4.7.3.0.1.0-187 sqoop作业-D sqoop.metastore.client.record.password = true -D sqoop.metastore.client.enable.autoconnect = true \ --meta-connect jdbc:hsqldb :hsql:// $ {server}:$ {port} / ...

回答 1 投票 0

如何将大表从oracle db压缩到hdfs?

我的Oracle表之一包含2.65亿条记录,我需要将该表从Oracle数据库推送到hdfs,但该表没有任何主键/唯一列。因此,我不能使用多个映射器。...

回答 1 投票 0

无法在Sqoop导出中自定义的映射器数量

之前,从Hive Table到SQLDatabase的Sqoop导出中,是否有人使用过自定义映射器?我使用了以下带有33个映射器的sqoop命令来执行sqoop导出:sqoop ...

回答 1 投票 0

在sqoop命令中使用Teradata快速导出

使用Teradata方法“ --fast-export”时,从Teradata数据库中发回邮件时遇到问题,示例发条查询在-Dhadoop.security.credential.provider.path = jceks:/ PATH / TO / password /下。 ..

回答 1 投票 0

Hadoop上的Sqoop:NoSuchMethodError:com.google.common.base.Stopwatch.createStarted()

我正在Google Cloud DataProc的hadoop上运行sqoop,以通过Cloud SQL代理访问postgresql,但是我遇到了Java依赖错误:INFO:第一个Cloud SQL连接,生成RSA密钥对。 ...

回答 1 投票 0

如何使用sqoop将SQL表作为实木复合地板文件导入GCS存储桶中

我在将SQL表作为实木复合地板文件导入Google云存储桶时遇到问题...下面是我面临的代码和错误。.sqoop import --connect = jdbc:mysql:// IP / DBName --username = ...

回答 1 投票 -2

如何使用sqoop [关闭]将云SQL表作为木地板文件导入GCS存储桶

我在将SQL表作为实木复合地板文件导入Google云存储桶时遇到问题...下面是我面临的代码和错误。.sqoop import --connect = jdbc:mysql:// IP / DBName --username = ...

回答 1 投票 -2

错误无法识别的参数--hive-partition-key

我遇到以下错误时出现错误,无法识别的参数--hive-partition-key:sqoop import --connect'jdbc:sqlserver://192.168.56.1; database = xyz_dms_cust_100; username-hadoop; ...

回答 2 投票 2

检测到套接字套接字超时:从大型机读取数据并将其插入到Hive中时读取超时

请找到以下问题,并帮助我解决。我有一个sqoop语句,它使用attunity jdbc驱动程序将数据从大型机带到Hadoop(Hive)。 sqoop import \ --connect“ jdbc:...

回答 1 投票 0

如何从hdfs将mysql数据加载到pyspark

我使用sqoop将表从mysql导入到hdfs位置/ user / cloudera / table1,现在应该是什么命令将该表加载到pyspark代码中。我只是在编写简单的代码,如下所示。我正在使用...

回答 1 投票 0

Sqoop-被转义-可选地被封闭

我需要使用逗号(,)作为分隔符将数据导入.csv文件。我正在使用以下sqoop选项。 --可选地由'\“'包围-以下由'\\'进行转义是输入数据,并且...

回答 1 投票 0

使用Sqoop将表从AWS RDS移至AWS EMR的问题

我有一个使用Postgres的带有单个表的AWS RDS数据库。现在,我想将数据移至AWS EMR,以便可以使用Hadoop对其进行处理。我找到了这个博客:https://aws.amazon.com/blogs/big-data / ...

回答 1 投票 0

在hadoop上使用sqoop import命令时出现错误

[您好,我正在使用下面的sqoop命令,我认为它应该可以工作[cloudera @ quickstart〜] $ sqoop import --connect jdbc:mysql://quickstart.cloudera:3306 / retail_db --username root --password cloudera-。 ..

回答 1 投票 1

EMR Hadoop长期运行的作业被杀死

当我使用一个映射器运行Sqoop时,我具有一个EMR群集,用于将700万条记录查询作为Avro文件传输到S3。 30分钟(+/- 5分钟)后,地图任务有时会被杀死,并且...

回答 1 投票 1

当我们尝试通过SQOOP连接到mysql时出现错误

线程“主”中的异常java.lang.NoClassDefFoundError:org.apache.sqoop.manager.MySQLManager.initOptionDefaults(MySQLManager.java:73)处的org / apache / commons / lang / StringUtils。...

回答 1 投票 0

如何使用sqoop作业自动化sqoop增量导入?

如何使用sqoop作业自动化sqoop增量导入?据我所知,sqoop工作会记住最后一个值。如果我们创建像sqoop job这样的sqoop job --create myjob-import --connect blah blah ........>

回答 3 投票 2

© www.soinside.com 2019 - 2024. All rights reserved.