用Sqoop从MongoDB中提取数据写入HDFS?

问题描述 投票:0回答:2

我担心从 MongoDB 中提取数据,我的应用程序处理 MongoDB 中的大部分数据。

我曾使用 sqoop 来提取数据,并发现 RDBMS 通过 sqoop 与 HDFS 结合在一起。然而,没有找到明确的方向来使用 sqoop 从 NoSQL DB 中提取数据并将其转储到 HDFS 上以进行大块数据处理? 请分享您的建议和调查。

我已经从MySQL中提取了静态信息和数据事务。简单来说,就是使用sqoop将数据存储到HDFS中,并对数据进行处理。现在,我每天有 100 万个唯一 emailID 的实时交易,这些数据已建模到 MongoDB 中。我需要将数据从 mongoDB 移动到 HDFS 进行处理/ETL。我怎样才能使用 Sqoop 实现这个目标。我知道我可以安排我的任务,但是通过 sqoop 从 mongoDB 中取出数据的最佳方法应该是什么。

考虑 2TB 大小的 5DN 集群。高峰时段数据大小从 1GB ~ 2GB 不等。

mongodb hadoop hdfs sqoop nosql
2个回答
4
投票

Sqoop仅用于从关系型数据库导入数据。还有其他方法可以将数据从 mongo 获取到 Hadoop。

例如:https://docs.mongodb.com/ecosystem/tools/hadoop/

或者您可以使用任何数据流管理工具,如 Nifi 或 Streamsets,并实时从 mongo 获取数据。


0
投票

你能分享一下你用什么方法解决这个问题吗?

© www.soinside.com 2019 - 2024. All rights reserved.