在cloudera中从SQL SERVER到HDFS的近实时数据提取

问题描述 投票:-1回答:3

我们在SQL Server中有PLC数据,每5分钟更新一次。必须在相同的时间间隔内将数据推送到cloudera分发中的HDFS。哪些工具适用于此?

sql-server apache-spark apache-kafka real-time cloudera
3个回答
0
投票

我建议使用Confluent Kafka来完成这项任务(https://www.confluent.io/product/connectors/)。

这个想法如下:

SQLServer - > [JDBC-Connector] - > Kafka - > [HDFS-Connector] - > HDFS

所有这些连接器已通过汇合网站提供。


0
投票

我假设您的数据正在本地FS的某个目录中写入。您可以使用一些流媒体来完成此任务。既然你用apache-spark标记了这个,我会给你Spark Streaming解决方案。

使用结构化流媒体,您的流式消费者将观看您的数据目录。 Spark流以可配置的微批次(流等待时间)读取和处理数据,在您的情况下,持续时间为5分钟。您可以将每个微批次中的数据保存为文本文件,这些文件将使用您的cloudera hadoop集群进行存储。

如果这有帮助,请告诉我。干杯。


0
投票

您可以谷歌名为sqoop的工具。它是一个开源软件。

© www.soinside.com 2019 - 2024. All rights reserved.