需要关于数据管道创建的设计输入

问题描述 投票:0回答:1

对于所有AWS专家,我需要您帮助设计和构建大数据数据管道。下面是方案: -

我在S3中有大的.gz扩展文件,范围从MB到GB。这些是w3c格式的日志文件压缩格式。现在,我希望在BigData管道中提取这些文件,从文件中解压缩数据,然后将数据转换为所需的数据列。

各位专家能否为我提供一些设计解决方案,使用现成的工具或开源工具或任何海关工具来实现上述数据管道。

amazon-web-services apache-spark hadoop amazon-kinesis
1个回答
0
投票

根据spark文档

Spark的所有基于文件的输入方法(包括textFile)都支持在目录,压缩文件和通配符上运行。例如,您可以使用textFile(“/ my / directory”),textFile(“/ my / directory / .txt”)和textFile(“/ my / directory / .gz”)。

您所要做的就是将这些内容读取到RDD(无需单独解压缩),您可以进行任何想要的转换。

logsRDD = sc.textFile("s3a://<directory>/*gz")

参考: https://community.hortonworks.com/questions/81191/spark-210-reading-gz-files-from-an-s3-bucket-or-di.html http://spark.apache.org/docs/latest/rdd-programming-guide.html

© www.soinside.com 2019 - 2024. All rights reserved.