需要关于数据管道创建的设计输入

Question

对于所有AWS专家，我需要您帮助设计和构建大数据数据管道。下面是方案： -

我在S3中有大的.gz扩展文件，范围从MB到GB。这些是w3c格式的日志文件压缩格式。现在，我希望在BigData管道中提取这些文件，从文件中解压缩数据，然后将数据转换为所需的数据列。

各位专家能否为我提供一些设计解决方案，使用现成的工具或开源工具或任何海关工具来实现上述数据管道。

Answer 1

根据spark文档

Spark的所有基于文件的输入方法（包括textFile）都支持在目录，压缩文件和通配符上运行。例如，您可以使用textFile（“/ my / directory”），textFile（“/ my / directory / .txt”）和textFile（“/ my / directory / .gz”）。

您所要做的就是将这些内容读取到RDD（无需单独解压缩），您可以进行任何想要的转换。

logsRDD = sc.textFile("s3a://<directory>/*gz")

参考： https://community.hortonworks.com/questions/81191/spark-210-reading-gz-files-from-an-s3-bucket-or-di.html http://spark.apache.org/docs/latest/rdd-programming-guide.html

需要关于数据管道创建的设计输入

问题描述投票：0回答：1

1个回答

最新问题

需要关于数据管道创建的设计输入

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1