对于所有AWS专家,我需要您帮助设计和构建大数据数据管道。下面是方案: -
我在S3中有大的.gz扩展文件,范围从MB到GB。这些是w3c格式的日志文件压缩格式。现在,我希望在BigData管道中提取这些文件,从文件中解压缩数据,然后将数据转换为所需的数据列。
各位专家能否为我提供一些设计解决方案,使用现成的工具或开源工具或任何海关工具来实现上述数据管道。
根据spark文档
Spark的所有基于文件的输入方法(包括textFile)都支持在目录,压缩文件和通配符上运行。例如,您可以使用textFile(“/ my / directory”),textFile(“/ my / directory / .txt”)和textFile(“/ my / directory / .gz”)。
您所要做的就是将这些内容读取到RDD(无需单独解压缩),您可以进行任何想要的转换。
logsRDD = sc.textFile("s3a://<directory>/*gz")
参考: https://community.hortonworks.com/questions/81191/spark-210-reading-gz-files-from-an-s3-bucket-or-di.html http://spark.apache.org/docs/latest/rdd-programming-guide.html