在hdfs文件上运行awk脚本并将结果文件持久存储在hdfs中

问题描述 投票:1回答:1

我在hdfs中有一个文件,需要在其上运行awk脚本。然后,我将结果保存到另一个hdfs位置。一种方法是在本地下载hdfs文件,然后运行awk操作。另一种方法是将猫在hdfs文件上的结果通过管道传输到awk。

有没有一种方法可以将这种责任委托给map-reduce框架,因为这些文件非常大,并且具有数百万条记录。

我找到了有关使用Hadoop流的本文,但找不到流jar。https://dzone.com/articles/using-awk-and-friends-hadoop

hadoop awk mapreduce hdfs
1个回答
0
投票

当然,您可以使用MapReduce(或理想的Spark)读取文件,并根据需要对其进行处理。

hadoop-streaming可以运行awk,但是我怀疑在使用该代码与“实际”代码方面有深入的示例。

© www.soinside.com 2019 - 2024. All rights reserved.