我在hdfs中有一个文件,需要在其上运行awk脚本。然后,我将结果保存到另一个hdfs位置。一种方法是在本地下载hdfs文件,然后运行awk操作。另一种方法是将猫在hdfs文件上的结果通过管道传输到awk。
有没有一种方法可以将这种责任委托给map-reduce框架,因为这些文件非常大,并且具有数百万条记录。
我找到了有关使用Hadoop流的本文,但找不到流jar。https://dzone.com/articles/using-awk-and-friends-hadoop
当然,您可以使用MapReduce(或理想的Spark)读取文件,并根据需要对其进行处理。
hadoop-streaming
可以运行awk
,但是我怀疑在使用该代码与“实际”代码方面有深入的示例。