无法完全加载hdfs文件

问题描述 投票:0回答:1

我在spark中加载hdfs文件并计算计数:

spark.read.format("json").option("path","xxx").load().count

但是结果小于:

hdfs dfs -cat xxx|wc -l

hdfs文件由水槽hdfs接收器附加。

任何人都知道为什么会这样吗?以及我该如何解决?

apache-spark hdfs flume
1个回答
0
投票

很难确定,但看不到文件,但::>

  • [wc -l计算文件中的行数
  • spark count将为您提供json记录的数量。
  • 如果JSON记录是多行的=> json records < nb lines in files

© www.soinside.com 2019 - 2024. All rights reserved.