将近50GB的CSV文件加载到Hadoop集群中,我希望看到一些用于标识列的示例记录。
我试过用
hadoop fs -cat employees.csv | head -n 10
我的问题是
head -n 10
- 它将加载50 GB的数据,它会过滤前10行吗?它是如何工作的?这取决于您的版本。
对于较旧的Hadoop(<3.1.0)版本:
hadoop fs -cat employees.csv | head -n 10
对于较新的(> = 3.1.0)Hadoop版本
hadoop fs -head employees.csv