如何计算一行单词并用Apache Pig保留该行的ID?

问题描述 投票:1回答:1

我有一个带有2列的文件,第一列带有ID,第二列带有长文本,我需要知道如何为每个ID计算字数。例如,如果我有这两行:

id | line
(1,  This country is beautiful)
(2, I would love to have a cup of tea)

The answer I need is:
(1, 4)
(2, 9)

我已经阅读了很多有关此的评论,但是每个人都保留每个单词的总数或单词的总数,而不保留行的ID。

如果有人可以帮助我,我将不胜感激。

count apache-pig word
1个回答
0
投票

类似:

FOREACH row GENERATE
    id,
    COUNT(STRSPLITTOBAG(line, " "));

这应该占用每一行,产生所需的ID字段,然后根据分隔符(此处为“”值)将文本拆分为袋子类型,其中COUNT函数计算袋子中的物品数。

© www.soinside.com 2019 - 2024. All rights reserved.