使用PIG进行文本解析

问题描述 投票:1回答:4

我是PIG的新手,不太了解它。我怎么解析PIG中的文字?为了读取字段的值,有一个位置参数的概念,例如$ 0对应第一个字段同样有任何功能,如位置参数,可以读取整行。什么是RADOOP,它究竟可以使用?

hadoop apache-pig
4个回答
0
投票

对于文本解析,首先您可以阅读PIG教程和wordcount示例。

以下链接:

  1. Pig tutorial
  2. Wordcount example - 从这个链接中读取wordcount示例,并将教程中给出的命令联系起来。

1
投票

您的问题表明您希望与您的数据建立某种交互模式,但此数据的数量很大。

RADOOP是R和Hadoop的组合,它应该能够为您提供一个GUI,通过使用Hadoop Scale处理的R统计分析来运行您的大数据。

同时我建议你看一下Google-Refine(http://code.google.com/p/google-refine/),你可以轻松下载并运行你的Data Evidence流程。

使用Google-Refine,您可以使用内置文本,日期和数字功能轻松解析数据。您还可以使用Jython进一步增强所需的功能。它可以处理大规模的采样数据,并使用内置的Facets调查其功能。

R也是数据证据的一个很好的工具,具有良好的采样和其他统计分析库。但它的界面基于命令行,它针对高级统计学家和分析师,而不是针对普通用户。


0
投票

我不确定你在问什么。 Pig有许多功能,如TOKENIZE和正则表达式匹配/提取UDF,这些都很有帮助。当然,您也可以在Java或Python中编写您喜欢的任何文本处理代码,并调用它。


0
投票

我想你要求不对整行进行标记,只需将整行作为一个字段,对吧?

然后,我认为您可以使用PigStorage('\ n'),使用'\ n'作为字段分隔符将整行视为一个字段。

我认为你的“RADOOP”意味着hadoop,对吗?作为第一步,您可以在本地模式下运行pig,这意味着您不需要安装hadoop。

© www.soinside.com 2019 - 2024. All rights reserved.