我是PIG的新手,不太了解它。我怎么解析PIG中的文字?为了读取字段的值,有一个位置参数的概念,例如$ 0对应第一个字段同样有任何功能,如位置参数,可以读取整行。什么是RADOOP,它究竟可以使用?
对于文本解析,首先您可以阅读PIG教程和wordcount示例。
以下链接:
您的问题表明您希望与您的数据建立某种交互模式,但此数据的数量很大。
RADOOP是R和Hadoop的组合,它应该能够为您提供一个GUI,通过使用Hadoop Scale处理的R统计分析来运行您的大数据。
同时我建议你看一下Google-Refine(http://code.google.com/p/google-refine/),你可以轻松下载并运行你的Data Evidence流程。
使用Google-Refine,您可以使用内置文本,日期和数字功能轻松解析数据。您还可以使用Jython进一步增强所需的功能。它可以处理大规模的采样数据,并使用内置的Facets调查其功能。
R也是数据证据的一个很好的工具,具有良好的采样和其他统计分析库。但它的界面基于命令行,它针对高级统计学家和分析师,而不是针对普通用户。
我不确定你在问什么。 Pig有许多功能,如TOKENIZE和正则表达式匹配/提取UDF,这些都很有帮助。当然,您也可以在Java或Python中编写您喜欢的任何文本处理代码,并调用它。
我想你要求不对整行进行标记,只需将整行作为一个字段,对吧?
然后,我认为您可以使用PigStorage('\ n'),使用'\ n'作为字段分隔符将整行视为一个字段。
我认为你的“RADOOP”意味着hadoop,对吗?作为第一步,您可以在本地模式下运行pig,这意味着您不需要安装hadoop。