使用Pig将非结构化数据转换为结构化数据

Question

我正在尝试使用PIG构建非结构化数据来进行一些处理。

这是数据样本：

Nov 1   18:23:34    dev_id=03   user_id=000 int_ip=198.0.13.24  ext_ip=68.67.0.14   src_port=99 dest_port=213   response_code=5

预期产量：

Nov 1 18:23:34, 03 , 000, 198.0.13.24, 68.67.0.14, 99, 213, 5

我们可以看到数据没有正确分隔（如tab或逗号），所以我尝试使用'\ t'加载数据并转储到终端上。

A = LOAD '----' using PigStorage('\t') as (mnth: chararray, day: int, --------);

dump A;

Store A into '\root\output';

输出：

转储输出：

(Nov,1,18:23:34,dev_id=03,user_id=000,int_ip=198.0.13.24,ext_ip=68.67.0.14,src_port=99,dest_port=213,response_code=5)

存储oputut：结果存储为与输入相同，而不是转储（逗号分隔）。

Nov 1   18:23:34    dev_id=03   user_id=000 int_ip=198.0.13.24  ext_ip=68.67.0.14   src_port=99 dest_port=213   response_code=5

替代方案：我还尝试使用DataStorage（）作为（值：varchar）加载数据并执行TOKENIZE，但无法实现目标。

我需要的建议几乎没有：

因为我将3个字段存储为月份：“11月”，日：“1”，时间：“18:23:34”。是否有可能随着时间的推移加入所有三个领域：“11月1日18:23:34”。
所有数据都存储有dev_id = 03，user_id = 000等信息但我需要删除信息并存储信息，如03,000,198.0.13.24等。

是否可以使用PIG进行所有处理，或者我们需要编写MapReduce程序。

编辑：1

收到评论后，我尝试了单列的REGEX_EXTRACT，工作正常。对于多列，我尝试了如下REGEX_EXTRACT_ALL：

A = LOAD '----' using PigStorage('\t') as (mnth: chararray, day: int, dev: chararray, user: chararray --------);

B = foreach A generate REGEX_EXTRACT_All(devid, userid, '(^.*=(.*)$) (^.*=(.*)$)');

Dump B;

我收到了错误：

Error: ERROR org.apache.pig.tools.grunt.Grunt - ERROR 1070: Could not resolve REGEX_EXTRACT_All using imports.

我们可以使用REGEX_EXTRACT_All提取多个字段。

Answer 1

只需为您的数据编写自定义加载器，您就可以使用java轻松解决所有问题。 here可以找到一步一步的例子

Answer 2

因为我将3个字段存储为月份：“11月”，日：“1”，时间：“18:23:34”。是否有可能随着时间的推移加入所有三个领域：“11月1日18:23:34”。

你可以使用CONCAT在FOREACH中连接两个chararrays。在这种情况下（这有点尴尬，也许有人可以提出一个不需要UDF的替代方案）：

CONCAT(CONCAT(CONCAT(CONCAT(mnth, ' '), day), ' '), 'time')

所有数据都存储有dev_id = 03，user_id = 000等信息但我需要删除信息并存储信息，如03,000,198.0.13.24等。

你应该使用REGEX_EXTRACT这个，它提取一个给定正则表达式的文本。在FOREACH中使用它。建立一个正则表达式，在=之后抓住所有内容。在这种情况下：

REGEX_EXTRACT(field2, '^.*=(.*)$', 1);

其他一些选择：

编写自己的自定义Java存储函数来在java中进行解析
编写UDF（python，java，等等）来执行上述操作，而不是REGEX_EXTRACT和嵌套的CONCAT。
将整个行加载为一个chararray，然后将其传递给执行所有解析的UDF，并返回结果。这个UDF被放入FOREACH。我比编写自定义存储功能更喜欢这个，因为我认为它更容易一些。

使用Pig将非结构化数据转换为结构化数据

问题描述投票：0回答：2

编辑：1

2个回答

最新问题

使用Pig将非结构化数据转换为结构化数据

问题描述 投票：0回答：2

编辑：1

2个回答

最新问题

问题描述投票：0回答：2