从python UDF返回未知长度的元组,然后在Pig中应用哈希

问题描述 投票:2回答:1

这是一个包含两个部分的问题:

首先,我有一个python UDF,它创建了一个未知长度的字符串列表。 UDF的输入是map(在python中为dict),键的数量实际上是未知的(这是我要获取的值)。

我不知道如何在允许我将其作为列表(或其他可迭代数据结构)返回的模式中输出。这是我到目前为止所拥有的:

@outputSchema("?????") #WHAT SHOULD THE SCHEMA BE!?!?
def test_func(input):

    output = []
    for k, v in input.items():

        output.append(str(key))

    return output

现在,问题的第二部分。进入Pig之后,我想为所有用户将SHA哈希应用于“列表”中的每个元素。一些猪的伪代码:

USERS = LOAD 'something' as (my_map:map[chararray])
UDF_OUT = FOREACH USERS GENERATE my_udfs.test_func(segment_map)
SHA_OUT = FOREACH UDF_OUT GENERATE SHA(UDF_OUT)

最后一行可能是错误的,因为我想将SHA应用于列表中的每个元素,而不是整个列表。

python hash apache-pig udf
1个回答
2
投票

要回答您的问题,由于您要返回的内容是字符串的python列表,因此您希望装饰器为

@outputSchema('name_of_bag:{(keys:chararray)}')

指定此结构时可能会造成混淆,因为您只需要定义包中的one元素是什么样。

话虽这么说,有一种简单得多的方法可以满足您的要求。有一个功能KEYSET()You can reference this question I answered)将从Pig Map中提取关键帧。因此,请使用该示例中的数据集,并在第一个示例中添加更多键,因为您说过地图内容的长度是可变的

maps
----
[a#1,b#2,c#3,d#4,e#5]
[green#sam,eggs#I,ham#am]

查询

REGISTER /path/to/jar/datafu-1.2.0.jar;
DEFINE datafu.pig.hash.SHA();

A = LOAD 'data' AS (M:[]);
B = FOREACH A GENERATE FLATTEN(KEYSET(M));
hashed = FOREACH B GENERATE $0, SHA($0);
DUMP hashed;

输出

(d,18ac3e7343f016890c510e93f935261169d9e3f565436429830faf0934f4f8e4)
(e,3f79bb7b435b05321651daefd374cdc681dc06faa65e374e38337b88ca046dea)
(b,3e23e8160039594a33894f6564e1b1348bbd7a0088d42c4acb73eeaed59c009d)
(c,2e7d2c03a9507ae265ecf5b5356885a53393a2029d241394997265a1a25aefc6)
(a,ca978112ca1bbdcafac231b39a23dc4da786eff8147c4e72b9807785afee48bb)
(ham,eccfe263668d171bd19b7d491c3ef5c43559e6d3acf697ef37596181c6fdf4c)
(eggs,46da674b5b0987431bdb496e4982fadcd400abac99e7a977b43f216a98127721)
(green,ba4788b226aa8dc2e6dc74248bb9f618cfa8c959e0c26c147be48f6839a0b088)
© www.soinside.com 2019 - 2024. All rights reserved.