apache-pig 相关问题

Apache Pig是一个分析大型数据集的平台,它包含用于表达数据分析程序的高级语言,以及用于评估这些程序的基础结构。 Pig程序的显着特性是它们的结构适合于大量并行化,这使它们能够处理非常大的数据集。

从猪拉丁字母中的字符串期望撇号中删除标点符号

我想对单词文件进行单词计数,并删除带有撇号的字符串的标点符号。我尝试执行以下代码,但出现意外错误“”。 word_file = LOAD'/ ...

回答 1 投票 0

PIG中的SPLIT运算符

我正在尝试使用PigStorage(',')将reviews_per_month从https://www.kaggle.com/dgomonov/new-york-city-airbnb-open-data NY_Airbnb_data = LOAD'AB_NYC_2019.csv'分为2组如(id:...

回答 1 投票 0

从python UDF返回未知长度的元组,然后在Pig中应用哈希

这是一个包含两个部分的问题:首先,我有一个python UDF,它创建了一个未知长度的字符串列表。 UDF的输入是一个映射(python中的dict),键的数量是...

回答 1 投票 2

替换null值在猪中不起作用

我的数据集中有些列为空。 C1; C2 ;;; ;;; ;;; ;;;我做了简单的操作,如果只有空值,则将空值替换为特定的空格长度。因为C1和C2具有...

回答 1 投票 0

Haskell:猪拉丁

问题:翻译成“拉丁猪”的简单规则是,以一个以元音开头的单词加上“ yay”,同时接受一个或多个辅音开头的单词并进行转换...

回答 4 投票 0

关于为何Output Stream仅将转换后的变量的最后一行打印到新文件而不是所有行的解释?

我正在尝试将英语单词从文本文件转换为将单词翻译成PigLatin的新文件。当一切简单地打印到控制台,但...

回答 1 投票 0

无法执行Apache Pig组

我有以下数据集1,澳大利亚,5 2,加拿大,6 3,美国,6 4,加拿大,8,5,澳大利亚,5其中方案为a1,a2,a3,我可以通过使用Hive使用group如下所示:选择a2,...

回答 1 投票 0

Cygwin和Apache Pig-令人困惑的伪咕gr声]

我正在尝试在运行Vista操作系统的Windows PC上安装Apache Pig的有效安装,以便将其用作学习工具;我不打算使用...

回答 1 投票 1

咕gr声模式下的猪

我已经在Windows中安装了Cygwin,hadoop和Pig。配置似乎还可以,因为我可以在批处理和嵌入式模式下运行Pig脚本。当我尝试在咕unt声模式下运行Pig时,会发生一些奇怪的事情。 ...

回答 5 投票 4

Pig匹配不匹配的数字

我已经花了数小时对此事扑朔迷离。 Pig的文档说它使用Java的正则表达式,但是当我使用相同的REGEX在Java中尝试相同的东西时,它可以按预期工作。我有此数据:id = 6139406,ci = ...

回答 1 投票 0

在AWS EMR中连接到Google NGrams数据

我正在尝试连接到EMR中AWS上的Google NGrams数据集。 (https://aws.amazon.com/datasets/google-books-ngrams/)但是,当我尝试使用Pig加载数据时,会收到很多错误消息...

回答 1 投票 0

Apache的猪:有没有ORDER BY与并行确保一致性哈希/分配?

如果我打开一个数据集,责令其在一个并列分句特定的键,然后存储它,我可以通过部分-R-00XXX提供多个文件,部分-R-00000,这取决于我在并行指定.. 。

回答 1 投票 1

猪和蜂巢之间的区别?为什么两者都有? [关闭]

我的背景 - 在Hadoop世界4周大。使用Cloudera的Hadoop VM在Hive,Pig和Hadoop中稍微涉足一下。已阅读Google关于Map-Reduce和GFS的文章(PDF链接)。我明白了 - 猪的......

回答 19 投票 251

PIG REPLACE为NULL

我有三个值A,B和C.如果A和B在其单元格中有值,我希望能够用NULL值替换C的值。不确定去哪里。我尝试过FOR EACH X ......

回答 1 投票 0

旋转猪

这与Apache Pig的Pivot表中的问题有关。我输入数据为Id名称值1列1行11 1列2行12 1列3行13 2列1行21 ...

回答 2 投票 3

如何从列中的字符串列表中提取特定单词

我在表格中有以下数据。阿切尔已故帕特里克晚了玛丽沃尔特已故迈克尔 - 德苏萨晚了我想用猪清除这个名单后期?我可以用正则表达式删除这个词。有人可以帮忙......

回答 1 投票 -2

将包中存在的元组值与硬编码的String值进行比较

我有这些列的数据集: - FMID,县,WIC,WICcash这是一个数据样本: - 1002267,道格拉斯,Y,N 21005876,道格拉斯,Y,N 1001666,道格拉斯,N,YI已经对数据进行了分组基于县和......

回答 1 投票 0

如何查看Hadoop上安装的猪版本

我正在尝试检查我的hadoop上安装的PIG版本。我们怎样才能看到Hadoop上安装的猪版本?有什么命令可以看到吗?

回答 3 投票 3

使用Pig将非结构化数据转换为结构化数据

我正在尝试使用PIG构建非结构化数据来进行一些处理。以下是数据样本:Nov 1 18:23:34 dev_id = 03 user_id = 000 int_ip = 198.0.13.24 ext_ip = 68.67.0.14 ...

回答 2 投票 0

找不到(有效)输入数据!在猪

我正在使用Pig加载XML数据。当我发出ILLUSTRATE命令时,我收到一个错误。这就是我在做的事情。使用org.apache.pig.piggybank注册piggybank-0.15.0.jar xml = LOAD'/ xml / data / path'....

回答 1 投票 1

© www.soinside.com 2019 - 2024. All rights reserved.