apache-pig 相关问题

Apache Pig是一个分析大型数据集的平台,它包含用于表达数据分析程序的高级语言,以及用于评估这些程序的基础结构。 Pig程序的显着特性是它们的结构适合于大量并行化,这使它们能够处理非常大的数据集。

如何在分组时将第一个元组放入包中

我不明白在生成输出时如何处理重复项,所以我最终得到了几个副本,但我只想要一个。我尝试过使用LIMIT,但只适用于选择我......

回答 1 投票 0

PIG:要在特定列集中排列的多个记录

我有一个场景,我有如下数据:客户ID |客户名称|客户邮政编码|关系C1 |约翰| E6 1NQ | R1 C2 |彼得| WC2 8AD | R1 C3 |艾米利亚| PC81 7RE | R1 C4 |杰西卡| ...

回答 1 投票 0

Junit外部资源@Rule订单

我想在我的测试类中使用多个外部资源,但是我对外部资源的排序有问题。这是代码片段:public class TestPigExternalResource {// hadoop ...

回答 3 投票 7

PIG LATIN REGEX_EXTRACT:

我试图使用regex_extract从#推文中获取#之后的所有内容。我正在使用这段代码,但我一直没有得到任何错误,只是空白空间,我应该从推文中获取摘录,...

回答 1 投票 0

Pig:ERROR 1045:无法推断COUNT的匹配函数为多个或不适合。请使用明确的演员

我试图通过Pig计算每个用户的推文。但我似乎碰到了一个问题。我和同学正在使用Apache Pig(实际上是Hadoop和所有不同的组件作为一个整体)...

回答 1 投票 0

hadoop pig不能用mkdir java抛出IO异常

我有一个非常简单的脚本示例来自hadoop真实世界解决方案食谱,我在amazon cloudera clustertogov04 ami上尝试它,它给了我不能mkdir的java异常?但是我有 ...

回答 1 投票 0

GROUP by和SUM with MAX()

我有一个包含年份,国家,性别和人口列的数据集。我需要按国家/地区的最新年份找出人口最多的国家a =群组数据; b = foreach a flatten(group),MAX(data ....

回答 1 投票 0

将avro转换为镶木地板(使用配置单元可能吗?)

我正在尝试将存储在HDFS(100s的GB)上的一堆多部分avro文件转换为镶木地板文件(保留所有数据)Hive可以使用以下命令将avro文件作为外部表读取:CREATE EXTERNAL ...

回答 1 投票 0

将apache pig转换为hive

试图找出“群体”变平,以及这个特殊的“扁平化”代码正在做什么。我一直在研究下面的代码,试图弄清楚如何将它转换为hive几天,然后......

回答 1 投票 0

多个不同的列(猪)

我有一个航班列表,其中包含以下属性:日:他们飞行的天数flight_number:他们的航班号origin_airport:起源城市机场dest_airport:目的地城市机场...

回答 1 投票 0

用年加载猪的数据时出错

我想写一个猪拉丁文字:我必须在1951年之后加载所有数据(1951年不包括在内)并过滤质量= 1的数据按温度分组数据,然后计算......

回答 1 投票 0

使用pig从数据文件中删除坏数据

我有这样的数据文件1943 49 1 1975 91 L 1903 56 3 1909 52 3 1953 96 3 1912 82 1976 66 3 1913 35 1990 45 1 1927 92 A 1912 2 1924 22 1971 2 1959 94 E现在使用猪脚本我想要至 ...

回答 1 投票 0

Apache Pig Query - 数据集加入ERROR 1031

我有以下四个任务要处理,但我对如何加入两个数据集以使任何任务正常工作感到困惑... A)查询具有最少数量的客户名称...

回答 1 投票 -1

apache pig count sort

我正在阅读猪的apache日志,它计算了ip的总连接数。 A = LOAD'access.log'使用PigStorage('')为(f0:chararray,f1:chararray,f2:chararray,f3:chararray,f4:chararray,f5:...

回答 1 投票 3

Pig脚本DISTINCT不会过滤掉重复的行

在具有数百万条记录的桌子上运行猪脚本如下:A = LOAD'/ this / that ..'使用PigStorage(',')AS(F1:chararray,F2:chararray ...); CleanedCol1 = FOREACH A GENERATE LOWER(TRIM(......)

回答 1 投票 0

猪视图未打开

在hortonworks沙箱的Ambari UI中,我试图通过maria_dev的默认帐户打开Hive View。但是,我收到以下错误:500无法读取数据库...

回答 1 投票 0

需要猪拉丁文字的最大值时间戳

输入数据如下:(1,a,1,2)(2,a,2,4)(5,a,7,5)(6,a,3,1)(8,a,4,3) )(3,a,8,6)(7,a,5,8)(4,a,6,7)脚本如下:a =使用PigStorage(',')加载'/ tmp / data / data' as(时间戳:chararray,...

回答 1 投票 0

从猪群中的分组数据中获取字段数据

我是PIG的新手。有人可以帮帮我吗下面是代码a = load'stage.temp'U使用org.apache.hive.hcatalog.pig.HCatLoader(); b =限制10; c = b组$ 0;转储c; (74409607,{(...

回答 2 投票 0

Pig和Hadoop连接错误

当我在mapreduce模式下运行pig时,我收到ConnectionRefused错误。详细信息:我已经从tarball(pig-0.14)安装了Pig,并在bashrc中导出了类路径。我有所有的Hadoop(...

回答 3 投票 3

猪拉丁需要数据不常见

Data1 1,a 2,b 3,c 4,d 5,e Data2 1,a 2,g 3,j 4,b 5,c 6,d 7,e Script a = load'/ tmp / data / data1'使用PigStorage(',')作为(timestamp:chararray,constant:chararray); b =使用...加载'/ tmp / data / data2'

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.