apache-pig 相关问题

Apache Pig是一个分析大型数据集的平台,它包含用于表达数据分析程序的高级语言,以及用于评估这些程序的基础结构。 Pig程序的显着特性是它们的结构适合于大量并行化,这使它们能够处理非常大的数据集。

Hadoop Pig Latin始终无法加载数据

我正在Hadoop的Pig Latin中迈出第一步,但是我真的很受阻,因为即使存在它我也无法加载任何输入数据R = LOAD'/home/cloudera/Desktop/vol.csv'使用PigStorage (';')AS(...

回答 1 投票 1

如何获得猪行的平均值

[通过以下处理,将jython用作注册's3://jmh-dtg-2016/jeon_dtg/test.py'; raw01 =加载s3://jmh-dtg-2016/jeon_dtg/test_pig.csv',使用org.apache.pig.piggybank.storage ....

回答 1 投票 0

如何计算一行单词并用Apache Pig保留该行的ID?

我有一个带有2列的文件,第一列带有ID,第二列带有长文本,我需要知道如何为每个ID计算字数。例如,如果我有这两行:id |行(1,...

回答 1 投票 1

如何分组而不重复-Apache Pig

我需要找到订单价值(单价乘以产品数量)。但是,我的结果显示order_id重复。如何删除重复项,以便获得order_id ...

回答 1 投票 0

如何在grunt shell中抑制信息消息“不赞成io.bytes.per.checksum”

[分析大数据时,我在Hadoop-2.7.2之上运行Apache Pig版本0.17.0。每次我在grunt> shell的本地模式下运行load命令时,都会收到以下消息:grunt> A = ...

回答 1 投票 1

用于HDPCD的模拟器

我正在学习HDPCD,并试图为HDPCD考试做准备。我已经下载了Sandbox并在那里进行了练习,但是我也想通过...

回答 1 投票 1

Pig命令问题'无法从“ / pigdata / student”读取数据'

[在为某个关系运行转储命令时,它不返回任何记录,但它给出:测试文件:学生vineet 1 hisham 2 raj 3 ajeet 4 sujit 5 ramesh 6 priya 7 priyanka 8 suresh 9 ...

回答 3 投票 2

Apache Pig:分组和总和数据

我有一些数据,例如:type1,2 type2,1 type1,3 type2,4 type1,5 type2,3 type1,1 type3,5 type3,5我想按类型对它们进行分组,预期结果应为:type1 ,11 type2,8 type3,10 ...

回答 1 投票 0

访问在Pig中使用HcatLoader在Hive中创建的视图

我只是在Pig中的Hive和HcatLoader中尝试某些东西。我所做的是,在Hive中创建一个视图,然后尝试使用HcatLoader将我创建的视图中的视图加载到数据中。但似乎不起作用。...

回答 3 投票 1

计算Apache Pig中的不同项目

我有一个带有模式|表1的表用户表|用户标识| int | |第2栏| EMAIL |字符数组| |第3列|语言|字符数组| |第4列|位置|字符数组|和带有模式的事务表...

回答 1 投票 0

Pig-针对主表映射并检索两列?

我正在对openflights数据集(https://openflights.org/data.html)进行Pig实验。我目前正在尝试映射一个包含所有唯一可能的飞行路线的查询,即表格...

回答 1 投票 0

过滤字符串-apache pig

我正在使用Apache Pig过滤包含多个字段(字符串和整数)的数据集。对于仅具有整数的字段,Filter命令可以正常工作。每次尝试过滤字符串失败。 #...

回答 1 投票 0

no。每十年的猪记录数量

我有类似此名称,id,名称类型,recclass,质量,秋天,年份,亚琛,1,有效,L5、21,掉落,01/01/1880 12:00:00 AM,奥尔胡斯,2,有效的数据,H6,720 Fell,01/01/1951 12:00:00 AM:...

回答 1 投票 0

使用Pig Latin计算唯一值的出现次数

[我正尝试使用Apache Pig Latin找出2019年12月1日(来自http://cran-logs.rstudio.com/)下载次数最多的RStudio软件包的前5个。我需要的列是“ r_os”和“包”。 ...

回答 1 投票 0

Apache Pig仅加载第一个嵌套元组

我使用的是官方文档中的确切示例:我有data.txt:(3,8,9)(mary,19)(1,4,7)(john,18)(2,5,8)(joe ,18)我运行:A =加载'data.txt'AS(F:tuple(f1:int,f2:int,f3:int),T:tuple(t1:...

回答 1 投票 0

如何从Apache猪的元组中删除多余的条目

我如何使用PigStorage(',')AS(id1:chararray,id2:chararray,dt:chararray,qty:来解决元组中多余的逗号或条目ab =加载“ /path/file1.txt”的问题: int);当前输出:-(F1,S9,...

回答 1 投票 0

Apache Pig,包括DaysBetween的端点

如何验证Pig中的DaysBetween()函数是否已考虑终点?例如,如果我尝试grunt> DaysBetween(ToDate(1994-12-04,'yyyy-mm-dd'),ToDate(1994-12-04,'yyyy-mm -...

回答 1 投票 1

从猪拉丁文文件中读取元组

这是来自https://pig.apache.org/docs/r0.17.0/basic.html猫数据的示例; (3,8,9)(4,5,6)(1,4,7)(3,7,5)(2,5,8)(9,5,8)A =加载'data'AS( t1:tuple(t1a:int,t1b:int,t1c:int),t2:tuple(t2a:...

回答 1 投票 0

[在使用猪中的过滤器时出现错误,当我转储结果时会给出错误

在Pig中使用的代码是:studentsR = LOAD(hdfs://quickstart.cloudera:8020 / students / students),使用PigStorage()作为(name:chararray,rollno:int); resultR =加载'hdfs://quickstart.cloudera:8020 / students / ...

回答 1 投票 0

Apache Pig-错误6007:无法检查名称

我正在尝试运行Pig教程(http://pig.apache.org/docs/r0.11.1/start.html#pig-scripts)中的基本脚本,其外观如下:/ * myscript .pig我的脚本很简单。它包括...

回答 2 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.