apache-pig 相关问题

Apache Pig是一个分析大型数据集的平台,它包含用于表达数据分析程序的高级语言,以及用于评估这些程序的基础结构。 Pig程序的显着特性是它们的结构适合于大量并行化,这使它们能够处理非常大的数据集。

将 AWS 凭证传递给 PigStorage 函数

如何将 AWS 凭证(aws_access_key 和 aws_secret_key)传递给 PIG PigStorage 函数? 谢谢

回答 3 投票 0

将猪结果存储在文本文件中

我想将结果存储在文本文件中并按我想要的名称命名。是否可以使用 STORE 功能来做到这一点? 我的代码: a = 使用 PigStorage(';') 加载 'example.csv'; b = FOREACH a 生成 $0,$1,$2...

回答 2 投票 0

错误 org.apache.pig.tools.grunt.Grunt - 错误 1200:<line 16, column 46> 不匹配的输入“,”期望 LEFT_PAREN

grunt>joined_data=JOINfiltered_featuresBY(商店,日期),销售额BY(商店,日期); 2024-04-02 13:19:05,110 [主要] 错误 org.apache.pig.tools.grunt.Grunt - 错误 1200: grunt> joined_data = JOIN filtered_features BY (store, date), sales BY (store, date); 2024-04-02 13:19:05,110 [主要] 错误 org.apache.pig.tools.grunt.Grunt - 错误 1200: 不匹配的输入 ',' 期待 LEFT_PAREN 日志文件详细信息:/home/vboxuser/Documents/DDPC/EX9/q2/2/pig_1712044037517.log 猪堆栈跟踪 错误 1200:输入“,”不匹配,需要 LEFT_PAREN 解析失败:输入“,”不匹配,需要 LEFT_PAREN at org.apache.pig.parser.QueryParserDriver.parse(QueryParserDriver.java:244) at org.apache.pig.parser.QueryParserDriver.parse(QueryParserDriver.java:182) at org.apache.pig.PigServer$Graph.validateQuery(PigServer.java:1792) at org.apache.pig.PigServer$Graph.registerQuery(PigServer.java:1765) at org.apache.pig.PigServer.registerQuery(PigServer.java:708) at org.apache.pig.tools.grunt.GruntParser.processPig(GruntParser.java:1110) at org.apache.pig.tools.pigscript.parser.PigScriptParser.parse(PigScriptParser.java:512) at org.apache.pig.tools.grunt.GruntParser.parseStopOnError(GruntParser.java:230) at org.apache.pig.tools.grunt.GruntParser.parseStopOnError(GruntParser.java:205) at org.apache.pig.tools.grunt.Grunt.run(Grunt.java:66) at org.apache.pig.Main.run(Main.java:564) at org.apache.pig.Main.main(Main.java:175) at java.base/jdk.internal.reflect.NativeMethodAccessorImpl.invoke0(Native Method) at java.base/jdk.internal.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62) at java.base/jdk.internal.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43) at java.base/java.lang.reflect.Method.invoke(Method.java:566) at org.apache.hadoop.util.RunJar.run(RunJar.java:244) at org.apache.hadoop.util.RunJar.main(RunJar.java:158) ====================================================== ================================= 有括号但还是错误Left Paran 如果我提到列号,它就会起作用 grunt> join_data = JOIN Filtered_features BY ($0, $2), sales BY ($0, $1);

回答 1 投票 0

我如何找到猪中特定国家(例如美国)的每个专业计数和年龄计数

这就是例子。由此我想找到每个专业计数和每个年龄组计数。 filter_data = 按 loc=='us' 过滤客户; grunt> grp_data1 = 按年龄分组filter_data...

回答 1 投票 0

如何在过滤掉不同键的同时对 Apache Pig 中的值列进行计数

我正在尝试按product_id计算订购产品的总数(数量)。 数据看起来像这样。 (产品 ID、数量) 这也是 (11, 5) (11, 2) (11, 1) (12, 9) (12, 1) (13, 5) ...

回答 1 投票 0

Pig 使用 PigStorage(',') 加载地图

我一直在尝试加载数据(CSV),例如: txt = IPHONE,GA,US,CN,[bucket#A,type#user,jailbreak#No],app_talkingtom,ios7 使用 Apache Pig 加载语句: raw = 使用 PigStorage(',') 加载文本 as (

回答 2 投票 0

GOOGLE COLAB 中的 PIG 和 HIVE 查询

有什么方法可以在 google colab 中编写配置单元查询和猪拉丁脚本吗?

回答 1 投票 0

我需要从PIG HADOOP中的同一列过滤2个条件

我是猪的新手。 我想要实现的目标是从 1 个表中获取 2 个值,并查找某个 id 是否同时具有这两个项目。 例如 产品表 产品名称 豆腐 井仓 寿司 订购...

回答 2 投票 0

在Cloudera中使用serde加载JSON文件

我正在尝试使用具有此包结构的 JSON 文件: { “用户id”:“kim95”, “类型”:“书”, "title": "现代数据库系统:对象模型、互操作性及其他。", ”

回答 2 投票 0

Apache Pig 执行时间

我正在使用 EC2 运行 Pig 进行 WordCount 分析。我们被指示以本地模式运行 Pig。我想分析执行时间以与 MapReduce 进行比较,但我找不到检查方法...

回答 0 投票 0

为什么使用 Hadoop PIG 后使用 ORDER 后使用 LIMIT 失败

如果我对关系进行排序然后使用 LIMIT 它会失败并出现错误: 错误 1066:无法打开别名最旧的迭代器 这是输入数据,dataset.csv 约翰,27岁 玛丽,31 大卫,45岁 艾米丽,22

回答 0 投票 0

当我尝试在 Hive 中插入数据时,我得到了 ParseException

像这样的问题 请帮我解决这个问题。 如果不存在则创建表学生( > 学生姓名 STRING, > Student_Rollno INT, > Student_Marks 浮动) > 行 F...

回答 0 投票 0

将 PIG 中每个块的嵌套翻译成 Spark

我有以下 Pig 脚本,想将其翻译成 Spark Scala: FOREACH (GROUP callMetrics BY (datacenter, instance, tag, host_name, db_name, cluster_name, method)) {

回答 0 投票 0

如何计算 Pig 中的其他字段?

我有以下数据集。 f1,f2,f3,f4,f5,f6 我正在寻找 f6 的计数以及其他字段。 f1,f2,f3,f4,f5,5 f1,f2,f3,f4,f5,3 等等。 我试过这段代码,但它需要很长时间才能

回答 1 投票 0

传递一个带空格的参数

当我用如下所示的命令运行我的脚本,并将police_force参数设置为 "Surrey Police "时,它给了我一个错误 "ERROR org.apache.pig.tool.grunt.Grunt - ERROR 1000: Error during ..."。

回答 1 投票 2

HIVE 创建非空表

这是我在DB2数据库中的查询。CREATE TABLE MY_TABLE (COD_SOC CHAR(5) NOT NULL); 是否可以重现HIVE中的 "NOT NULL"?

回答 2 投票 4

PigStorage在Hadoop中如何使用,为什么?

我很困惑,为什么使用Pig处理Hadoop中的数据时,需要在Hadoop HDFS上再加一个存储层PigStorage?还有PigStorage中存储的文件是分布式的吗?谁能告诉我...

回答 1 投票 0

如何在Azure HDInsight集群中创建一个Pig Latin作业?

我刚刚创建了一个免费帐户到Azure和创建一个hadoop集群上HDInsight。然而,它无论如何也不会显示如何启动Pig客户端和创建猪拉丁作业并运行它?

回答 1 投票 0

Scala Spark:在Spark中有没有datafu.pig.sampling.SampleByKey的替代品?

SampleByKey的取样方法是将密钥转换为哈希值,从中得到一个双值,然后根据提供的概率进行测试。从一个键导出的双值是均匀的......。

回答 1 投票 0

Pig Script在Tez上抛出Out Of Memory异常,但在MapReduce上却能正常工作。

下图所示的Pig(使用Tez执行引擎)脚本在4节点集群上的15GB雇员表中抛出Out Of Memory Exception。当执行引擎改为MapReduce时,它可以正常工作。...

回答 1 投票 1

© www.soinside.com 2019 - 2024. All rights reserved.