apache-pig 相关问题

Apache Pig是一个分析大型数据集的平台，它包含用于表达数据分析程序的高级语言，以及用于评估这些程序的基础结构。 Pig程序的显着特性是它们的结构适合于大量并行化，这使它们能够处理非常大的数据集。

如何将 AWS 凭证（aws_access_key 和 aws_secret_key）传递给 PIG PigStorage 函数？谢谢

amazon-web-services apache-pig emr

回答 3 投票 0

我想将结果存储在文本文件中并按我想要的名称命名。是否可以使用 STORE 功能来做到这一点？我的代码： a = 使用 PigStorage(';') 加载 'example.csv'; b = FOREACH a 生成 $0,$1,$2...

hadoop apache-pig hdfs bigdata

回答 2 投票 0

错误 org.apache.pig.tools.grunt.Grunt - 错误 1200：<line 16, column 46> 不匹配的输入“，”期望 LEFT_PAREN

grunt>joined_data=JOINfiltered_featuresBY（商店，日期），销售额BY（商店，日期）； 2024-04-02 13:19:05,110 [主要] 错误 org.apache.pig.tools.grunt.Grunt - 错误 1200： grunt> joined_data = JOIN filtered_features BY (store, date), sales BY (store, date); 2024-04-02 13:19:05,110 [主要] 错误 org.apache.pig.tools.grunt.Grunt - 错误 1200: 不匹配的输入 ',' 期待 LEFT_PAREN 日志文件详细信息：/home/vboxuser/Documents/DDPC/EX9/q2/2/pig_1712044037517.log 猪堆栈跟踪错误 1200：输入“，”不匹配，需要 LEFT_PAREN 解析失败：输入“,”不匹配，需要 LEFT_PAREN at org.apache.pig.parser.QueryParserDriver.parse(QueryParserDriver.java:244) at org.apache.pig.parser.QueryParserDriver.parse(QueryParserDriver.java:182) at org.apache.pig.PigServer$Graph.validateQuery(PigServer.java:1792) at org.apache.pig.PigServer$Graph.registerQuery(PigServer.java:1765) at org.apache.pig.PigServer.registerQuery(PigServer.java:708) at org.apache.pig.tools.grunt.GruntParser.processPig(GruntParser.java:1110) at org.apache.pig.tools.pigscript.parser.PigScriptParser.parse(PigScriptParser.java:512) at org.apache.pig.tools.grunt.GruntParser.parseStopOnError(GruntParser.java:230) at org.apache.pig.tools.grunt.GruntParser.parseStopOnError(GruntParser.java:205) at org.apache.pig.tools.grunt.Grunt.run(Grunt.java:66) at org.apache.pig.Main.run(Main.java:564) at org.apache.pig.Main.main(Main.java:175) at java.base/jdk.internal.reflect.NativeMethodAccessorImpl.invoke0(Native Method) at java.base/jdk.internal.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62) at java.base/jdk.internal.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43) at java.base/java.lang.reflect.Method.invoke(Method.java:566) at org.apache.hadoop.util.RunJar.run(RunJar.java:244) at org.apache.hadoop.util.RunJar.main(RunJar.java:158) ====================================================== ================================= 有括号但还是错误Left Paran 如果我提到列号，它就会起作用 grunt> join_data = JOIN Filtered_features BY ($0, $2), sales BY ($0, $1);

hadoop mapreduce apache-pig

回答 1 投票 0

我如何找到猪中特定国家（例如美国）的每个专业计数和年龄计数

这就是例子。由此我想找到每个专业计数和每个年龄组计数。 filter_data = 按 loc=='us' 过滤客户； grunt> grp_data1 = 按年龄分组filter_data...

hadoop apache-pig

回答 1 投票 0

如何在过滤掉不同键的同时对 Apache Pig 中的值列进行计数

我正在尝试按product_id计算订购产品的总数（数量）。数据看起来像这样。（产品 ID、数量）这也是 (11, 5) (11, 2) (11, 1) (12, 9) (12, 1) (13, 5) ...

apache-pig

回答 1 投票 0

Pig 使用 PigStorage(',') 加载地图

我一直在尝试加载数据（CSV），例如： txt = IPHONE,GA,US,CN,[bucket#A,type#user,jailbreak#No],app_talkingtom,ios7 使用 Apache Pig 加载语句： raw = 使用 PigStorage(',') 加载文本 as (

csv dictionary apache-pig

回答 2 投票 0

GOOGLE COLAB 中的 PIG 和 HIVE 查询

有什么方法可以在 google colab 中编写配置单元查询和猪拉丁脚本吗？

python google-colaboratory apache-pig hiveql

回答 1 投票 0

我需要从PIG HADOOP中的同一列过滤2个条件

我是猪的新手。我想要实现的目标是从 1 个表中获取 2 个值，并查找某个 id 是否同时具有这两个项目。例如产品表产品名称豆腐井仓寿司订购...

hadoop apache-pig

回答 2 投票 0

在Cloudera中使用serde加载JSON文件

我正在尝试使用具有此包结构的 JSON 文件： { “用户id”：“kim95”， “类型”：“书”， "title": "现代数据库系统：对象模型、互操作性及其他。", ”

hadoop hive apache-pig hue cloudera-cdh

回答 2 投票 0

Apache Pig 执行时间

我正在使用 EC2 运行 Pig 进行 WordCount 分析。我们被指示以本地模式运行 Pig。我想分析执行时间以与 MapReduce 进行比较，但我找不到检查方法...

hadoop amazon-ec2 mapreduce apache-pig

回答 0 投票 0

为什么使用 Hadoop PIG 后使用 ORDER 后使用 LIMIT 失败

如果我对关系进行排序然后使用 LIMIT 它会失败并出现错误：错误 1066：无法打开别名最旧的迭代器这是输入数据，dataset.csv 约翰，27岁玛丽，31 大卫，45岁艾米丽，22

hadoop apache-pig

回答 0 投票 0

当我尝试在 Hive 中插入数据时，我得到了 ParseException

像这样的问题请帮我解决这个问题。如果不存在则创建表学生（ > 学生姓名 STRING， > Student_Rollno INT, > Student_Marks 浮动） > 行 F...

mongodb hadoop hive apache-pig chukwa

回答 0 投票 0

将 PIG 中每个块的嵌套翻译成 Spark

我有以下 Pig 脚本，想将其翻译成 Spark Scala： FOREACH (GROUP callMetrics BY (datacenter, instance, tag, host_name, db_name, cluster_name, method)) {

scala apache-spark apache-pig

回答 0 投票 0

如何计算 Pig 中的其他字段？

我有以下数据集。 f1,f2,f3,f4,f5,f6 我正在寻找 f6 的计数以及其他字段。 f1,f2,f3,f4,f5,5 f1,f2,f3,f4,f5,3 等等。我试过这段代码，但它需要很长时间才能

hadoop apache-pig

回答 1 投票 0

传递一个带空格的参数

当我用如下所示的命令运行我的脚本，并将police_force参数设置为 "Surrey Police "时，它给了我一个错误 "ERROR org.apache.pig.tool.grunt.Grunt - ERROR 1000: Error during ..."。

apache-pig

回答 1 投票 2

HIVE 创建非空表

这是我在DB2数据库中的查询。CREATE TABLE MY_TABLE (COD_SOC CHAR(5) NOT NULL); 是否可以重现HIVE中的 "NOT NULL"？

hadoop db2 hive apache-pig

回答 2 投票 4

PigStorage在Hadoop中如何使用，为什么？

我很困惑，为什么使用Pig处理Hadoop中的数据时，需要在Hadoop HDFS上再加一个存储层PigStorage？还有PigStorage中存储的文件是分布式的吗？谁能告诉我...

hadoop apache-pig

回答 1 投票 0

如何在Azure HDInsight集群中创建一个Pig Latin作业？

我刚刚创建了一个免费帐户到Azure和创建一个hadoop集群上HDInsight。然而，它无论如何也不会显示如何启动Pig客户端和创建猪拉丁作业并运行它？

azure apache-pig hdinsight

回答 1 投票 0

Scala Spark：在Spark中有没有datafu.pig.sampling.SampleByKey的替代品？

SampleByKey的取样方法是将密钥转换为哈希值，从中得到一个双值，然后根据提供的概率进行测试。从一个键导出的双值是均匀的......。

scala apache-spark apache-spark-sql apache-pig

回答 1 投票 0

Pig Script在Tez上抛出Out Of Memory异常，但在MapReduce上却能正常工作。

下图所示的Pig(使用Tez执行引擎)脚本在4节点集群上的15GB雇员表中抛出Out Of Memory Exception。当执行引擎改为MapReduce时，它可以正常工作。...

hadoop apache-pig hcatalog apache-tez

回答 1 投票 1

apache-pig 相关问题

最新问题