parquet 相关问题

Apache Parquet是Hadoop的柱状存储格式。

如何在MapReduce作业中以拼花文件格式编写输出?

我希望使用parquet-mr库在镶木地板文件格式中编写MapReduce输出,如下所示:job.setInputFormatClass(TextInputFormat.class);工作....

回答 1 投票 0

当我将一个DataFrame写入Parquet文件时,不会显示任何错误,也不会创建任何文件

大家好,我在保存DataFrame时遇到了问题。我发现了一个类似的未回答的问题:将Spark dataFrames保存为镶木地板文件 - 没有错误,但没有保存数据。我的问题是......

回答 1 投票 1

如何插入带有镶木地板格式和SNAPPY压缩的蜂巢表?

Hive 2.1我有以下表定义:CREATE EXTERNAL TABLE table_snappy(一个STRING,b INT)PARTITIONED BY(c STRING)行格式SERDE'org.apache.hadoop.hive.ql.io.parquet.serde ....

回答 1 投票 0

如何使用pyarrow流式传输镶木地板?

我正在尝试逐个读取镶木地板文件的大型数据集,进行一些操作然后继续进行下一个操作而不将它们全部保存在内存中。我需要这样做,因为整个......

回答 1 投票 1

将镶木地板文件转换为pandas然后查询会出错

我正在尝试查询数据帧的平均值,并将镶木地板文件转换为pandas来执行此操作。我收到错误TypeError('无法将%s转换为数字'%str(x))...

回答 1 投票 0

Parquet 文件可选字段不存在

我是使用镶木地板文件的新手,我想开发一个 mapreduce 作业,它使用以下 shcema 读取许多输入的镶木地板文件: { 可选的 int96 dropoff_datetime; 可选浮动

回答 2 投票 0

如何使作业幂等于多次运行在S3中生成相同的结果文件

我使用spark df write将镶木地板文件保存到S3。场景:我运行Job1并将xyz.parquet保存到S3,我的Job2拿起xyz.parquet并将数据加载到DB。现在,我希望下次运行Job1时......

回答 1 投票 0

无法执行简单的配置单元请求:从表df中选择*

我创建了一个这样的hive表:CREATE EXTERNAL TABLE table_df(v1 String,v2 String,v3 String,v4 String,v5 String,v6 String,v7 String,v8 String,v9 String,v10 String,v11 String,v12 .. 。

回答 1 投票 4

Pandas Dataframe Parquet数据类型?

我正在尝试使用Pandas和Pyarrow来拼接数据。我有数百个镶木地板文件,不需要具有相同的模式,但如果列匹配parquets,它们必须具有相同的数据类型。 ...

回答 1 投票 3

pyspark.sql.utils.AnalysisException:u'无法推断Parquet的模式。必须手动指定。

这与上面帖子中给出的答案有不同我得到的错误是读取pyspark.sql.utils.AnalysisException:u'无法推断Parquet的模式。必须手动指定....

回答 1 投票 1

Spark SQL Java GenericRowWithSchema无法强制转换为java.lang.String

我有一个应用程序试图从集群目录中读取一组csv并使用Spark将它们写为镶木地板文件。 SparkSession sparkSession = createSession(); JavaRDD ...

回答 2 投票 0

如何根据表中的数据获取镶木地板文件名

我试图找出许多镶木地板文件中的哪一个是存储在表中的数据,用于特定的日期条件集。例如:从表中选择文件名,其中dateCol ='1-1-2010'; ...

回答 1 投票 1

数据帧字符串到Hive表Bigint - 如何转换

Spark:1.6,Scala,Hive我有一个数据帧DF.printschema root | - rundatetime:string(nullable = true)| - day_cunt:String(nullable = true)| - my_key:integer(nullable = true)DF。节目() ...

回答 1 投票 0

如何解决timberjs库问题 - 异步错误?

我尝试使用timberjs:https://www.npmjs.com/package/parquetjs他们的例子代码:var parquet = require('parquetjs'); //声明`fruits`表的模式var schema = new parquet ....

回答 1 投票 0

Spark Parquet统计(最小/最大)集成

我一直在研究Spark如何在Parquet中存储统计信息(最小/最大)以及它如何使用信息进行查询优化。我有几个问题。首先设置:Spark 2.1.0,以下......

回答 3 投票 7

© www.soinside.com 2019 - 2024. All rights reserved.