parquet 相关问题

Apache Parquet是Hadoop的柱状存储格式。

Spark read.parquet花费了太多时间

嗨,我不明白为什么这段代码需要太多时间。 val newDataDF = sqlContext.read.parquet(“hdfs://192.168.111.70/u01/dw/prod/stage/br/ventas/201711*/*”)它应该没有字节...

回答 1 投票 0

使用polybase生成的Parquet文件不包含列名

我使用以下查询在SQL 2016中使用polybase创建外部表。 CREATE EXTERNAL TABLE dbo.SampleExternal(DateId INT NULL,CalendarQuarter TINYINT NULL,...

回答 1 投票 1

使用s3-dist-cp合并镶木地板文件

只是想知道是否可以使用s3-dist-cp工具来合并镶木地板文件(snappy压缩)。我尝试使用“--groupBy”和“--targetSize”选项,它确实将小文件合并为更大的文件。 ...

回答 1 投票 2

在Parquet文件上创建具有JSON数据的Hive表

我正在尝试实现的目标从源大JSON文件中获取数据(employee-sample.json)一个简单的spark应用程序,将其作为文本文件读取并存储在镶木地板(simple-loader.java)中。 ...

回答 1 投票 1

使用空数据集的Spark SQL连接会导致更大的输出文件大小

我遇到了一个问题,其中显然在Spark SQL中使用空表执行完全外连接会导致文件大小比仅从其他数据集中选择列而没有...

回答 1 投票 0

使用条件从分区的Parquet数据创建表

我正在尝试从databricks集群中的amazon s3的分区数据创建一个表。现在我的数据被分区为以下ID,报告和日期所以我已经挂载了数据:%python ...

回答 1 投票 1

PySpark:将输入文件写入单独的输出文件而不进行重新分区

我有一系列非常大的每日gzip压缩文件。我正在尝试使用PySpark以Parquet格式重新保存S3中的所有文件供以后使用。如果对于单个文件(例如,2012-06-01)我做:...

回答 1 投票 0

Spark写镶木地板不写任何文件,只有_SUCCESS

该应用程序包括val stats = sqlContext.sql(“select id,n from myTable”)stats.write.parquet(“myTable.parquet”)这创建了dir myTable.parquet,除了空的内容之外没有其他内容...

回答 2 投票 3

如何在MapReduce作业中以拼花文件格式编写输出?

我希望使用parquet-mr库在镶木地板文件格式中编写MapReduce输出,如下所示:job.setInputFormatClass(TextInputFormat.class);工作....

回答 1 投票 0

当我将一个DataFrame写入Parquet文件时,不会显示任何错误,也不会创建任何文件

大家好,我在保存DataFrame时遇到了问题。我发现了一个类似的未回答的问题:将Spark dataFrames保存为镶木地板文件 - 没有错误,但没有保存数据。我的问题是......

回答 1 投票 1

如何插入带有镶木地板格式和SNAPPY压缩的蜂巢表?

Hive 2.1我有以下表定义:CREATE EXTERNAL TABLE table_snappy(一个STRING,b INT)PARTITIONED BY(c STRING)行格式SERDE'org.apache.hadoop.hive.ql.io.parquet.serde ....

回答 1 投票 0

如何使用pyarrow流式传输镶木地板?

我正在尝试逐个读取镶木地板文件的大型数据集,进行一些操作然后继续进行下一个操作而不将它们全部保存在内存中。我需要这样做,因为整个......

回答 1 投票 1

将镶木地板文件转换为pandas然后查询会出错

我正在尝试查询数据帧的平均值,并将镶木地板文件转换为pandas来执行此操作。我收到错误TypeError('无法将%s转换为数字'%str(x))...

回答 1 投票 0

Parquet 文件可选字段不存在

我是使用镶木地板文件的新手,我想开发一个 mapreduce 作业,它使用以下 shcema 读取许多输入的镶木地板文件: { 可选的 int96 dropoff_datetime; 可选浮动

回答 2 投票 0

如何使作业幂等于多次运行在S3中生成相同的结果文件

我使用spark df write将镶木地板文件保存到S3。场景:我运行Job1并将xyz.parquet保存到S3,我的Job2拿起xyz.parquet并将数据加载到DB。现在,我希望下次运行Job1时......

回答 1 投票 0

无法执行简单的配置单元请求:从表df中选择*

我创建了一个这样的hive表:CREATE EXTERNAL TABLE table_df(v1 String,v2 String,v3 String,v4 String,v5 String,v6 String,v7 String,v8 String,v9 String,v10 String,v11 String,v12 .. 。

回答 1 投票 4

Pandas Dataframe Parquet数据类型?

我正在尝试使用Pandas和Pyarrow来拼接数据。我有数百个镶木地板文件,不需要具有相同的模式,但如果列匹配parquets,它们必须具有相同的数据类型。 ...

回答 1 投票 3

pyspark.sql.utils.AnalysisException:u'无法推断Parquet的模式。必须手动指定。

这与上面帖子中给出的答案有不同我得到的错误是读取pyspark.sql.utils.AnalysisException:u'无法推断Parquet的模式。必须手动指定....

回答 1 投票 1

Spark SQL Java GenericRowWithSchema无法强制转换为java.lang.String

我有一个应用程序试图从集群目录中读取一组csv并使用Spark将它们写为镶木地板文件。 SparkSession sparkSession = createSession(); JavaRDD ...

回答 2 投票 0

如何根据表中的数据获取镶木地板文件名

我试图找出许多镶木地板文件中的哪一个是存储在表中的数据,用于特定的日期条件集。例如:从表中选择文件名,其中dateCol ='1-1-2010'; ...

回答 1 投票 1

© www.soinside.com 2019 - 2024. All rights reserved.