parquet 相关问题

Apache Parquet是Hadoop的柱状存储格式。

如何使用Boto3将S3中的gzipped镶木地板文件读入Python?

我的S3存储桶上有一个名为data.parquet.gzip的文件。我无法弄清楚读它的问题是什么。通常我使用StringIO但我不知道如何解决它。我想从...导入它

回答 1 投票 0

错误:线程“main”中的异常java.lang.ClassCastException:sun.nio.fs.UnixPath无法强制转换为org.apache.parquet.io.OutputFile

我试图将xml文件转换为avro,然后转换为镶木地板文件格式,而不使用大数据工具。我能够将其转换为avro,但在此之后出现错误:线程中的异常“...

回答 1 投票 0

阅读Partial Parquet文件

我有一个Parquet文件,我不想将整个文件读入内存。我想读取元数据,然后按需读取文件的其余部分。也就是说,例如,我想读第二个......

回答 1 投票 1

来自Parquet的Polybase错误:无法将Java.lang.Double转换为

通过Polybase加载Azure数据仓库,我正在阅读Azure Blob上的Parquet文件。首先,我在SQL中创建了一个外部表,指向Parquet文件,然后加载CTAS。不......

回答 1 投票 0

在Spark中一次遍历整个数据集?

我有一个大的数据集,每个国家/地区每年都有人口统计数据。我正在使用带有Scala和Parquet的Apache Spark。结构是每年一列(即'1965')。我已经转换了CSV ...

回答 2 投票 0

AWS Glue ETL作业因AnalysisException失败:u'无法推断Parquet的架构。必须手动指定。

我正在尝试创建AWS Glue ETL Job,它将数据从存储在S3中的镶木地板文件加载到Redshift表中。 Parquet文件使用带有“简单”文件架构选项的pandas写入多个...

回答 2 投票 3

从S3到DynamoDB加载镶木地板文件

我一直在寻找加载(基本上是空的和恢复)Parquet文件从S3到DynamoDB的选项。 Parquet文件本身是通过在EMR集群上运行的spark作业创建的。这里有几件事要......

回答 1 投票 0

尝试将pyspark DataFrame写入镶木地板时出现Py4JJavaError

我想使用pyspark将大型.csv文件转换为.parquet格式。我正在使用python 3.我尝试更改用于压缩的编解码器,如类似线程中所示,但仍然相同...

回答 1 投票 1

如何在达到特定大小(128 Mb)时将Kafka消息提交到HDFS接收器

我的配置:Confluent(5.0.0)Kafka生成一些avro消息。 Connect worker(HDFS连接器接收器)将这些消息以Parquet格式传输到HDFS节点。我配置连接工作者提交...

回答 1 投票 0

hdfs snapshot是否适用于附加数据?

我知道hdfs快照可以跟踪目录中添加或删除的文件。当我有连续附加文件(PARQUET)时的行为如何?

回答 1 投票 0

“安装pyarrow时”提升RuntimeError('32位Windows不支持')“

每当我尝试在我的电脑上安装pyarrow时就会出现此错误,它是64位所以我不理解它:引发RuntimeError('不支持32位Windows')RuntimeError:32位Windows不支持...

回答 1 投票 -1

Dask.dataframe.to_parquet制作非常大的文件

我正在将10个大的固定宽度文件(平均19GB)转换成镶木地板。我这样做是通过堆叠固定宽度文件file_list = [files] stacked_files = open(stacked.txt,'a')for i in ...

回答 1 投票 0

Azure Data Factory v2 - 从镶木地板复制到SQL DB的错误年份

我对Azure Data Factory v2有一个奇怪的问题。有一个Spark Job正在运行并生成镶木地板文件作为输出,ADFv2复制活动然后采取输出镶木地板并复制...

回答 2 投票 2

如何将csv文件转换为镶木地板

我是BigData的新手。我需要将csv / txt文件转换为Parquet格式。我搜索了很多,但找不到任何直接的方法。有没有办法实现这一目标?

回答 7 投票 17

复杂类型的模式演化

spark中结构数组(复杂类型)的模式演化状态是什么?我知道对于常规简单类型的ORC或Parquet工作相当不错(添加新列)但我...

回答 1 投票 1

Sqoop snappy压缩无法正常工作

我有以下sqoop脚本,它应该在镶木地板中获取数据并使用snappy压缩。 sqoop import \ --hive-drop-import-delims \ --fields-terminated-by' \ 001'\ --connect'&...

回答 2 投票 0

使用spark SQL以Parquet格式读取不存在的列

我有两个月的拼花文件2017_01.parquet和2017_08.parquet,那些架构是:2017_01.parquet:root | - value:struct(nullable = true)| | - version:struct(nullable = true)| | | ...

回答 3 投票 1

使用spark sql在Parquet文件中重命名列名称中的空格

我想使用Spark Sql显示镶木地板文件的内容,但由于镶木地板文件中的列名包含空格我收到错误 - 属性名称“名字”包含无效字符...

回答 1 投票 2

如何在Spark中将镶木地板文件拆分为多个分区?

所以我只有一个镶木地板文件,我正在阅读Spark(使用SQL的东西),我希望它可以处理100个分区。我已经尝试将spark.default.parallelism设置为100,我们也试过......

回答 5 投票 15

S3 Select会加快Parquet文件的Spark分析吗?

您可以在Amazon EMR和Databricks上使用S3 Select with Spark,但仅适用于CSV和JSON文件。我猜测不会为列式文件格式提供S3 Select,因为它无济于事......

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.