parquet 相关问题

Apache Parquet是Hadoop的柱状存储格式。

如何使用Boto3将S3中的gzipped镶木地板文件读入Python？

我的S3存储桶上有一个名为data.parquet.gzip的文件。我无法弄清楚读它的问题是什么。通常我使用StringIO但我不知道如何解决它。我想从...导入它

python amazon-web-services amazon-s3 boto3 parquet

回答 1 投票 0

错误：线程“main”中的异常java.lang.ClassCastException：sun.nio.fs.UnixPath无法强制转换为org.apache.parquet.io.OutputFile

我试图将xml文件转换为avro，然后转换为镶木地板文件格式，而不使用大数据工具。我能够将其转换为avro，但在此之后出现错误：线程中的异常“...

java avro parquet file-conversion

回答 1 投票 0

阅读Partial Parquet文件

我有一个Parquet文件，我不想将整个文件读入内存。我想读取元数据，然后按需读取文件的其余部分。也就是说，例如，我想读第二个......

c++ apache buffer parquet partial

回答 1 投票 1

来自Parquet的Polybase错误：无法将Java.lang.Double转换为

通过Polybase加载Azure数据仓库，我正在阅读Azure Blob上的Parquet文件。首先，我在SQL中创建了一个外部表，指向Parquet文件，然后加载CTAS。不......

pandas parquet azure-sqldw pyarrow polybase

回答 1 投票 0

在Spark中一次遍历整个数据集？

我有一个大的数据集，每个国家/地区每年都有人口统计数据。我正在使用带有Scala和Parquet的Apache Spark。结构是每年一列（即'1965'）。我已经转换了CSV ...

apache-spark hadoop apache-spark-sql parquet

回答 2 投票 0

AWS Glue ETL作业因AnalysisException失败：u'无法推断Parquet的架构。必须手动指定。

我正在尝试创建AWS Glue ETL Job，它将数据从存储在S3中的镶木地板文件加载到Redshift表中。 Parquet文件使用带有“简单”文件架构选项的pandas写入多个...

amazon-web-services apache-spark parquet aws-glue

回答 2 投票 3

从S3到DynamoDB加载镶木地板文件

我一直在寻找加载（基本上是空的和恢复）Parquet文件从S3到DynamoDB的选项。 Parquet文件本身是通过在EMR集群上运行的spark作业创建的。这里有几件事要......

amazon-web-services amazon-s3 amazon-dynamodb amazon-emr parquet

回答 1 投票 0

尝试将pyspark DataFrame写入镶木地板时出现Py4JJavaError

我想使用pyspark将大型.csv文件转换为.parquet格式。我正在使用python 3.我尝试更改用于压缩的编解码器，如类似线程中所示，但仍然相同...

python-3.x csv dataframe pyspark parquet

回答 1 投票 1

如何在达到特定大小（128 Mb）时将Kafka消息提交到HDFS接收器

我的配置：Confluent（5.0.0）Kafka生成一些avro消息。 Connect worker（HDFS连接器接收器）将这些消息以Parquet格式传输到HDFS节点。我配置连接工作者提交...

apache-kafka avro parquet apache-kafka-connect confluent

回答 1 投票 0

hdfs snapshot是否适用于附加数据？

我知道hdfs快照可以跟踪目录中添加或删除的文件。当我有连续附加文件（PARQUET）时的行为如何？

hdfs parquet snapshot

回答 1 投票 0

“安装pyarrow时”提升RuntimeError（'32位Windows不支持'）“

每当我尝试在我的电脑上安装pyarrow时就会出现此错误，它是64位所以我不理解它：引发RuntimeError（'不支持32位Windows'）RuntimeError：32位Windows不支持...

apache-spark pycharm parquet pyarrow

回答 1 投票 -1

Dask.dataframe.to_parquet制作非常大的文件

我正在将10个大的固定宽度文件（平均19GB）转换成镶木地板。我这样做是通过堆叠固定宽度文件file_list = [files] stacked_files = open（stacked.txt，'a'）for i in ...

dask parquet

回答 1 投票 0

Azure Data Factory v2 - 从镶木地板复制到SQL DB的错误年份

我对Azure Data Factory v2有一个奇怪的问题。有一个Spark Job正在运行并生成镶木地板文件作为输出，ADFv2复制活动然后采取输出镶木地板并复制...

azure azure-sql-database parquet azure-data-factory azure-data-factory-2

回答 2 投票 2

如何将csv文件转换为镶木地板

我是BigData的新手。我需要将csv / txt文件转换为Parquet格式。我搜索了很多，但找不到任何直接的方法。有没有办法实现这一目标？

java bigdata parquet

回答 7 投票 17

复杂类型的模式演化

spark中结构数组（复杂类型）的模式演化状态是什么？我知道对于常规简单类型的ORC或Parquet工作相当不错（添加新列）但我...

apache-spark parquet orc schema-migration

回答 1 投票 1

Sqoop snappy压缩无法正常工作

我有以下sqoop脚本，它应该在镶木地板中获取数据并使用snappy压缩。 sqoop import \ --hive-drop-import-delims \ --fields-terminated-by' \ 001'\ --connect'＆...

hadoop hive parquet snappy

回答 2 投票 0

使用spark SQL以Parquet格式读取不存在的列

python apache-spark pyspark apache-spark-sql parquet

回答 3 投票 1

使用spark sql在Parquet文件中重命名列名称中的空格

我想使用Spark Sql显示镶木地板文件的内容，但由于镶木地板文件中的列名包含空格我收到错误 - 属性名称“名字”包含无效字符...

apache-spark-sql parquet

回答 1 投票 2

如何在Spark中将镶木地板文件拆分为多个分区？

所以我只有一个镶木地板文件，我正在阅读Spark（使用SQL的东西），我希望它可以处理100个分区。我已经尝试将spark.default.parallelism设置为100，我们也试过......

scala apache-spark parquet

回答 5 投票 15

S3 Select会加快Parquet文件的Spark分析吗？

您可以在Amazon EMR和Databricks上使用S3 Select with Spark，但仅适用于CSV和JSON文件。我猜测不会为列式文件格式提供S3 Select，因为它无济于事......

apache-spark amazon-s3 parquet

回答 1 投票 0

parquet 相关问题

最新问题