如何使用pyarrow流式传输镶木地板？

问题描述投票：1回答：1

我正在尝试逐个读取镶木地板文件的大型数据集，进行一些操作然后继续进行下一个操作而不将它们全部保存在内存中。我需要这样做，因为整个数据集不适合内存。以前我使用ParquetDataset，我知道RecordBatchStreamReader，但我不知道如何将它们结合起来。

我如何使用Pyarrow来做到这一点？

parquet pyarrow

1个回答

3
投票

目前，Parquet API仅支持对单个文件的完整读取，因此我们只能以单个文件的粒度限制读取。我们想创建一个从Parquet文件中读取的arrow::RecordBatchReader（流数据接口）的实现，请参阅https://issues.apache.org/jira/browse/ARROW-1012。补丁将是受欢迎的。

最新问题

Apache jclouds - 在 Android 中使用时出现服务加载器错误
Flutter 中文本字段中的文本垂直居中
在 Control-M 中安排 PowerShell 作业
使用 apache Camel 创建 Rest 服务时出现错误
AngularJS 中 ng-bound 的作用是什么？
C++ 中引用是否作为空指针传递？
C# 如何让隐藏窗口不断重绘并准备好快速显示？
XML 声明的大写
Postgres SELECT FOR UPDATE，在事务运行时实际更新行
协议扩展中的快速闭包
如何在R中使用两种不同类型的日期格式将字符转换为日期？
错误 self.cap = cv2.VideoCapture(0) 期望“if”语句后有一个缩进块
php mysqli_stmt_execute() 在 mysql v8.0.36-28 下返回 false，没有报告错误
第一个全加器中的“进位”
下一个中间件不传递服务器返回的cookie
如何在不创建本地驱动程序的情况下连接到远程 Playwright 服务器？
Powershell：使用安全字符串调用 Webrequest
多次运行函数
是否可以PUT/PATCH位于vite+react项目的public文件夹中的json文件？
Zig 中的全局`comptime var`

如何使用pyarrow流式传输镶木地板？

问题描述 投票：1回答：1

1个回答

最新问题

问题描述投票：1回答：1