我想安装一个扩展以将数据从 PostgreSQL 数据库导出到 Parquet 文件中。数据库正在 Docker 容器中运行,我不知道如何操作。
我尝试了一些解决方案,但最终在某个时候陷入困境。
https://github.com/adjust/parquet_fdw/blob/master/README.md
https://lib.rs/crates/pg2parquet
我没有经验知道什么是最好的以及是否有更好的选择。
您提到的外部数据包装器的扩展(parquet_fdw)将允许您的postgres服务器从parquet文件中读取数据,但目前它并不能解决您写入parquet文件的问题。
相反,由于您的服务器在容器上运行,并且如果您只想将 postgres 表作为 parquet 文件获取,那么 pg2parquet 实用程序可以完全满足您的要求:
yum install cargo
或 apt-get install cargo
作为超级用户,具体取决于您的 Linux 服务器是基于 rpm 还是 deb):cargo install [email protected]
~/.cargo/bin/pg2parquet export --host $PGHOST --dbname $PGDATABASE --user $PGUSER --password $PGPASSWORD --table $PGTABLE --output-file $PGTABLE.parquet