如何将 Spark 数据帧作为 JSON/字符串输入流发送到 REST API 端点而无需先保存它?

问题描述 投票:0回答:0

我有一个 ETL 管道,当前流程是从 Hive 表中提取一些数据,对其进行一些转换,将其保存为 Parquet 文件,然后使用 AWS S3 客户端将该数据作为字节流读取。然后将其作为输入流发送到 REST API 端点。有没有一种方法可以做到这一点 without 不必先将数据保存为 Parquet 文件?我可以将数据框转换为 JSON 输入流吗?

我知道我可以做

toJSON.collect()
,但这对我不起作用,因为它将所有数据分发给驱动程序的不同执行程序,并且驱动程序会耗尽内存。我能否将数据分布在不同的执行程序中,并将每个分区作为输入流作为批处理发送到 REST API 端点?

json api apache-spark inputstream
© www.soinside.com 2019 - 2024. All rights reserved.