当前,我们有火花结构化流式传输
[在箭头文档中,我找到了箭头流,我们可以在Python中创建一个流,生成数据,并使用StreamReader
在Java / Scala中使用该流
我想知道这两者是否集成在一起,我们可以在其中做一些类似的事情,例如在Python中生成箭头流,并使用Spark结构化的流来获取流(以分布式方式)?
想象一个场景,一个人想要构建一个易于使用的Python api,但是计算引擎在Java / Scala上,而使用Kafka / Redis并不能解决所有语言的数据类型。但是,使用箭头目前没有群集支持来访问数据
我从未听说过这样的项目。您所描述的几乎是PySpark结构化流,其中一侧有一个正在运行的python应用程序,与JVM上运行的Spark基础结构进行通信。