使用python从spark读取singlestore数据

问题描述 投票:0回答:1

我对 Spark 和 singlestore 完全陌生。我正在尝试使用 Spark 从 singlestore 读取数据,这是我编写的代码 -

from pyspark.sql import SparkSession

spark = SparkSession.builder \
   .appName("ReadFromSingleStore") \
   .config("spark.datasource.singlestore.host", "abcd1") \
   .config("spark.datasource.singlestore.port", 3306) \
   .config("spark.datasource.singlestore.user", "abcd2") \
   .config("spark.datasource.singlestore.password", "abcd3") \
   .config("spark.datasource.singlestore.database", "abcd4") \
   .getOrCreate()



# Read data from SingleStore table
sql = "select * from INV_DOI_CDL_VW order by INSERTED_DATE ASC, TRANSACTION_ID DESC limit 100"
df = spark.read.format("singlestore").option("query", sql).load()


results = df.collect()
for row in results:
   print(row)

# Stop the Spark session
spark.stop()

我的目录中还有 singlestore-spark-connector jar。当我尝试运行此代码时,我收到此错误 - 文件“C:\Program Files\Python310\lib\subprocess.py”,第 1438 行,在 _execute_child 中 hp, ht, pid, tid = _winapi.CreateProcess(可执行文件, args, FileNotFoundError: [WinError 2] 系统找不到指定的文件

我做错了什么?这是我第一次与 singlestore 合作。

python apache-spark singlestore
1个回答
0
投票

您在启动 Spark 时是否提供了 Spark 连接器的链接?例如:

$SPARK_HOME/bin/spark-shell --packages com.singlestore:singlestore-spark-connector_2.12:4.1.6-spark-3.5.0

查看 GH 存储库 了解更多详细信息。 文档也是一个很好的起点。

© www.soinside.com 2019 - 2024. All rights reserved.