MYSQL 的 DataProc 作业 Bigquery 需要很长时间

问题描述 投票:0回答:0

我有以下代码将数据从 Bigquery 复制到 MYSQL 这里是我的 pyspark 代码

spark = SparkSession.builder.appName('MySQL Data Loader').getOrCreate()



dataframe = spark.read.format("com.google.cloud.spark.bigquery") \
  .option("maxParallelism", 1000) \
  .load("<table>") \
  .cache()


print("Loading Done.....")  
 
dataframe.write.format('jdbc').option('url', f'jdbc:mysql://{MYSQL_INSTANCE_CONNECTION_NAME}/{MYSQL_DATABASE_NAME}') \
  .option('dbtable', MYSQL_TABLE_NAME).option('user', MYSQL_USER).option('password', MYSQL_PASSWORD) \
  .option("rewriteBatchedStatements", True) \
  .option('batchsize', BATCH_SIZE).mode('append').save()

# Stop the SparkSession
spark.stop()

Currently 它复制了大约 100GB 的数据并且需要超过 1 天的时间来完成。我怎样才能改善加载时间。

google-cloud-platform pyspark google-bigquery google-cloud-dataflow
© www.soinside.com 2019 - 2024. All rights reserved.