我有以下代码将数据从 Bigquery 复制到 MYSQL 这里是我的 pyspark 代码
spark = SparkSession.builder.appName('MySQL Data Loader').getOrCreate()
dataframe = spark.read.format("com.google.cloud.spark.bigquery") \
.option("maxParallelism", 1000) \
.load("<table>") \
.cache()
print("Loading Done.....")
dataframe.write.format('jdbc').option('url', f'jdbc:mysql://{MYSQL_INSTANCE_CONNECTION_NAME}/{MYSQL_DATABASE_NAME}') \
.option('dbtable', MYSQL_TABLE_NAME).option('user', MYSQL_USER).option('password', MYSQL_PASSWORD) \
.option("rewriteBatchedStatements", True) \
.option('batchsize', BATCH_SIZE).mode('append').save()
# Stop the SparkSession
spark.stop()
Currently 它复制了大约 100GB 的数据并且需要超过 1 天的时间来完成。我怎样才能改善加载时间。