您好,我有90 GB数据,在CSV文件中,我正在将这些数据加载到一个临时表中,然后使用select insert命令从临时表加载到orc表中,但是将数据转换并加载为orc格式需要花费4个小时在spark sql中进行。有什么我可以用来减少这种时间的优化技术。到目前为止,我还没有使用任何优化技术,我只是使用spark sql并将数据从csv文件加载到table(textformat),然后从这个临时表到兽人表(使用选择插入)使用spark提交为:
spark-submit \
--class class-name\
--jar file
或者我可以在spark提交中添加任何额外的参数以改善优化。
标量代码(样本):
All Imports
object demo {
def main(args: Array[String]) {
//sparksession with enabled hivesuppport
var a1=sparksession.sql("load data inpath 'filepath' overwrite into table table_name")
var b1=sparksession.sql("insert into tablename (all_column) select 'ALL_COLUMNS' from source_table")
}
}
我只是使用spark sql并将数据从csv文件加载到表(文本格式),然后从此临时表到兽人表(使用选择插入)