将csv加载为蜂巢的orc格式的sql优化技术

Question

您好，我有90 GB数据，在CSV文件中，我正在将这些数据加载到一个临时表中，然后使用select insert命令从临时表加载到orc表中，但是将数据转换并加载为orc格式需要花费4个小时在spark sql中进行。有什么我可以用来减少这种时间的优化技术。到目前为止，我还没有使用任何优化技术，我只是使用spark sql并将数据从csv文件加载到table（textformat），然后从这个临时表到兽人表（使用选择插入）使用spark提交为：

    spark-submit \
    --class class-name\
    --jar file

或者我可以在spark提交中添加任何额外的参数以改善优化。

标量代码（样本）：

    All Imports
    object demo {
    def main(args: Array[String]) {
    //sparksession with enabled hivesuppport

    var a1=sparksession.sql("load data inpath 'filepath'  overwrite into table table_name")

    var b1=sparksession.sql("insert into tablename (all_column) select 'ALL_COLUMNS' from    source_table")

    }
    }

Answer 1

我只是使用spark sql并将数据从csv文件加载到表（文本格式），然后从此临时表到兽人表（使用选择插入）

将csv加载为蜂巢的orc格式的sql优化技术

问题描述投票：0回答：1

1个回答

最新问题

将csv加载为蜂巢的orc格式的sql优化技术

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1