使用spark数据帧生成包含唯一字段和XML组合的CSV文件

问题描述 投票:1回答:1

我正在使用com.databricks.spark.xml将XML读入spark Dataframe并尝试生成csv文件作为输出。

我的输入如下

<id>1234</id>
<dtl>
    <name>harish</name>
    <age>21</age>
    <class>II</class> 
</dtl>

我的输出应该是一个csv文件,其中包含id和剩余的整个XML标签的组合

id, xml
1234,<dtl><name>harish</name><age>21</age><class>II</class></dtl>

有没有办法以上述格式实现输出。

非常感激您的帮忙。

scala apache-spark spark-dataframe
1个回答
0
投票
  1. 创建一个普通的RDD,使用sc.textFile()将xml作为文本文件加载而不进行解析。
  2. 在regex / xpath的帮助下手动提取id,并尝试使用从标记开头到标记结尾的字符串切片对RDD字符串进行切片。
  3. 一旦完成,您将把数据放入地图中(id,“xml”)。

我希望这个战术解决方案能帮到你......

© www.soinside.com 2019 - 2024. All rights reserved.