我正在尝试使用spark数据集API将Apache日志解析为可以查询的表。我可以先创建一个RDD,然后转换为数据帧以注册临时表来做到这一点,但不确定如何使用Spark数据集API进行处理。有人可以提出建议并举个例子吗?
Apache日志示例:
127.0.0.1 - frank [10/Oct/2000:13:55:36 -0700] "GET /apache_pb.gif HTTP/1.0" 200 2326 "http://www.example.com/start.html" "Mozilla/4.08 [en] (Win98; I ;Nav)"
即使您的问题是说您只想使用Apache Spark解析日志,我也会为您提供替代的可行解决方案。使用以下配置: