您将如何使用正则表达式将Apache日志拆分为装入数据框的列?我正在尝试尽可能多地使用spark数据集api。
Apache日志示例:
127.0.0.1 - frank [10/Oct/2000:13:55:36 -0700] "GET /apache_pb.gif HTTP/1.0" 200 2326 "http://www.example.com/start.html" "Mozilla/4.08 [en] (Win98; I ;Nav)"
即使您的问题是说您只想使用Apache Spark解析日志,我也会为您提供替代的可行解决方案。使用以下配置: