使用正则表达式解析Apache登录数据帧并进行拆分?

问题描述 投票:0回答:1

您将如何使用正则表达式将Apache日志拆分为装入数据框的列?我正在尝试尽可能多地使用spark数据集api。

Apache日志示例:

127.0.0.1 - frank [10/Oct/2000:13:55:36 -0700] "GET /apache_pb.gif HTTP/1.0" 200 2326 "http://www.example.com/start.html" "Mozilla/4.08 [en] (Win98; I ;Nav)"
regex scala apache-spark parsing apache-spark-dataset
1个回答
0
投票

即使您的问题是说您只想使用Apache Spark解析日志,我也会为您提供替代的可行解决方案。使用以下配置:

  1. 配置弹性堆栈的日志存储configuration example
  2. 获取Logstash输出并将其发送到Apache Kafka example
  3. 然后用Spark Kafka spark kafka doc读取流>
© www.soinside.com 2019 - 2024. All rights reserved.