仅使用spark数据集api解析apache日志

问题描述 投票:0回答:1

我正在尝试使用spark数据集API将Apache日志解析为可以查询的表。我可以先创建一个RDD,然后转换为数据帧以注册临时表来做到这一点,但不确定如何使用Spark数据集API进行处理。有人可以提出建议并举个例子吗?

Apache日志示例:

127.0.0.1 - frank [10/Oct/2000:13:55:36 -0700] "GET /apache_pb.gif HTTP/1.0" 200 2326 "http://www.example.com/start.html" "Mozilla/4.08 [en] (Win98; I ;Nav)"
scala apache-spark parsing apache-spark-dataset
1个回答
0
投票

即使您的问题是说您只想使用Apache Spark解析日志,我也会为您提供替代的可行解决方案。使用以下配置:

  1. 配置弹性堆栈的日志存储configuration example
  2. 获取Logstash输出并将其发送到Apache Kafka example
  3. 然后用Spark Kafka spark kafka doc读取流>
© www.soinside.com 2019 - 2024. All rights reserved.