想使用广播变量来高效地跨多个节点共享只读数据lat long

问题描述投票：0回答：0

假设你有两个大数据集：第一个数据集包含有关用户活动的信息在一个网站上。它由 CSV 格式的日志文件组成，其中每一行代表一次页面访问由用户。每行包括以下字段： • IP 地址（字符串） • 时间戳（整数） • 访问的 URL（字符串）第二个数据集包含有关用户本身的信息。它也是 CSV 格式，每个用户一行。每行包括以下字段： • 用户 ID（整数） • 名称（字符串） • 电子邮件地址（字符串）您可以从以下链接下载这些数据集的示例版本： https://www.kaggle.com/c/web-traffic-time-series-forecasting/data 任务：你的任务是根据用户 ID 将这两个数据集连接在一起，然后执行一些对结果数据集的分析。为此，您需要在 Cloudera VM 上使用 Apache Spark 和 PySpark。你将从将两个数据集作为 RDD 读取并将它们缓存在内存中以便更快地访问。然后你会使用 Spark 转换对用户 ID 字段执行连接操作。一旦你有你的加入数据集，对其执行以下操作以分析数据： • 计算每个用户在网站上花费的平均时间。 • 确定每个用户访问过的最流行的页面。在此过程中，您还需要使用累加器跟踪某些指标，例如处理的记录数，以及遇到的错误数。此外，你可能想要使用广播变量来有效地跨多个节点共享只读数据

长

apache-spark

pyspark

apache-spark-sql

spark-streaming

想使用广播变量来高效地跨多个节点共享只读数据lat long

问题描述 投票：0回答：0

最新问题

问题描述投票：0回答：0