想使用广播变量来高效地跨多个节点共享只读数据lat long

问题描述 投票:0回答:0

enter image description here

假设你有两个大数据集:第一个数据集包含有关用户活动的信息 在一个网站上。它由 CSV 格式的日志文件组成,其中每一行代表一次页面访问 由用户。每行包括以下字段: • IP 地址(字符串) • 时间戳(整数) • 访问的 URL(字符串) 第二个数据集包含有关用户本身的信息。它也是 CSV 格式, 每个用户一行。每行包括以下字段: • 用户 ID(整数) • 名称(字符串) • 电子邮件地址(字符串) 您可以从以下链接下载这些数据集的示例版本: https://www.kaggle.com/c/web-traffic-time-series-forecasting/data 任务: 你的任务是根据用户 ID 将这两个数据集连接在一起,然后执行一些 对结果数据集的分析。 为此,您需要在 Cloudera VM 上使用 Apache Spark 和 PySpark。你将从 将两个数据集作为 RDD 读取并将它们缓存在内存中以便更快地访问。然后你会 使用 Spark 转换对用户 ID 字段执行连接操作。一旦你有你的 加入数据集,对其执行以下操作以分析数据: • 计算每个用户在网站上花费的平均时间。 • 确定每个用户访问过的最流行的页面。 在此过程中,您还需要使用累加器跟踪某些指标,例如 处理的记录数,以及遇到的错误数。此外,你 可能想要使用广播变量来有效地跨多个节点共享只读数据

apache-spark pyspark apache-spark-sql spark-streaming
© www.soinside.com 2019 - 2024. All rights reserved.