我是 Spark 新手,正在阅读学习 Spark 日志。对数据获取/读取的概念有疑问。
如果我有一个外部数据源(未分区)并且我想在 Spark 中处理它。
因此第一个分区将扫描整个数据源并存储 1000 到 2000 之间的数据
然后第二个分区将再次扫描整个数据源并存储 2000 到 3000 之间的日期?
还会有 10 个单独的 Spark 会话来并行处理它们吗?如果不是,那么单个会话如何并行读取它们?
每个分区都存储在单独的执行器中?
尝试在网上搜索,但未能得到满意的解释来解决我的疑问。