当Spark从S3读取大文件时，可以将数据分发到不同的节点

问题描述投票：0回答：1

假设我在S3上有一个大型数据文件，并希望将其加载到Spark集群以执行某些数据处理。当我使用sc.textFile（filepath）将文件加载到RDD时，我的集群中的每个节点都会存储我的文件RDD的一部分并通过节点分发吗？或者整个数据文件将存储在一个节点中并通过群集进行复制？如果文件大小大于该节点的内存怎么办？

谢谢！

apache-spark amazon-s3 rdd

1个回答

0
投票

S3没有地方，因此Spark可以在任何有空间的地方安排工作。

但是，如果可以拆分文件，它只会破坏文件进行处理。如果不用gz压缩，Avro，ORC，镶木地板，CSV都能很好地分割。文字文件？不是AFAIK

最新问题

如何在ServiceNow工作流运行脚本中获取Form的字段值
是否可以使用可用的 AssetDatabase 来构建游戏？
Div 容器出现然后很快消失
BigDecimal 舍入：价格值中的 doubleValue() 与 setScale(2, BigDecimal.ROUND_HALF_UP)
在 WooCommerce 中显示每个订单商品的剩余库存，以获得特定电子邮件通知
docker-compose redis 和 redis Commander
如何在 SwiftData 中使用两个存储/配置
InnoDB 如何使用 script1.php 锁定数据库行并使用 script2.php 删除它
如何在 Amazon DMS 中处理 MySQL/MariaDB TIME 列
如何解决GoRouter.routeInformationProvider缺失错误？
Angular 17 - 另一个信号的参考信号
使用 WC Kalkulator 产品字段值更新 WooCommerce 购物车项目产品属性
在 github-pages 上托管 Hugo 网站
V2云函数类型接口中的UserRecord（Contex）等价物是什么？
Bulma 中卡片标题中的居中文本
如何使用@testing-library/react测试React Router V6 Outlet
如何在第三列的范围内强制两列的唯一性？
如何从一个组件调用另一个组件的ngOnInit
一起搜查搜索 ID 和字符串
使用 vector::size() 时，While 循环表现得很奇怪

当Spark从S3读取大文件时，可以将数据分发到不同的节点

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1