hadoop-partitioning 相关问题

Hadoop分区处理有关hadoop如何决定将哪些键/值对发送到哪个reducer（分区）的问题。

在学习MapReduce时，我遇到了这个问题：给定的 Mapreduce 程序的 Map 阶段生成 100 个具有 10 个唯一键的键值对。这个程序可以处理多少个Reduce任务...

mapreduce hadoop-partitioning

回答 5 投票 0

通过控制 HDFS 中的物理文件/块位置来减少 Spark Shuffle 读/写

设置：我们每小时在 hdfs 中接收 gzip 压缩的 csv 文件（例如每 24 小时 1k+ 个文件）。这些文件组织在文件夹结构 /data//// 中设置：我们每小时在 hdfs 中接收 gzip 压缩的 csv 文件（例如每 24 小时 1k+ 个文件）。这些文件组织在文件夹结构中 /data/<year>/<month>/<day>/<hour>/<unique_id>.csv.gz. 我们的 etl 流程（spark 应用程序每天运行一次。在该管道中，我们阅读当天的所有文件，应用一些变换，按小时重新分区整个数据集并将结果写回 hdfs（每天产生 24 个 avro 文件）。观察：在监视 Spark 作业时，我可以看到很多 shuffle 操作（还涉及通过网络传输大量数据，尤其是在步骤 2 和 3 之间）。在步骤 1/2 中，为每个文件创建一个任务，该任务安排在提供最佳局部性级别 (PROCESS_LOCAL) 的执行器节点上。在步骤 3 中，我们每小时执行一个任务（总共 24 个任务），每个任务将一个 avro 文件写回 hdfs。这些大型 shuffle 操作的原因是特定小时的输入 csv 文件物理上位于 hdfs 中的多个不同集群节点。读取/转换操作后，特定小时的所有记录都需要发送到单个执行器，该执行器在步骤 3 中运行该小时的写入任务。优化思路：为了优化这个过程，我们的想法是以某种方式物理定位同一节点同一小时内的所有原始 csv 文件/块。我们不会摆脱洗牌操作，但这主要需要执行器节点上的本地洗牌读/写，并最大限度地减少网络流量。在这一点上，还值得一提的是，网络带宽在我们的集群中是非常有限的资源。因此，Spark 应用程序大部分时间都在整理数据。是否有可能在上传过程中或者通过按 cron 计划运行的单独脚本来影响/控制 hdfs 中文件的物理位置？还有其他选项可以优化/简化此流程吗？作为一种可能的解决方案，不要将多个 .gz 文件写入一个小时，而是尝试将数据附加到 hdfs 文件。这可能更容易实现

apache-spark hadoop hdfs hadoop-partitioning

回答 1 投票 0

topic

通过mapPartitions类型的方法。

pyspark apache-spark-sql amazon-emr hadoop-partitioning

回答 1 投票 0

如何从在日期列上划分的配置单元表中获取最新日期？

例如如果我的日期列是load_date，则使用max（load_date）运算符将扫描配置单元中的每个数据文件，从而使其成为昂贵的操作。相反，有什么最佳方法可以从...

sql hadoop hive hiveql hadoop-partitioning

回答 1 投票 0

我们如何删除具有其基本文件结构的HIVE表，而又不破坏同一路径下的另一个表？

假设我们在相同的HDFS文件路径下创建了2个配置单元表。我希望能够删除具有HDFS文件路径的表，而不会破坏同一共享路径中的其他表。 ...