我们将oracle表平移到HBase并在Hive中创建了映射表,看起来在我们进行sqooping时,所有数据都会转到一个区域,因此当我在hive上查询时,只有一个map taks正在执行以获取记录。
是否可以通过任何方式来提高性能。
你有没有试过强迫桌子拆分?
如果您的数据很小(小于1 GB,或者默认的最小区域大小),那么您只能导入一个区域。您可以强制HBase将表拆分为多个区域,但如果数据很小,您可能不会注意到很多改进。
M / R工作历来有很多开销。未来版本的Hive应该会有所帮助,但这些改进可能还没有进入稳定的CDH发行版。