我有一个项目使用NoSQL DB与Hadoop并对其进行基准测试。我选择MongoDB作为数据库,但我对某些事情感到困惑,并且有一些问题需要澄清:
我希望你澄清这些概念,并提前感谢你。
MongoDB将取代HDFS
绝对不。 HDFS并不打算用作数据库,而且Mongo不是能够存储任何数据的PB级的分布式文件系统
他们会一起工作吗?
HIve和Spark可以直接从Mongo读取数据。我确信还有其他工具可以将Mongo备份到HDFS中。
单独对MongoDB进行基准测试与使用Hadoop进行基准测试不同
是的,读取和写入将是与HDFS完全不同的调整参数,因为HDFS不是数据库
用于基准测试的YCSB工具
不清楚你在Hadoop中的基准测试。编写和阅读一堆文件(有和没有mapreduce)?看看在特定时间YARN有多少工作? Hadoop再次不是用于存储简单JSON blob的数据库。
当monogo在Hadoop之上时,MongoDB或Hadoop会在节点之间共享数据吗?
我从来没有听说过这个,但Mongo可能会存储指标,HDFS会提供原始数据吗?