[目前,我正在尝试使用csvtojson库来解析一百万条记录或更多的CSV记录,以创建s3filestream并逐行处理它。在处理时,我将其转换为通用格式存储,并将其转换为mongoDB。我面临的问题是整个过程都在单核上运行。我有一个运行8核的处理器。如何使用所有核心来拆分工作并优化性能?
您应该看mongoimport。这是与MongoDB一起安装的命令行工具,旨在导入CSV,TSV和原始JSON文件。如果使用--numInsertionWorkers=<int>
,则可以设置工作线程数(在这种情况下,建议设置为8)。