我有25GB TSV文件并尝试使用命令导入它:
D:\sphinx\bin>indexer.exe -c D:\sphinx\sphinx.conf products --rotate
它工作一段时间,但后来显示错误
ERROR: index 'products': source 'products_tsv': read error 'No error' (line=4595827, pos=908, docid=4595827).
但是在第4595827行的记录没有问题。我有两个问题:
在检查数据文件时花了很多时间,发现了许多隐藏的符号,如SYM(\U001A
),NULL(\0000
)以及其中的更多,这使得Sphinx变得疯狂。
简单地说(如果«简单»可以说约25GB文件)将所有SYM替换为'并删除其他人。
我们前进并面临另一个问题,但这是另一个question。
尝试在.tsv
数据源的最后一行之后添加额外的换行符,因此最后一行为空。在我看来,它有所帮助。感谢@stefobark和他的存储库stefobark/index_tsv