我创建了一个文本数据集,一种知识库,它是从大约 1000 个 PDF 中解析出来的,平均长度为 50 页。该数据集用于 RAG 实现。
在我看来,所有从 PDF 中提取文本的解决方案最多只能产生中等结果,但提取的文本包含大量杂质。
我想知道是否有任何用于后处理文本数据集的资源。这可能需要总结、清理、重组、重新制定等……我认为基于法学硕士的框架将是理想的选择。
注意:我不是问如何从 pdf 中提取文本。
对于旨在提高大型文本数据集质量的现有解决方案或方法的任何建议或指示,我将不胜感激。谢谢您的帮助。
我知道您询问后处理策略,但也许考虑预处理上下文信息可能会有所帮助? 背景是 LLM 模型的关键。