所以我想基本上识别PDF中的不同部分,例如CV中的“经验”和“教育”部分。我不想给它们贴上标签,我只需要一些可以利用视觉和文本提示来确定哪些文本区域在逻辑上属于同一组的东西。
像 YOLO 这样的现有 CV 解决方案显然不是正确的解决方案。
在 ML 方面更有经验的人能否大致列出我需要研究的内容才能实现这一目标?