因此,使用Google的Vision API,我正在尝试使用Nodejs转换此表。如果结果是像[hi: bonjour, bye: au revoir ...]
这样的数组,那将是最好的。现在我遇到的问题是,当我上传这张图片时,我只能从谷歌那里得到文字及其坐标。使用某种hacky解决方案,我设法合并了这些词。例如:我设法将'au'和'revoir'合并为'au revoir',但我所拥有的解决方案绝对不可靠。
有人有这个问题的简单解决方案吗?我担心我的想法太难了,但我在网上找不到很多例子。
任何帮助将不胜感激。
我目前的代码:https://pastebin.com/jY5jDrqD(是的,这是一个烂摊子,不是很扎实)
从它的外观来看,你有很好的格式化输入,所以它应该很容易获得可靠的结果。如果某些键或值很长并且占用多行,可能会变得更棘手。
解决这个问题的方法是:
将它们分成行可能是最难的部分。
我建议按如下方式处理:
您可能需要注意的事项 - 标点符号被识别为他们自己的实体并且落在两个行组的边缘。
按x排序应该是微不足道的,然后确定一行中的哪些实体是关键的,哪些是值,将归结为一些试验和错误,以找到一个实体的结束与开始之间的差距的合适阈值。下一个。