点击查看平面图图片:
我是一名机械工程师,刚接触编程。
我想识别不同颜色的矩形管道以及其中包含的信息。
任何帮助将不胜感激。
我尝试使用
tesseract
提取文本。
这是第一个简单的脚本,用于提取具有非黑色边框的矢量图形以及其中的任何文本。
import fitz # PyMuPDF
doc = fitz.open("input.pdf")
page = doc[0] # first page (0-based numbering scheme)
paths = page.get_drawings() # extract all vector graphics (list of dictionaries)
for path in paths:
if path["color"] is None or path["color"] == (0,0,0)
# ignore borderless graphics and black border
continue
print(f"border color {p['color']}")
text = page.get_text(clip=path["rect"]) # extract any text inside
print(f"text inside {p['rect']: {text}")
注意:我是PyMuPDF的维护者和原始创建者。