如标题所述,我想使用 Pytorch 预测扫描书页中折叠的 x 位置,稍后我可以使用此信息将页面拆分为左右两页。
我应该如何为这个案例准备数据和定义模型?
我可以使用以图像名称和 x 位置作为列的 csv 文件来训练模型,还是应该以不同的方式工作?
此外,图像非常大,在这里使用什么尺寸比较合适,数据集的最小尺寸是多少?
我已经尝试创建一个 csv 文件如下
图像,fold_x img/jpg/smaller/dataset/0001_L.jpg,231 img/jpg/smaller/dataset/0002_L.jpg,235 img/jpg/smaller/dataset/0003_L.jpg,241 img/jpg/smaller/dataset/0004_L.jpg,247 img/jpg/smaller/dataset/0005_L.jpg,248 ...
但我没有让它工作。
关于如何开始的任何想法都会非常有帮助。
提前致谢, 威兹