-
Notifications
You must be signed in to change notification settings - Fork 1.4k
Open
Description
您好!感谢paddle团队做的这么好的多模态大模型。
目前我有个疑问就是坐标框的还原问题,比如我想让大模型检测图片所有文字,并定位出来,我的prompt是:
'''把图中的文字抽取出来,并给出每个文字块的坐标,格式为一个json:{"res":[{'text':'文字内容1', 'pos':[x1,y1,x2,y2]]},{'text':'文字内容2', 'pos':[x1,y1,x2,y2]]}, ...]}\n\n其中x1,y1是文字框左上角点坐标,x2,y2是文字框右下角点坐标"}}'''
我是按qwen3vl的方法,qwen3vl还原是用"输出的相对位置/1000*原始宽高计算"的
x1 = int(x1 / 1000 * width_original)
y1 = int(y1 / 1000 * height_original)
x2 = int(x2 / 1000 * width_original)
y2 = int(y2 / 1000 * height_original)
下图是ERNIE-4.5-VL-28B-A3B还原效果的例子:

虽然能部分还原,但还原效果不太好。请问ERNIE-4.5-VL是如何归一化模型的bbox输出的呢?
Metadata
Metadata
Assignees
Labels
No labels