Skip to content

ERNIE-4.5-VL-28B-A3B-Thinking坐标框还原问题 #1364

@archwolf118

Description

@archwolf118

您好!感谢paddle团队做的这么好的多模态大模型。
目前我有个疑问就是坐标框的还原问题,比如我想让大模型检测图片所有文字,并定位出来,我的prompt是:
'''把图中的文字抽取出来,并给出每个文字块的坐标,格式为一个json:{"res":[{'text':'文字内容1', 'pos':[x1,y1,x2,y2]]},{'text':'文字内容2', 'pos':[x1,y1,x2,y2]]}, ...]}\n\n其中x1,y1是文字框左上角点坐标,x2,y2是文字框右下角点坐标"}}'''

我是按qwen3vl的方法,qwen3vl还原是用"输出的相对位置/1000*原始宽高计算"的
x1 = int(x1 / 1000 * width_original)
y1 = int(y1 / 1000 * height_original)
x2 = int(x2 / 1000 * width_original)
y2 = int(y2 / 1000 * height_original)

下图是ERNIE-4.5-VL-28B-A3B还原效果的例子:
Image
虽然能部分还原,但还原效果不太好。请问ERNIE-4.5-VL是如何归一化模型的bbox输出的呢?

Metadata

Metadata

Assignees

Labels

No labels
No labels

Type

No type

Projects

No projects

Milestone

No milestone

Relationships

None yet

Development

No branches or pull requests

Issue actions