ERNIE-4.5-VL-28B-A3B-Thinking坐标框还原问题

您好！感谢paddle团队做的这么好的多模态大模型。
目前我有个疑问就是坐标框的还原问题，比如我想让大模型检测图片所有文字，并定位出来，我的prompt是:
'''把图中的文字抽取出来,并给出每个文字块的坐标,格式为一个json:{"res":[{'text':'***文字内容1***', 'pos':[x1,y1,x2,y2]]},{'text':'***文字内容2***', 'pos':[x1,y1,x2,y2]]}, ...]}\n\n其中x1,y1是文字框左上角点坐标,x2,y2是文字框右下角点坐标"}}'''

我是按qwen3vl的方法，qwen3vl还原是用"输出的相对位置/1000*原始宽高计算"的
x1 = int(x1 / 1000 * width_original)
y1 = int(y1 / 1000 * height_original)
x2 = int(x2 / 1000 * width_original)
y2 = int(y2 / 1000 * height_original)

下图是ERNIE-4.5-VL-28B-A3B还原效果的例子：
<img width="1075" height="620" alt="Image" src="https://github.com/user-attachments/assets/3b899989-3b5d-429e-a1db-1ead21e9f09c" />
虽然能部分还原，但还原效果不太好。请问ERNIE-4.5-VL是如何归一化模型的bbox输出的呢？


Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

ERNIE-4.5-VL-28B-A3B-Thinking坐标框还原问题 #1364

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

ERNIE-4.5-VL-28B-A3B-Thinking坐标框还原问题 #1364

Description

Metadata

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Issue actions