当前位置: 首页 > 科技

不让视觉语言模型「盲猜」,性能竟直接提升一倍?

团队的共同一作林之秋(Zhiqiu Lin)是卡内基梅隆大学的博士研究生,由Deva Ramanan教授指导,专注于视觉-语言大模型的自动评估与优化。团队的马紫晛(Zixian Ma)是华盛顿大学的博士研究生,由Ranjay Krishna教授指导,专注于视觉-语言大模型的评测以及与人的交互。

在诸如 MME、MMBench、MMMU 和 ScienceQA 等复杂的视觉问答(VQA)基准上,GPT-4o、Qwen2-VL 等视觉语言模型已经取得了显著进展。然而,这些模型真的理解自然图像吗?

近日,卡内基梅隆大学与华盛顿大学的研究团队推出了 NaturalBench,这是一项发表于 NeurIPS'24 的以视觉为核心的 VQA 基准。它通过自然图像上的简单问题——即自然对抗样本(Natural Adversarial Samples)——对视觉语言模型发起严峻挑战。

本文来源于网络,不代表济南之窗立场,转载请注明出处
转发到:
拓展阅读
阿里云服务器
腾讯云秒杀
Copyright 2003-2024 by 济南之窗 jn.sczixun.cn All Right Reserved.   版权所有