导读 视觉语言模型(VLMs)在多模态任务中至关重要,但在理解否定表达上仍面临挑战。否定在诸多应用中极为关键,然而现有VLMs在处理否定陈述时表...
视觉语言模型(VLMs)在多模态任务中至关重要,但在理解否定表达上仍面临挑战。否定在诸多应用中极为关键,然而现有VLMs在处理否定陈述时表现不佳,尤其在安全监控和医疗保健等领域尤为明显。这一问题的根源在于预训练数据偏差,导致模型将否定与肯定视为同义。
为解决这一问题,MIT、DeepMind及牛津大学的研究人员提出NegBench框架,用于评估和改进VLMs对否定的理解能力。该框架通过大量合成数据集提升模型训练和评估效果,显著提高了模型性能和泛化能力,特别是在处理否定查询和多项选择任务时表现出色。NegBench的提出填补了VLMs在理解否定方面的空白,对构建更强大的人工智能系统具有重要意义。
免责声明:本文为转载,非本网原创内容,不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。