无需人类或GPT

不用打标签,也能解决视觉大模型的偏好对齐问题了。

南大与旷视研究院的研究人员,推出了适用于VLM的无监督范式。

对比偏好对齐前后,可以发现模型的输出发生了显著的变化。

目前的视觉大模型已经比较成熟,但作者发现它们在用户体感方面仍然有所欠缺。

于是团队经过研究,通过构造偏好样本对的方式解决了视觉语言模型的偏好对齐问题,并提出了Self-Supervised Visual Preference Alignment(SeVa)范式。

该范式基于LLaVa-1.5-7B/13B完成,整个过程无需GPT-4或者是人类参与打标签,目前项目已经开源!

构建正负样本对比数据集

目前视觉大模型基本上在流程上已经非常成熟——预训练+指导监督微调(SFT)+对齐(可选)。

去年下半年开始,工业界和学术界主要聚焦在多模态大模型的数据(数据构造,配比,打标签)和模型结构(Connector,打开模型权重等)的设计上,目标是提升VLM的理解能力(传统QA+多模态benchmark)。

但是,研究团队发现部分开源大模型,虽然在跑分时有不错的性能,但在用户体感方面会比较欠缺——不遵循指令,产生幻觉回答,违背3H准则(helpfulness, harmless, honest)等问题纷纷出现。

研究团队认为,多模态对齐的一大难点,在于偏好数据的构造。

主要的原因是,纯NLP领域的偏好数据非常昂贵且稀缺(一般需要GPT-4或者人类的参与),Vision-Language领域的偏好数据还没有形成一个成熟的pipeline(数据构造方式,数据质量,数据的效果都还没完全得到验证)。

因此,本文首次提出一套自动化构造偏好数据的pipeline用于Alignment的训练。作者通过严格的实验,从多个角度展示了该pipeline对多模理解和用户友好性的提升。

研究当中,作者发现VLM对于图像层面的扰动非常敏感,也就是说,轻微的图像增广就会使得VLM对同一个Question产生错误且不同的回答。

具体来说,作者将多种图像层面的扰动分别作用于LLaVA-1.5的测试阶段,并在3个常规的多模态benchmark上运行,得到的结果如下:

因此SeVa将原始图像产生的回答作为正样本,将增广后的图像产生的回答作为负样本,用于构造DPO的数据集并训练。

△SeVa的6行伪代码实现

如果以流程图的形式来展示,SeVa的工作流如下:

具体来说,作者使用LLaVA665k 数据集中的TextVQA和OCRVQA来构造DPO数据,基于7B和13B的LLaVA-v1.5模型,使用其pretrained+SFT作为DPO的初始化权重,结合LoRA训练语言模型,r默认在512/1024。

实验结果表明,仅仅使用8k构造的无监督的数据能够显著提高VLM的指令遵循能力、降低幻觉,并且在多模态等benchmark上提升明显。

而且构造过程轻而易举、成本低廉,不需要任何人类或者是GPT-4的标注。

另外,作者还系统阐述了在DPO训练中用到的偏好分布与对比损失之间的关系。他们的形式在一定程度上是一致的,但是核心区别在于负样本的定义。

和对比学习统一之后的好处是,可以轻易的通过对比学习的思路,在DPO中添加更多由SeVa构建的负样本对,从而推导出一个更加通用的DPO形式。

让视觉模型更符合人类偏好

在9个benchmark上,SeVa几乎都能够做到稳定的提升,特别是在GPT-4评估的MMVet,和LLaVA-bench上提升显著,在用于评估幻觉的指标POPE、SHR上也有稳定的性能提升。

进一步实验表明,SeVa DPO的范式比SFT在微调VLM上具有更大的优势,例如训练时间更短、数据量更少、pipeline无需监督等,另外再性能上也有所提升。

换句话说,该实验也证明了Preference Alignment在某些情况会远远超过SFT的效率。

而且,经过DPO之后,SeVa的输出会更加的与模型得到的Question更加的接近。

同时,SeVa每次回答的一致性也更高,对于不同temperature的扰动拥有更强的鲁棒性。

通过可视化,作者还发现,SeVa的输出结果比原始LLaVA(未经过DPO训练)更加的优质(在win-lose的比例上明显占优)。

同时,经过DPO之后,SeVA产生了普遍比LLaVA更长更详细的回答。以上两个方面的可视化也解释了为什么SeVa能够更加的与人类的偏好对齐。

另外,本文还进行了诸多关于SeVa的细化和分析,有很多有意思的结论:

论文地址:https://arxiv.org/abs/2404.10501GitHub:https://github.com/Kevinz-code/SeVa


chatGPT是什么?

chatgpt是OpenAl开发的一个大型预训练语言模型,通俗一点说就是一个聊天机器人。 它是GPT-3模型的变体,ChatGPT经过了训练,可以根据接收到的输入生成类似人类的文本响应,具有更自然、更多样化的特点。 用户可以向它提出无数问题,而且通常会得到有用的答案。 GPT英文全称为Generative Pre-trained Transformer(生成式预训练转换器),是一种基于互联网可用数据训练的文本生成深度学习模型。 ChatGPT“脱胎”于OpenAI在2020年发布的GPT-3,后者是目前训练参数量最大的AI模型,当时发布后便引发了广泛的关注。

机器人代替人类还有多远

替代,首先要定义个范围或者深度。 比如,汽车载人,实现快速移动;比较以前的人力车,,这里算不算机器人代替人类。 几乎可以肯定,你会说这不算。 那要是汽车机器人(无需人类操作汽车自动运行的汽车机器人)载人,这算不算?应该算了代替人力车中的人了把?如果定义到这个深度,已经实现,毕竟无人驾驶的汽车已经出现很多年了,只是还没有普及。 再比如,拖地机器人,代替了人类扫地;大型加工工厂的智能操作平台,代替了流水线上的工人……人类正逐步被机器人代替。 而这些代替,是人类的进步?还是人类的退化?是值得高兴还是担忧?你问的替代或许不是这类的代替?但有何忧患呢,生命长河,优胜劣汰。 人类站在目前的巅峰,有多少物种也曾经站在这个巅峰。 种族的强大是因为适应,不适应自然会淘汰,自然要被替代。 或许很久,也或许很近,只看自然选择。

联想thinkpad为什么WIN7系统换XP就蓝屏

ACHI驱动问题,win7下硬盘是ACHI模式,XP下是IDE模式,自然会蓝屏,有两个解决办法,一是在开机时按F2(不同的bios可能不一样,就是进那个蓝色的界面),修改硬盘模式,这个方法简单,但是每次换系统就得调一次。方法二是安装集成了ACHI驱动的XP,有这样的安装盘.

  • 声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
  • 本文地址:https://120.77.238.70/keji312/36889.html
新能源汽车将如何发展 油电同权时代即将到来
微博适配华为鸿蒙 HarmonyOS NEXT 系统动态照片