开源多模态SOTA再易主 19B模型比肩GPT

开源多模态SOTA模型再易主!

Hugging Face开发者大使刚刚把王冠交给了,来自大模型创业公司 智谱AI

CogVLM2甚至在3项基准测试上超过GPT-4v和Gemini Pro,还不是超过一点,是大幅领先。

网友闻讯而来,发现ChatGPT新绝技之 “AI挑瓜” ,我们开源届也不缺了。

更复杂的学术图表,它也能理解并给出详细解释。

CogVLM2整体模型参数量仅,却能在多项指标取得接近或超过GPT-4V的水平,此外还有几大亮点:

英文版经网友测试也有不错的表现。

特别值得注意的是,尽管CogVLM2的总参数量为19B,但得益于精心设计的多专家模块结构, 每次进行推理时实际激活的参数量仅约12B ,这样一来,全量推理(BF16/PF16)需要42GB 显存。

接下来划重点了:

也就是一张英伟达,或者刚出不久的 RTX4070 Ti SUPER 就能搞定了。

性能不俗,算力需求也不离谱,以至于刚开源不久就在GitHub上小火了一把,各类开发者带着自己的场景来找团队咨询。

团队也贴心的表示,考虑到很多实际场景需要微调,专门给大家 提供了Lora微调代码

CogVLM2也提供在线Demo,感兴趣的话可以先试玩一下。

(试玩地址在文末领取)

好嘛,一般的小诡计还真骗不过它~

大模型整合视觉专家模块

其实去年10月,团队就发布了CogVLM一代,量子位当时也介绍过。

系列的核心思路,是给大语言模型的 每一层都添加可训练的视觉专家模块 ,以实现图像特征和文本特征的深度对齐,而不会牺牲NLP任务的性能。

可以说是把视觉语言模型的训练方式,从图像文本的浅层对齐,转向了深度融合。

CogVLM2在继承这一经典架构的基础上,做了不少优化和改进。

语言模型基座升级成最新的 Llama3-8B-Instruct 视觉编码器 升级到5B、 视觉专家模块 也升级到7B,支持更高的图像分辨率等等。

特别是视觉专家模块,通过独特的参数设置精细地建模了视觉与语言序列的交互,确保了在增强视觉理解能力的同时,不会削弱模型在语言处理上的原有优势。

升级后能力有多强?

在不损失任何通用能力的前提下,在许多关键指标上有了显著提升,如在 OCRbench基准上性能提升32%,在TextVQA基准上性能提升21.9%,且模型具备了较强的文档图像理解能力(DocVQA)等。

也可以来个更直观的展示:

现在,复杂的模型架构图都可以让CogVLM2自己描述一遍,而一代的时候我们也测试过,当时还是有难度的。

为了更为严格地验证CogVLM的性能和泛化能力,一系列多模态基准上的定量评估更能说明问题。

CogVLM2的两个模型,尽管具有较小的模型尺寸,但在多个基准中取得 SOTA性能;而在其他性能上,也能达到与闭源模型(例如GPT-4V、Gemini Pro等)接近的水平。

中文能力到位,模型代码试玩开放

可能有人会疑惑,Llama3系列是出了名的 能看懂中文,但死活不愿意用中文完整回答 ,有一种各说各话、跨服交流的美。

怎么到CogVLM2这里,加入视觉专家模块之后,中文输出能力也这么6了?

我们就这个问题询问了智谱团队,他们表示为了解决这个问题可费了不少功夫。

团队判断Llama 3 8B Instruct模型的训练数据中可能包含了大量英文数据,而 中文数据的比例相对较低

找到问题,就能对症下药了:

通过这些措施,CogVLM2在支持中文方面就有了显著的提升, 无论是在理解中文问题还是在用中文回答问题方面,都成了亮点和优势

比如识别火车票信息,再整理成json格式,部分文字反光或者掉色也不受影响。

又或者识别并描述复杂户型图,连注释和水印都不放过。

又或者识别中文手写字体。

甚至古代字体。

最后,奉上CogVLM2开源相关的一系列链接,感兴趣的朋友可以自取。

团队还透露,GLM新版本会内嵌CogVLM2能力,在 智谱清言App 智谱AI大模型MaaS开放平台 上线。

代码仓库:github.com/THUDM/CogVLM2

模型下载:Huggingface:huggingface.co/THUDM魔搭社区:modelscope.cn/models/ZhipuAI始智社区:wisemodel.cn/models/ZhipuAI

Demo体验:http://36.103.203.44:7861


大模型是什么意思

大模型(Large Model)是指具有数百万或数十亿个参数的深度神经网络模型,这种模型经过专门的训练过程,能够对大规模数据进行复杂的处理和任务处理。

大模型需要占用大量的计算资源、存储空间、时间和电力等资源来保证它的训练和部署。相比之下,小模型(Small Model)是指具有较少参数的深度神经网络模型。小模型常常运行速度更快,也更加轻便,适用于一些计算资源和存储空间较少的设备或场景,例如移动设备或嵌入式设备。

在实际应用中,选择大模型或小模型取决于需要解决的问题和可用资源。大模型通常在自然语言处理、计算机视觉、推荐系统等方面表现良好,它们通常需要高性能计算资源的支持,例如标准的GPU或云端集群。

小模型适合解决一些简单的、小规模的问题,例如信用卡欺诈检测等,它们具有更快的推理速度,可以在低功耗设备上运行,例如智能手机或物联网设备。

大模型能解决的问题

大规模预训练可以有效地从大量标记和未标记的数据中捕获知识,通过将知识存储到大量的参数中并对特定任务进行微调,极大地扩展了模型的泛化能力。在应对不同场景时,不再从0开始,只需要少量的样本进行微调。

再比如BERT已经训练好了,我们要做下游任务,做一个句子的情感分析。那么就会在BERT的输入token中加入一个 class token,这个和vit的做法一样,encoder以后用class token的向量做一下linear transoformation 和softmax和gt做损失训练,所以这一步可以直接初始化BERT模型的预训练参数做finetune,效果要更好。收敛的又快,loss又低。

"深度学习多模态训练,怎么解决不同模态之间差异的问题? "

语音和文本之间的模态差异虽大,但利用训练过的Tokenizer将所有未标注的语音和文本转换到相同的离散表示空间。这样,两种模态亦能在预训练中通过共享接口自然地交互。

如今,人工智能技术已经能够通过语音识别与语音合成实现两者的相互转换。随着自监督表征学习分别在自然语言处理(NLP)与语音领域取得了显著进展,研究者们开始关注语音和文本的联合预训练方法。

近期,微软亚洲研究院与微软云计算平台 Azure 语音组的研究员们提出了文本数据增强的语音预训练模型SpeechLM。神经科学研究显示,人类在接收语音和文字信息时会使用不同的大脑皮层分别预处理语音和文本,然后再将预处理的结果投射至同一个被称为Broca and Wernicke的区域提取语义等信息。受此启发,研究员们开始使用音素单元(phoneme unit)或隐藏单元(hidden unit)作为共享的语义接口[LZ1] 来桥接语音和文本模态。该接口具有很强的可解释性和可学习性。通过这个共享的语义接口,SpeechLM可以利用额外的文本数据来提升语音预训练模型的性能。在典型的语音-文本跨模态任务(如语音识别、语音翻译)和语音表征学习基准数据集SUPERB [1]上,SpeechLM表现优异。图1展示了在LibriSpeech数据集中使用不同数量的文本数据后,SpeechLM显示出的语音识别性能。仅仅使用少量文本数据(10K个文本句子)的SpeechLM显著地超越了之前的SOTA模型。目前,该模型已经在GitHub开源,并将集成到 Hugging Face框架中供研发者参考。

回首语音和语言联合训练

与NLP不同,语音信号是连续的,因此很难直接找到类似于BERT预训练的预测标签。想要解决这个问题,就需要一个Tokenizer将连续的语音特征映射至离散的标签。受文本预训练方法BERT的启发,语音表示学习模型HuBERT [2]利用MFCC特征或者Transformer中间层表示的k-means模型作为Tokenizer,将语音转换为离散的标签,通过迭代的方法进行模型预训练。

以往的联合预训练方法大多简单地让语音和文本共享神经网络的模型参数。这种训练方法不能保证语音和文本在同一语义空间内,存在迁移干扰和容量稀释的问题。为了缓解这两个问题,SLAM [3]和mSLAM [4]利用额外有监督的语音识别任务来增强语音与文本的一致性。然而,这些方法仍然无法使用相同的建模单元对未标注的语音和文本数据进行建模。虽然MAESTRO能够在RNN-T框架下通过模态匹配算法从语音和文本模态中学习共享表示,但该算法只能在成对的语音-文本数据上进行优化。

SpeechLM的目标就是利用文本数据来改善语音表征的学习。不同于之前的研究,SpeechLM能够利用训练过的Tokenizer将所有未标注的语音和文本转换到相同的离散表示空间。这样,两种模态亦能在预训练中通过共享接口自然地交互。

构建语音和文本的共享桥梁

语音和文本之间的模态差异极大。首先,语音信号比文本数据具有更多更丰富的信息,如韵律、音色、情感等。其次,语音是由一连串音素组成的连续信号,通常表示为连续平滑的波形,而文本是由词语、字词或字符表示的离散数据。第三,语音表示比文本表示更长,例如,一秒16KHZ的语音包含个采样点和几个单词。因此,如何弥合语音和文本之间的模态差异是构建两者桥梁的关键。

为了解决这一问题,研究员们探索使用了一个定义好的离散标签来桥接语音和文本,将语音和文本映射到共享离散空间中进行联合预训练。利用音素单元或者隐藏单元作为语音和文本之间的桥梁具有以下优点:

(1)将语音和文本分别对齐成共享的中间表示比直接对齐两者更容易

(2)可以充分利用额外的未标注数据来提升对齐学习

(3)可以利用更细粒度的对齐信息(例如帧级别对齐)来促进联合建模。

研究员们定义了两套不同的离散Tokenizer来实现这个目的,分别将语音文本映射到基于音素单元的表示空间和基于隐藏单元的表示空间。音素单元Tokenizer使用混合ASR模型,将未标记的语音序列转录成帧级别的音素单元,并通过词典转换未标记的文本。而隐藏单元Tokenizer使用基于HuBERT的k-means模型将语音聚类为隐藏单元,并利用非自回归模型将未标记的文本转换为隐藏单元。所有的Tokenizer模型都是用无监督数据或少量ASR数据训练获得的,并在预训练前离线使用,不直接参与预训练过程。

提前对齐,视频问答新SOTA!北大全新Video-LLaVA视觉语言大模型,秒懂视频笑点

引领视频问答的新里程碑,北京大学的研究团队带来了革命性的Video-LLaVA,一款强大的视觉语言大模型,它彻底革新了我们对多媒体内容的理解。这款创新模型不仅能够接收图片,还能解析视频,展现出了卓越的性能,揭示了统一输入在提升大模型视觉理解能力中的关键作用。Video-LLaVA巧妙地采用了LanguageBind的对齐技术,摒弃了独立编码器的繁琐,其训练策略巧妙分为两阶段:第一阶段,利用LAION-CC-SBU数据集进行视觉理解的深度挖掘;第二阶段,通过融合LLaVA和Video-ChatGPT的数据,进行更为精细的微调,强化模型的对话学习能力。

Video-LLaVA通过对话数据集,无论是基础还是复杂的视觉理解任务,都能轻松应对。它的出色表现为多模态融合问题提供了全新的解决方案,尤其是在处理视频和图片理解时,其一致性表示方法显著减少了幻觉现象,并显著提升了光学字符识别(OCR)的准确性。预先对齐的视觉特征是Video-LLaVA理解视频和图片的关键,它通过联合训练的方式,显著提升了整体理解能力。

要深入了解Video-LLaVA的强大之处,不妨访问其GitHub仓库:,以及探索Huggingface平台上的资源:。这款模型的出现,无疑为大语言模型如ChatGPT的未来发展开辟了新的可能,预示着视频问答的未来将更加智能且直观。

  • 声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
  • 本文地址:https://srwj168.com.cn/keji312/11454.html
卖技大众
收评 创业板指震荡反弹涨0.88% 光伏概念股午后集体爆发