北大袁粒 用户不会为只能闲聊的大模型买单

大模型能力与日俱增,如何将其转化为生产力?

中国AIGC产业峰会上,北京大学深圳研究生院助理教授 袁粒 给出了他的看法:

袁粒专注于多模态深度学习研究方向,一作论文单篇被引用千余次。

屡屡登上热搜的、等垂直领域产品,都是出自他的团队。最近,由他们发起的 Sora复现计划 “OpenSora”,更是引发了广泛关注。

为了完整体现袁粒的思考,在不改变原意的基础上,量子位对演讲内容进行了编辑整理,希望能给你带来更多启发。

中国AIGC产业峰会是由量子位主办的行业峰会,20位产业代表与会讨论。线下参会观众近千人,线上直播观众300万,获得了主流媒体的广泛关注与报道。

话题要点

以下为袁粒演讲全文:

怎样将大模型转化为生产力

我今天主要是来讲讲我们在多模态模型垂域上面的应用,主要是我们自己团队的工作。

首先引用浙大赵(俊博)老师的拷问,你会为一个闲聊的玩具买单吗,这是当Chat系列模型出来后,大家都会思考的。

同时在去年5、6月份,ChatGPT用户量出现了微跌,也就是说如果大家只是为了一个聊天去用一个产品,肯定是不够的,需要实实在在的转化成生产力, 生产力由什么转化,就是垂域应用

我们知道后来OpenAI动作很快,推出了GPT store,也就是GPT的商店。

我认为GPT商场中的每一个应用,就是一个垂域的产品。我们的团队也是做了一些多模态垂域的开发,包括ChatExcel、ChatLaw,既有语言生成应用,也有视觉生成的一些模型。

我们的基础平台是基于鹏城的云脑加上我们自建的算力,以及通用和行业的数据来进行应用的开发的。

我们先来简单看看一些代表性工作。

第一个就是数据垂域的应用ChatExcel,它其实是早于微软的Copilot发布的,在2022年下半年开始研发,23年2月发布。

一开始的想法很简单,是2022年下半年的时候,我的一个博士生告诉我,他说老师,我想给女朋友减负。

因为他的女朋友是一个高校的信息老师,天天要处理很多表格,大家也知道企业有很多“表哥、表姐”。所以当时我觉得这个想法很好,背后代表了大家普遍的需求,所以就出来了ChatExcel。

ChatExcel是从传统到生成式路线,而且会比生成式路线再往前推了一步,就是多模态生成。

我们看看在第一版的时候,线上能体现到这边这一部分,用文字直接操纵表格,其实WPS当前也已经能做这到一步,因为我们从2022年下半年到2023年初发布。

当然在这个之后,我们进行了升级,升级成一个多模态的模型,这个视频放一下,这也是我们目前部署给某奢侈品巨头的一个真正落地的case,大家可以看到已经不是单模态,能进行数据的可视化,以及能进行一些营销的处理,包括帮你分析这个产品哪一个明星来代言会更好。

我们ChatExcel孵化了一家企业,这个是我的学生创业做的一件事情,我也很支持他。如果大家感兴趣可以在互联网上搜到。

打造垂域应用,要先解决幻觉问题

第二个应用是ChatLaw,ChatLaw是中文法律垂域应用。

ChatLaw这个应用的动机很简单,就是在食堂和一个法学院的老师吃饭的时候,他说我们北大的法律比清华还是好的,但是法律科技在那个时候没有拥抱大模型,我们是否能做一些法律上面的东西。

所以我们一起合作做出来这个ChatLaw的模型。

其实这个很简单,思路就是用户提出需求,我们用Agent进行模型的调度、处理,最后提供法律助手服务,包括信息的分析、结构化抽取,同时能够为用户包括律师生成一些大家所熟知的诉讼状,一些文本的文件,这个是可以给普通用户,同时也可以帮律师。

当然我们目标从来 不是替换律师,而是成为律师的助手,替换一些底层重复性的工作

我们可以看看一些简单的能力,有人被裁员之后去问我的模型,我的模型会让他上传合同和HR沟通录音,然后给他分析事实,最后给出建议。

基于这个建议,我们告知他其实被裁员之后可以走劳动仲裁,仲裁流程以及劳动仲裁申请书都可以由ChatLaw生成,还会推荐一些类似的案例和判决结果。

同时我自己的学生,以及我个人,也有从这个模型中受益,这是当时ChatLaw内测的时候,我的学生身上发生的真实案例。

我的学生想买一个车,在4S店试驾,结果就遇到了一个法律问题。

一般情况下,在试驾的时候需要签一份“免责协议”,大概内容是如果开着这个车出了交通事故,责任完全由试驾人员承担,4S店则不承担责任。

但是很不幸,我这个学生把车开回4S店的时候,在视觉盲区中和一辆电动车发生了刮蹭。

当时我的学生被4S店告知,要么把这个车买下来,要么在完成定损之后全额赔偿。

当时ChatLaw正好在内测,我的学生就问了模型,我的模型最后给他的答案是,4S店的“免责协议”违背了《侵权责任法》第42条(现《民法典·侵权责任编》第1203条)的规定。

同时,ChatLaw也给这个学生生成了一份调解建议书,阐明了因为这个产品归属于4S店,所以这个“协议”属于霸王条款。

于是,这名学生拿着法律依据以及生成的文书给4S店,然后4S店对这件事情就没有再过问了,不了了之了。

虽然我的学生最后买的也是这款车,但没有在这家4S店。

这就是法律真正在普惠个人,包括我个人在现在生活当中一些小问题,也会问模型,因为很多时候它确实有效。

当然,大家也许会说,通用模型本身也能回答大家的这些法律问题。

但是通用模型有一个问题——在专业领域,最大的问题是 幻觉问题 ,俗称“一本正经地胡说八道”。

大家知道如果问ChatGPT,“林黛玉倒拔垂杨柳”是怎么回事,ChatGPT会把这个过程说得非常清晰生动,甚至最后林黛玉的性格都能分析出来,说是《红楼梦》某一回的,这种问题非常严重。

去年上半年我们开发垂域模型的时候就知道,垂域模型必须要解决幻觉问题,所以我们当时提出来,现在大家都很熟知这个词叫 检索增强生成

那个时候确实是我们首次做出来的,只是我们没有把这个概念提出来,让大模型做大模型的事情,让检索做检索的事情。

当然这套框架,大家感兴趣可以读论文,我们也开源了一部分模型,但是商业版比开源模型更好。

其实简单说就是用检索的方式在数据库里面提取出一个参考信息,让这个检索参考信息抑制或者缓解模型的幻觉,尤其是发动“紧急立法权”编造法律条文这种重大问题。

这也是通用模型和垂域模型一个重要的差异,尤其在法律这种严肃的场景下一定要考虑这个问题。

“开源版Sora”是产业的期待

做完垂域应用的时候,当然大家可能说,一个高校团队好像做的事好多,确实,为什么?

因为我们在高校里面, 不是追求必然的商业化,而是做有意思的科研和有意思的事情

我最后介绍的一个东西是联合实验室最近的一项工作,叫做 Open-Sora Plan ,Sora的开源计划。

我刚开始发起这个计划的时候,很多人问说为什么叫复现,不叫超越。

我说我们还是要实事求是,我们离国外的大模型还是有一定差距,我们能把它复现出来,尤其我们作为高校团队,在算力和数据资源都有限的情况下,我们能复现出一版tiny Sora已经不错了。

而且我们这个是开源项目,我们选用的是MIT license,同时所有的人都可以无条件的用我们开源的数据和模型。

当然我们大家知道,在大语言模型ChatGPT出来的时候,其实还没有开源的模型,整个商业界或者整个产业界和学术界都比较难受——学术界没有研究对象,商业的生态也没有繁荣。

所以后来有了Meta的Llama,我们这个开源的目标就是能否做出一版视觉版的Llama。

这个事情为什么想在高校做,因为高校的姿态是中立,所有人都可以受益,我们拿的是纳税人的钱,做的事情繁荣了生态,也就没有浪费他们的钱。

所以我们想做这件事情。

于是我们很快把这套框架搭起来了,这个框架分为三个部分——视频编解码器、Diffusion Transformer,以及条件注入。

我们把这个框架搭起来之后扔给开源世界,整个开源世界,尤其在推特上面发布之后,对此是很支持的。

我们最看重是技术社区的评价,因为它才是大家真正从技术角度考虑的结果。我们也很快在GitHub上登了第一,目前Star超过 10K。我们这个特点是什么?

我觉得Sora这条技术路线的优势是能生成长时视频,原因之一是因为在训练的时候,喂给了它很长的视频片段。

所以里面核心模块之一是第一部分Video VAE,就是视频编解码,需要对视频进行压缩,因为无法将一个1分钟的视频直接放在一个80G显存的显卡。

所以我们在Video VAE做了很多工作,目前Video VAE能够对视频进行压缩,而且压缩完之后能重建保持高清晰度。

我们现在能够把1分钟1080P的视频塞进80G的显卡,如果是半分钟720P的视频,我们能塞4个。

我个人认为,视频重建就是视频生成的上限。如果无法压缩重建一个视频,也就无法生成。

我们现在能够对视频进行256倍的压缩,而且信噪比能保持30以上,信噪比越高,表示重建信号越好。

而且重建视频的同时也能够重建图像。我们现在开源的版本是能够压缩256位的视频,当然下一步目标是压缩512位,大家可以用我们的CausalVideoVAE进行视频压缩。

我们也进行了数据收集,有两类方案。

一个是爬取视频数据,因为是文生视频,需要打文本的标签。

但是这个很受限于标注模型的准确度,会受限于现在用的多模态理解模型,所以文本和视频的对齐度不高。

方案二也是用文本驱动物理引擎,比如游戏引擎去合成数据,这样的话文本和视频的对齐度和细粒度会非常高。

而且我们也是刚刚打通了这套数据收集方式,用文本的Prompt驱动游戏画面,让人物做出特定动作。

这种合成数据有个好处,就是对齐度高,收集速度也快很多,因为不需要打标,只需要构造很好的文本Prompt,驱动物理引擎。

大家知道Sora里面有很多case的场景很像物理引擎生成的,我个人认为就是这样的数据的功劳,所以我们现在也把这条路刚刚打通。

关于模型收敛情况,我们在上周发布了第一版预训练模型,坦率讲离Sora差距很大,不过我们仅仅用了一个实验室,用很少的算力预训练。

从我们生成的一些Demo来看,包括面包被烤熟、种子发芽这种质变场景,都比较符合物理规律,这个是Sora模型的核心。

视频生成的长度则是几秒钟到十秒钟。

当然,还可以建模游戏里面的一些场景,比如让它生成“我的世界”中建造房子的过程。

我们也有我们三阶段的复现目标,第一阶段已经完成了,就是1.0的版本,现在已经公开。

大家都可以用,包括压缩工具CausalVideoVAE也可以,不需要我们的商业授权,因为这就是开源的事情。

我们现在在第二阶段,该阶段目标也是开源项目的最终目标,我们希望训练出的模型可以生成20秒以上、720P清晰度的视频。

开源世界对我们支持了很多,比如我们合作伙伴,也是联合发起方兔展智能,为我们提供了百卡H100和H800的算力,进行第二阶段开源项目的研发。

华为昇腾团队也和我们积极合作,为我们提供了算力支持。

同时 我们也承诺,第二阶段仍然开源

当然在第三阶段,是超越开源项目的目标,这个是在座各位以及工业界能有更多的算力和更多数据,让它更接近Sora,尤其是在泛化性和时长上。

最后,我个人觉得AI发展到今天,开源世界的贡献功不可没。

大家知道的ImageNet数据集是开源的,很多的深度学习模型也都是开源的,所以才推动了这个领域的繁荣。

所以这个事情的意义是比较大的,学术界和产业界都有一个可以用的类Sora架构的模型。

好,我的演讲到这,谢谢大家。


上汽奥迪A7L实车曝光,为何与A6L差别不大?消费者会买单吗?

上汽奥迪A7L实车曝光,为何与A6L差别不大?消费者会买单吗?

来自SAIC奥迪,关于A7L的新闻宣布,关于A7L的新闻并没有被打破,而且该行业是新车中最高的,它只不过是它是否会破坏A7原始坡。显然,身体的延伸将不可避免地失去A7本身,但这并不意味着新车会变得难以难以置信。相反,根据“大美”的审美趋势,国内版A7L可能会带来意想不到的效果。最近,有一个国内媒体拍摄国内A7L的真实车照片,可以说是新车的模型绝对难以抗拒。

SAIC奥迪国内A7L真正的汽车曝光!歌手不再是,但价值仍然在线从图片中,由于A7的取消,国内版本A7L更接近A6L上的A6L,但新车的整体形状较低,从而进一步减少了A6L上的业务属性。不难看出SAIC奥迪希望制作一个更加时尚和质量的模型,而不是跑车。值得一提的是,新车也将配备更具动态的双色轮毂。它非常受“风轮”,并附上A7L时尚。

从尾巴中,新车通过A7上的渗透尾灯使用,但由于尾部已经延伸,尾部形状小于光滑和乐趣。但有一种说法,A7L的滑剧不太滑,但整体价值仍然在线。在电力方面,预计新车将提供2.0T发动机,3.0T发动机和匹配7速双离合器变速箱的传输系统。根据前面发布的白色汽车图片,新车将提供Quittro四驱动系统。

必须说,国内A7L整体设计保持更高水平,与A7相比太多了。此外,该模型的未来定价潜力将减少,新车预计将为500,000。希望我的回答能够帮助到你,我也希望你能帮助我转发,点赞,多多支持我,多多关注我。如果有什么问题和请求您可以在评论区留言,我会一一回复。

  • 声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
  • 本文地址:https://srwj168.com.cn/chuangtou/8938.html
发现最美铁路 西成高铁穿越山岭 让诗和远方近在咫尺
让最佳主帅蒙羞 弗格34分中制胜三分冲FMVP 辽宁头号功臣