彩云科技DCFormer模型架构发布 效率是Transformer的两倍!

自2017年Transformer架构诞生之后,到现在为止其仍然是人工智能领域研究和应用的基础,鲜少有团队能够在最底层架构上进行一些变革和开发且做出较大的成效。一方面是由于Transformer确实好用;另一方面,在最底层上做突破并非易事。

然而,彩云科技是那个反共识者。2024年5月22日,彩云科技发布了全新通用模型结构DCFormer,其相关论文《Improving Transformers with Dynamically Composable Multi-Head Attention》(https://arxiv.org/abs/2405.08553)将在第41届国际机器学习大会ICML 2024正式发表。

在论文中,彩云科技实验证明了在三千亿级训练数据和70亿级模型参数量下,DCFormer效率是Transformer的两倍。据一位评委透露,今年录用论文的平均分为4.25-6.33,而彩云科技团队的论文获得平均7分的高分。

ICML是国际机器学习领域的顶级会议,能够发表论文的中国初创企业屈指可数。彩云科技证实,其大模型结构DCFormer可以达到1.7~2倍算力的Transformer模型的效果,即算力智能转化率提升了1.7~2倍。在众多NLP下游任务和图像识别任务上的测评也验证了DCFormer的有效性(详见论文表格)。

DCFormer对性能算力比的提升幅度超过自2017年Transformer诞生至今被证明最普适有效并被广泛采用的两项结构改进的提升幅度之和(同时应用这两项改进的Transformer架构也叫Transformer++,如Llama)。而且随着模型规模的增大,DCFormer的提升越来越大(左图下的蓝线和绿线),而Transformer++的提升越来越小(左图下的黑线)。可以说,DCFormer让Transformer的能力又跃上一个新台阶。

彩云科技CEO袁行远说:"如果底层模型没有突破,人工智能的进步终将停滞不前。人人都说神经网络是个黑盒,我们需要勇气和耐心打开这个黑盒,通过分析模型运转原理,我们才能知道智能的本质规律,从而可以改进模型,提高模型的运行效率。"雷峰网雷峰网雷峰网

通用大模型DCFormer将Transformer效率提升了两倍,这意味着什么?袁行远解释说:"如果GPT-4o能够用上DCFormer,推理一次128k上文的成本,就可能从4元变成2元。而且DCFormer模型越大,效果越好,考虑到ChatGPT的巨大参数量,DCFormer可能在千亿、万亿模型上效果更好,因此价格甚至可能下降到1.5元、1元。Meta的100亿美元显卡训练的模型,可能50亿美元就能够用。"解开智能的科学的奥秘,实现通用人工智能——这是彩云科技10年以来孜孜不倦追求的目标。基于此,彩云科技在Github上开源了DCFormer的模型代码、权重和训练数据集(https://github.com/Caiyun-AI/DCFormer),将该模型开源给全世界。

未来彩云科技会将全新大模型DCFormer应用于旗下三款杀手级app,并将进一步发展彩云小梦,加速提升AI续写能力。袁行远说,"AI交互是前所未有的交互形式,也因此让我们有机会在AI的帮助下,建立每个人自己的'次元宇宙',而DCFormer大模型将加快这一进程。我们希望能够通过彩云小梦,帮助更多人实现现实生活中无法实现的梦想。"


璇玑架构引关注,比亚迪重磅发布的整车智能战略有何玄机?

随着科技进步与消费水平提升,用户对于汽车智能化提出了更多需求。但长期以来,行业对于新能源汽车智能化的研发仅仅聚焦在智舱智驾上,忽视了从整车维度全盘考虑,导致不能真正满足用户的多样化需求,实际上是对汽车智能化的窄化。

于是,在1月16日举办的2024比亚迪梦想日上,比亚迪重磅发布了新能源汽车智能化发展全新战略——整车智能以及丰富的技术成果,向外界展现了其智能化实力及未来战略布局。与此同时,比亚迪还宣布建设全球首批全地形专业赛车场,打造新能源时代的中国汽车文化。

众所周知,比亚迪最早提出的“新能源汽车的上半场是电动化,下半场是智能化”,如今已成为行业共识,引领新能源汽车发展。无论是在电动化还是智能化阶段,比亚迪均早已布局,并持续领先。在电动化上,比亚迪相继推出F3e、F3DM、800V高电压平台、刀片电池等技术和产品,三电系统持续领先;在智能化上,比亚迪打造了行业唯一100%兼容手机生态的DiLink智能网联系统和以安全为核心的DiPilot智能驾驶辅助系统,2023年推出的“天神之眼”高阶智能驾驶辅助系统,实力稳居行业第一梯队。

比亚迪认为,目前行业把汽车智能化和智舱智驾画上等号,导致概念被窄化。实际上,智能化绝不止智舱智驾,整车智能打破固有思维,重新定义智能汽车。

所谓整车智能,作为比亚迪首次提出的汽车智能化发展战略,覆盖智能汽车全技术领域。要实现整车智能,关键是在企业战略层面,做到全栈自研、垂直整合,才能实现各系统之间的顺畅交流。比亚迪自主掌握新能源汽车全产业链核心技术,从硬件到软件实现了全栈自研,并构建了完整的研发体系,让整车智能成为可能。基于强大的研发能力,整车智能通过智能化架构,打破电动化、智能化多系统之间的壁垒,实现数据跨系统调用,执行多系统联动,让车辆的感知更全面、决策更科学、执行更精准,真正打通车辆运行各个环节。整车智能,只有比亚迪能做得到。

整车智能的实现,得益于比亚迪全栈自研、垂直整合带来的战略优势,是比亚迪长期主义、重视技术的战略成果。此前发布的易四方、云辇、DMO等重磅技术,都是在整车智能技术路线指引下的产物。

比亚迪从整车维度出发,自主研发了行业首个智电融合的智能化架构璇玑。璇玑架构形成了以大脑为核心,联动神经网络的完全体,实现了电动化与智能化的高效融合,让驾乘体验更安全、更高效、更个性;电动化包含三电系统、底盘系统及车身系统等系统级技术;智能化包含智能座舱、智能驾驶等智能化功能。同时比亚迪打造了行业首个双循环多模态AI——璇玑AI大模型,让整车智能可持续进化。

整车智能打破不同系统间的隔阂,做到所有感知汇总到一个大脑进行思考决策,迅速调节车辆身体状态,大幅提升驾乘安全性和舒适性。与此同时,整车智能能够让车更懂人,实现范围更广的个性化设置,做到千人千面。

璇玑架构是比亚迪智能化架构,由一脑、两端、三网、四链组成:

一脑,即中央大脑,它是智能汽车的最强大脑,参与和主导一切感知、决策、执行。依托于强大的产业链垂直整合能力,比亚迪打造了全球首款由整车厂自设计开发、自生产的中央大脑,目前已经实现了全面搭载。中央大脑不但能实现对多种SoC芯片的兼容,还能通过芯片解耦带来算力的扩充。主控芯片AI模块为通用的GPU架构,搭配模块化设计,能够实现存算的任意分配,按照功能需求调整算力方式,做到无缝切换和适配未来的算法模型,让汽车的功能可以实现快速迭代和进化。

两端,即车端AI和云端AI,两端实时协同部署,让智电融合具备超强迭代和成长速度。两端是璇玑AI大模型的车端AI和云端AI。车端AI模型基于车主驾驶个性化的特点,实现单车数据小闭环,带来车内的最优配置,满足千人千面的需求,真正做到人车合一。云端AI模型通过海量数据的训练和推理,实现对所有车主的赋能,迭代新功能,优化老功能。车云协同双循环,爱车越用越聪明。同时,为了更好地加强璇玑AI大模型的训练,比亚迪自建AI超算中心,除自用外,还将赋能行业发展。

三网,即车联网、5G网、卫星网,三网融合,可以极大拓展智能汽车的链接半径。比亚迪基于整车智能的颠覆理念,以及硬软件全栈自研的实力,打通了车联网、5G网、卫星网,实现三网融合、互联互通。让车联网的高、低速通信,与5G网高带宽低延时的优势,以及卫星网无盲区的特性相结合,车辆信号无死角全面覆盖。在汽车历史上,首次突破了智能汽车现有连接方式及触达范围,让未来出行拥有了更多想象空间。

四链,即传感链、控制链、数据链、机械链,四链深度贯通,实现灵活感知、精准控制、协同执行,让整车可以做到颠覆性的功能突破和体验提升。四链打通,意味着比亚迪可以让汽车智能化创造更多可能。值得一提的是,这四大核心链路都是由比亚迪全栈自研,可谓底气十足。

璇玑架构形成了以大脑为核心,联动神经网络的完全体。让电动化与智能化的融合成为可能。

接下来就让我们看看比亚迪的整车智能都做到了哪一步吧。在智能驾驶领域,比亚迪共有4000多名工程师,实力稳居第一梯队,取得了一系列亮眼成绩:L2级智能驾驶搭载量位居中国第一,天神之眼高阶智能驾驶辅助系统量产交付,同时还成为全国首个获得L3级测试牌照的汽车企业。值得一提的是,此次发布的全场景导航辅助驾驶,以安全为前提,做到起步、制动更平稳,大曲率弯道更丝滑。同时,还发布了近距离代客泊车,实现车辆在复杂场景下的安全泊入,有图无图,均可代客。未来,比亚迪将不断降低智驾的体验门槛,以更领先的技术、更具竞争力的成本,加速智驾普及。

首先,比亚迪正式发布了全新的DiLink座舱平台,全新的DiLink座舱平台携手行业主流跑分软件,以跑分命名,DiLink 100平台跑分在50至100万分之间,DiLink 150平台跑分在100至150万分之间,这两大平台已经在比亚迪各系列车型中搭载,跑分超过250万的DiLink 300平台也即将面市。

正式发布全新的DiPilot智驾平台,基于芯片性能的统一,比亚迪将以算力命名各平台智能驾驶辅助系统,形成有明确用户认知的命名体系,赋能集团旗下各子品牌。针对L2级智能驾驶辅助系统,比亚迪将统一命名为DiPilot 10、30平台。针对天神之眼高阶智能驾驶辅助系统,统一命名为DiPilot 100、300、600,这些已经在各车型搭载。

未来,比亚迪的中央大脑,将全球首搭2000 TOPS的舱驾一体芯片,真正实现舱驾算力共享,支持超大3D游戏的车端运行,以及更为复杂的智驾场景和智驾功能的车端运算,实现更多颠覆性的应用,率先定义下一个智能化时代,带来真正的单芯片整车智能方案。未来,比亚迪还将推出DiPilot 1000、2000,用更高性能的智能驾驶为用户带来极致体验。

天神之眼高阶智能驾驶辅助系统不仅仅是单一的驾驶智能化,它以中央计算平台为核心,协同周边分布式域控,具备整车各类传感器的高度融合感知能力,首创提出控制算法的分布式布局,极大的提高了整车智驾感知-决策-控制的响应速度和驾驶体验,让整车智驾真正做到在危险发生前尽早识别、尽快纠正、精准控制。技术研发方面,永恒不变的极致追求--安全为核。智能驾驶产品设计聚焦保障安全,降低、甚至杜绝交通事故,减少伤亡,拯救生命,并将这一使命注入到比亚迪智驾产品设计中。

在功能覆盖的高速和快速路范围内,高速NOA可实现跟随导航,完成从起点到终点自动辅助驾驶任务的智能驾驶辅助功能。基于先进的技术架构,Transformer+ BEV技术应用,天神之眼获得上帝视角般的感知和预测。硬件、软件、算法均由比亚迪全栈自研,实现毫秒级控制,打造更安全、舒适、高效的高速NOA,全面学习人类驾驶员驾驶策略,无论是纵向还是横向的控制,系统都可以做到丝滑控车。系统利用车辆超远距高精度激光雷达、超高清摄像头、毫米波雷达等智驾传感器,融合自车状态数据来综合决策进行上下匝道、主动超车、车道保持、巡航行驶等驾驶任务。

在功能覆盖的城市道路上,城市领航系统(城市NOA)可以帮助驾驶员按照导航设置的路线行驶,利用车辆超远距高精度激光雷达、超高清摄像头、毫米波雷达等智驾传感器,完成路口通行(直行、左转、右转、掉头等)、红绿灯通行、超车、智能避障、并线、车道保持、巡航驾驶、切换车道和行人&非机动车礼让等驾驶任务。

接下来看看大家非常关注的“易四方”,这是真正实现四个电机独立驱动、整车深度融合感知、车身稳定矢量控制的极致安全技术平台。四个电机构成整车核心动力源,每个电机可以独立控制每个车轮,实现单个车轮的驱动、制动、前进和后退,让车辆具备超强的车身姿态调整能力。同时,采用中央计算平台+分布式控制器相结合的电子电器架构,通过整车级融合感知、决策、控制以及云端数据闭环,为四电机赋予最强大脑,实现车辆极致安全

2023年11月,比亚迪推出易四方概念车,它突破了现有的汽车动力架构,行业首次实现车辆在传统制动、转向系统失效的情况下,仍具备制动和转向能力。具备驱动冗余、电源冗余、制动冗余和转向冗余,四大整车级冗余能力。

易四方通过建立四轮独立驱动车辆运动学及轮胎力学模型,能够精准计算每个轮子与地面的最大摩擦力。通过精准的电机扭矩和转速控制,实现轮胎最佳滑移率控制。其采集精度是传统轮速的300倍,响应速度是传统液压制动的10倍。并基于四台大功率电机、功率型刀片电池、新型碳化硅电控和先进的热管理技术,提供足够的制动力矩。能够在满足应急制动的需求下,将车辆的制动能力发挥到极致。同时,依托于四电机独立驱动架构,能够实现四个车轮的独立制动调节,保证车辆的制动稳定性。在制动过程中实现不失控、不抱死,做到快、稳、准。

易四方制动冗余,能够实现最大制动减速度1g,初速度100km/h刹停距离40米,需要单轮2700Nm最大制动力矩。为了保证驾控安全,易四方概念车在初速度60km/h测试,刹停距离可达20米内。而在转向冗余方面,易四方能实现最小转弯直径12米;18m的蛇形绕桩试验中,最大通过车速60km/h。易四方通过方向盘转角识别驾驶员的转向意图,根据四电机差动扭矩与车辆转向特性控制模型,获得该转向特性下的四轮目标扭矩,实现与普通转向系统相近的转向效果。与一般的转向冗余设计相比,转弯半径小,循迹性好,并且后轮侧倾角可控,转向力矩分配灵活,可满足高速和低速场景不同的稳定性和灵敏性需求。

易四方泊车则是在整车智能基础上将易四方技术与智驾的泊车技术做了完美融合,能够在狭小空间内实现侧方车位绕轮旋转入库、垂直车位旋转入库,空间利用效率最优,完美解决大车在狭窄车位泊车的安全和效率问题。在比亚迪针对用户实际泊车习惯和场景,重新定义代客泊车产品形态,并在行业内首创近距代客泊车解决方案。基于车辆多传感器融合感知技术、定位技术和灵活的规控技术,满足车辆在复杂场景下的安全泊入,将用户从停车、锁车等繁琐流程中彻底解脱出来,实现下车一键锁车泊入。如果过程中需要取物,还可随时打断泊车,取物完成后,闭锁车辆,将继续泊车。同时,基于天神之眼的强大感知和规控能力,比亚迪在一键泊车基础上,将实现远距离代客泊车,支持跨楼层泊车、极限会车、避让行人等基本能力,还具备一键召唤等能力,让用户在各种场景下实现召之即来、挥之即去的泊车体验。并且可实现自动缴费功能,彻底解决停车难、找车难、排队缴费效率低等常见问题,大幅提升用车体验。

在智能进入上,比亚迪持续领先,相继首创了云钥匙、蓝牙钥匙、手机NFC车钥匙、UWB数字钥匙等智能进入技术,并基于对用户需求与安全的思考,在行业首次推出了手掌钥匙,用户能通过手掌信息——掌静脉数据,快速便捷的完成信息录入成为生物钥匙,并且在未携带手机、车钥匙等其他任何形式的实体钥匙时能用手掌信息快速对车辆进行解闭锁。手掌距离感应区8到20厘米,水平360度,垂直15度内都可识别。手掌钥匙利用专业图像采集模块获取静脉纹路的图像,经过算法提取特征并存储,最终实现身份验证和识别。安全性高,生物信息无法盗窃,识别精准度超高。

比亚迪全场景智能语音联接车内生态链路,全新智能语音识别模型,实现更接近人的自然语义算法、更悦耳的语音播报和更丰富的语音内容,带来丰富语音和交互特性。唤醒响应时间仅需300ms级,行业第一;1000+项核心车控功能100%覆盖,覆盖率行业第一。基于全新车控对话引擎、超精度唤醒技术、座舱自适应声学模型,以及自研NLP自然语言理解算法、自研ASR语音识别、自研离线语音引擎等先进技术,比亚迪全场景智能语音愈发聪明,可以做到懂得更多,做得更快,聊得更来。

比亚迪还全球首创全栈自研的游戏车方案,基于用户需求,提供全球首个方向盘解耦方案,联合音响、氛围灯、空调,打造全方位的深度座舱感知体验;首创汽车专属游戏中心,适配多种游戏手柄,实现所有游戏一站式管理,功能设置更便捷,游戏设备更丰富,目前已引入赛车类以及竞技类、休闲娱乐等不同种类的多款游戏。

与此同时,比亚迪还推出行业首创双循环多模态AI——璇玑AI大模型,首次将人工智能应用到车辆全领域。它拥有业界最庞大的数据底座、行业领先的样本量和高算力,覆盖了整车三百多个场景,赋予整车智能持续进化的能力。比亚迪全球首创的易四方泊车是在整车智能的基础上,将易四方技术与智驾的泊车技术完美融合,结合四电机灵活平稳的控制能力,可以自动实现精准旋转入库,不管多么难停的车位,都能一把进。

有意思的是,比亚迪除了全球首发全场景车载卫星通信,还携手大疆共同探索汽车智能化道路,发布了全球首个整车集成的车载无人机,这也是网友关注的焦点。拒接胡搜啊,双方首创了一体化车规级无人机库,比亚迪全栈自研,能够实现收放自如、智能温控、防水防尘,真正适合车载工况。配合业内领先的无人机传感链,实现高清高帧率低延迟图传,为整车拓宽清晰视野

车载无人机可使用手柄和座舱大屏操控,更可自动操作,支持一键起飞及降落。飞行时,更可全程跟踪本车。车载无人机在调试阶段,针对上万种不同光照情况下的车辆进行了跟踪训练,实现了无人机对自车的高精度识别。跟飞过程中,无人机还能够以自车为中心,多角度运镜,自动拍摄并剪辑成片,为用户记录行车里程。首创的车载无人机智能换电,支持飞机低电量返舱,还可自动换上新电池,车辆可以为无人机提供源源不断的动力,续航无焦虑。

用户无需下车操作,即可在车载无人机库提供的起降平台上进行自动起飞和降落,适应各种越野地貌。车载无人机库,为无人机提供了平整的起降平台,能在各个越野地貌地形、不同坡度下,都能自动调出适合起降的机场。通过海量AI训练,使无人机自动识别并跟车伴飞,同时根据车速与障碍物情况,自动调整飞行姿态,最高支持55km/h跟车速度。

当前用户在无人机使用上,存在无法随时随地补能、充电速度慢等痛点,操作总体省心。比亚迪行业首创智能换电功能,在机库内共存储3块5000mAh的电池,并且通过车辆电源为其充电。通过9个机构联合工作,实现精准换电功能。无人机电量耗尽后,只需返回机舱,即可自动换电。而一键大片功能,则让用户在驾驶的过程中,自动出片。车辆驾驶的姿态,可由无人机,自动多角度记录剪辑。为此,比亚迪反复设计、调试出9个运镜剪辑模板,满足不同拍摄需求。

懂论:

正如比亚迪集团董事长兼总裁王传福所言:“整车智能,才是真智能。”比亚迪的整车智能,通过璇玑智能化架构,实现了电动化与智能化的高效融合,让驾乘更安全、更高效、更个性。整车智能打破不同系统间的壁垒,做到实时捕捉内外部环境的变化,在毫秒之间将信息汇总反馈到一个大脑进行思考决策,迅速调节车辆身体状态,大幅提升驾乘安全性和舒适性。与此同时,整车智能让车更懂人,实现更多的个性化设置,做到千人千面。

整车智能通过智电融合,打破各系统间壁垒,充分发挥整车优势,实现1+1>2的效果,为用户带来安全、高效、舒适、可持续进化的智能出行体验。这一战略的提出,是比亚迪在汽车智能化上的全新探索,拓宽了汽车智能化发展道路。同时,整车智能作为汽车智能化发展的全新战略方向,将启发行业对于智能汽车技术及发展方向的深刻思考,为行业智能化发展指出了正确路径,并加速世界汽车工业变革,开启智能汽车新时代。

只需要十分之一数据,就能通关四大视觉任务,居然还开源了

Github链接:

家人们,你们有没有这种苦恼?

搬一次家就换一次家具,那些又贵又重的家具既不好搬运,又不好全部带走。

下一次又重新购置一遍家具,浪费钱不说,关键是来来回回都做一样的事情!家具还没用过几次,利用率不高呀!

这种搬家的苦恼,就好比AI领域,做几个任务就需要开发几个高度定制的模型,不仅所需的数据采集量非常大,每次还都得从头标注。既提不起数据的学习效率,又耗费巨大的数据获取成本。

光是AI前端研究就耗费如此巨大的精力,更别提应用场景中数以万计的长尾任务。

那怎么办?

做一款通用的深度学习模型,才是关键。

1 通用,才是技术根本

目前,通用语言模型(GLM)已经取得了令人瞩目的进展,比如BERT、T5和GPT-3,它们在应对广泛的语言下游任务时已经游刃有余。

相形之下,通用视觉模型(GVM)的研究迟迟未交出一份令人满意的答卷。

以往的大多数 GVM 研究主要利用一种监督信号来源,如 ViT-G/14 采用有标签监督,SEER 采用样本的不同增强之间的对比学习,CLIP采用图片文本对进行监督。如果是在单个监督信号下进行的预训练,这几种范式确实能够生成在固定场景下表现良好的模型。但如果用在场景多元、任务多样的下游场景,这些模型就难以胜任了。

比如现在最火的自动驾驶, 汽车 处于移动状态,既要看到路况,又要看到红绿灯,还要注意行人,甚至在智能座舱兴起后,还要和语言技术、LBS场景服务协同,这么多的感知数据与协同任务,这么多随机的新任务,无论在体量还是维度方面,都对视觉模型的要求极大提高。

这时,打造一款通用视觉模型,降低研发门槛,尤其是学术界的时间成本、资金成本,才能畅享下游的极致场景体验。

去年11月,上海人工智能实验室联合商汤 科技 、香港中文大学、上海交通大学发布通用视觉技术体系“书生”(INTERN),一套持续学习框架,用于系统化解决当下人工智能视觉领域中存在的任务通用、场景泛化和数据效率等一系列瓶颈问题。

前不久,上海人工智能实验室联合商汤 科技 发布通用视觉开源平台OpenGVLab,面向学术界和产业界开放其超高效预训练模型、超大规模公开数据集,以及业内首个针对通用视觉模型的评测基准。

这些开源技术,究竟有何魔力?

2 大力出奇迹,打造通用视觉模型

“书生” (INTERN),就是练就通用视觉能力的底层技术。

从技术实现上讲,“书生”技术体系由由七大模块组成,包括三个基础设施模块和四个训练阶段构成。

书生(INTERN)结构图

首先,通用视觉数据系统。

这是一个超大规模的精标数据集,拥有100亿个样本和各种监督信号,并依照四大视觉任务分别设置了四个数据子集:多模态数据GV-D- 10B分类标注的GV-Dc-36M、检测标注的GV-Dd-3M、分割标注的GV-Ds-143K。

另外,这一数据集还包含11.9万的标签系统,不仅涵盖了自然界的众多领域和目前计算机视觉研究中的几乎所有标签,还扩充了大量细粒度标签,涵盖各类图像中的属性、状态等。

而这,就是书生“大力出奇迹”的一大注脚。

其次,通用视觉模型结构。

它是由一个具有CNN和Transformer的统一搜索空间构建而成。

为何要建立这样的混合结构?要知道,多年来,卷积神经网络(CNN)一直主导着视觉表征学习,并在图像分类、目标检测和语义分割等下游任务中表现出稳定的可迁移性。但最近几年,Vision Transformer (ViT)仅使用普通的Transformer结构就能作为图像编码模型在ImageNet-1k上取得媲美 CNN 的性能,在大规模数据集上 ViT 更是展示出比 CNN 更大的潜力。

尽管ViT在性能上有优点,但纯Transformer网络相比卷积神经网络缺乏某些归纳偏置(inductive biases),因此需要更多的数据和计算资源。此外,自注意的计算成本相对于输入的数量是平方的,限制了对高输入分辨率的应用。因此,将CNN和Transformer和MLP结合起来,平衡效率和有效性两个方面,才是模型通用的关键。

这种兼具更好的泛化能力和更高的模型容量的模型结构名为MetaNet。在MetaNet网络结构族里面进行网络结构搜索,从而得到最优的一个模型训练结构。

统一搜索的MetaNet架构:Conv和Trans分别表示卷积和Transformer。C和S为每一阶输出通道数和步幅。

具体来看,MetaNet不仅基于强化学习 的PPO算法提出了统一搜索架构,并且,为了避免传统的下采样模块会成为模型性能的瓶颈,“书生“结合了包含 local-global-DSM (LG_DSM) 和 global-DSM (G-DSM)的context-aware down-sampling modules (DSM),用来代替原本的下采样模块。

因此,在浅层,模型依然使用卷积来提取特征,但在深层,模型却能将Transformer模块和LG-DSM结合使用,以便于更好地提取全局信息。

同时,书生还基于最大的MetaNet-B15蒸馏出了多达13种不同的模型结构,共24种不同的模型权重,现已全部开源。

这些模型结构基本涵盖了现有市面上大部分的主流backbone,不仅能够很轻易地迁移到所需要的算法框架作为新网络预训练的初始化,而且只需要更短的训练时间就可以达到比原来更好的训练效果。

MetaNet 模型与其他模型结构比较,结果如下:

基于卷积、Transformer和两者混合的结构,分别用C,T和H表示,可以看出,在图像分类性能上,MetaNet系列的MN-B1,MN-B4和MN-B7,和其他的SOTA模型相比,不仅有更高的精度,还有更低的FLOPS和参数量。

除了分类任务,把MetaNet做为检测和分割的backbone,在COCO数据集上使用Mask R-CNN结构训练,结果发现:在模型参数量更小的前提下,MN-B4比Swin-T精度高出2到4个点。另外还在ADE20K数据集上进行了语义分割任务,MN-B4的mIoU指标比Swin-T高出5个点之多。

上述两个实验结果表明,MetaNet系列模型结构,在模型精度与计算量之间,都达到了新的SOTA!

最后,通用视觉评测基准。

视觉评测基准GV-B ,就像是一个「擂台」。

如下表所示,测评基准收集了 26 个下游任务数据集,囊括了 4 种视觉任务类型:分类,检测,分割和深度估计。

在设置上,该基准引入了百分比样本(percentage-shot),只需要选取整个数据集的一部分,例如 10%、20% ,对比缩小下游任务的训练数据量后的模型性能。

与传统的少样本设置相比,这种百分比样本设置可以很好地保留原始数据集的长尾分布等属性,并减轻对样本选择的敏感性。因为有一些数据集样本类别分布不平衡,比如下表中的VOC07+12,百分比数据的划分方式却会继承这种分布情况。

右侧三列avg,min和max,分别表示在10%的数据中,不同类别样本数量的平均值,最小值和最大值。

结合上述数据集和任务类型,论文选取了一些具有代表性的模型来做评测对比。为了比较公平性,该对比使用了这些模型的官方预训练权重。这些模型包括:

有了超大精标数据集、模型结构,以及评测基准后,已经是万事俱备,只欠训练。

书生作为中国古代读书人的经典形象,代表着一个通过不断学习、不断成长进而拥有各方面才能的人格化角色:从基础的知识技能学习开始,到对多种专业知识触类旁通,进而成长为拥有通用知识的通才。借此意象,“书生”(INTERN)系统可通过持续学习,举一反三,逐步实现通用视觉领域的融会贯通,最终实现灵活高效的模型部署。

下面就来看看,这套系统是如何通过训练,一步步从生手变成专家再到多面手,最终在各种任务中大显身手。

第一阶段,训练的是基础能力,被称为“基础模型”(Amateur)。

然而CLIP需要400M的图像-文本对进行前训练,囿于极大的数据量,CLIP很难进一步发展。但“书生”提出了一种新的训练范式,DeCLIP(Data efficient CLIP ),能够同时使用来自图像-文本、图像-图像和文本-文本对的监督信号进行模型预训练,从而更有效地实现通用性。

此外,为了充分利用大规模多模态数据获取基础模型的优势,这一阶段提出了Upstream-Amateur (Up-A)视觉语言预训练框架,同时挖掘模态内和跨模态知识。

这一训练框架分为两个预训练阶段:Upstream-Amateur for Global Representation (Up-A-G)和Upstream-Amateur for Local Representation (Up-A-L)。

其中,Up-A-G(左)使用群体监督功能,从更丰富的监督中学习。Up-A-L(右)采用局部自我监督学习方法,对训练好的视觉-语言模型进行调整,从而提高自身在密集预测CV任务中的表现。

Upstream-Amateur的框架

得益于这些内在的监督,DeCLIP-ResNet50可以在ImageNet上实现60.4%的zero-shot 精度第一。这比CLIP-ResNet50高出0.8%,数据使用量少了81%。当迁移到下游任务时,DeCLIP-ResNet50在11个视觉数据集中有8个优于CLIP。

更关键的是,训练完成的Upstream-Amateur为后续的训练阶段提供了一个很高的起点。

第二阶段,训练的是专业能力,被称为“专家模型”(Expert)。

Up-A阶段得到的基础模型,在一般的视觉识别问题上显示出优异的性能。但要完全掌握检测、分割等更具体的任务,还需要在每个任务中进行更专业的预训练,这就促成了第二个阶段的到来,专家模型。

对于每个专家,“书生”采用了一种简单的多头设计,每个头是一个特定数据集的子网络,从一个公共的、共享的“主干”分支出来。比如Up-E (C)、Up-E (D)和Up-E (S),分别用于图像分类、对象检测和语义分割。

第三阶段,训练的是组合能力,被称为“通才模型”(Generalist)。

上述的多任务是指不同数据集(如ImageNet和CIFAR)的一个视觉问题(如分类),或一个数据集的多个视觉问题(如分类和检测)。但关键是,如何将专家整合到一个统一的模型中,获得一个更加通用的视觉模型。因此,在预训练“专家”阶段之后,又将“通才”作为第三个预训练阶段,以进一步统一特征表示。

“书生”提出了一个新的范式,名为“混合参数共享”,从而开发一个名为“多面手”的通才模型。

具体来说,由于专家捕获的知识是相互关联的,当专家的特征融合为一个共享的表示形式时,再利用基于软共享的跨任务知识转移和基于硬共享的通用表示学习的方法,在不引入任务冲突的情况下在专家之间传递信息(特征转移),从而进一步提高了多任务训练的模型(专家)性能,即“通才”能力。

在结构上,通才模型是所有专家的一个相互关联的版本,因此可以把每个“专家主干”称为“通才分支”。此外,我们还可以根据训练相应专家的任务将通才中的每个分支分为图像、补丁和像素。但无论是软共享还是硬共享,都意味着从专家模型到通才模型的一次跃升。

在经历了前三个训练阶段模块后,终于来到最后的任务迁移阶段 (Adaptation)。

这个阶段属于技术链条的下游,用来解决各式各样不同类型的任务,而这也是最考验“书生”举一反三能力的时刻。它需要在这个阶段把之前学到的通用知识,融会贯通地应用到不同特定任务中。

在此之前,很多迁移学习方法确实取得了很多进步,但问题是,这些方法既没有利用上游预训练中的隐含信息,也没有考虑到下游数据在少镜头场景中的不足。

因此,“书生”提出了一种Multi-stage Fine-tuning (MF)方法,缓解在数据较少的情况下传输的困难,再通过将上游数据编码成生成模型,即VQ-GAN,可以将预训练的模型转移到多个任务和领域,而无需每次都使用上游数据,而这也使得“书生”更具通用性和可扩展性。

多级微调(MF)概述:VQ-GAN模型首先在第一阶段使用上游数据进行训练,然后在第二阶段由它重构下游数据。在此之后,第三阶段只对新增任务的特定参数进行重新表示的图像训练,第四阶段则通过下游数据对整个模型进行微调。

至此,一个具有持续学习能力的通用视觉模型终于出世。

而具体有哪些提升,不如看一下更直观的实验数据对比!

3 一网打尽视觉领域四大任务

视觉领域,任务繁多,主流任务包含分类、目标检测、语义分割、深度估计四大类型。

在这四大任务中,最强大的视觉模型还是去年OpenAI发布的CLIP模型。但相比较而言,“书生”则在准确率和数据使用效率上都有所提升。

1、精度表现

通过对“书生”训练出的模型在GV-B上的评测对比,发现经过多阶段预训练的MetaNet精度表现优异。

在ImageNet等26个最具代表性的下游场景中, “书生”在分类、目标检测、语义分割及深度估计等四大任务上,平均错误率分别降低了40.2%、47.3%、34.8%和9.4%。

书生(INTERN)与CLIP-R50x16在不同样本量上的性能对比,正确率展示

2、数据使用效率

“书生”在数据效率方面的提升尤为瞩目:只需要1/10的下游数据,就能超过CLIP基于完整下游数据训练的准确度。

以CLIP-R50x16和Up-G MN-B15在GV-B的评测对比为例,分别在分类、目标检测、语义分割、深度估计四大类型的26个下游任务数据集上进行了评测,仅使用了10%数据进行训练的Up-G MN-B15模型,在绝大部分数据集上都能比使用了全部训练数据的CLIP-R50有更好的精度表现。这表明,经过多阶段预训练的MetaNet具有极强的泛化能力,能够在仅有少量的训练样本情况下,达到SOTA的精度表现。

在下游视觉场景中,小样本训练带来的是极高的训练速度,以及极低的训练成本。

例如在花卉种类识别任务上,“书生“只需要每一类型的花卉提供两个训练样本,就能实现99.7%的准确率。

这个花卉数据集由102种英国常见的花组成,每个类别有40至258张图片。其中包含有很大的比例、姿势和光线变化。

102个类别的花卉数据集:

~vgg/data/flowers/102/

4 通用视觉平台,已正式开源

如此强大的通用视觉训练模型已经正式开源!

更关键的是,连同上述讲到的标签数据集、网络结构以及评测基准,均在OpenGVLab被统一打包开源。

其中的网络结构除了MetaNet,还包含大家普遍使用的ResNet, MobileNet, ViT, EfficientNet等,以满足不同场景的应用,赋能计算机视觉。

然而,「书生」的布局不止于此。

OpenGVLab将与上海人工智能实验室此前发布的OpenMMLab、OpenDILab一道,共同构筑开源体系OpenXLab,持续推进通用人工智能的技术突破和生态构建。

一位已经使用过此次开源平台的自动驾驶算法研究员表示:“书生系列模型充分覆盖了从移动可部署的小模型,到超大规模自研结构,为行业带来了希望,尤其是它的收敛速度,大幅节省了训练开销,是技术落地的一大助推器。“

不仅是自动驾驶领域,智慧城市、智慧医疗、智慧交通,以及千千万万其他的智能化领域,都将获得通用视觉模型带来的技术红利。

一位腾讯研究员大赞OpenGVLab:“能把这么大的工作开源出来真的是业界良心。简单用了一下,确实比CLIP要更fine-grained(细粒度更高)。”

而来自学界的师生也对此感慨有加:“OpenGVLab集成了大量各种量级的state-of-the-art(先进)模型,使用起来更得心应手,省去了对不同codebase、不同模型繁琐调研的烦恼。”

换句话说,当那些代码和公式脱去了枯燥乏味的外衣,人们才发现了真正的创造力。而这,也是技术创新与平台开源的魅力所在。

往近了说,用这款通用视觉模型打比赛,怕不是奖金多到飞起!在技术生产力的道路上,又诞生了一个致富小妙招!

目前,“书生”技术报告《INTERN: A New Learning Paradigm Towards General Vision》已在arXiv平台发布。

论文/abs/2111.

大模型是什么意思

大模型指的是包含超大规模参数(通常在十亿个以上)的神经网络模型,这些模型在自然语言处理领域得到广泛应用。

一、大模型特点

1、大规模数据集

大模型需要处理大规模的数据集以学习广泛的知识和模式。这有助于模型捕捉更复杂的模式。

2、多任务学习

大模型通常可以同时处理多个任务,这使得模型能够学到更广泛的知识和技能。例如,语言模型可以学习词义、语法、语义等多个方面的知识。

3、模型架构和技术

大模型可以采用不同的模型架构和技术来优化模型的精度和效率。例如,Transformer模型可以用于处理自然语言处理任务,而卷积神经网络可以用于处理图像识别任务。

4、参数规模大

大模型的参数规模非常大,这意味着需要更多的计算资源和存储空间。

二、大模型优点

1、强大的语言理解能力

大模型由于其巨大的规模和复杂的结构,能够更好地理解和处理自然语言,包括语法、语义和语境。

2、高精度的预测和决策

大模型在处理图像、语音和文本等复杂任务时,能够提供更高精度的预测和决策,这在许多领域如自动驾驶、医疗诊断中至关重要。

3、强大的特征学习和泛化能力

大模型通过训练能够学习到数据的深层特征,从而具有更强的泛化能力,能够适应不同任务和场景。

大模型实际应用

1、自然语言处理

大模型在自然语言处理领域的应用包括机器翻译、语言理解、聊天机器人等。这些大模型可以生成高质量、流畅的文本,理解人类语言,并能够进行智能对话。

2、计算机视觉

大模型在计算机视觉领域的应用包括图像分类、目标检测、图像生成等。例如,GAN网络模型可以生成高度逼真的图像。

3、语音识别和语音合成

大模型可以提高语音识别和语音合成的准确度和自然度。

4、推荐系统

大模型在推荐系统领域能够更好地理解用户兴趣,从而更准确地为用户推荐适合的内容和产品。

5、自动驾驶和机器人技术

大模型可以帮助汽车和机器人更好地理解环境和做出智能决策。

6、医疗保健

大模型可以帮助医生在诊断、治疗和研究方面取得更好的效果。

7、金融服务

大模型可以帮助银行和金融机构更好地进行风险评估和欺诈检测。

8、内容生成和设计

大模型可以用来生成与指令相关的文本、图像、代码等内容,也可以对文字、图片进行设计。

9、数据分析

大模型在智能对话方面作用突出,还能够协助进行数据分析。

  • 声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
  • 本文地址:https://www.srwj168.com.cn/keji312/13175.html
宋朝的 是什么地方 平时都用来干嘛的 勾栏瓦舍
青海省第十五届美术作品展览开幕