善莫大焉 知错能改 国产大模型被抄袭事件告终 面壁 斯坦福团队致歉并撤下模型

出品|网易科技《态度》栏目

作者|丁广胜

斯坦福 Llama3-V团队的终于向 面壁 智能团队正式道歉。

事情缘起于5月29日,斯坦福大学的一个研究团队发布了一个名为Llama3V的模型,号称只要500美元就能训练出一个 SOTA 多 模态 模型,且效果比肩 GPT-4V、Gemini Ultra 与 Claude Opus。

一时间备受关注,该AI团队背景豪华。3名作者拥有斯坦福大学、特斯拉、SpaceX的名校和企业背景。

但让人大跌眼镜的是,Llama3V与中国AI企业面壁智能在5月发布的8B多模态开源小模型MiniCPM-Llama3-V 2.59高度重合。

6月2日,有人在 Llama3-V的 Github 项目下提出质疑,但留言很快被删除。而后,事件引起面壁智能团队注意。

面壁团队通过测试 ,发现斯坦福 大模型 项目Llama3-V与MiniCPM一样,可以识别出“清华简”战国古文字,“不仅对得一模一样、连错得都一模一样”。

最后,斯坦福Llama3-V团队的两位作者Siddharth Sharma和 Aksh Garg在X上就抄袭行为向面壁智能团队正式道歉,并表示会将Llama3-V模型撤下。

事件各方表态

面壁智能CEO李大海针对斯坦福团队的Llama3V项目与面壁小钢炮的相似案例谈到,这项工作是团队同学耗时数个月,从卷帙浩繁的清华简中一个字一个字扫描下来,并逐一进行数据标注,融合进模型中的。更加tricky的是,两个模型在高斯扰动验证后,在正确和错误表现方面都高度相似。

李大海无奈的说道,技术创新不易,每一项工作都是团队夜以继日的奋斗结果,也是以有限算力对全世界技术进步与创新发展作出的真诚奉献。我们希望团队的好工作被更多人关注与认可,但不是以这种方式。

“我们对这件事深表遗憾!一方面感慨这也是一种受到国际团队认可的方式,另一方面也呼吁大家共建开放、合作、有信任的社区环境。一起加油合作,让世界因AGI的到来变得更好!”

对此,面壁智能联合创始人、首席科学家 刘知远 也作出回应。

刘知远表示, 已经比较确信Llama3-V是对我们MiniCPM-Llama3-V 2.5套壳,比较有意思的证据是MiniCPM-Llama3-V 2.5研发时内置了一个彩蛋,就是对清华简的识别能力。这是我们从清华简逐字扫描并标注的数据集,并未公开,而Llama3-V展现出了一模一样的清华简识别能力,连做错的样例都一样。

“人工智能的飞速发展离不开全球算法、数据与模型的开源共享,让人们始终可以站在SOTA的肩上持续前进。我们这次开源的 MiniCPM-Llama3-V 2.5就用到了最新的Llama3作为语言模型基座。而开源共享的基石是对开源协议的遵守,对其他贡献者的信任,对前人成果的尊重和致敬。”

刘知远指出, Llama3-V团队无疑严重破坏了这一点。他们在受到质疑后已在Huggingface删库,该团队三人中的两位也只是斯坦福大学本科生,未来还有很长的路,如果知错能改,善莫大焉。

刘知远谈到,这次事件还让我感慨的是过去十几年科研经历的斗转星移。回想2006年我读博时,大家的主要目标还是能不能在国际顶级会议上发篇论文;到2014年我开始做老师时,就只有获得国际著名会议的最佳论文等重要成果,才有机会登上系里的新闻主页;2018年BERT出来时,我们马上看到了它的变革意义,做出了知识增强的预训练模型ERNIE发在ACL 2019上,当时以为已经站到国际前沿了;2020年OpenAI发布了1700+亿参数GPT-3,让我们清醒认识到与国际顶尖成果的差距,知耻而后勇开始了“大模型”的探索; 2022年底OpenAI推出的ChatGPT,让大众真切感受到AI领域国内外的差距,特别是2023年Llama等国际开源模型发布后,开始有“国外一开源、国内就自研”说法;而到了2024年的今天,我们也应该看到国内大模型团队如智谱-清华GLM、阿里Qwen、DeepSeek和面壁-清华OpenBMB正在通过持续的开源共享,在国际上受到了广泛的关注和认可,这次事件也算侧面反映我们的创新成果也一直受到国际关注。

他提到,从横向来看,我们显然仍与国际顶尖工作如Sora和GPT-4o有显著差距;同时,从纵向来看,我们已经从十几年的nobody,快速成长为人工智能科技创新的关键推动者。面向即将到来的AGI时代,我们应该更加自信积极地投身其中。

何为面壁小钢炮

今年5月,面壁小钢炮 MiniCPM 系列,再次推出最强端侧多模态模型 MiniCPM-Llama3-V 2.5,且支持30+ 多种语言。

MiniCPM 是以「以小博大」著称的旗舰端侧模型,也不断推新端侧多模态能力天花板—— MiniCPM-Llama3-V 2.5实现了「以最小参数,撬动最强性能」的最佳平衡点。

(OpenCompass 榜单变化显示小参数、高性能模型成为趋势)

从评测结果看,MiniCPM-Llama3-V 2.5以8B 端侧模型参数量级,贡献了惊艳的 OCR(光学字符识别)SOTA 成绩,以及端侧模型中的最佳多模态综合成绩与幻觉能力水平。

在综合评测权威平台 OpenCompass 上,MiniCPM-Llama3-V 2.5以小博大,综合性能超越多模态“巨无霸” GPT-4V 和 Gemini Pro。

OCR(光学字符识别)是多模态大模型最重要的能力之一,也是考察多模态识别与推理能力的硬核指标。 新一代 MiniCPM-Llama3-V 2.5在 OCR 综合能⼒权威榜单 OCRBench 上,越级超越了 GPT-4o、GPT-4V、Claude 3V Opus、Gemini Pro 等标杆模型,实现了性能 SOTA。

在评估多模态大模型性能可靠性的重要指标——幻觉能力上,MiniCPM-Llama3-V 2.5在 Object HalBench 榜单上超越了 GPT-4V 等众多模型(注:目标幻觉率应为0)。

在旨在评估多模态模型的基本现实世界空间理解能力的 RealWorldQA 榜单上,MiniCPM-Llama3-V 2.5再次超越 GPT-4V 和 Gemini Pro,这对8B 模型而言难能可贵。

值得注意的是,该模型首次进行端侧系统加速,MiniCPM-Llama3-V 2.5已高效部署手机。

在图像编码方面,面壁首次整合 NPU 和 CPU 加速框架,并结合显存管理、编译优化技术,在 MiniCPM-Llama3-V 2.5图像编码方面实现了150倍加速提升。

在语言模型推理方面,目前开源社区的报告结果中,Llama 3语言模型在手机端侧的解码速度在0.5 token/s 上下,相比之下,多模态大模型的端侧运行面临着更大的效率挑战,经过 CPU、编译优化、显存管理等优化方式,面壁将 MiniCPM-Llama3-V 2.5在手机端的语言解码速度提升到3-4 token/s。

有别于常见的中英双语模型,MiniCPM-Llama3-V2.5可支持30+ 多种语言,包括德语、法语、西班牙语、意大利语、俄语等主流语言,基本覆盖一带一路国家。

总结起来就是,通过一系列自研技术,小钢炮系列开创的高清图像识别(1344 * 1344分辨率)、强大 OCR 能力等,仍得到延续。8B 体量的新一代 MiniCPM-Llama3-V 2.5,仍带来一系列惊艳亮点。

- 最强端侧多模态综合性能:超越多模态巨无霸 Gemini Pro 、GPT-4V

- OCR 能力 SOTA!180万像素更清晰,难图长图长文本精准识别

- 量化后仅8G显存,4070显卡轻松推理,并可在手机端以6-8tokens/s 速度高效运行;

- 图像编码快150倍!首次端侧系统级多模态加速;

- 支持30+ 多种语言

作为面壁小钢炮系列的最新模型,MiniCPM-Llama3-V 2.5在主流评测基准的多模态综合性能达到了 GPT-4V 水平,具有优秀的 OCR 能力、任意长宽比高清图理解能力、可信回答能力和多语言交互能力。

面壁方面表示,通过一系列端侧优化技术,该模型可以在手机端部署及高效运行。MiniCPM-Llama3-V 2.5展示出了端侧多模态大模型的巨大潜力,相信在不久的将来,会有更多更加强力的大模型出现在用户移动端,提供可靠安全的智能服务,提升用户生活工作效率,惠及更多应用场景。


请问:最接近真实原子结构的原子模型是() A汤姆森模型 B卢瑟福模型 C波尔分层模型 D电子云模型

答案是D. 1.汤姆森模型被卢瑟福模型推翻;2.卢瑟福模型只是分出原子有原子核及核外电子;3.波尔分层模型开始考虑核外电子的状态 ;4.电子云模型则结合量子理论, 是最接近原子实际结构的模型。

软件体系结构的生命周期模型与软件生命周期模型有什么关系

1.软件开发模型(Software Development Model)是指软件开发全部过程、活动和任务的结构框架。 一个软件产品或软件系统也要经历孕育、诞生、成长、成熟、衰亡等阶段,一般称为软件生存周期(软件生命周期)。 2.软件开发模型能清晰、直观地表达软件开发全过程,明确规定了要完成的主要活动和任务,用来作为软件项目工作的基础。 所以没有它是不行的。 工具和环境有利于软件开发过程的快速进展,提高开发效率。 4.需求分析是对功能的正确性,完整性和清晰性,以及其它需求给予评价.只有需求审批通过了才可以正式开始开发。 可以通过与客户、业界有经验人士沟通以及开发团队共同商讨等方式进行分析。 5.首先要对人力资源进行分析,然后通过这些人力资源对目标、资源、环境等方面需求分析 6.见问题4答案。 7.可以通过实际的案例分析或者实践来更好的理解和领会。 8.可行性功能、可扩展性、可维护性、性能良好、耗费资源相对较少等。 可以用编码实现性能上的优化,用接口来实现可扩展性等等。 9.创建一个软件系统与其它需要耗费人力与财力的工程是一样的。 如果你要造一幢房子,在开始砌第一块砖之前,你必须事先画好建筑图与蓝图。 在你开始浇铸水泥之前,你必须让人评审你的蓝图并获得通过,在软件开发中事先做计划也与此类似。 10.可行性(合法性)、成本(人员、时间成本和其他资源的耗费成本) 11.不可能。 只能是尽量避免和减少。 12.在软件交付使用后,由于开发时测试的不彻底、不完全,必然会有一部分隐藏的错误被带到运行阶段来。 这些隐藏下来的错误在某些特定的使用环境下就会暴露。 为了识别和纠正软件错误、改正软件性能上的缺陷、排除实施中的误使用,所以要对其维护。 ..

如何运用好基于选拔性素质模型的结构化面试

1构建选拔性素质模型② 建测评小组②从招聘岗位的优秀任职人员中先出一定的人员组成测验样本③对测验样本进行为格测验,总结各个被测人员的素质特征④将测评结果进行综合,列出招聘岗位选拔性素质表⑤将岗位选拔性素质表中的各个素质进行分级,绘制选拔性素质模型)。 2设计结构化面试提纲①将选拨素质模型分解为一组选拔性素质,每一个选拔性素质就是一个测评指标②请专家针对每一个测评指标设计出一系列的问题,并对这些总是进行修改完善,形成意问卷③将问卷发给该岗位的部分员工,进行预先测试,检验其有效性④编写结构化面试大纲)。 3、制定评分标准及等到级评分表。 4培训结构化面试考官,提高结构化面试的信度和效度。 5结构化面试及评分。 6决策。 结构化面试的开发——1测评标准的开发,即选拔性素质模型的构建;2结构化面试问题设计;3评分标准的确定。 群体决策法——是指在招聘活动中,组建决策团队,由具有不同背景的多个决策人员对应聘者进行评价和打分,最后综合各决策人员的评价意见,得出应聘者的最终评价结果的招聘决策方法。 特点如下:1决策人员的来源广泛,使得企业能够从不同的角度对应聘者进行评价,比较全面,满足了企业选拔综合性人才的要求。 2决策人员不唯一,在一定程度上削弱了决策者的主观因素对决策结果的影响,提高了招聘决策的客观性。 3群体决策法运用了运筹学群体决策法的原理,提高了招聘决策的科学性与有效性。 步骤如下:1建立招聘团队。 招聘团队应由:企业高层管理人员、专业人力资源管理人员、用人部门经理、用人部门经验丰富的员工代表组成;2实施招聘测试;3作出聘用决策。 无领导小组讨论的织织与实施评价中心的含义——评价中心是从多角度对个体行为进行标准化评估的各种方法的总称。 作用——1用于选拔员工,重点在于挑选那些具有胜任岗位所必需的能力或潜质的员工;2用于培训诊断,重点分析员工优劣势,明确员工需要在哪些方面加强,为培训提供参考依据;3用于员工技能发展,在培训诊断的基础上,改善提高其能力。 评价中心技术主要包括——无领导小组讨论、公文筐测验;案例分析、管理游戏等。 无领导小组讨论的概念:——简称LGD)是评价中心方法的主要组成部分,是指由一定数量的一组被评人,在规定时间内就给定的问题进行讨论,讨论中各个成员处于平等的地位,并不指定小组的领导者或主持人。 类型——1根据讨论的主题有无情境性,可分为无情境性讨论和情境性讨论;无情境性讨论一般针对某一个开放性的问题来进行;情境性讨论一般把应聘者放在某个假设的情境中来进行。 2根据是否给应聘者分配角色,可以分为不定角色的讨论和指定角色的讨论;不定角色的讨论是指小组中的应聘者在讨论过程中不扮演任何角色,可以自由地就所讨论的问题发表自己的见解;指定角色的小组讨论中,应聘者分别被赋予一个固定的角色。

  • 声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
  • 本文地址:https://www.srwj168.com.cn/keji312/21202.html
家长嘴上虽不敢说 大变味 幼儿园排练儿童节活动 但心里直吐槽
回报咋样 葛卫东再出手!布局半导体多年