斯坦福爆火Llama3

作者： 2024年06月03日五金快报浏览

机器之心报道

机器之心编辑部

在 GPT-4o 出世后，Llama3 的风头被狠狠盖过。GPT-4o 在图像识别、语音理解上卓越的性能展现了它强大多模态能力。开源领域的领头羊 Llama3 曾在几乎所有基准测试中都超越了 GPT-3.5，甚至在某些方面超越了 GPT-4。这次就要闷声「吃瘪」了吗？

5 月 29 日，一个来自斯坦福的研究团队发布了一个能够「改变现状」的产品：Llama3-V，号称只要 500 美元（约为人民币 3650 元），就能基于 Llama3 训练出一个超强的多模态模型，效果与 GPT4-V、Gemini Ultra 、 Claude Opus 多模态性能相当，但模型小 100 倍。

用这么少的成本，创造出了如此惊艳的成果，Llama3-V 在推特上迅速爆火，浏览量突破 30 万，转发超过 300 次，还冲上了「 HuggingFace Trending 」Top 5。

但是没发布两天，Llama3-V 就遭遇了重重质疑。有人指出，Llama3-V 项目中有一大部分似乎窃取了清华大学自然语言处理实验室与面壁智能合作开发的多模态模型 MiniCPM-Llama3-V 2.5。

MiniCPM-V 是面向图文理解的端侧多模态大模型系列。MiniCPM-Llama3-V 2.5 是该系列的最新版本。其多模态综合性能超越 GPT-4V-1106、Gemini Pro、Claude 3、Qwen-VL-Max 等商用闭源模型。OCR 能力及指令跟随能力进一步提升，并支持超过 30 种语言的多模态交互。这样的优秀性能，不仅让 MiniCPM-Llama3-V 2.5 成为受大家推崇的模型，或许也成为了 Llama3-V 的「模仿」对象。

项目地址：https://github.com/OpenBMB/MiniCPM-V/blob/main/README_zh.md

可疑的作者答复

HuggingFace 用户 JosephusCheung 在项目的评论区中提出问题，Llama3-V 是否在未提及的情况下使用 openbmb/MiniCPM-Llama3-V-2.5 进行了训练。而作者回复表明，Llama3-V 使用了 MiniCPM-Llama3-V-2.5 的预训练 tokenizer，并且是在它发布前就开始了这项工作。这样的解释明显出现了时间错位，加重了大家的怀疑。

细扒其中猫腻

此外，还有一位名为 Magic Yang 的网友也产生了质疑，他对于这两个模型的相似性也有着更深的洞察。

他首先在 Llama3-V 的 GitHub 项目 Issue 中发布了他的疑问，没想到 Llama3-V 的作者们很快就删除了质疑帖。

在这个 Issue 中，他首先提出，Llama3-V 与 MiniCPM- Llama3-V 2.5 具有相同的模型结构和配置文件，只是变量名不同。Llama3-V 的代码几乎完全照抄 MiniCPM-Llama3-V 2.5，只是进行了一些格式上的修改，包括但不限于分割图像、tokenizer、重采样器和数据加载部分。

Llama3-V 的作者立马回复，称 Llama3-V 在架构上参考的是 LLaVA-UHD，并列出了在 ViT 和 LLM 选择上与 Mini CPM-Llama3-V 2.5 的差异。

但 Magic Yang 发现，相比 LLaVA-UHD 所用的方法，Llama3-V 与 MiniCPM-Llama3-V 2.5 可谓是一模一样。特别是 Llama3-V 使用了与 MiniCPM-Llama3-V 2.5 相同的，连 MiniCPM-Llama3-V 2.5 新定义的特殊符号都「抄」上了。

于是，他向作者提问，为什么 Llama3-V 在 MiniCPM-Llama3-V2.5 项目发布之前，就未卜先知似的拿到了其 tokenizer？这似乎算是追问了作者对 JosephusCheung 的回答。

Llama3-V 作者回答称，他参考了 MiniCPM-V-2 的 tokenizer（https://huggingface.co/openbmb/MinicPM-V-2/blob/main/tokenizer.jsonBefore），MiniCPM-Llama3-V2.5 采用了新的 tokenizer 和原来版本中的特殊符号，因此 Llama3-V 的代码中保留了这个符号，但 Llama3-V 与 MiniCPM-Llama3-V2.5 是完全不同。

但事实是，MiniCPM-V-2 的 tokenizer 与 MinicPM-Llama3-V2.5 完全不同，在 Hugging Face 里是两个文件，文件大小也完全不同，也不包含 Llama3-V 所用到的与 Llama 3 有关的 tokenizer。

Magic Yang 还发现了 Llama3-V 的作者在 Hugging Face 上传项目时，直接导入了 MiniCPM-Llama3-V 2.5 的代码，后来才把一些文件里的名称替换为 Llama3-V。

于是，Llama3-V 的作者的作者再次回复，称 Magic Yang 的指控大错特错。首先，想要运行 HuggingFace Transformer，需要给模型写配置文件，但是他们恰好发现 MiniCPM 的配置能用，因此，他们使用了与 MiniCPM 相同的配置。其二，Llama3-V 的模型架构 SigLIP 的灵感来源于 Idéfics ，作者之前也提到，Llama3-V 模型架构参考的 LLaVA-UHD 同样如此，并且在视觉代码方面，他们借鉴了 Idéfics ，并非照搬 MiniCPM。

更令人惊讶的是， Magic Yang 发现 Llama3-V 项目的作者似乎并不理解他们自己的代码，或许也不明白搬来的 MiniCPM-Llama3-V 2.5 架构中的细节。

感知器重采样器（Perceiver Resampler）使用的是单层交叉注意力，而非双层自注意力。然而，下图中的 Llama3-V 技术博客中的描述明显存在误解。

Llama3-V 的技术博客

Llama3-V 的代码

此外，SigLIP 的 Sigmoid 激活功能并不用于训练多模态大语言模型，而是仅在 SigLIP 的预训练过程中使用。看来，作者对于自己的代码理解还是有很大偏差的。

Llama3-V 的技术博客

Llama3-V 的代码

对于清华 NLP 实验室和面壁智能团队特别采集和标注，从未对外公开的专有数据，Llama3-V 的表现也非常出色。「清华简」是一种非常特殊且罕见的中国战国时期的古文字，而美国模型 Llama3-V 不仅认识中国古文字，在认错字的时候，也和 MiniCPM-Llama3-V 2.5 一模一样。

有网友用 1000 张竹简图像对同类模型进行了测试，正常情况下，每两个模型之间的重叠应该为 0，而 Llama3-V 和 MiniCPM-Llama3-V 2.5 之间的重叠高达 87%。识别错误的结果 Llama3-V 和 MiniCPM-Llama3-V 2.5 也有高达 182 个重合。

删库？也不管用

在重重质疑之后，Llama3-V 的作者行动了。此前宣传 Llama3-V 的推特内容流已不可见。

他还隐藏了 HuggingFace 的仓库。Magic Yang 再次发难，问 Llama3-V 的作者为何在 HuggingFace 上将模型设为私密？

作者称，设为私密是为了修复 Llama3-V 的推理功能，MiniCPM 的配置与 Llama3-V 不兼容，当时 HuggingFace Transformers 无法正确地加载模型，为了避免下载模型的用户运行失败，他将进行一些修复。

同样地，Llama3-V 的 GitHub 项目主页也显示为「404」。

GitHub 地址：https://github.com/mustafaaljadery/llama3v

据网友反馈，当运行 Llama3-V 时，作者提供的代码无法与 HuggingFace 上的 checkpoint 兼容。然而，当把 Llama3-V 模型权重中的变量名更改为 MiniCPM-Llama3-V 2.5 后，就能成功运行。

如果在 MiniCPM-Llama3-V 2.5 的 checkpoint 上添加一个简单的高斯噪声，就会得到一个在各个测试集上的表现都与 Llama3-V 极为相似的模型。

有网友上传了 Llama3-V 删库前的检查点，大家可以自行测试验证。

检查点链接：https://twitter.com/zhanga6/status/1797293207338041719

有人认为，这是关乎道德、诚信与声誉的问题。如果抄袭得到验证，斯坦福大学应该介入调查。

图源：X@AvikonHadoop

在国内外舆情发酵了两天后，作者之一站出来道歉，称「抄袭」源于对队友 Mustafa 的盲信。

你怎么看呢？

西班牙语语法

西班牙语动词变位：1 ）gestos 不加 los 因为 Mis compañeros 已经强调是第三人称。 a ellos, 是指向他们，前动词（gestos）行动指向/完成动词指向。比如对方对我们一群人说： Veni aca（来这里）, 那么我们不知道这个动词指向谁，所以就要问回对方，其中一种问法就是： a mi me estas diciendo? 这个 “a” 就是完成对方动词指向，指向是“什么”所以后面加了个问号，那么意思就是：你在说我？“les preocupa” 是代表第三人称，已就说明逗号以后的这句是指 Mis compañeros （他们）并且 “a ellos les preocupa” 这边的 ellos 就是第三人称，所以必须用第三人称代词 los 如果用 me, 就是我担心，而不是他们担心。 2）“Mi profesora de lengua no quiere que estudie más” 这里的 estudie 是现在虚拟式。注意滴一，二，三人称命令式的 estudiar 也是 estudie。那就要看句子了. 比如 Estudie el libro.(读书！《---命令语气）3） el, la .阴/阳性名词的冠词，大部分的名词前面需要冠词，冠词必须与名词的单复数以及阴阳性一致。 Agua, 水是阴性，所以用 el,不能用 la。怎么分别阴阳？？以 –o, or, -aje, -an -ema, -oma, -uma 结束的名词为阴，以 -a -ción, -sión, -d, -z, -zón–umbre, -ie为阳，不过有时候例外，比如 la foto, el agua 是其中一个， la mano, el rosa, 还有中立的，比如 lo mejor, lo bueno, lo malo. 等等。。。。这个就在我之外了，为什么？我真的不知道。。。。 4）用了 la , 代表出租某个/指定办公室，不用 la , 代表出租办公室，不指定。 5）lea , 原是 leer （读）动词， lea 为现在虚拟式，和第二道问题一样的。整句意思：我不想让他读。（第二道问题的读和这个读不一样哦）6）enseñes 是现在虚拟式， enseñas是现在进行式。这句意思是：不要给任何人看。我解释一下，如果你用了 enseñas 说明你已经给人看了因为这是现在进行式，再加上前面否认（No se lo）不是冲突了。如果是现在虚拟式 enseñes 加上前面否认（No se lo）这句就成了，但是如果用中文理解就没有这回事，所以这是西文语法。。很麻烦吧，我头疼了。。。 7）唔。。。。 tuve 是过去直陈式 tenia 是过去未完成直陈式，这句是问号，说明他有/知道过，却忘记了，不完整，所以要用未完成直陈式，如这句不是问句：las costumbres que yo tuve en China se llama niub. 就说明是过去直陈式。 8）a是完成动词指向用的，在第一道问题已有解释了。 ”sangre“现在虚拟式 ”sangra“现在直陈式，这句是问话。问的是：什么时候一个人的嘴会流血？如果用 sangra 那么就变成：什么时候一个人的嘴巴流血了？翻译出来觉得有点怪怪的吧？是因为语法用错了。 9）过了很长时间？我不太明白为什么老是会这么教。 ibamos 和 fuimos都是 ir 变来的， ibamos 是过去未完成直陈式， fuimos是过去直陈式，这概念和（tener)// tenia 未完成直陈式，tuve 是过去直陈式是一样的。看看上面，不明白的话看 ---》比如： Un día ibamos hacia la clase, día fuimos hacia la clase, y.... Un día tenia clase, pero.... Un día tuve clase, y....中文：有天我们去上课<---(未完成直陈式), 有天我们去上课了<---(过去直陈式)。有天我们有课<---(未完成直陈式)，有天我们有课了<---(过去直陈式).西语不简单啊。。。。如果上面大家发现有错地方请谅解，多多指教啊。祝你好运吧<---（现在虚拟式哦）

风华绝代被称为中国最帅男人的费翔，年轻时候的他到底有多帅？

年轻时的费翔是真的帅，因为那个年代没有整容这一说，费翔这种纯天然的美男子让很多女性都为之倾倒。费翔可以说是80年代一代人的青春，一代人的梦中情人。费翔曾经也是歌坛中的美男子，他五官清秀，是一位美籍华人，其实作为一个中美的混血儿，颜值非常高，他那独具异域风情的相貌曾迷倒万千少女，我们知道，那个年代是没有整容的，费翔的脸是“原装”的，他的那种帅气是高冷的气质中带着一种温柔，即使放在现在来看，当红小鲜肉都没有他年轻的时候帅。那个年代没有美颜，没有整容，从照片可以看出，费翔年轻的时候皮肤很好的，嘴唇也很性感，深邃的眼眸，简直是天之骄子。费翔原本毕业于美国斯坦福大学，原本应该是斯坦福大学的医学专业，谁知最后走了歌手这条路，《冬天里的一把火》让费翔火了一把，也让更多的人认识到这个集才华与美貌于一身的美男子，唱歌好听，自出道以来发展一直顺风顺水，长相英俊，简直是人生赢家。在那个年代，娱乐圈还没有这么看重颜值。就是这样一个美男子，按道理应该是有一位佳人相配。然而，费翔的恋情也是让人捉摸不透。曾经，他和知名主持人杨澜的恋情被大众看好，奈何两人一直是地下情，最后也不了了之。后来，又和朱桦传出恋情，依旧是不了了之。直到现在五十多岁的他依旧是孑然一身。但岁月还是没有在他的脸上留下任何痕迹，依旧帅气不减当年。

十大预言是啥？？？

预言一宇宙寿命还有240亿年美国斯坦福大学天体物理学家安德雷·林德预言，宇宙目前只度过了其生命的1／3，还是个“壮小伙”，刚过青春期，还能存在240亿年左右。预言二银河于136亿年前诞生德国天文学家说，银河系中一些最古老的星体已有134亿多年的高龄。据此推测，银河大约在136亿年前就诞生了。预言三 21世纪末人类只能住南极英国政府首席科学顾问戴维·金认为，如果人类不控制石油等燃料的使用，到2100年，亚洲、欧洲、南美、非洲、澳洲等大陆的温度将急剧上升，人类只能栖息在南极。预言四 25年后驾“空中飞车”兜风美国国家航空航天局和波音等公司的科学家已经在研制可以飞行的汽车。科学家预言，这种“空中飞车”要投入到千家万户使用，需要25年的时间。预言五女人百年后比男人跑得快英国研究者宣布，150年后100米赛跑女子组的冠军成绩为8．079秒，而男子组的冠军为8．098秒，世界上将首次出现女人跑得比男人快的盛况。这样在2156年奥运会上，100米赛跑女子的速度将首次超过男子的速度。预言六东京、伦敦、纽约将消失在去年全球气候变化学术会议上，有科学家指出，气候变暖将使海水水位上升，伦敦、纽约、东京等知名城市都将被淹没，从地球上消失。预言七 20年内人类收到外星人信息美国天文学家绍斯塔克预言，在10到20年的时间里，人类就可能捕捉到银河系中的智慧生命发出的无线电信号，接收到外星人信息。预言八 10年内“基因武器”研制成功英国医学协会去年发表报告说，基因研究在10年之内能够获得的成果是新型而骇人的生物武器，足以用于种族清洗。预言九 3年后20万美元游太空英国著名冒险家、维珍航空老板布兰森宣布，2007年，他将推出全球首创的太空旅程，预计5年便可将来3000多名游客送上太空。届时漫游太空将不再是宇航员和超级富豪的专利，任何人只需付出约20万美元便可飞出我们生活的地球。预言十 20年后人类可获长生不老术有科学家认为，生物免疫药物的广泛使用将使人的寿命延长10年至15年，而美国著名未来学家库兹威作出了更加惊人的预言：抗衰老研究在10年内可望从老鼠身上获得重大成果，人类可望在20年内实现自古以来就孜孜以求的长生不老的梦想。