AI 训练也许越来越笨 Nature最新封面 AI

用微信扫码二维码

分享至好友和朋友圈

撰文｜马雪薇

编审｜佩奇

前言

当前，在愈发火热的大模型行业，Scaling Law 被证明依然奏效。

问题是， 一旦由人类生成的高质量数据（如书籍、文章、照片、视频等）用尽，大模型训练又该如何进行 ？

目前， 一个被寄予厚望的方法是“用大模型自己生成的数据来训练自己” 。事实上，如果后代模型的训练数据也从网络中获取，就会不可避免地使用前代模型生成的数据

然而，来自牛津大学和剑桥大学的研究团队及其合作者，却给这一设想“泼了一盆冷水”。

他们给出了这样一个结论： 模型在训练中使用自身生成的内容，会出现不可逆转的缺陷，逐渐忘记真实数据分布，从而导致模型性能下降。

即“模型崩溃”（Model Collapse） 。

相关研究论文以“AI models collapse when trained on recursively generated>

但他们也表示，用一个旧模型生成的数据去训练一个新模型，并非不可行， 但必须对数据进行严格的过滤。

在一篇同期发表的新闻与观点文章中，来自杜克大学的 Emily Wenger 认为，“论文作者没有考虑模型在由其他模型生成的数据上训练时会发生什么，他们专注于模型在自身输出上训练的结果。一个模型在训练其他模型的输出时是否会崩溃还有待观察。因此， 下一个挑战将是要搞清楚模型崩溃发生的机制。 ”

什么是模型崩溃？

本质上，当大模型生成的数据最终污染了后续模型的训练集时，就会发生“模型崩溃”。

像 GMM 和 VAE 这样的小型模型通常是从头开始训练的，而LLM 重新训练的成本非常高，因此通常使用如 BERT4、RoBERTa5 或 GPT-2 这样在大型文本语料库上预训练的模型进行初始化，然后针对各种下游任务进行微调。

那么当语言模型依次使用其他模型生成的数据进行微调时会发生什么？

为此，研究团队使用 OPT-125m 语言模型进行实验，并使用 wikitext2 数据集进行微调。 实验结果表明，无论是否保留原始数据，模型崩溃现象都发生了。 随着迭代次数的增加，模型生成的样本中低困惑度样本的数量开始积累，表明模型开始忘记真实数据分布中的尾部事件。并且，与原始模型相比，后续迭代模型的性能有所下降，表现为困惑度增加。此外，模型生成的数据中包含大量重复的短语。

图 | 受模型崩溃影响的 OPT-125m 模型的文本输出示例-模型在几代之间退化。

想象一下一个生成 AI 模型负责生成狗的图像。AI 模型会倾向于重现训练数据中最常见的狗的品种，因此可能会过多地呈现金毛，而非法斗。如果随后的模型在一个 AI 生成的数据集中进行训练，而这个数据集中过多地呈现了金毛，这个问题就会加剧。经过足够多轮次的过多呈现金毛后，模型将忘记诸如法斗这样的冷门品种的存在，只生成金毛的图像。最终，模型将崩溃，无法生成有意义的内容。

图 | 模型会逐渐忽视训练数据中不常见的元素。

总而言之， 模型会逐渐忘记真实语言中出现的低概率事件 ，例如罕见词汇或短语。这会导致模型生成的内容缺乏多样性，并无法正确地模拟真实世界的复杂性。并且， 模型会逐渐生成与真实世界不符的内容 ，例如错误的日期、地点或事件。这会导致模型生成的内容失去可信度，并无法用于可靠的信息检索或知识问答等任务。此外， 模型会逐渐学习到训练数据中的偏见和歧视 ，并将其反映在生成的内容中。

为何会发生？

模型崩溃是一个退化过程，模型生成的内容会污染下一代的训练数据，导致模型逐渐失去对真实数据分布的记忆。模型崩溃分为早期和晚期两种情况： 在早期阶段，模型开始失去对低概率事件的信息；到了晚期阶段，模型收敛到一个与原始分布差异很大的分布，通常方差显著减小。

图 | 对学习过程中反馈机制的高层次描述。

随着代数的增加，模型倾向于生成由最初模型更可能生成的样本。同时，后代模型的样本分布尾部变得更长。后代模型开始生成原始模型绝不会生成的样本，即它们开始基于先前模型引入的错误误解现实。尽管在生成数据上训练的模型能够学习部分原始任务，但也会出现错误，如困惑度增加所示。

模型崩溃主要由三种误差累积导致：

1. 统计近似误差：

2. 函数表达能力误差：

3. 函数近似误差：

可以避免吗？

研究团队认为， 用 AI 生成数据训练一个模型并非不可能，但必须对数据进行严格过滤。

首先，在每一代模型的训练数据中，保留一定比例的原始数据，例如 10% 或 20%。这样可以确保模型始终接触到真实世界的样本，避免完全依赖于模型生成的内容。定期对原始数据进行重采样，并将其添加到训练数据中。这样可以保证训练数据始终保持新鲜，并且能够反映真实世界的最新变化。

其次，可以使用多样化的数据。例如，除了模型生成的内容，还应该使用人类产生的数据作为训练数据。 人类数据更加真实可靠，可以帮助模型更好地理解真实世界的复杂性和多样性。 此外，可以使用其他类型的机器学习模型生成的数据作为训练数据，例如强化学习模型或模拟器。这样可以保证训练数据来源的多样性，并避免过度依赖于单一类型的模型。

最后，可以尝试改进学习算法。研究更鲁棒的语言模型训练算法，例如对抗训练、知识蒸馏或终身学习。这些算法可以帮助模型更好地处理训练数据中的噪声和偏差，并提高模型的泛化能力。

尽管这一警示似乎对当前的生成式 AI 技术以及寻求通过它获利的公司来说都是令人担忧的，但是从中长期来看，或许能让人类内容创作者看到更多希望。

｜点击关注我记得标星｜

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

网易跟贴

注册手机发跟贴登录并发贴

网友评论仅供其表达个人看法，并不表明网易立场。

一山一海

ai现在就是泡沫

我己窥探部分灵魂意识的本质就是时时好坏感知，然后趋利避害人判断好坏的依据就是感受。如：好的感受，就像打了鸡血，人很爽。坏的感受，就像累，苦，饿，的感受。感受好，那趋利避害。感受就是系统释放的好坏信号加告知好坏的因果。有时不理智分析，系统告知好坏因果，你会认为自己判断的没毛病。如很难，绝望。然后就放弃，堕落，消极，变流浪汉。对大脑的一点理解左脑因果逻辑，右脑3D感知因万事万物多有他的因果逻辑。因果可分为：以自己想法为目的的因果判断，本能上的因果反应，事件因果的判断，属性的因果判断，时间上的因果关系。思考：因果关系经历多，就能进行因果思考。物体远动见多了，就能回忆进行想象判断过程：有新的认知，那建立新的因果逻辑，遇事主动搜索关联因果，进行因果匹配因为一个因果逻辑，一个3D感知，就能对这宇宙产生认知一个逻辑想象，一个三维想象就能产生创造预设好坏逻辑，带来了什么可以让社会向好的发展，向文明发展，向美发展，向智慧发展，是对好坏评判的标准（好的维度分很多种，如时间空间数量大小美丑智笨爱善恶情感利己利国和对比）美就是一种智慧的体现（如花瓶，跑车）本能就是先天会的。人刚出生，没有对好的概念。但脑子里有预设好坏逻辑（自己看不到）。但遇到事件后，本能会产生好坏感受。回顾感知自己因果反应，就会知道背后逻辑。就像甜苦，只是味蕾的一段信号，如果是苦的信号，那判断不好。识别到反应，中间的判断，全由预设逻辑做出。好坏对错美丑智笨全是预设逻辑，符合好的标准，那判断是好的新认知之信息对错辨别动机判断，诚恳的，那对。眼见为实的，那对。符合经验，符合逻辑的那对。大家多怎么说，那对。说的有理有据的有详细，那对。如果新的真的那记住，记住因果属性就完成了认知意识动机只有一条预设逻辑：如果是真理，如果是真的好，那判断是好，那做。如果让对方认为是对，就看你的真理能否说服他。说服了就跟你一样。目的，好坏，预判，联想，系统为你的人生路，主动保驾护航，主动想你所想，主动为你着想，并告知缘由给意识设置以上逻辑，机器人不光有了人的心，也有了人的智设置什么样的逻辑，就有什么样的AI影响人工智能，让一切设备拥有了智能。应用无处不在。人类将拥有一个强大的助手。彻底解放双手AI对人的本能和情感投其所好，市场将一片大好服务人类是暂时的，人类终将永生

有态度网友06f3UK

AI训练AI？这不是套娃吗？

人工智能的用处生产制造灵敏杀人，样样优武器：导弹，导弹防御系统，大无人机扔导弹，小无人机扔手榴弹（3000元替你上前线，也就一个月工资），战斗机，机器人，等武器终究自动化，像反导手动根本忙不过来。超级大脑的建立，解决各种生活问题，全智能化时代的到来，万物更快，更智能，人工智能应用之灵魂永生，可以进行长达1亿年时间跨度的星系群之间的飞行去掉自我好坏，改为以主人为主的逻辑反应，还怕AI不听话？

目前没有跟贴，欢迎你发表观点

2024 必读！AI 是如何在工程学领域渗透和应用的？

返回网易首页下载网易新闻客户端

人工智能竟能预测癌症起源，癌症诊疗新纪元就此开启？

说到人工智能（AI），相信大家一定很熟悉吧。

随着科技的发展，人工智能已经运用到了我们生活的方方面面。

作为一种新兴的颠覆性技术，AI在手机、人脸识别、围棋等领域都有造诣。

但是，大家知道AI在医疗领域也有涉猎吗？

一直以来，“AI+医疗”都是科学家们研究的重点。

它不仅可以减轻医疗的负担，同时也可以减少误诊漏诊的发生。

那么接下来让我们去看看，AI在医疗领域的运用如何。

人工智能和癌症

1 原发不明癌症：找不到原发点的癌症

原发不明癌症（CUP，Cancer of unknown primary）即肿瘤起源的原发性位点并不能确定。

在现代精准医疗诊疗体系中，有一类患者在就医时其肿瘤组织已经发生转移，且通过现有的检测方法无法找到其肿瘤组织的原发灶，从而无法对其进行标准化治疗，这部分患者生存期短，生存率低，我们称其为“原发不明癌症”患者。

2 用人工智能寻找肿瘤起源

2021年5月5日，哈佛医学院 Faisal Mahmood 团队在《Nature》发表的研究报告中显示，科学家们开发出了一种人工智能（AI）系统，能利用常规获得的组织学切片来准确寻找转移性肿瘤的起源，同时还能产生一种“鉴别诊断”策略，用于对原发性不明癌症患者进行诊断。[1]

用TOAD算法

寻找癌症

人工智能（AI）尤其是深度学习（DL）能够大批量地处理高维数据，在哈佛医学院的研究中，AI就能够利用患者组织学切片来寻找转移性肿瘤的起源，同时还能针对原发不明原因的癌症患者产生一种鉴别诊断策略。

这种基于深度学习的算法被称之为TOAD算法，能同时识别肿瘤到底是原发性的还是转移性的，还能预测其起源的位点。

研究人员利用约2.2万个肿瘤病理学切片来训练该模型，随后在6500个已知的原发病例中检测TOAD算法，并分析越来越复杂的转移性癌症病例，以此来建立针对原发不明癌症的AI模型。

对于已知原发性起源的肿瘤而言，该模型能准确地在83%的时间里正确识别癌症，并在96%的时间里将诊断列入前三名的预测结果中。

然后，研究团队在317个原发灶不明癌症中测试了该AI模型，结果发现该AI模型的诊断与病理学家的一致率为63%，前三名诊断一致率为82％。

AI+医疗

未来的路还很长

AI医疗在未来的

3大发展优势

癌症诊断：

减少诊断“假阳性”

在诊断方面，传统方式是通过计算机辅助检测系统（CAD）进行诊断，这需要专家对数据进行预处理和筛选，以及手工定义诊断规则和相关图像特征，由于过分依赖专家预先设定的标准参数进行诊断，所以容易出现假阳性的情况。

而AI深度学习算法则可以依靠海量数据自主学习专家的诊断方法，独立自主地处理图像并对疾病进行诊断。

自动提取图像特征：

发现肉眼难以观察到的改变

因为专家在常规阅片时，难以识别如此之多的定量资料，而AI能够同时处理大规模定量资料并建立相关性，并且每一次分析具有可重复性。

例如，肺部的良、恶性结节相似度高，难以肉眼准确区分。

AI能够自动提取影像学生物标志物特征，检测出人眼难以发现的微小结节，同时降低假阳性，进而对肺部结节进行鉴别，并将肿瘤风险评估、鉴别诊断、预后预测及治疗疗效相联系。

肿瘤监测及治疗疗效预测：

辅助专家实时监测肿瘤

在肿瘤治疗疗效的监测中，肿瘤体积的变化是重要的评价指标。当肿瘤体积明显缩小时，肉眼可以识别，但如果只是肿瘤质地改变、瘤内异质性改变时，肉眼难以识别。

AI则可以通过处理治疗不同时间节点的MRI/CT图像，学习并提取相应肿瘤质地及异质性改变特征，准确识别肿瘤改变的区域，并给出肿瘤内部变化的热点图，进而辅助临床专家对治疗疗效进行判定。[2]

AI医疗未来3大难点

数据可及性：

缺少数据支撑

可靠的AI模型需大量高质量训练数据支撑，但很多医院或研究机构出于研究保密或患者隐私保护，很难实现数据共享，数据的“孤岛现象”是困扰AI临床应用的关键问题。

模型泛化性：

数据无法通用

泛化性指模型对未训练数据的预测能力，即A医院数据获得的模型在B医院预测的准确性。

模型的泛化性主要受限于数据本身的一致性和数据标签注释的主观性。

不同的拍照设备、光照条件和个体间差异将影响图像数据的一致性，不同的检验仪器、检验试剂也对临床数据影响较大。

结果可解释性：

无法显示参数运算过程

AI尤其是DL因为其内部决策过程被成千上万的训练参数所掩盖，所以实践中AI算法的权重和特征通常是不可解释的，因此，临床医师很难充分把握模型的工作过程和具体影响因素。[3]

当然，以上研究结果只是使用全切片图像来进行人工智能辅助的癌症起源预测的第一步，目前AI在肿瘤领域的应用尚处于初步探索阶段。

相信将来会有越来越多的AI医疗数据来建立算法，同时随着AI在不同疾病上的应用经验积累，我们期待AI在诊断水平上会有更大的提升，未来或有望让诊断过程标准化并改善当前的癌症诊断策略。

参考文献：

[2]袁紫旭, 徐挺洋, 姚建华,等. 人工智能在恶性肿瘤诊治中的应用[J]. 中华实验外科杂志, 2019, 36(2):203-207.

[3]Zhu W, Xie L, Han J, et al. The Application of Deep Learning in Cancer Prognosis Prediction[J]. Cancers (Basel), 2020, 12(3): 603. DOI:10.3390/cancers

人工智能在未来能否广泛使用？

人工智能未来发展趋势：

1、从专用智能到通用智能

如何实现从专用智能到通用智能的跨越式发展，即是下一代人工智能发展的必然趋势，也是研究与应用领域的挑战问题。通用智能被认为是人工智能皇冠上面的明珠，是全世界科技巨头竞争的焦点。美国军方也开始规划通用智能的研究，他们认为通用人工智能喝自主武器，是显著优于现在人工智能技术体系发展方向，现有人工智能仅仅是走向通用人工智能的一小步。

2、从机器智能到人机混合智能

人类智能和人工智能各有所长，可以互补。所以人工智能一个非常重要的发展趋势，是From AI（Artificial Intelligence） to AI（Augmented Intelligence），两个AI含义不一样。人类智能和人工智能不是零和博弈，“人+机器”的组合将是人工智能演讲的主流方向，“人机共存”将是人类社会的新常态。

3、从“人工+智能”到自主智能系统

人工采集和标注大样本训练数据，是这些年来深度学习取得成功的一个重要基础或者重要人工基础。比如要让人工智能明白一副图像中哪一块是人、哪一块是草地、哪一块是天空，都要人工标注好，非常费时费力。此外还有人工设计深度神经网络模型、人工设定应用场景、用户需要人工适配智能系统等。所以有人说，目前的人工智能有多少智能，取决于付出多少人工，这话不太精确，但确实指出了问题。下一步发展趋势是怎样以极少人工来获得最大程度的智能。人类看书可学习到知识，机器还做不到，所以一些机构例如谷歌，开始试图创建自动机器学习算法，来降低AI 的人工成本。

4、学科交叉将成为人工智能创新源泉

深度学习知识借鉴了大脑的原理：信息分层，层次化处理。所以，人工智能与脑科学交叉融合非常重要。《Nature》和《Scinece》都有这方面成果报道。比如《Nature》发表了一个研究团队开发的一种自主学习的人工突触，它能提高人工神经网络的学习速度。但大脑到底怎么处理外部视觉信息或者听觉信息的，很大程度还是一个黑箱，这就是脑科学面临的挑战。这两个学科的交叉有巨大创新空间。

5、人工智能产业将蓬勃发展

国际知名咨询公司预测，2016年到2025年人工智能的产业规模几乎直线上升。国务院《新一代人工智能发展规划》提出，2030年人工智能核心产业规模将超过1万亿，带动相关产业规模超过10万亿。这个产业是蓬勃发展的，前景显然是非常大的。

6、人工智能的法律法规将更加健全

大家很关注人工智能可能带来的社会问题和相关伦理问题，联合国还专门成立了人工智能喝机器人中心这样的监察机构。

7、人工智能将成为更多国家的战略选择

一些国家已经把人工智能上升为国家战略，越来越多的国家一定会做出同样举措。包括智利、加拿大、韩国等等。

8、人工智能教育将会全面普及

教育部专门发布了高校人工智能的行动计划。国务院《新一代人工智能发展规划》也指出，要支持开展形式多样的人工智能科普活动。美国科技委员会在《为人工智能的未来做好准备》中提出全民计算机科学与人工智能教育。

这八大宏观发展趋势，既有科学研究层面，也有产业应用层面，也有国家战略和政策法规层面。在科学研究层面特别值得关注的趋势是：从专用到通用，从人工智能到人机融合、混合，学科交叉借鉴脑科学等。

索尼赛车AI登上《自然》封面

索尼赛车AI登上《自然》封面，报道称，去年7月，该人工智能首次与《GT赛车》的四名顶尖车手展开了较量，并在当年10月的另一场比赛中战胜了人类车手。索尼赛车AI登上《自然》封面。

索尼赛车AI登上《自然》封面1

“我们追求人工智能，是为了最终更好地了解人类。”

作为这个世代中为数不多的拟真赛车游戏，《GT赛车Sport》的玩家们可能从来没有想过，自己玩的游戏，有天会登上世界顶级科学期刊《自然》（Nature）的封面。

在昨天，索尼公布了一款由其旗下AI部门开发的人工智能技术，同时它也相应地成为了本周《自然》的“封面人物”，而这个人工智能的成就，是在《GT赛车Sport》中击败了全球一流赛车游戏选手们。

Nautre第7896期封面

或者，用“征服”这个词来形容更为合适。在索尼展示的四位AI车手与四名职业赛车玩家的对决中，冠军AI的最高圈速比人类中的最优者快了两秒有余。对一条3.5英里长度的赛道而言，这个优势一如AlphaGo征服围棋。

在近五年的研发时间里，这个由索尼AI部门、SIE还有PDI工作室（也就是《GT赛车》开发商）共同研发的AI完成了这个目标。

索尼为这个AI起名为GT Sophy。 “索菲”是个常见的人名，源自希腊语σοφ α，意为“知识与智慧”。

Sophy和一般的游戏AI有什么区别？

AI在游戏中打败人类，并不是一件稀奇事。 OpenAI在“冥想训练”了成千上万场DOTA2后击败过当时的Ti8冠军OG，谷歌的AlphaStar也曾面对《星际争霸2》的顶级职业选手时表现过碾压态势，而我们每个普通玩家，也都尝过“电脑[疯狂的]”的苦头。

2019年，OpenAI曾经在仅开放部分英雄选用的限制条件下击败过OG

但这些“打败”并非一回事。要明白GTS中的AI车手Sophy意味着什么，首先要明确Sophy和其一个单纯“你跑不过的AI”有什么区别。

对过往赛车游戏里的AI而言，尽管呈现形式都是游戏中非玩家控制的“智能体”，但传统意义上的AI车手通常只是一套预设的行为脚本，并不具备真正意义上的智能。

传统AI的难度设计一般也是依赖“非公平”的方式达成的，比如在赛车游戏中，系统会尽可能削弱甚至消除AI车的物理模拟，让AI车需要处理的环境参数远比玩家简单。

而要塑造更难以击败的AI敌人，也不过是像RTS游戏中的AI通过暗中作弊的方式偷经济暴兵一样，让AI车在不被注意的时刻悄悄加速。

所以对于具备一定水平的玩家而言，赛车游戏里的传统AI在行为逻辑和策略选择上几乎没有值得参考的点，遑论职业赛车游戏选手。

而Sophy则是和AlphaGo一样，通过深度学习算法，逐渐在模拟人类的行为过程中达到变强：学会开车，适应规则，战胜对手。

这种AI带给玩家的，完全是“在公平竞争中被击败”的体验。在被Sophy击败后，一位人类车手给出了这样的评价：“（Sophy）当然很快，但我更觉得这个AI有点超乎了机器的范畴……它像是具备人性，还做出了一些人类玩家从未见过的行为。 ”

这难免再次让人联想到重新改写了人类对围棋理解的AlphaGo。

相对于围棋这种信息透明的高度抽象游戏，玩法维度更多、计算复杂度更高的电子游戏，在加入深度学习AI之后，其实一直很难确保“公平竞技”的概念。

例如在2019年征战《星际争霸2》的AlphaStar，基本没有生产出新的战术创意，只是通过无限学习人类选手的战术，再通过精密的多线操作达成胜利——即便人为限制了AlphaStar的APM，AI完全没有无效操作的高效率也并非人类可比。

这也是为什么在AlphaStar与人类职业选手的对抗记录里，当AI用“三线闪追猎”这样的神仙表演击败波兰星灵选手MaNa后，并不服气的MaNa在赛后采访中说出了“这种情况在同水平的人类对局中不可能出现”这样的话。

AlphaStar用追猎者“逆克制关系”对抗MaNa的不朽者部队

同样，《GT赛车》也是一款与《星际争霸2》具备同样复杂度的拟真赛车游戏。

在专业赛车玩家的眼中，路线、速度、方向，这些最基本的赛车运动要素都可以拆解为无数细小的反应和感受，车辆的重量、轮胎的滑移、路感的反馈……每条弯道的每次过弯，都可能存在一个绝佳的油门开度，只有最顶级的车手可以触摸到那一缕“掌控”的感觉。

在某种意义上来讲，这些“操纵的极限”当然能够被物理学解释，AI能掌握的范围显然要大于人类。所以，Sophy的反应速度被限制在人类的同一水平，索尼为它分别设置了100毫秒、200毫秒和250毫秒的反应时间——而人类运动员在经过练习后对特定刺激的反应速度可以做到150毫秒左右。

无疑，这是一场比AlphaStar更公平的战斗。

Sophy学会了什么

和Sophy为数众多的AI前辈一样，它也是利用神经网络等深度学习算法来进行驾驶技巧的训练。

Sophy在训练环境中会因为不同的行为遭受相应奖励或者惩罚——高速前进是好的，超越前车则更好；相应地，出界或者过弯时候撞墙就是“坏行为”，AI会收获负反馈。

在上千台串联起的PS4组成的矩阵中，Sophy经受了无数次模拟驾驶训练，在上述学习里更新自己对《GT赛车Sport》的认知。从一个不会驾驶的“婴儿”到开上赛道，Sophy花费了数个小时的时间；一两天后，从基础的“外内外”行车线开始，Sophy已经几乎学会了所有常见的赛车运动技巧，超越了95%的人类玩家。

索尼AI部门为Sophy搭建的“训练场”

然而，赛车并不是一个人的游戏。即便Sophy在去年7月份的比赛中，已经可以没有其他赛车的情况下拥有超出顶级人类选手的计时赛成绩，但在真实的多人游戏中，Sophy还需要学会与对手进行对抗上的博弈，理解其他车手的行为逻辑。

因此，索尼AI部门的科研人员对Sophy进行了更多的“加练”，比如面对其他车时如何插线超车、阻挡卡位。到最后，Sophy甚至还被“教育”到能够理解和遵守赛车运动中的比赛礼仪——比如作为慢车时进行让车，同时避免不礼貌的恶意碰撞。

赛车游戏中的AI车，一般即便会尝试躲避与玩家擦碰，其实现方式也只是不自然地闪躲。而Sophy呈现出的“比赛理解”，都是依靠脚本运行的传统赛车AI无法做到的。

到了10月，Sophy已经可以在正式的同场比赛中击败最顶级的人类选手。

索尼邀请的四位人类车手，其中包括GT锦标赛三冠王宫园拓真

比如第一场在Dragon Trail（龙之径）上进行的比赛。作为《GT赛车Sport》的驾驶学校尾关，每个GTS玩家应该都相当熟悉这条赛道（以及DLC中的“汉密尔顿挑战”）。在数万个小时的训练过后，排名第一的Sophy车手已经可以踩着绝对的最优路线保持全程第一。

而在四个Sophy与四位人类车手角逐的第二个比赛日中，AI们的优势进一步扩大了——几乎达成了对顶级人类玩家的碾压。

如果只是在路线的选择和判断上强过人类，用更稳定的过弯来积累圈速优势，这可能还没什么大不了的。

但研究者们认为，Sophy几乎没有利用在用圈速上的绝对优势来甩开对手（也就是AI身为非人类在“硬实力”上更强的部分），反而在对比赛的理解上也超过了人类玩家，比如预判对手路线的情况下进行相应的对抗。

在《自然》论文所举的案例中，两名人类车手试图通过合法阻挡来干扰两个Sophy的首选路线，然而Sophy成功找到了两条不同的轨迹实现了超越，使得人类的阻挡策略无疾而终，Sophy甚至还能想出有效的方式来扰乱后方车辆的超车意图。

Sophy还被证明能够在模拟的萨尔特赛道（也就是著名的“勒芒赛道”）上执行一个经典的高水平动作：快速驶出前车的尾部，增加对前车的阻力，进而超越对手。

更令研究者称奇的是，Sophy还捣鼓出了一些非常规的行为逻辑，听上去就像AlphaGo用出新的定势一样。通常，赛车手接受的教育都是在过弯时“慢进快出”，负载只在两个前轮上。但Sophy并不一定会这么做，它会在转弯时选择性制动，让其中一个后轮也承受负载。

而在现实中，只有最顶级的F1车手，比如汉密尔顿和维斯塔潘，正在尝试使用这种三个轮胎快速进出的技术——但Sophy则完全是在游戏世界中自主学会的。

曾经取得三次GT锦标赛世界冠军的车手宫园拓真在与AI的对抗中落败后说，“Sophy采取了一些人类驾驶员永远不会想到的赛车路线……我认为很多关于驾驶技巧的教科书都会被改写。”

“为了更好地了解人类”

区别于以往出现在电子游戏中的先进AI们（比如AlphaStar），Sophy的研究显然具备更广义、更直接的现实意义。

参与《自然》上这篇论文撰写的斯坦福大学教授 Gerdes就指出，Sophy的成功说明神经网络在自动驾驶软件中的作用可能比现在更大，在未来，这个基于《GT赛车》而生的AI想染会在自动驾驶领域提供更多的帮助。

索尼AI部门的CEO北野宏明也在声明中表示，这项AI研究会给高速运作机器人的研发以及自律型驾驶技术带来更多的新机会。

Sophy项目官网的介绍

但如果我们将目光挪回作为拟真赛车游戏的《GT赛车》本身，Sophy的出现，对大众玩家和职业车手而言同样具备不菲的意义。

正如文章前面所说，在目前市面上大多数拟真赛车游戏中，“传统AI”已经是一个完全不能带给玩家任何乐趣的事物。这种依赖不公平条件达成的人机对抗，与赛车游戏开发者希望带给玩家的驾驶体验是相悖的，人类玩家也无法从中获得任何教益。

在索尼AI部门发布的纪录片中，“GT赛车之父”山内一典就表示，开发无与伦比的AI可能是一项了不起的技术成就，但这对普通玩家来说可能不是什么直白的乐趣。

因此，山内承诺在未来的某个时候，索尼会将Sophy带入到三月份即将发售的《GT赛车7》中。当Sophy能够更加了解赛场上的环境和条件，判断其他车手的水平，一个这样智能又具备风度的AI，就能够在与人类比赛时，为玩家提供更多真实的快乐。

在拟真赛车游戏逐渐“小圈子化”，众多厂商都做不好面对纯新玩家的入门体验的今天，或许一个AI老师的存在，有机会能给虚拟世界中的拟真驾驶带来更多的乐趣，就像《GT赛车4》的宣传片片头所说，“体验汽车生活”。

这可能才是一个基于游戏而生的AI能为玩家带来的最重要的东西——如同山内一典对Sophy项目的评论， “我们不是为了打败人类而制造人工智能——我们追求人工智能，是为了最终更好地了解人类。”

索尼赛车AI登上《自然》封面2

据路透社伦敦2月9日报道，索尼公司周三说，它创造了一个名为“GT索菲”的人工智能（AI）代理，能击败《GT赛车》——PlayStation平台上的模拟赛车游戏——中全球最优秀的车手。

该公司在一份声明中说，为了让“GT索菲”为这款游戏做好准备，索尼公司的不同部门提供了基础人工智能研究成果、超现实真实世界赛车模拟器，以及进行大规模人工智能训练所需的基础设施。

报道称，去年7月，该人工智能首次与《GT赛车》的四名顶尖车手展开了较量，它吸取了这次比赛的经验，并在当年10月的另一场比赛中战胜了人类车手。

这款人工智能的设计团队领导者、索尼人工智能美国公司负责人彼得·沃尔曼说：“我们用了大约20台PlayStation游戏机，同时运行大约10到12天，才训练‘GT索菲’从零开始达到超人类水平。”

报道指出，虽然人工智能曾在国际象棋、麻将和围棋比赛中击败人类，但索尼公司说，掌握赛车驾驶技术的难点在于，许多决定是必须实时做出的。

据报道，索尼的竞争对手微软公司最近斥资近690亿美元收购了动视暴雪公司。微软一直在利用游戏来改进人工智能，其方式是不断为人工智能模型提供新挑战。

报道称，《GT赛车》是一款模拟赛车电子游戏，1997年问世，已售出8000多万套。

索尼希望将学习到的东西应用到其他PlayStation游戏中。该公司说：“有很多游戏可以对人工智能构成不同挑战，我们期待开始解决这些问题。 ”

索尼赛车AI登上《自然》封面3

还记得前几天索尼预告即将公布的重要AI消息吗？最近，索尼正式宣布，其研究人员已经开发出了一款名为“GT Sophy”的AI车手，可以击败人类顶尖的车手获得冠军。

据悉，索尼对于“GT Sophy”使用了异种称为强化学习的方法进行训练。其本质就是不断的试错，将AI扔进一个没有指令的环境中，达到目标即可获得奖励。

索尼的研究人员表示，它们必须谨慎地设计奖励，譬如微调碰撞惩罚，调整各种目标地优先级，从而保证AI地驾驶风格足够激进，但又不只是在路上欺负对手。

在强化学习的帮助下，AI只需要几小时的训练，就已经适应了赛道飙车。并且在一两天内做到了训练数据快过95%的车手。经过小时的总训练，目前AI已经在索尼PS5的《GT赛车》游戏中取得了惊人的成绩，击败顶级人类车手已不是问题。

索尼用AI对三位顶级电子竞技车手进行了测试，没有一个人能够在计时赛中击败AI。而他们也从AI竞赛中学到了新战术，学习AI的路线，掌握更好的入弯时间点。

索尼目前表示，他们正在努力将GT Sophy整合到未来的《GT赛车》游戏中，不过尚没有提供任何具体的时间表。

再结合之前索尼造车的各种消息，这款AI没准还能用在现实世界汽车的自动驾驶技术上，前景可谓十分乐观。