Anthropic挖走DeepMind强化学习大牛 AlphaGo核心作者

Scan me!

用微信扫码二维码

分享至好友和朋友圈

今天的 AI 社区,再次被一则大佬转会消息吸引了目光。

在谷歌工作十年后,大名鼎鼎的谷歌 DeepMind Alpha 系列核心作者 Julian Schrittwieser,宣布加入 Anthropic。

我很高兴地宣布,将从本周起加入 Anthropic!Claude 是我发现自己一直在使用的第一个 LLM。最近,我被《Artifacts》和《Computer Use》以及 Claude 不断提高的技能深深震撼了。

我非常幸运地参与了谷歌 DeepMind 过去 10 年的奇妙旅程,在那里我参与了很多令人兴奋的项目,这是我做梦都想不到的:从 AlphaGo 到 AlphaZero 和 MuZero 的传奇;还有很多的应用研究,如 AlphaCode 和 AlphaTensor,以及最近的 Gemini 和 AlphaProof。我相信,那里的团队也将继续创造惊人的成就,我迫不及待地想一探究竟!

Julian Schrittwieser 的跳槽,可以说是近期领域内最为惊人的一则消息,因为 Julian Schrittwieser 在 DeepMind 内部的地位非同寻常。更令人好奇的是,Anthropic 是如何招揽到这样一位顶尖人才:

不管过程如何,这一定是 Anthropic 最「超值」的一次招聘:

在 DeepMind 诞生以来的数年中,「Alpha 系列成果」一直是该团队最闪耀的前沿成果。而 Julian Schrittwieser 是这些伟大成就中不可忽视的贡献者。

2016 年,DeepMind 开发的 AlphaGo 以 4:1 击败世界顶级围棋棋手李世石(Lee Se-dol),成为轰动全球的人工智能里程碑事件。Julian Schrittwieser 参与撰写了第一篇关于 AlphaGo 的里程碑式论文。

2017 年,在 AlphaGo 与柯洁的比赛之后,DeepMind 宣布退役 AlphaGo,自学成才的 AlphaGo Zero 以 100:0 击败了早期的竞技版 AlphaGo,Julian Schrittwieser 是 AlphaGo Zero 论文的第二作者,也负责了从主搜索算法、训练框架到对新硬件的支持等工作。

而 AlphaGo Zero 随后被拓展为一个名为 AlphaZero 的程序。2017 年底,DeepMind 正式发表了 AlphaZero,这是一种可以从零开始通过 Self-Play 强化学习在多种任务上达到超越人类水平的算法。该算法经过不到 24 小时的训练后,即可在国际象棋和日本将棋上击败此前业内顶尖的计算机程序(这些程序早已超越人类世界冠军水平),也轻松击败了训练 3 天时间的 AlphaGo Zero。

2020 年,DeepMind 发表了 MuZero。在不具备任何底层动态知识的情况下,该算法通过结合基于树的搜索和学得模型,不仅在国际象棋、日本将棋和围棋的精确规划任务中匹敌 AlphaZero,还在 30 多款雅达利游戏中展示出了超越人类的表现。Julian Schrittwieser 是 MuZero 论文《Mastering Atari, Go, Chess and Shogi by Planning with a Learned Model》的核心作者之一。

2022 年 2 月,DeepMind 发布了基于 Transformer 模型的 AlphaCode,可以编写与人类相媲美的计算机程序。包括 Julian Schrittwieser 在内的多位作者后续又在《Science》上发表了论文。

2022 年 10 月,DeepMind 提出了 AlphaTensor,第一个可用于为矩阵乘法等基本任务发现新颖、高效且可证明正确的算法的人工智能系统,并揭示了 50 年来在数学领域一个悬而未决的问题,即找到两个矩阵相乘最快方法。AlphaTensor 建立在 AlphaZero 的基础上,展示了 AlphaZero 从用于游戏到首次用于解决未解决的数学问题的一次转变。

2023 年 6 月,谷歌 DeepMind 发布了 AlphaDev,这种全新的强化学习系统发现了一种比以往更快的哈希算法。Julian Schrittwieser 也是 AlphaDev 项目的核心参与者之一。

2024 年 7 月,谷歌 DeepMind 团队研发的 AlphaProof 和 AlphaGeometry 2 在 IMO 竞赛上共同实现了里程碑式的突破。AlphaProof 是一种用于形式化数学推理的强化学习系统,而 AlphaGeometry 2 是 DeepMind 几何求解系统 AlphaGeometry 的改进版本。正式比赛中,AlphaProof+AlphaGeometry 2 组合成的 AI 系统在几分钟内就解决了人类参赛选手需要几个小时才能解决的问题。

8 年前,基于强化学习的 AlphaGo 声名大噪;8 年后,强化学习在 AlphaProof 中再次大放异彩。2016 年 AlphaGo 论文的核心成员 Julian Schrittwieser、Aja Huang、Yannick Schroecker,如今也是 AlphaProof 的核心贡献者。有人在朋友圈感叹说:RL is so back!

业内普遍认为,OpenAI o1 运用的技术关键也在于强化学习的搜索与学习机制,这标志着 RL 下 Post-Training Scaling Law 的时代正式到来。正如《The Bitter Lesson》所说,只有搜索和学习这两种学习范式能够随着计算能力的增长无限扩展。强化学习作为这两种学习范式的载体,如何能够在实现可扩展的 RL 学习(Scalable RL Learning)和强化学习扩展法则(RL Scaling Law),将成为进一步突破大模型性能上限的关键途径。

这或许就是 Calude 团队招揽 Julian Schrittwieser 的出发点。o1 研发团队在采访中也谈到过,OpenAI 很早就受到 AlphaGo 的启发,意识到了深度强化学习的巨大潜力,并在相关方向投入了大量研究力量。

作为 RL 领域的深耕者,Julian Schrittwieser 又会带领 Claude 团队做出怎样的成果呢?让我们拭目以待。

参考链接:https://www.furidamu.org/blog/2024/10/28/joining-anthropic/

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

网易跟贴

注册 手机发跟贴 登录并发贴

网友评论仅供其表达个人看法,并不表明网易立场。

山楂故事录

不克制兽性,不克制自我,放纵自我得寸进尺自私自利趋利避害,就是亲兄弟也会争斗不止,何况一个银河系跨度多在十万光年,一次旅行多要几万年,如果不克制自我克制自私,几万年后,就算500年前是一家,见面时依然会摩擦不断,争斗不止。结局就是永远一盘散沙。散沙只会任人欺负,团结才会更大更强,更好生存。

确实,这些都是基本的常识,你们既然懂吗?

卑微的爱着199210

我己窥探灵魂一角意识的本质就是时时好坏感知,接着好坏思索,然后趋利避害人活着一般靠大脑犒赏系统而活着,被犒赏时,感觉好啊,舒服啊,美啊,是真理啊。相反当累苦饿或者靠认知和理智而活,说服自己那样做,好处多多。难受困难死不了人有时你的判断和反应,看似天经地义。实则是系统在作怪,如很困,但你还想玩,不想睡,眼睛却时不时的闭上。如很难,绝望。然后你就放弃,堕落,消极,变流浪汉。形象比喻:意识是司令。系统是兵,负责收集并告知好坏和建议。知好坏意识才会进步对大脑的一点理解左脑因果逻辑,右脑3D感知因万事万物多有他的因果逻辑。因果可分为:以自己想法为目的的因果判断,本能上的因果反应,事件因果的判断,属性的因果判断,时间上的因果关系。思考:因果关系经历多,就能进行因果思考。物体远动见多了,就能回忆进行想象因为一个因果逻辑,一个3D感知,就能对这宇宙产生认知一个逻辑想象,一个三维想象就能产生创造新认知之信息对错辨别动机判断,诚恳的,那对。眼见为实的,那对。有因果或符合逻辑的那对。大家多怎么说,那对。说的有理有据的有详细,那对。如果新的真的那记住,记住因果属性就完成了认知空间感,想法,好坏,真假,因果,预判,联想,系统为你的人生路,主动保驾护航,主动想你所想,主动为你着想,并告知缘由给意识加情绪犒赏预设好坏逻辑,带来了什么可以让社会向好的发展,向文明发展,向美发展,向智慧发展,是对好坏评判的标准(好的维度分很多种,如时间空间数量大小广窄高矮深浅多少暗亮冷热香臭甜苦乱洁强弱坚定迷茫熟练笨拙好坏对错真假新旧美丑智笨爱善恶情感利己利国和对比)美就是一种智慧的体现(如花瓶,跑车)本能就是先天会的。人刚出生,没有对好的概念。但脑子里有预设好坏逻辑(自己看不到)。但遇到事件后,本能会产生好坏感受。回顾感知自己因果反应,就会知道背后逻辑。设置以上逻辑,AI就能理解好,产出好。好到让人爱不释手。影响输入真理,加超级大脑,AI将了解一切,创造一切,预防一切,解答一切。万物智能化,人类将拥有一个强大的助手,虽说好坏判断是天性但输入历史教训,AI将更文明,输入真的好坏经验与认知,AI动机就进入正轨,直接上岗工作或者去掉自我好坏,改成以主人好坏的逻辑反应,还怕AI乱来

[赞][赞][赞]

目前没有跟贴,欢迎你发表观点

世界模型突破!极佳科技首次利用世界模型增强4D驾驶场景重建效果

返回网易首页 下载网易新闻客户端
  • 声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
  • 本文地址:https://srwj168.com.cn/chuangtou/28289.html
已在商业上初获成功 Waymo获56亿美元融资
17 iPhone 的早期开发工作 消息称苹果正在印度工厂进