彩云科技CEO袁行远 如果底层模型没突破 AI将停滞不前

5月23日消息,日前, 彩云 科技发布了全新通用模型结构DCFormer,其相关论文《Improving Transformers with Dynamically Composable Multi-Head Attention 》将在第41届国际机器学习大会ICML 2024正式发表。

在论文中,彩云科技实验证明了在三千亿级训练数据和70亿级模型参数量下,DCFormer效率是Transformer的两倍。据一位评委透露,今年录用论文的平均分为4.25-6.33,而彩云科技团队的论文获得平均7分的高分,这说明彩云科技的此项研究成果获得了学术界认可,彩云科技具备全球领先的技术实力。

资料显示 ,ICML是国际机器学习领域的顶级会议,能够发表论文的中国初创企业屈指可数。彩云科技证实,其大模型结构DCFormer可以达到1.7~2倍算力的Transformer模型的效果,即算力智能转化率提升了1.7~2倍。在众多NLP下游任务和图像识别任务上的测评也验证了DCFormer的有效性。DCFormer对性能算力比的提升幅度超过自2017年Transformer诞生至今被证明最普适有效并被广泛采用的两项结构改进的提升幅度之和(同时应用这两项改进的Transformer架构也叫Transformer++,如Llama)。而且随着模型规模的增大,DCFormer的提升越来越大(左图下的蓝线和绿线),而Transformer++的提升越来越小(左图下的黑线)。可以说,DCFormer让Transformer的能力又跃上一个新台阶。

彩云科技CEO 袁行远 说:"如果底层模型没有突破, 人工智能 的进步终将停滞不前。人人都说 神经网络 是个黑盒,我们需要勇气和耐心打开这个黑盒,通过分析模型运转原理,我们才能知道智能的本质规律,从而可以改进模型,提高模型的运行效率。"

通用大模型DCFormer将Transformer效率提升了两倍,这意味着什么?袁行远解释说:"如果 GPT-4o 能够用上DCFormer,推理一次128k上文的成本,就可能从4元变成2元。而且DCFormer 模型越大,效果越好,考虑到ChatGPT的巨大参数量,DCFormer可能在千亿、万亿模型上效果更好,因此价格甚至可能下降到1.5元、1元。Meta的100亿美元显卡训练的模型,可能50亿美元就能够用。"解开智能的科学的奥秘,实现通用人工智能——这是彩云科技10年以来孜孜不倦追求的目标。基于此,彩云科技在Github上开源了DCFormer的模型代码、权重和训练数据集。

据悉,未来彩云科技会将全新大模型DCFormer应用于旗下三款app,并将进一步发展彩云小梦,加速提升AI续写能力。(定西)


听完知乎的「AI 先行者沙龙」,你有什么感想?

知乎科技沙龙以精心策划的活动,为科技爱好者呈现了一场硬核且深度的交流盛宴。在此次沙龙中,人工智能、大模型的前沿发展、安全性探讨以及行业生态的构建</等主题成为了核心议题。知名学者汪玉和教授以专业视角分享了他们的见解,深入解析了开源生态、模型涌现等关键问题,并针对大模型的通用性与数据平衡进行了深入解析,强调了数据利用在塑造未来趋势中的关键作用。

下半场,精彩纷呈。首先,彩云科技CEO袁行远以创业者的独特视角,分享了市场反馈如何驱动产品创新,强调实践中的价值导向。Logenic AI联合创始人李博杰则引领我们探讨生成式AI的边界,提出了“有趣+有用”的融合理念,指出这是AI应用未来发展的新方向。在圆桌讨论环节,嘉宾们围绕AI在游戏开发、办公自动化、电商等领域的现状、挑战与未来趋势展开深入对话,展现了AI的实际应用和潜力。

这场沙龙无疑为AI爱好者提供了一个珍贵的学习与交流平台。它不仅揭示了AI技术的最新动态,也为我们描绘了行业发展的未来蓝图。感谢知乎为我们搭建的这场知识盛宴,让我们对AI的未来充满了期待。作为一个对AI绘画充满热情的室内设计师,我深感启发,德里克文,我们共同期待更多这样的活动,推动AI技术的创新与应用。

  • 声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
  • 本文地址:https://srwj168.com.cn/keji312/12644.html
长三角首套房利率低至3.25% 购房者仍以刚需为主
牵手上汽开发电动汽车 错位竞争 南北奥迪