一出手就是媲美人类的同声传译水平字节大模型同传智能体

作者： 2024年07月25日财经浏览

机器之心发布

机器之心编辑部

近年来，人工智能（Aritificial Intelligence, AI），尤其是以大语言模型（Large Language Models, LLMs）为代表的 AI 正以惊人的速度发展，这些模型在多种自然语言处理任务中展现了卓越的能力。然而，尽管在许多领域取得了突破，代表着人类顶尖语言水平的同声传译（Simultaneous Interpretation, SI）依然是一个未被完全攻克的难题。

市面上传统的同声传译软件通常采用级联模型（cascaded model）的方法，即先进行自动语音识别（Automatic Speech Recognition, ASR），然后再进行机器翻译（Machine Translation, MT）。这种方法存在一个显著的问题 —— 错误传播。ASR 过程中的错误会直接影响到后续的翻译质量，导致严重的误差累积。此外，传统的同声传译系统由于受限于低延时的要求，通常只使用了性能较差的小模型，这在应对复杂多变的实际应用场景时存在瓶颈。

来自字节跳动 ByteDance Research 团队的研究人员推出了端到端同声传译智能体：Cross Language Agent - Simultaneous Interpretation, CLASI，其效果已接近专业人工水平的同声传译，展示了巨大的潜力和先进的技术能力。CLASI 采用了端到端的架构，规避了级联模型中错误传播的问题，依托于豆包基座大模型和豆包大模型语音组的语音理解能力，同时具备了从外部获取知识的能力，最终形成了足以媲美人类水平的同声传译系统。

效果展示

视频 Demo ：首先用几则即兴视频来感受一下 CLASI 的效果，所有字幕均为实时录屏输出。我们可以看到，无论是语速超快、发音复杂的绕口令，还是精妙绝伦的文言文，又或是充满即兴和灵感的随意聊天，模型都能流畅自然地给出准确而地道的翻译结果。更不用说，CLASI 在其老本行 —— 会议场景翻译中表现得尤为出色。

即兴对话-星座

视频链接：https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650927463&idx=1&sn=21471a5d179c548c2d0ed17c03406c04&chksm=84e43519b393bc0f32a783c3d986dac34c4397b7b5b345910595c8a2026f9906a7aea0dd8db0&token=1183058139&lang=zh_CN#rd

朗读-赤壁赋

视频链接：https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650927463&idx=1&sn=21471a5d179c548c2d0ed17c03406c04&chksm=84e43519b393bc0f32a783c3d986dac34c4397b7b5b345910595c8a2026f9906a7aea0dd8db0&token=1183058139&lang=zh_CN#rd

绕口令

视频链接：https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650927463&idx=1&sn=21471a5d179c548c2d0ed17c03406c04&chksm=84e43519b393bc0f32a783c3d986dac34c4397b7b5b345910595c8a2026f9906a7aea0dd8db0&token=1183058139&lang=zh_CN#rd

更多视频可点击文末链接进行查看

定量对比 ：研究人员分别在中英、英中翻译语向上，针对 4 个不同领域邀请专业的同传译员进行了人工评测，使用了与人工同传一致的评价指标：有效信息占比（百分制）。图中可以看到，CLASI 系统大幅领先所有商业系统和开源 SOTA 系统，并且在某些测试集上甚至达到或超过了人类同传水平（一般认为人类同传平均水平大概在 80%）。

系统架构

系统架构上，CLASI 采用了基于 LLM 智能体的架构（下图左），将同声传译定义为一系列简单且协调的操作，包括读入音频流，检索（可选），读取记忆体，更新记忆体，输出等。整个流程由大语言模型自主控制，从而在实时性和翻译质量之间达到了高效的平衡。该系统能够根据实际需求灵活调整各个环节的处理策略，确保在高效传递信息的同时，保持翻译内容的准确性和连贯性。CLASI 底层模型是一个 Encoder-conditioned LLM，在海量的无监督和有监督数据上进行了预训练。CLASI 模型的系统架构如下图所示。

图 1：图示展示了 CLASI 的整体操作流程。在步骤 1 中，CLASI 处理当前输入的音频数据。接下来检索器会被激活（可选），从用户自定义的知识库中获取相关信息。在这个示例中，使用知识库中的翻译对 “伊辛模型: Ising model” 能够帮助模型输出正确的译文。在步骤 3 中，CLASI 从上一轮的记忆体中加载转写（可选）和翻译。接下来（步骤 4 和步骤 5），CLASI 可能会启用思维链（CoT）来输出转写（可选）和翻译结果，然后更新其记忆体。最后，返回步骤 1 以处理下一轮的语音。

图 2：CLASI 的结构图。在第 r 轮中，CLASI 将当前音频流、前序的记忆体（r-1）和检索到的知识（如果有）作为输入。CLASI 根据给定的指令输出响应，然后更新记忆体。同时，CLASI 还会输出截止当前，最后一个语义片段的截止时间戳。对于给定的示例，短语 “就在” 之前的内容被认为是完整的语义片段，所以截止时间戳就在此短语之前。

实验结果

表 1：人工评测有效字段占比（Valid Information Proportion, VIP）中，CLASI 系统显著超过了其他所有竞品，并且在两个语向上均达到了 78% 以上的准确性。一般而言，可以认为人类同传的准确性在 70% 以上，理想情况下可以达到 95%，研究人员以 80% 的准确性作为高水平人类译员的平均标准。

示例分析

中翻英：

英翻中：

可以看到在多个方面，CLASI 的翻译均显著优于商用系统。

总结

来自字节跳动 ByteDance Research 团队的研究人员提出了基于豆包大模型的同传智能体：CLASI。得益于大规模预训练和模仿学习，在人工评估中，CLASI 的表现显著优于现有的自动同声传译系统的性能，几乎达到人类同传水平。

1. 研究人员提出了一种通过模仿专业人类译员的、数据驱动的读写策略。该策略无需复杂的人类预设计，即可轻松平衡翻译质量和延迟。与大多数商业系统在翻译过程中频繁重写输出以提高质量不同，该策略保证所有输出在保持高质量的同时是确定性的。

2. 人类译员一般需要预先准备同传内容，受此启发，研究人员引入了一种多模态检索增强生成（MM-RAG）过程，使 LLM 实时地具有领域特定的知识。所提出的模块在推理过程中以最小的计算开销进一步提高了翻译质量。

3. 研究人员与专业人类同传译员密切合作，制定了新的人工评估策略 “有效信息占比”(VIP)，并公开了详细的指南。同时也发布了一个更接近现实场景的长语音翻译的多领域人工标注测试集。

更多视频观看：https://byteresearchcla.github.io/clasi/

我是一名大三的机械专业的学生我考研想夸专业考同声传译的研究生英语基础算不上好，但是也不差。

1: 没有像这位英语老师说的“一般”，这种“一般”也很少出现。现在的几个国内高翻在他们高中的时候对同声传译事业了解么？不了解，只能说英语基础好。但是基础好不好也是看个人的投入，高中生的理解能力不比成年人高，所以无论什么时候开始重新学习都不晚，只要肯投入。我认识的澳洲同声传译就是24岁才开始重学英语，专业是医学。其实你这样有一个专业领域很不错的。 2：如果你确定好，我建议明年下半年参加人事部的口译考试，现在开始除了恶补英语基础，就是买备考资料，别觉得时间太长，当你真正开始每天练习的时候你就知道了。 3：以任何所谓专八多少分六级过没过，雅思托福几级来衡量同声传译基础水平都是错误的，就好像去问一个在外国生活了几年的人能不能当同传一样。同传需要接受特殊训练，脑力，两种语言的转换能力都是需要练的，并不是说在外国生活几年，雅思多少分，专八过没过就能当同传。 4：不要再让这些雅思之类的事误导你自己，就好像在说当了几年兵就能去当国际高危保镖一样。以上我一字字打给你的，不是为了让你采纳，而是不希望你走冤枉路。我英语专业，其实没你的优势就是有一门其他专业领域的知识比如你的机械，以后有什么都能问我，我今年上半年过了人事部三口。

职业日记｜第一次同声传译

我大学学的专业是英语语言文学，工作后在XX大学从事国际交流工作，兼任教授英语。国际交流工作中我的主要职责是承担学校领导会见来访外宾时的翻译任务。翻译工作对人的心理素质、双语能力、抗压能力、随机应变能力等等都有极高的要求，成为一个好的翻译需要经过一场场的实战锻炼。外宾来访时，宾主双方的交流模式基本都是固定的。无非先是寒暄客套，接着双方介绍参与会见的人员，然后是简明扼要地介绍各自单位的情况，最后互送祝福、拍照留影，万事大吉了。一场会见短则半小时长则一小时左右，双方不会尬聊太久。俗话说“熟能生巧” ，这样的场面锻炼过几次，我基本上就做到胸有成竹。每次有外宾来，我会事先做足功课，了解外宾个人、所在国家、所在单位的背景，大到国家的历史，有哪些中国人熟知的名人和他们的事迹或者作品、小到来访者的学习和工作经历，家庭成员情况、喜爱的食物等等，并把这些信息整理成资料卡片，送给负责接待外宾的校领导备用。绝大多数情况下，宾主双方在这种接待场合都是交替发言，通俗地说就是你说一段我说一段，对应的翻译就是交替式翻译。大家都知道的每年总理政府工作报告后的答中外记者问就是交替式翻译，记者提问，总理答复完毕后，译员再进行翻译。同声传译是什么意思呢？就是发言者在说话的同时，翻译者就必须进行翻译。比如说，发言者开始说，“女士们，先生们，早上好......”，译员听到“女士们”的时候就必须开始翻译 Ladies and gentlemen......”，而且是连续不断的翻译，中间不能停顿。可见，同声传译对译员的要求有多么的高！在同声传译的会场，与会人员都戴着耳机，他们听到的都是自己的目标语言，也就是说与会者在耳机里听到的是译员的声音。译员坐在一个玻璃房内，可以看见会场上的情况，但是无法和外面的人交流。玻璃房外的与会代表也看不见译员。本来我的日常工作中是涉及不到同声传译的，大多数都是迎来送往的活动，我早已烂熟于心。可是有一次来了个大活...... 我们学校与某国家部委在业务上有着很强的联系，他们的国际交流活动我们也有很多参与，尤其是涉及到涉外培训和国际会议。大学有得天独厚的条件，比如可以招募学生志愿者，可以更好地完成这些工作，尤其是外宾人数和国别都比较多的时候，志愿者在具体的工作中发挥着非常重要的作用。话说有一次该部委要在我们学校召开一场国际学术会议，来宾都是国外部长级的高官。为了节约时间，学术会议一般都会采取同声传译。在开幕式上，我们学校领导（让我暂且称TA为大拿吧）作为东道主有一个发言，发言过后还安排TA做开场演讲，都需要同声传译。我们学校没有同声传译的人才，不得已向部委求救，但是人家不肯接这个活，因为大拿有个癖好就是从来不读事先写好的发言稿。部委的翻译告诉我虽说是同声传译，但是部委领导的讲话稿都是事先拟好的，译员拿到拟好的稿子只要提前翻译好，在会场上一句一句读出来即可。这种形式上的“同声传译”，既节约了时间，也避免译员承担太大的压力。当然，领导也无需经受即兴发言的挑战。可是我们这个大拿偏偏喜爱即兴发挥，TA说念稿子是没有灵魂的发言，限制了TA的思维，就象有人捏住TA的喉咙，说话说得不舒畅。我也曾经为TA准备过发言稿，但大拿每次都不用，后来我就放弃了。但是这一次不同以往，部委不愿意伸以援手来接大拿这个烫手山芋，看来只有我们自己把这个山芋吃下去了。我和其他三位同事组成翻译小分队，跟大拿商量能不能委屈一下，读一读稿子？毕竟一个多小时的口译对每个译员来说都是不小的工作量。我们还跟大拿说万一TA在即兴发挥的时候卡了壳，不就没有face了吗？大拿被我们磨得有些动摇，也是担心现场出什么状况，最终同意读稿子。于是我们又成立了写作小分队，和翻译小分队精诚合作，终于在开幕前夜完成了大拿发言稿的起草和翻译工作。第二天，我们四个人信心十足地坐进了同传室，略带紧张但总体悠闲地准备读稿子。随着大约一百多位外宾和与会代表进入会场，戴上耳机，调好设备，会议就正式开始了。先是部委领导演讲，我坐在同传室，听着耳机里传过来部委翻译字正腔圆的英语，很是钦佩。我们四人分成两小组，两人一组，轮流翻译。不一会轮到大拿发言了，我是第一棒。 TA一开口，我的心立马提到了嗓子眼，担心大拿没照稿子读。还好，几句下来，TA都“中规中矩、一字不差”地读稿子，我手里拿着一支笔，TA读到哪我就念到哪，渐渐地放松了下来。可是，放松没几分钟，只听到耳机里传来了大拿的声音，“我不读稿子了，读不下去，我准备随便讲了。翻译注意一下。 ” 天哪，这不啻是一个惊雷，在我头上炸开了，我恨不得立马让这个雷劈倒在地上，反正是个死，自然死亡总比自己难堪死要好吧？可是死是死不了的，活还得撑下去。我慌乱三秒后，强迫自己镇定下来，先把稿子有字的那面朝下扣下来，反正用不上了，看着反而心烦，再拿出手边的白纸准备速记。大拿开始“信口开河”了，从古代“朋”字的由来，讲到我国经济的发展历史、改革开放后我国经济的飞速发展，又联系到俄罗斯西伯利亚的开发，再到经济学在人类发展中的重要作用，反正是天马行空，古今中外、上下五千年地信马由缰。说来人在某种极限下真能超水平发挥，大拿洋洋洒洒、口若悬河，我调动浑身的脑细胞应对，同时心中暗暗祈祷大拿千万不要说出什么生僻的诗词谚语。还好，我亦步亦趋，跟得还算顺溜。忽然，耳机中又传来大拿的声音，”翻译怎么样啊？能翻得出来吗？” 我们戴着耳机，坐在同传室里是不能和外面的与会人员直接交流的，这时只听到一位与会的部委领导说，“翻得很精彩，你继续讲吧。 ” 听到这话，我心里踏实了下来，继续跟着大拿天马行空。中途还出现了一个插曲，有两个人中间出现了卡壳，漏掉好几句没有翻译，两个人更加紧张了，一时尴尬不已。作为翻译组的小组长，我和另外一位同事一直坚持到大拿演讲结束。大拿最后还特别感谢了我们翻译组，TA说，“今天辛苦我的翻译们，作为我的翻译，他们太辛苦，太受折磨了。 ”开幕式结束后，大拿专门到同传室与我们拥抱，感谢我们的工作。工作结束后，我去洗手间整理，无意间从镜子里发现头上细细一层头皮屑。早上刚洗过头发呀，哪来的头皮屑呢？看来高强度的脑力劳动使得阵亡的脑细胞实在是太多了。这是我第一次也是唯一一次做同声传译，我不知道再来一次这样的挑战我是否还能胜任，毕竟这太考验人了。

现在人工智能发展到什么程度了？

2017-11-30请点蓝字＞慎思行慎思行

个人微信 helloSSX

人工智能概念介绍

人工智能是什么？人工智能是一门利用计算机模拟人类智能行为科学的统称，它涵盖了训练计算机使其能够完成自主学习、判断、决策等人类行为的范畴。人工智能、机器学习、深度学习是我们经常听到的三个热词。关于三者的关系，简单来说：机器学习是实现人工智能的一种方法，深度学习是实现机器学习的一种技术。机器学习使计算机能够自动解析数据、从中学习，然后对真实世界中的事件做出决策和预测；深度学习是利用一系列“深层次”的神经网络模型来解决更复杂问题的技术。

人工智能从其应用范围上又可分为专用人工智能(ANI)与通用人工智能(AGI)。专用人工智能，即在某一个特定领域应用的人工智能，比如会下围棋并且也仅仅会下围棋的AlphaGo；通用人工智能是指具备知识技能迁移能力，可以快速学习，充分利用已掌握的技能来解决新问题、达到甚至超过人类智慧的人工智能。

通用人工智能是众多科幻作品中颠覆人类社会的人工智能形象，但在理论领域，通用人工智能算法还没有真正的突破，在可见的未来，通用人工智能既非人工智能讨论的主流，也还看不到其成为现实的技术路径。专用人工智能才是真正在这次人工智能浪潮中起到影响的主角。我们的讨论范围将聚焦在更具有现实应用意义的专用人工智能技术，具体讨论现有专用人工智能技术能带来的商业价值。

人工智能发展历史与现状

人工智能的发展历史

人工智能的概念形成于20世纪50年代，其发展阶段经历了三次大的浪潮。第一次是50-60年代注重逻辑推理的机器翻译时代；第二次是70-80年代依托知识积累构建模型的专家系统时代；这一次是2006年起开始的重视数据、自主学习的认知智能时代。在数据、算法和计算力条件成熟的条件下，本次浪潮中的人工智能开始真正解决问题，切实创造经济效果。

本次人工智能浪潮的驱动因素

近年来，人工智能应用领域市场规模、人工智能领域的资金投入都迅速增长，反映了社会与市场整体对其认知程度与信心的高涨。驱动认知程度提高的一方面因素是技术本身的提高，包括数据、算法、算力，使得人工智能技术真正为商业应用创造了价值；另一方面，大数据、物联网、云计算等技术为人工智能的发展打下了良好基础。

高质量、大规模的大数据成为可能。 1986—2007年，全球单日信息交换量增长了约220倍，全球信息储存能力增加了约120倍。海量数据为人工智能技术的发展提供了充足的原材料。

计算力提升突破瓶颈：以GPU为代表的新一代计算芯片提供了更强大的计算力，使得运算更快，同时在集群上实现的分布式计算帮助人工智能模型可以在更大的数据集上运行。

机器学习算法取得重大突破：以多层神经网络模型为基础的算法，使得机器学习算法在图像识别等领域的准确性取得了飞跃性的提高。

社会理解与接受程度广泛提升：随着社会信息化及互联网/移动互联网的普及，以及受AlphaGo等大量热点舆论事件影响，全社会对人工智能的态度已逐渐从怀疑、恐惧转变为好奇、接受和认同。

物联网、大数据、云计算技术提供了人工智能的发展基础

物联网、大数据、云计算技术为人工智能技术的发展提供了其所需要的关键要素。物联网为人工智能的感知层提供了基础设施环境，同时带来了多维度、及时全面的海量训练数据。大数据技术为输入数据在储存、清洗、整合方面做出了贡献，帮助提升了深度学习算法的性能。云计算的大规模并行和分布式计算能力带来了低成本、高效率的计算力，并降低了计算成本。

人工智能产业发展状况

技术方向方面

人工智能方向的企业目前主要分为两类：专注于技术研发的通用型人工智能企业，如DeepMind、 Facebook AI Research、Google Brain与Baidu AI等，以及专注于人工智能技术应用的专用型人工智能企业。通用型人工智能由于研发技术难度大，目前多由巨头互联网公司在进行布局，短期内没有明确的技术突破前景。专用型人工智能企业数量众多，但其发展仍然受制于需要人工标注的数据限制。

应用方向方面

从应用方向上来看，金融、医疗、汽车、零售等数据基础较好的行业方向应用场景目前相对成熟，相关方向企业的融资热度也较高。以自动驾驶领域为例，谷歌、网络、特斯拉、奥迪等科技和传统巨头纷纷加入；人工智能在金融领域的智能风控、智能投顾、市场预测、信用评级等领域都有了成功的应用；在医疗领域，人工智能算法被应用到新药研制，提供辅助诊疗、癌症检测等方面都有突破性进展，凡此种种，不一而足。

地域发展方面

纵观全球人工智能产业的发展，我们可以发现：全球领先的创新高点散落在各个国家，如美国纽约与硅谷、英国伦敦、以色列，以及中国的北京、上海与深圳。人工智能技术本身具有高流通、易传导的性质，在全球信息流通开放的大环境下，人工智能的发展不再受限于国家或地域。

借助于良好的人才基础、巨大的应用市场、强有力的风投基金支持，中国人工智能企业的发展势头良好，在全球处在优势领先地位。中国的人工智能企业数量、专利申请数量以及融资规模均仅次于美国，位列全球第二。在国内，计算机视觉、服务机器人、自然语言处理方向的人工智能企业占据了人工智能企业个数的一半以上。北京、上海、深圳作为国内人工智能创新的高地，其相关企业数量占据了国内企业总数的近80%。

人工智能未来发展的预测

我们认为，短期内构建大型的数据集将会是各企业与研究机构发展的重要方向。同时，机器学习技术会更注重迁移学习与小样本学习等方向，近期AlphaGo Zero在无监督模式下取得的惊人进步充分体现了此方向的热度。长期来看，通用型人工智能的发展将依赖于对人脑认知机制的科学研究，其发展前景目前尚处于无法预测的状态。

在商业应用方面，短期内，专用型人工智能将会在数据丰富的行业、应用场景成熟的业务前端(如营销、服务等)取得广泛的应用。长期来看，正如国际人工智能领域著名学者Michael 所说，人工智能技术将能在边际成本不递增的情况下将个性化服务普及到更多的消费者与企业，从细分行业的特定应用场景应用到更加普世化的情景。

编辑 Yibin.P