Siri这回要变厉害了论文一窥苹果AI大计

作者： 2024年05月07日直播浏览

5月7日消息，尽管外界普遍认为苹果在AI领域的动作较慢，实际上，苹果一直在悄然筹备，并等待合适时机发力。

通过分析研究论文，美媒可以看出苹果的AI策略逐渐明朗化。苹果正致力于优化AI模型，使之更加精简和高效。通过在设备上直接处理数据并改进存储方式，苹果已显著加快了处理速度并提高了模型效率。此外，苹果还开发了名为EELBERT的系统，该系统能显著减小模型的体积，同时尽量保持性能尽量不受影响。

在提升用户体验方面，苹果特别关注如何改进，使其更智能地处理语音指令和查询。研究团队正在开发一种新技术，使Siri无需唤醒词即可激活，同时优化对模糊查询的处理。

此外苹果也意识到了AI在健康监测、创意设计和音乐编辑等多个领域的应用潜力。

苹果最雄心勃勃的AI项目之一则是多模态大语言模型Ferret。它能够根据用户的指令专注并理解指定的对象及其周围环境。Ferret的潜力不止于此，它甚至能解析屏幕上的内容。这一技术可能彻底改变人们使用智能手机和Vision Pro的方式。

以下是翻译内容：

在人工智能领域的竞争中，常有人误以为苹果起步较晚。自2022年底ChatGPT风靡全球以来，多数竞争对手都在加速追赶。虽然苹果偶尔参与讨论人工智能，并推出一些相关技术的产品，但外界普遍感觉苹果似乎仅是试探，而非全力以赴。

然而，近几个月的传闻和报道揭示了苹果的战略布局。实际上，苹果一直在等待合适的时机。最近几周有消息称，苹果正在与OpenAI和谷歌等巨头探讨合作，旨在增强其人工智能功能，并积极开发自己的人工智能模型，名为Ajax。

通过仔细研读苹果发布的人工智能研究论文，可以感知到该公司的AI策略日渐成型。当然，我们应认识到，从研究到产品的转化是一个复杂且充满不确定性的过程。但随着苹果预计在今年六月的全球开发者大会（WWDC）上展示其人工智能技术，我们将至少能一窥这家科技巨头的远大蓝图，以及其如何将这些技术融入日常生活。

更小、更高效的模型

我们共同期待的无疑是更优秀的Siri体验！更出色的Siri即将到来！苹果和全球科技界的许多研究都基于同一个前提：大语言模型（LLM）将立即提升虚拟助手的智能。对苹果来说，提升Siri意味着必须迅速部署这些模型，并确保它们普遍可用以便为用户提供服务。

最新报道指出，在iOS 18中，苹果计划让所有人工智能功能都能在设备上完全离线运行。即便拥有庞大的数据中心网络和数千个顶尖GPU，构建一个功能全面且出色的模型也并非易事，而在智能手机这样有限的空间内实现这一目标，更是难上加难。因此，苹果需要展示其非凡的创新能力。

在一篇名为《闪存中的LLM：有限内存下的高效大语言模型推理》（LLM in a flash: Efficient Large Language Model Inference with Limited Memory）的论文中，研究人员设计了一种创新系统来存储模型数据。这种系统将数据主要存储在设备的SSD而非RAM上。

研究人员写道：“我们已证明能够在SSD上运行的LLM大小是可用DRAM的两倍，推理速度在CPU上提高了4到5倍，在GPU上提升了20到25倍。”他们发现，通过巧妙利用设备上最便宜且易于获得的存储空间，可以使模型运行得更快更高效。

此外，苹果研究人员还开发了一个名为EELBERT的系统，该系统能够将大语言模型压缩到更小的尺寸，同时基本保持其性能不受影响。他们在谷歌BERT模型上的测试成功将数据压缩到原来的1/15，即只有1.2兆字节，且质量仅下降了4%。然而，这种压缩确实带来了一些延迟上的妥协。

总体而言，苹果正在努力解决模型世界中的一个核心矛盾：模型越大，其性能越好，但同时也变得更复杂、更耗电，运行速度更慢。与许多其他公司一样，苹果也在寻找在这些方面达到最佳平衡的方法，并探索实现这一目标的最有效途径。

Siri将变得足够好？

在探讨人工智能产品时，虚拟助手的功能常常成为焦点——它们能获取信息、提醒事项、解答疑问，甚至代替我们完成任务。因此，苹果的许多人工智能研究专注于一个核心问题：如何将Siri提升至完美水平？

苹果研发团队正在探索一种无需唤醒词即可激活Siri的新方法。想象一下，无需再说“嘿Siri”或“Siri”，设备就能直觉地感知到你是否在与它对话。研究人员承认：“这一挑战比简单的语音触发检测要复杂得多，因为缺少了标志语音命令开始的明确触发短语。”为了解决这一问题，另一组研究人员致力于开发更精确的唤醒词检测系统。另一项研究中，他们训练了一个模型，以更好地理解那些通常难以被虚拟助手理解的罕见词汇。

大语言模型的优势在于其理论上能更快地处理大量信息。例如，在唤醒词研究中，研究人员发现，不是刻意排除所有不必要的声音，而是将所有声音都输入模型，让模型自己判断哪些是重要的，这样做可以显著提高唤醒词的识别率。

一旦Siri捕获到用户的声音，苹果便竭尽全力确保其能更好地理解并进行交流。其中一个创新是名为STEER的系统，该系统通过判断用户是在提出后续问题还是新问题，来改善与虚拟助手的交互。

另一个研究利用大语言模型处理“模糊查询”，使得无论用户如何表达，系统都能准确理解其意图。研究人员指出：“在不确定情况下，智能对话代理可能需要主动提问，以减少不确定性，从而更有效地解决问题。”还有一项研究致力于使生成的回答更加简洁明了，研究人员利用大语言模型优化了虚拟助手的语言表达。

AI在健康、创作以及音乐领域的应用

每当苹果公开讨论人工智能时，其焦点总是如何让这项技术改善日常生活，而非仅仅展示其技术力量。因此，尽管Siri得到了广泛关注，特别是苹果正试图与如Humane AI Pin、Rabbit R1这样的设备竞争，同时谷歌也在将Gemini集成到所有安卓系统中，苹果显然看到了人工智能在多个领域的巨大潜力。

在苹果关注的诸多领域中，健康领域尤其重要。理论上，大语言模型能帮助我们分析从各种设备收集的海量生物识别数据，并理解这些数据的深层含义。因此，苹果一直在积极探索如何收集并整合用户的运动数据，如何利用步态识别和耳机识别用户身份，以及如何追踪和解读心率数据。为推进这一领域的研究，苹果还创建并发布了名为“最大的基于多设备多位置传感器的人类活动数据集”，收集了50名参与者的详细生物传感数据。

苹果还视人工智能为创新工具。在一项研究中，研究人员与动画师、设计师和工程师进行了深入交流，开发了名为Keyframer的系统。此系统允许用户迭代地构建和完善设计。与传统图像生成不同，Keyframer并非仅仅依赖输入提示符来生成图像，而是提供了一个工具箱，用户可以根据个人喜好调整和完善图像的各个部分。这一系统可广泛应用于从Memoji个性化设计到苹果更专业的艺术工具等多个领域。

另一项研究描述了一个名为MGIE的工具，该工具允许用户通过描述修改意图来直接编辑图像，如“让天空更蓝”、“让我的脸看起来不那么奇怪”或“添加一些石头”，MGIE能将这些指令转化为明确的视觉意图，并实现合理的图像编辑。尽管初期实验并非完美无缺，但其潜力已经显现。

在Apple Music中，人工智能的应用同样值得关注。一篇名为《资源受限的立体声唱歌声音消除》（Resource-constrained Stereo Singing Voice Cancellation）的论文探讨了如何将歌曲中的人声与乐器声分离的技术，这一技术如果被苹果采用，将为喜欢混音的TikTok或Instagram用户提供强大的工具。

苹果硬件与AI相结合

本文作者敢断言，随着时间的推移，苹果将越来越多地将人工智能技术融入其产品和服务，特别是在iOS平台上。苹果不仅将在其自家应用程序中集成这些功能，还计划通过API向第三方开发者开放。苹果一直自豪于其硬件性能，尤其是相比普通安卓设备。将强大的硬件与注重隐私的人工智能结合使用，无疑将为苹果在市场竞争中带来显著优势。

然而，谈到苹果最大、最具野心的人工智能项目，不得不提Ferret。Ferret是一个多模态大语言模型，可以根据用户的指令，专注并理解用户指定的对象及其周围环境。这项技术是为了应对当前常见的AI场景而设计的，即向设备询问周围的世界信息。

但Ferret的潜能不仅限于此，它还能解析并理解屏幕上的内容。在Ferret的相关论文中，研究人员展示了它如何帮助用户导航应用程序，回答关于App Store评分的问题，以及描述他们所看到的内容等。这对提高可访问性有深远的意义，也可能彻底改变人们使用手机、Vision Pro和智能眼镜的方式。

虽然我们对这些技术的设想可能看起来颇为超前，但想象一下，这些技术如何与苹果正在开发的其他产品相结合：一个能够理解你需求的Siri，配合一个能看见并理解屏幕上所有内容的设备，将真正实现手机的自我操作。苹果不需要对所有产品进行深度整合，只需运行相应的应用程序并自动点击正确的按钮即可。

必须指出，这一切目前还只是处于研究阶段。如果从今年春天开始，这些技术能够顺利运行并应用到实际产品中，那将是一项前所未有的技术成就。我们预计在今年的WWDC上，将见证苹果在人工智能领域的重大公告。

苹果CEO蒂姆·库克（Tim Cook）在2月份已经透露了这方面的信息，并在本周的财报电话会议上基本确认了这一点。有两件事已经很清楚：苹果在AI竞赛中处于激烈的竞争状态，这些技术可能会彻底改变iPhone。想象一下，将来你甚至可能愿意频繁使用Siri，这将是苹果在AI领域取得的重大成就。（小小）

Siri被曝采集私人敏感录音共享给第三方苹果回应

网络配图

如果你是苹果手机的用户，或是对苹果手机有所了解，那一定知道名为“Siri”的智能语音助理程序。

近日有人向英国《卫报》爆料称，苹果公司的承包商会定期采集来自世界各地的Siri录音，以作为对该程序“质量控制或评级工作”的一部分。这些录音中包含了许多隐私内容，如机密医疗信息、毒品交易甚至性行为等。

《卫报》在7月26日报道中指出，苹果公司将一小部分Siri录音分发给了全球范围内的承包商，以评估Siri当时的反应是否“合情合理”。然而，在提供给消费者的隐私文档中，苹果公司只说收集这些录音数据是为了“促进Siri的听力和理解能力”，却没有明确提及这一工作是交由人去处理的。

举报者自称是与此业务有关的员工，并以“职业前途”为由要求匿名。他对苹果公司在此事上的遮掩表示忧虑，并担心Siri会在某些“意外激活”的情景下泄露个人隐私。

很多苹果手机用户都遇到过Siri程序莫名其妙自行启动的情况，这通常是由于该程序错以为自己听到了“嘿，Siri”（该程序启动语）的声音。

2018年7月，当英国国防大臣加文·威廉姆森（Gavin Williamson）在下议院发表有关叙利亚局势的讲话时，他的苹果手机就意外启动了Siri程序。当时《独立报》称，Siri程序可能把威廉姆森说的“叙利亚”（Syria）听成了“Hi，Siri”。

举报者称，除了上述情况以外，Siri程序还经常被拉链的声音，或是苹果智能手表（Apple Watch）中的“抬腕唤醒Siri”功能错误激活。

他说：“ 我们收到过无数类似录音，内容包括医患私人交谈、商业交易、疑似犯罪交易乃至性行为等等。而且除了声音以外，这些录音文件的信息中还包括录音地点、联系方式和应用数据。”

《卫报》就此事询问了苹果公司，后者虽然承认“一小部分对Siri的提问会被分析，以改善该程序的听写能力”，但坚称评估者看不到与录音相关的用户账号与名字，且他们“都必须遵守苹果严格的保密要求”。

该公司还表示，这部分数据占日常激活量的比例不到1%，而且录音长度只有 “象征性的几秒钟” 。

但举报人说：“苹果公司正在将这些业务中相当大的一部分转包出去……那里的人似乎并未受到关于‘保护个人隐私’方面的鼓励。如果他们之中有人存在邪恶的意图，那么识别录音中的人并不是件难事。”

苹果并不是唯一一家对旗下智能语音助手进行人工监督的公司。

亚马逊的Alexa、谷歌的Google Home等智能设备都曾被爆出有人工听取用户录音的情况，并且这些员工同样听到了意外激活情况下的隐私录音。

《卫报》：报告称亚马逊员工听取了用户的Alexa录音。

《卫报》：谷歌员工能够听到人们对他们的AI家用设备说的话。

不过，《卫报》指出，亚马逊和谷歌的设备均允许用户选择不提供它们的录音，但苹果只能通过完全禁用Siri的方式来做到这一点。

有哪些人工智能的预测变成了现实?

现在实现的人工智能我觉得最大的就是语音智能系统，不论是手机中的语音智能，还是汽车上的人工智能智能，已经完全可以识别我们的声音去自己操控一下功能，这个技术在这几年已经特别的成熟了，感谢人工智能让我们的生活发生了翻天覆地的改变，随着科技的发展，人工智能会变得越来越聪明，我觉得以后会不仅仅通过声音，可能会通过意识或者一个眼神就可以实现人工智能。

“嘿siri”让我们的生活有哪些改变？

1.消除重复任务Siri 等智能语音助手出现最大的好处之一就是消除重复性的任务，Siri 有时候可以通过调度帮助我们解放更多的时间。 2、更深入的个性化现在它已经在某种程度上证明了这种可能性，AI 在未来，肯定会更深入去了解每一个不同的用户。 3、节省时间毫无疑问，Siri 在收集数据上的动作要比我们快，我们只需要告诉它，让它帮我们查询东西即可（当然它还需要更准确和更智能）。 4、更少去接触屏幕Siri 已经是一个可靠的个人助理了，我们可以直接通过它设置闹钟，发送文本等等，所以，它会让我们与屏幕接触更少。 5、让软件与人开展团队合作人类已经开始将软件作为一种工具，或许以后，软件将可以执行一些基本的任何，无需人为干预。 6、自动化更多的任务Siri 等最大的优势或许就是让任务自动化，这将会让员工们专注于战略计划。 7、个个性化医学，医生们无需采用一刀切的方法，他们完全可以根据个人情况去定制治疗方案，同时根据病人的病史制定正确的治疗方案。 8、生产率明显的提升Siri 还不用面对普通人需要面对的一些难题，所以它最终会带来生产率方面的提升。 9、提高生活质量，以后，我们将有更好的医疗保健，更有效的能源使用，更合理的食物生产能力，而且 AI 还会协助我们工作。 10、总有一天，大多数人不再需要工作不过这样的场景还是出现在科幻电影里比较好，我们可以接受与 Siri 一起工作11、帮助更多的社区。 AI 很明显对自动驾驶汽车、商业、游戏至关重要，而且它们已经准备在医学和人类行为中产生更大的影响。 12、家庭自动化。 Siri 其实已经准备好作为我们智能家庭的核心了，而且，不少人认为，基于人工智能的家庭自动化，会在不久的将来实现。 13、合理的时间和资源分配。很多人现在每天都需要一些时间去安排一天的行程，也许以后，帮助你安排各种行程的将会 Siri 等语音助手。虽然这不会为企业带来多大的贡献，也不会让企业取得很大进步，不过这最终会让不少公司节约出时间和精力，然后将这些时间和资源放到提高客户体验上。至于 Siri 还是其他的智能语音助手，能成为这个领域的佼佼者，或许未来这几年是一个非常关键的时期，我们也很期待这些智能语音助手能“腾飞”。