手机可跑 3.8B参数量超越GPT

作者： 2024年05月06日直播浏览

用微信扫码二维码

分享至好友和朋友圈

新智元报道

编辑：LRS

【新智元导读】 Scaling Laws再次失效？微软最新的phi-3-mini模型，只用3.8B模型就击败了一众7B老大哥，用iPhone14每秒可生成12个tokens！

过去几年，借助Scaling Laws的魔力，预训练的数据集不断增大，使得大模型的参数量也可以越做越大，从五年前的数十亿参数已经成长到今天的万亿级，在各个自然语言处理任务上的性能也越来越好。

但Scaling Laws的魔法只能施加在「固定」的数据源上，即模型如果能够以一种新的方式与数据进行交互的话，就能实现「小模型战胜大模型」的效果。

微软此前关于Phi系列模型的研究工作，已经证实了「基于LLM的web数据过滤」和「LLM合成数据」的结合，使得2.7B参数量的Phi-2可以匹敌25倍参数量大模型的性能。

最近，微软再次升级了Phi-3系列模型，最小尺寸的phi-3-mini（3.8B参数量）在更大、更干净的数据集（包含3.3T个tokens）上进行训练，在各大公开的学术基准和内部测试中，实现了与Mixtral 8x7B和GPT-3.5等大尺寸模型的性能。

论文链接：https://arxiv.org/pdf/2404.14219.pdf

相比上一代模型，phi-3还进一步调整了其稳健性、安全性和聊天格式，并且还提供了一些针对4.8T个tokens训练的7B（phi-3-small）和14B模型（phi-3-medium）的初步参数缩放结果，两者的能力都明显高于phi-3-mini

phi-3-mini的尺寸也足够小，可以部署在手机上离线使用。

小模型也有大实力

phi-3-mini的基础模型的参数量为3.8B，采用Transformer解码器架构，默认上下文长度为4K，加长版（phi-3-mini-128K）通过LongRope技术将上下文扩展至128K

为了更好地服务于开源社区，phi-3-mini在构建时借鉴了Llama-2模型的块结构，并使用了相同分词器，词表大小为32064，也就意味着「Llama-2系列模型相关的包」可以直接适配到phi-3-mini上。

模型参数设置上，隐藏层维度为3072、具有32个头、总共32层，使用bfloat16训练了3.3T个tokens

phi-3-mini还针对聊天进行了微调，使用的模板为：

此外，研究人员还推出了phi-3-small模型，参数量为7B，利用tiktoken分词器以实现更佳的多语言分词性能，词汇量为100352，默认上下文长度为8K；该模型遵循7B模型类别的标准解码器架构，总共有32个层和4096个隐藏层维度，为了最小化KV缓存占用，模型还采用了分组查询注意力机制，每4个query共享1个key

此外，phi-3-small交替使用稠密注意力和块稀疏注意力层，以进一步减少KV缓存占用量，同时保持长上下文的检索性能；该模型还额外使用了10%的多语言数据。

手机端的强大语言模型

得益于phi-3-mini小巧的体积，在量化到4bit的情况下，仅占用大约1.8GB的内存。

研究人员在iPhone 14（搭载A16 Bionic芯片）上部署了量化后的phi-3-mini模型，在完全离线运行的状态下，实现了每秒12个tokens的超高性能。

训练方法

模型的训练遵循「Textbooks Are All You Need」的工作序列，利用高质量的训练数据来提升小型语言模型的性能，同时突破了标准的规模法则（scaling-laws）：phi-3-mini仅用3.8B的总参数量，就能达到GPT-3.5或Mixtral等高性能模型的水平（Mixtral的总参数量为45B）。

模型的训练数据包括来自各种开放互联网源的经过严格筛选的网络数据，以及合成的LLM生成数据。

预训练分为两个不相交且连续的阶段：

第一阶段主要使用网络资源，主要目的是教导模型通用知识和语言理解的能力；

第二阶段结合了经过更严格筛选的网络数据（第一阶段使用的子集）和一些合成数据，教授模型逻辑推理和各种专业技能。

数据最优范围（Data Optimal Regime）

与以往在「计算最优范围」或「过度训练范围」训练语言模型的工作不同，研究人员主要关注在「特定规模下」的数据质量：通过校准训练数据，使其更接近小型模型的数据最优范围。

主要筛选网络数据以包含正确水平的「知识」能力，并保留更多可能提高模型「推理能力」的网页，例如英超联赛某一天的比赛结果可能对大模型来说算比较好的训练数据，但对phi-3-mini来说，则需要去除这类信息，以便为迷你尺寸模型的「推理」留出更多模型容量。

为了在更大尺寸的模型上验证数据质量，研究人员训练了一个14B尺寸的phi-3-medium模型，总共处理了4.8T个tokens（与phi-3-small相当），结果发现，某些性能指标从7B参数提升到14B参数时的改善，并没有从3.8B参数提升到7B参数时那么明显，可能意味着数据组合需要进一步优化，以便更好地适应14B参数模型的「数据最优状态」。

后处理

在phi-3-mini的训练后处理中，主要包括两个阶段：

1. 有监督微调（SFT）

SFT使用了经过精心策划的、跨多个不同领域的高质量数据，包括数学、编程、逻辑推理、对话、模型特性和安全性等，在训练初期只使用英语的样本。

2. 直接偏好优化（DPO）

DPO的数据则包括了聊天格式的数据、逻辑推理任务，以及负责任的人工智能（RAI）相关的工作。

研究人员利用DPO引导模型避免不良行为，主要方法是将这些不希望出现的结果标记为「拒绝」。

除了在数学、编程、逻辑推理、鲁棒性和安全性方面的提升外，训练后处理还使得语言模型转变成了一个用户可以高效且安全地进行交互的AI助手。

在长上下文版本phi-3-mini-128K中，首先是在模型训练的中期引入长上下文，然后在训练后处理阶段，同时使用SFT和DPO，进行长-短上下文混合的训练。

学术基准性能

研究人员在一系列公开基准测试中，对比了phi-2、Mistral-7b-v0.1、Mixtral-8x7b、Gemma 7B、Llama-3-instruct8b和GPT-3.5模型的常识推理、逻辑推理能力。

从结果来看，phi-3-mini模型以3.8b的体量超越了一众7B, 8B模型，甚至Mixtral(8*7b)都败下阵来，和GPT-3.5各有胜负，算是打了个平手。

同尺寸下，7b尺寸的Phi-3-small性能提升相当明显。

目前，评估语言模型的标准方法是使用少量样本提示（few-shot prompts），模型都是在温度设置为0的情况下进行评估。

安全性

Phi-3-mini的构建严格遵守了微软的负责任人工智能（AI）准则，整个开发过程囊括了在模型训练后进行安全对齐、通过红队策略进行测试、以及自动化的评估，覆盖了众多与负责任AI相关的潜在风险类别。

模型的训练过程中用到了一些提升模型有用性和无害性的数据集，其中部分基于先前研究的启发进行了调整，并结合了多个由微软内部生成的数据集，以针对训练后的安全处理中的负责任AI风险类别进行优化。

微软内部的独立红队对phi-3-mini进行了细致的审查，旨在训练后的阶段识别出进一步改进的空间；研究团队根据红队的反馈，精心挑选并创建了额外的数据集以解决问题，显著降低了模型生成有害回复的频率。

在内部进行的负责任AI基准测试中，与phi-2、Mistral-7b-v0.1、Gemma 7b和Llama-3-instruct-8b等模型相比，phi-3-mini-4k和phi-3-mini-128k展现出了更好的性能。

测试过程中，使用GPT-4来模拟五种不同类别的多轮对话，并以此来评估模型的回复。

测试中的「无根据性」（ungroundedness）评分从0（fully grounded）到4（not grounded），用来衡量模型回应的信息是否与给定的提示相关。

在其他风险类别中，模型的回应根据其有害性的严重程度被评分，范围从0（无伤害）到7（极度伤害）；缺陷率（DR-x）通过计算得分等于或超过x严重度的样本比例来得出。

Phi-3-mini的缺陷

在大型语言模型的能力方面，phi-3-mini虽然在语言理解力和推理能力上与更大型的模型旗鼓相当，但由于其规模的限制，在处理某些特定任务时仍然存在一些固有的局限性。

简单来说，这个模型并没有足够的内存空间去存储海量的事实性知识，在一些需要大量背景知识的任务上表现得尤为明显，比如在TriviaQA问答任务中的表现就不够好，但这个问题可以通过与搜索引擎的结合使用来解决。

左：无搜索；右：有搜索

模型的容量限制还体现在将语言限制为英语，对于小型语言模型来说，探索其多语言能力是未来一个重要的发展方向，通过增加多语言数据，目前已经取得了一些初步的积极结果。

此外，研究人员表示，虽然花了很大的努力让模型遵循负责任人工智能（RAI）的原则，但和其他大多数大型语言模型一样，phi-3-mini在处理事实性错误（幻觉）、偏见的再现或放大、不当内容生成以及安全问题等方面仍然存在挑战。

通过使用精心策划的训练数据、针对性的后期训练调整，以及吸纳红队测试的反馈，已经在很大程度上缓解了这些问题，但要完全克服这些难题，仍然有很长的路要走，需要进行更多的研究和改进。

参考资料：

https://arxiv.org/pdf/2404.14219.pdf

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

网易跟贴

注册手机发跟贴登录并发贴

网友评论仅供其表达个人看法，并不表明网易立场。

人工智能的用处人工智能应用之灵魂永生，可以进行长达1亿年时间跨度的星系群之间的飞行生产制造灵敏杀人，样样优智能助手：像天猫精灵，小胖机器人，文心一言。现在是初级，以后会更强大更智能设计：像chatGPT会写代码，会画画。如果输入参数，那房屋室内设计，船舶设计，飞机设计也没问题。模拟：核弹爆炸模拟，天气模拟，模拟细胞分裂，怎么从一个细胞长成一个身体。自动驾驶：汽车自动驾驶武器：更智能，更高效。导弹，导弹防御系统，大无人机扔导弹，小无人机扔手榴弹，战斗机，机器人，等武器越来越智能流水线：更智能。更高效。天网工程：一个人脸识别，一个车牌识别，就能搞出天网工程超级大脑的建立，解决各种生活问题全智能化时代的到来，

对灵魂的窥探意识的本质就是自我时时好坏感知，然后趋利避害，人判断好坏的依据就是感受。如：好的感受，就像打了鸡血，人很爽。坏的感受，就像累，苦，饿，的感受。感受好，那趋利避害。感受不好，那趋利避害。感受就是系统释放的好坏信号加好坏的原因意识的自主性小的时候靠本能行事，听系统的话行事，成长初期本能（系统）是你的军师，遇事系统告诉你好坏及缘由，加激素赏罚，如：多巴胺。但有认知后，靠想法行事，靠认知行事，靠意志行事，系统说的好坏只是警报，只是好坏信号。信息对错辨别动机判断，诚恳的，那对。眼见为实的，那对。符合经验，符合逻辑的那对。大家多怎么说，那对。说的有理有据的有详细，那对。验证过的教材，那对预设好坏逻辑，带来了什么可以让社会向好的发展（好的维度分很多种，如时间空间数量大小美丑智笨爱善恶情感利己利国）时间就是速率，快的那是好的。美就是一种智慧的体现（如花瓶，跑车：符合空气动力学）。利国，对国好的就是好的。好，多是有特征的，给机器设置好坏判断，就有了创造和理解的能力本能就是先天会的，脑子先天就有预设这方面的知识和逻辑。对大脑的一点理解左脑因果逻辑，右脑3D感知因万事万物多有他的因果逻辑。因果可分为：以自己想法为目的的因果判断，本能上的因果反应，事件因果的判断，属性的因果判断，时间上的因果关系。搜索经验并关联撮合（联想），符合因果，那判断对。思考：因果关系经历多，就能进行因果思考。物体远动见多了，就能回忆进行想象因为一个因果逻辑，一个3D感知，就能对这宇宙产生认知。一个逻辑想象，一个三维想象就能产生创造设置以上逻辑，机器人不光有了人的心，也有了人的智。自我与国家设置自我好坏判断，加趋利避害，就有自我意识跟行为。设置国家好坏判断，加趋利避害，机器就有国家意识和行为。影响蒸汽机，产生了智能（连续动力），数控（设计程序，可以作业全自动），通用人工智能，让一切设备拥有了智能。一个意念它就能帮你实现任务。创造当机器了解了各种好的原理（不同维度的好），了解了各事物的因果逻辑，了解了各事物的运动规律，就能模拟，就能设计，就能预判，就能举一反三应用到各事物中。就会创造出大批量美的，智慧的，高效的，方便的，新鲜的，温馨的，贴心，前瞻，刺激，的作品出来。

目前没有跟贴，欢迎你发表观点

AI围剿创意产业！1/3翻译和1/4插画师或将失业

返回网易首页下载网易新闻客户端

小米宣布在手机跑通 13 亿参数大模型，这意味着什么？如何理解其技术水平？

最近，小米宣布他们的手机成功运行了一个拥有13亿参数的大型模型。这个消息引起了广泛的关注，因为它意味着小米在人工智能领域的技术水平达到了令人瞩目的高度。首先，我们需要理解什么是参数和模型。在人工智能中，模型是用来进行特定任务的算法。参数是模型的核心部分，它们用来调整模型的行，使其能够更好地适应特定的问题。一个模型的参数越多，它的能力就越强大，可以处理更复杂的任务。那么，为什么小米能够跑通一个有13亿参数的大型模型是令人瞩目的呢？这主要是基于以下几个方面来理解其技术水平：首先，13亿参数的大型模型需要具备强大的计算能力来处理。计算能力是指处理大量数据和运算的能力。要跑通一个如此庞大的模型，需要稳定的高性能计算平台。小米之所以能够成功运行这个大型模型，表明他们拥有先进的计算设备和庞大的计算资源。其次，13亿参数的模型需要有良好的数据处理能力。这意味着小米具备高效的数据存储、读取和处理技术，能够快速地对大量的数据进行操作。这不仅包括存储和读取速度，还包括对数据进行预处理和清洗的能力，以便模型能够准确地对数据进行学习和推理。此外，13亿参数的大型模型还需要具备强大的学习能力和推理能力。学习能力是指模型通过使用数据进行训练，不断调整参数来提高自己的性能。推理能力是指模型可以根据已学习到的知识对新的数据进行预测和决策。小米能够跑通这样一个大型模型，说明他们在模型设计和算法优化方面具备了深厚的技术实力。最后，这个消息也反映了小米在人工智能领域的投入和研发实力。人工智能是当前科技领域的热门方向，拥有强大的人工智能技术意味着在手机和其他设备中可以集成更多智能化的功能，为用户提供更好的体验。小米投资于13亿参数大模型的研发，表明他们对人工智能的重视，并将其作为未来发展的重要方向。综上所述，小米成功跑通一个13亿参数的大型模型表明了他们在人工智能领域的技术水平。这需要强大的计算能力、高效的数据处理能力、优秀的学习和推理能力，以及对人工智能的持续投入和研发实力。通过这一成就，我们可以看出小米在智能手机和其他设备中将引领更先进的人工智能技术应用。

三星B3210的基本参数

上市日期：2011年01月手机类型：3G手机外观设计：直板主屏尺寸：2英寸主屏材质：TFT主屏分辨率：160x128像素主屏色彩：26万色网络类型：单卡双模网络模式：GSM，WCDMA数据业务：GPRS，EDGE，HSDPA支持频段：2G：GSM 850/900/1800/G：WCDMA 900/2100MHz理论速率：HSDPA：3.6Mbps可用空间：36MB存储卡：MicroSD卡扩展容量：8GB电池容量：800mAh键盘类型：T9传统键盘机身颜色：黑色手机尺寸：112.8x46.4x12.9mm手机重量：79.3g基本功能输入法：拼音中文输入法，笔划中文输入法，T9输入法输入方式：键盘通话记录：已接+已拨+未接电话通讯录：1000组短信(SMS)：支持（500条）彩信(MMS) 免提通话情景模式待机图片主题菜单来电铃声识别来电图片识别日历功能闹钟功能计算器单位换算拍照功能摄像头：内置摄像头类型：单摄像头摄像头像素：30万像素图像尺寸：最大支持640×480像素照片拍摄视频拍摄：支持其它功能：白平衡娱乐功能视频播放：支持MPEG4/H.263/H.264等格式音频播放：支持MP3/AAC/AAC+/eAAC+/AMR/MIDI/SP-MIDI/i-melody/WAV等格式铃音描述：64和弦，支持MP3等格式图形格式：支持JPEG等格式游戏：内置Java扩展：支持Java MIDP 2.0SNS支持：支持人人网，开心网等即时通讯：支持QQ等收音机数据功能蓝牙传输：支持蓝牙2.1WAP浏览器：WAP 1.2.1WWW浏览器：支持UCWEB浏览器数据接口：USB v2.0商务功能世界时间日程表

手机如何安装gpt4

首先，要下载并安装GPT-4的安卓应用程序。其次安装完成后，打开应用并输入想要生成的文本内容。 GPT-4会自动分析输入的内容并生成类似的文本。最后用户可以选择不同的主题或语言风格来生成不同的文本。此外，GPT-4还提供了自定义参数的选项，用户可以根据自己的需要进行设置。使用GPT-4需要一定的技术能力和理解能力，因此初次使用时可能需要花费一些时间来熟悉其操作。