对话清华刘知远 Law已被OpenAI验证 Scaling 知识密度将是未来的核心

出品 | 搜狐科技

作者 | 梁昌均

“我觉得我们现在太着急了,谈应用可能还有点太早。”在6月14日下午的智源大会的一个论坛上,清华大学长聘副教授、面壁智能首席科学家刘知远对搜狐科技强调到。

他是此次智源大会一个论坛的主席,在其它嘉宾讨论期间,他来到会议室外,跟搜狐科技等两家媒体站着聊了半个多小时,语速飞快,神态颇显兴奋,他的同事评价他“这两天特别嗨”。

这也是面壁智能被斯坦福AI团队抄袭事件刚过去不久,作为联创的刘知远,首次公开露面,看起来心情不错。他长期从事知识图谱与语义计算等方面的研究,在基础大模型技术前沿探索上取得多项成果,并和他的学生曾国洋一起创立了端侧大模型公司面壁智能。

他认为,今年大模型行业更关注落地,更关注成本和效率。但在对话中,他至少有七次表示大模型应用“不要着急”。“从技术的成熟,到真正有所谓的超级应用或Killer APP,还是需要几年时间的探索。”

对于是做C端还是B端,业内争议不断。刘知远认为,AGI未来愿景跟2000年左右互联网产生的影响力相当,甚至是有过之而无不及。但现在讨论ToC、ToB谁优谁劣,没有意义。

他认为,通用人工智能的影响一定是全方位和颠覆式的,B端C端都有非常大的机会,所以不要着急。而在这个过程中,创业公司最大的优势在于创新,包括商业模式和技术创新。

“我觉得拥有数据,拥有场景的公司,包括拥有数据的大厂反而都会焦虑。如果不能够把自己的数据、知识转化为智能,那自然会有人颠覆它。”刘知远说。

对于目前大模型落地难、落地慢的原因,刘知远认为,这需要有一个跟用户需求契合的过程。“很多时候需求是被创造出来,就像抖音,是挖掘激活了人性。”

谈及目前业内频繁被讨论的Scaling Law,刘知远提到,OpenAI验证了这个规律,接下来就是要高质量地去实现它。

但如何高质量地做这件事?需要什么样的数据、模型架构、学习过程?他认为,还没有形成共识。“数据驱动的方向大致确定,但技术路线还远远没有被收敛,还是在高速演进。”

“未来大模型面临着如何把更多的知识放到更小的参数里,这是主战场或主命题。Scaling Law固然是一个很重要的趋势,但我们要做的是科学化地找到最优成长的曲线。”刘知远称。

在他看来,端侧大模型就是一条非常有前景的路径。“我们的目标是要找到大模型的摩尔定律,提出了一个叫知识密度的概念。总结出来的规律就是,每八个月大模型的知识密度增加一倍,比摩尔定律还快。”

他表示,这在未来能否持续下去,还有许多需要去极致优化的方向。“如果现在就是这种低水平的模型,去打价格战,完全不看是不是比人家好,那大炼钢铁也都是废铜烂铁,没有用。”

随着苹果等布局,端侧模型越发受到国内外关注,刘知远也非常看好。“我觉得一定会有属于AGI的智能终端,它还会是手机的形态吗?稍微激进来看,我觉得一定不是。”

不过,目前在端侧设备上的AI功能颇有些同质化的趋势。对此,刘知远认为,这本质是低水平导致,一方面受限于算力,另外技术上可能还不ready,比如应该要有端云协同。

他表示,这也可能是固化的思维范式导致。“AGI本身意味着我们要新,可能是新的终端、新的模型、新的做法、新的思想。这就是我们的机会,如去做机器人,做具身智能。”

他提到,现在想出来创业的学生比之前的十年还要多。“这就是当年2000年互联网的时候,会在未来的五年、十年,充满了无限的可能。”

以下为对话精编:

Q:今年国内大模型行业最大的变化是什么?怎么看大模型目前的应用情况?

刘知远:我觉得比去年更加关注大模型得落地,落地就得关注成本和效率,关注质量到底怎么样。但我觉得现在谈应用可能还有点太早,从技术的成熟,到真正的超级应用或Killer APP,本身还是需要几年时间的探索。现在我们有点太着急了,觉得说看到了大模型技术,马上就要找到应用,我觉得它的潜力还远远没有被挖掘出来。

Q:做B端还是C端好像大家也有不同看法,C端一条路径是在原有产品加上AI功能,比如苹果,还有一种就是所谓的原生应用,您看好哪条?

刘知远:我觉得AGI激活了人类的知识,原来都是替代的是体力劳动,现在替代的是脑力劳动,这显然是人工智能一次非常大的变革。

通用人工智能未来的愿景跟2000年左右整个互联网产生的影响力相当,甚至是有过之而无不及。整个互联网对人类生活方方面面的影响,难道仅仅是说用ToC、ToB可以涵盖的吗?我特别不愿意去讨论ToCToB谁优谁劣,没有意义。互联网To c好做吗?不见得,ToB也是。

通用人工智能是比互联网可能都要更宏大的一次技术变革,它产生的影响一定是全方位和颠覆式的。B端C端,都有非常大的机会,所以没有必要那么着急。

Q:您观察到行业里最着急或焦虑的是哪部分群体?

刘知远:现在这条技术路线,是数据驱动,要从有数据变成有智能,要从数据里面去学智能。所以我觉得拥有数据,拥有场景的公司,包括大厂反而也会焦虑。如果不能够把自己的数据、知识转化为智能,那自然会有人颠覆他,第二名如果把这个技术用上,那么就可能弯道超车,这就是为什么大厂都积极拥抱大模型。

Q:您怎么看B端的落地路线,微调和垂类模型怎么选?

刘知远:大模型找到了一种从数据到知识的学习或萃取的通用方式,大模型在任何一个领域能发挥作用,一定说这个领域的知识有价值。到底是采用微调,还要用行业大模型,其实只是术层面的事儿,道层面还是知识,要判断知识的重要性,然后如何充分大模型的技术,这需要一个过程。

这个过程需要大模型的科技工作者和行业专家,能够达成共识,实现双向奔赴。这些行业的知识存在于相关领域的数据中,也存在于这些领域的专家头脑里面,需要大家一起来做。很多领域都要做自己的大模型,但实际上我看到还没有真正做好这个准备,比如数据,相关专家的动员等,从今年开始应该要在这些方面加强。

Q:您说不要着急,但创业公司可能会有资金等压力,您觉得创业公司出路在哪?

刘知远:我觉得所有的创业公司,一定是找到了一些大公司做不了的事情。如果大公司能做的很好,那就没有机会。

大公司的机制很难创新,上下很难形成一个非常好的内部协同。不管是商业模式的创新,还是技术的创新,创业公司最大的优势一定是创新。这些新的东西大公司想做,可能也很难能调动起足够多的力量,然后很有执行力地去做。

Q:业内很关心成本问题,您觉得目前大模型落地难、落地慢,成本是主要的障碍吗?

刘知远:我觉得是很多方面的因素,第一就不能太焦虑,不能太着急,还得去跟用户的需求做契合。很多时候所谓的超级APP或者Killer App,需求是被创造出来,比如抖音,这个需求是被创造出来的,是挖掘激活了人性。技术做了足够大的扩散,自然就会有产品,然后找到超级应用,这是一个产生化学反应的过程,没有必要那么着急。

Q:Scaling Law成为业内谈论热点,但大家分歧也比较多,您怎么看?

刘知远:很多人会把这个看成是一个比较简单的现象,或一个规律,模型越大效果就会越好,OpenAI验证了这一点。在我来看,OpenAI已经把Scaling Law展示给大家,接下来我们的命题是什么呢?其实就是要高质量的去实现它。

但如何做呢?到底需要什么样的数据,模型架构,学习过程,整个这个事儿大家还没有形成共识。最近这两年的发展,告诉我们,数据驱动的方向已经大致确定,但是技术路线还远远没有被收敛,还是在高速演进。

比如模型架构Transformer够不够?肯定不够,因为它本身非常低效、特别耗算力;比如数据如何去治理,学习的过程到底如何组织模型,参数如何设置,都还需要解决。

未来的大模型面临着如何把更多的知识放到更小的参数里,这是未来的主战场或是主命题。Scaling Law固然是一个很重要的趋势,但是我们要做的是科学化地找到最优成长的曲线。

Q:我们现在在这条成长曲线上找得怎么样?

刘知远:芯片领域有所谓的摩尔定律,摩尔提出来之后,整个半导体领域所有的从业者,都在为了这件事儿来去努力,今天还在持续。大模型能不能做这件事儿呢?我们给自己设定的目标就是要找到大模型的摩尔定律,提出了一个叫知识密度的概念。

2020年1750亿参数的GPT-3的模型的能力,我们现在用2.4B的模型就可以做到。这四年我们把知识密度做了数量级的提升,总结出来的规律就是,每八个月大模型的知识密度增加一倍,比摩尔定律要快。

未来有没有可能持续下去,应该要在行业达成共识,从架构、数据、训练方法等方面一起来努力,还有非常多需要去极致优化的方向。所以要高质量的发展,不然就卡脖子。如果现在就是这种低水平的模型,去打价格战,完全不看是比人家好还是不好,那大炼钢铁都是废铜烂铁,没有用。

Q:现在有云端大模型,还有越来做多的公司做端侧大模型,苹果也开始布局,国内做端侧大模型,有什么挑战或优势?

刘知远:云端大模型,的确可以粗放式去做,但是端侧需要各个方面技术极致的优化,才能保证跟别人有代差。

第二,一般认为我们第一个成功的智能终端是手机,第二个是车,第三个是什么?第四个是什么?但所谓的这些智能手机、智能车,其实都不是那么智能,所以手机厂商一定会去做真正的智能手机。

但在我看来,AGI一定会有属于自己的智能终端,它还会是手机的形态吗?我没看到,稍微激进一点,我觉得一定不是,这个就是未来展现给我们的无限的可能性。

Q:现在给人的感觉就是同质化确实非常严重,苹果提出的很多AI 功能在之前的安卓机上都看到过。

刘知远:同质化本质是低水平,端侧的确受限于算力,现在水平还是会有限。另外技术上可能还不ready,比如说应该要有端云协同。iPhone出第一款手机时很轰动,但现在没有这种感觉,原因在于大家已经进入到固化的思维范式里面去了。但AGI本身就是意味着要新,意味着可能是新的终端、新的模型、新的做法、新的思想。这就是我们的机会,比如机器人,做具身智能。

Q:不过具身智能也有争议,李开复就明确说不会投,怎么看它本身面临的问题?

刘知远:本身有机器人的问题,因为机器人其实过度专用化,扫地机器人就是专用。后面有没有通用的,人形机器人就是在做这方面的努力。但我觉得还远远不够,未来的形态是啥,下一个终端是啥,我觉得充满了无限的可能。


五道口金融学院 全球金融gfd和emba的区别

1、方式不同:GFD是属于EDP的一种,也就是高级研修班的意思,主要去学习知识等等。 EMBA设立的目的就是为高级管理人员服务的。 通常EMBA学员都是边工作边读书,在校时间很短,讲授的内容相对较少。 2、证书不同:EMBA学完到毕业后经过院校的考试会有硕士学位证(国家承认的)。 而GFD只能发结业证,这个证书只能证明你学过这个课程。 扩展资料:学科特点:(1)EMBA的意思很明确,就是EMBA教学非常注重案例教学和案例讨论。 通常EMBA学员都是边工作边读书,在校时间很短,讲授的内容相对较少。 但是由于学员有较多的工作经验和背景知识,因此他们使用的教学案例较少,但讨论的范围要广的多,对教师的挑战性也更强。 美国商学院EMBA注重案例教学,强调运用电脑软件进行模拟教学。 如哈佛商学院用于教学软件的开发和硬件管理的费用就高达1000万美元之多,从而极大地提高了他们的现代化教学水平。 (2)EMBA什么意思都不可代表,最强调的就是理论与实践的结合。 (3)课堂不定期邀请国际和国内知名公司CEO及卓越的工商界高管与学员进行交流和对话。 这使课堂内容与企业发展息息相关,让学员有机会接触商界领袖,从而了解其机构情况,商业经验、管理风格以及所面对的挑战及应对经验。 (4)联合办学与异地办学渐成趋势。 国内很多院校都开办了联合办学的EMBA项目,反映出各院校对EMBA创办之路的共同认识。 (5)中国很多商学院在为EMBA进行课程设置时都进行了移动课堂的计划。 所谓“移动课堂”也就是每个班在上课期间会到外地学习一次或几次。 在上课之余,安排学员对当地企业进行有针对性的参观考察活动,开拓学员眼界,提升其管理水平。 (6)专业化办学。 一些商学院在综合性EMBA的基础上,尝试具有针对性的行业细分,更加贴近不同学员的需求。 这些专业管理课程,由于其对行业研究的深度和广度,对于立志在行业内发展的专业认识来说,无疑具有非常大的吸引力。 参考资料来源:网络百科-EMBA

文科英语口语不涉及的专业有哪些

当然报外语系英语口语听都要过关,将来四级考试听力要占到75%,并且清华大学准在考试中加入人机对话测试口语,将来很可能推广,所以口语很重要,当然其他一些专业也有很多要求口语的,列举如下: 国际贸易, 国际新闻, 外交学 金融专业, 电子商业, 新闻媒体, 经济管理, 语言类专业, 专业翻译, 将来想出国的也是口语必过的, 提醒一下,如果想报计算机专业也要注重英语,有一定要求的,我就是本专业的~

号称对话答题的科学团队的天才少年叫什么?节目名字是什么?

你说的这个节目,我和女儿一起看过。 节目名字叫“加油向未来”,每周央视一套播出,今年这一季已经结束。 你描述的选手是清华物理系的大二学生,爱好天文学,名字叫陈鲲羽,今年这季的最后冠军。 但质疑情节不是这样的,他是对主持人给出的正确答案提出质疑,从而向科学评审提出求证。 既好学又有科学精神勇于求证,难怪成为了顶级学霸

  • 声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
  • 本文地址:https://srwj168.com.cn/keji312/31242.html
集体重研发 东方盛虹营收第一 城市资本力丨新一线城市苏州A股
如果你还把钱存在银行 这三类存款不能碰 变天 银行存款要