长文本 语音 中国移动大模型震撼发布 结构化数据全覆盖 视觉

Scan me!

用微信扫码二维码

分享至好友和朋友圈

机器之心发布

机器之心编辑部

善智者,启于十年之前。十年系统性人工智能创新,中国移动九天善智多模态基座大模型以其全栈国产化、复杂系统智能化的卓越性能,让 AI 不仅会 “作诗”,也要会 “做事”,还能做 “更复杂更具创造性的事”。

10 月 12 日,在第十二届中国移动全球合作伙伴大会主论坛上,中国移动发布了最新的九天善智多模态基座大模型,全面解析了九天系列大模型的亮点能力、特色技术。

四大亮点:九天善智多模态大模型的强大功能解析

中国移动将新发布的多模态大模型命名为 “善智”,在人工智能高速发展的时代,平衡 “大善” 与 “大智” 至关重要。这一命名体现了中国移动追求技术卓越与社会责任并重的理念,使大模型不仅文理兼修、德艺双馨,更能普惠应用,进而创造人类文明新的福祉。

据了解,中国移动九天系列大模型包括九天善智多模态大模型、九天众擎语言大模型、九天智绘视觉大模型、九天语荷语音大模型、九天数童结构化数据大模型等,可以提供 1.5B、3B、8B、13.9B、100B、200B 等不同参数量的模型版本,模型性能实现整体飞跃!

在国际竞赛中,中国移动九天模型表现可谓十分突出。不仅在 2024 年 INTERSPEECH 语音合成声码器赛道中获得国际第一名,也在 2023 年获得 CVPR VSS(视觉语义分割)赛道中视觉理解方面的第一名。

此外,大模型多项关键技术指标在国际主流榜单中取得优秀名次。根据最新测评数据,多任务语言理解能力在权威 BBH 榜单上名列第二名,图像内容理解对话、视频内容理解对话、文生视频分别在 MME-P 榜单、MVBench 榜单和 VBench 榜单位列第三名,代码生成在 MBPP 榜单位列第二名,数学推理排名第四,综合能力在司南 Opencompass 多模态模型评测榜单(闭源模型)名列前茅,平均分 64.2。

长文本、全双工、机器视觉和结构化数据等多模态是走向通用智能的必经之路。这次九天善智多模态基座大模型的全面升级在这四个赛道均取得了不俗的技术突破:

长文本理解与生成,赋能产业态势感知

九天善智多模态基座大模型能够支持处理复杂的任务资料收集并深度解析给出专业报告,目前已拓展至 128K 超长上下文的理解与生成。

九天善智多模态基座大模型能够支持处理复杂的任务资料收集并深度解析给出专业报告,目前已拓展至 128K 超长上下文的理解与生成。

长文本理解与生成

视频链接:https://mp.weixin.qq.com/template/article/1728871420/index.html

在本次大会主论坛上,九天善智多模态大模型展示了其基于可信数据的高效文档信息收集与秒级分析能力。该模型能够迅速提炼行业资料中的关键信息,并以直观的文字、柱状图、折线图等可视化形式生成通信产业月报。不仅如此,它还能解读国内外及地方政府发布的相关政策,并通过自动化专家访谈机制不断完善报告内容,确保报告修订过程透明可追溯,助力企业实现高效决策。

全双工语音交互,实现 “边听边说” 的自然对话

九天善智多模态大模型支持全双工语音交互,即使用户随时打断,也能保持对话的连贯性和一致性,实现自然流畅的交互体验。这一特性显著增强了模型与人类交流的自然度和流畅性,使对话更加贴近日常交流方式。目前,九天大模型不仅支持多模态输入与生成,还能实现实时的语音到图片转换;语音指令即可触发联网搜索并实时总结信息。用户可以从天气查询无缝切换至美食推荐,此外,它还能轻松管理日程,化身您的超级小助手,让生活变得更加便捷高效。

全双工语音交互

视频链接:https://mp.weixin.qq.com/template/article/1728871420/index.html

在现场视频展示中,移动员工通过全双工语音交互进行日程管理,实现赴广州参加中国移动全球合作伙伴大会的机票预定、会议议程问答和电话提醒多种场景服务,展示中,工作人员还即兴打断,询问了股市的实时状况,并同时生成了一张广州塔的夜景图留作纪念,展现了无缝切换话题与即时响应的卓越能力。

全双工语音交互

视频链接:https://mp.weixin.qq.com/template/article/1728871420/index.html

视频与图像处理的双重飞跃,成为视觉创作 “魔术师”

凭借自主研发的 JTVLM 架构,中国移动创新性地融合了多模态深度表征、精细化特征对齐与多层次自回归优化策略,引入 P-LoRA 跨模态训练方案,使大模型在图像感知、检测、理解、推理等多样化下游任务中展现卓越性能。此外,通过自研扩散 Transformer 去噪网络与 3D VAE 重建模型,大幅提升了视频画质、连续性、文本与画面一致性等核心指标,实现全方位的技术突破。

在主论坛上,九天善智多模态基座大模型通过 “广州早茶” 和 “小猫和小狗玩,猫脸部特写” 两个提示词,与业界其他模型进行了文生图表现对比。结果显示,九天模型展现了更为复杂的视角和构图能力,光线光影协调运用能够在符合美学前提下捕捉更多关键细节,在指令遵循方面也有更优异的表现。

在文生视频方面,不论是包含 “广州早茶店、小蛮腰、烟花” 等元素的城市宣传片,还是 “蓝天白云、森林、小溪、矿泉水” 元素的商业广告片,抑或是 “珊瑚礁、鱼群” 元素的海洋生态环保视频,九天善智多模态基座大模型能够灵活运镜,通过特写、近景、中景和远景的充分调度呈现光影流动,让多个主题画面和谐一致,同时生成配乐,让创意无限延伸,不断突破想象边界。

文生视频

视频链接:https://mp.weixin.qq.com/template/article/1728871420/index.html

中国移动此次发布的多模态大模型不仅体现在语言到视觉,也能从视觉到语言,具备高效精准、多场景识别、动态追踪等诸多能力,能够精准理解分析生产生活等丰富场景。在现场视频中,它可以多种语言解读视频里多个人物的动作、表情、交互状态和环境,精准捕捉到家庭聚会中各个成员的 “微笑、亲吻动作、拍照姿势”,还能准确判断工人的爬塔动作,以及工人着装是否符合要求等。

视频理解

视频链接:https://mp.weixin.qq.com/template/article/1728871420/index.html

结构化数据能力,实现业务精准分析预测

九天善智多模态基座大模型创新实现跨领域结构化数据通用表征建模、大模型多任务训练和推理框架,覆盖通信、交通、工业、金融营销、医疗等 11 + 行业领域,已经在多个行业深度使用。在主论坛上,九天善智多模态基座大模型对长沙橘子洲头的通信数据进行理解分析、可视化展示和未来趋势推理预测,并在仿真系统呈现了预测数据的真实覆盖情况。

结构化数据

视频链接:https://mp.weixin.qq.com/template/article/1728871420/index.html

目前,结构化数据能力已经支持通信、交通、能源行业等流量预测、指标异常检测、用户营销推荐和能耗优化等场景的典型任务。即便在零样本或者少样本的情况下同样能出色实现跨域应用,服务复杂系统智能化,为业务决策提供了前瞻性依据,助力产业及时、精准地调整策略。借助其强大支持,产业就像是装上了强大的数据引擎,迈着坚实的步伐从数字化走向智能化。

技术揭秘:九天善智背后的国产化与体系化 AI 创新

九天善智多模态基座大模型的超强实力,得益于中国移动独有的技术秘籍和实战经验。

在国产化方面,为了摆脱 “缺芯少魂” 的问题,九天大模型的训练和推理已经全面转向了国产,实现从芯片、算法到框架的全栈国产化,万卡训练能力可以做到连续稳定训练时长超过 480 小时,并支持在三类训练芯片算力集群间的平滑转化和续训,在推理方面,目前已对 11 个厂商的 17 款芯片进行适配、迁移和测试及标准拉齐。

在科研创新方面,原创性提出体系化人工智能(Holistic AI)技术以提供泛在可控的社会级智能服务,原创性提出体系化人工智能(Holistic AI)技术,主要研究对 AI 技术进行体系化重构所需的理论、技术、 机制、范式和框架,基于 AI 服务大闭环、AI 能力原子化重构、网络原生 AI 及安全可信 AI 等技术特征,利用无处不在的网络和强大的算力,可以随时调整和分配 AI 的各种技能,应对不断变化的需求,就像在繁忙的城市中灵活调度交通资源,确保每个地方都能得到及时高效的服务。

在复杂系统智能化方面,中国移动深入金融、交通、能源、制造等 10 + 个行业,全自研 30 个横跨多领域的行业大模型,加快推动各个行业智能化应用在人工智能驱动下由微观走向宏观,从复杂系统典型的混沌性走向清晰,形成面向经济社会各领域的赋能辐射圈。目前,九天海算政务大模型已与黑龙江合力打造全国首例政务领域综合搜索平台,营造便利政务环境,充分解决了在省、市、县等不同级别政府政务应用中的集约化赋能挑战;九天医疗大模型已在北京协和、广州 120 等龙头医疗机构落地部署,全面赋能升级包含医疗辅助决策、病历文书生成、智能随访等各类医疗场景;与头部能源化工企业合作研发国内首个能源化工行业大模型,孵化 “AI + 油气”“AI + 炼化”“AI + 运营” 等标杆示范应用,推动 “AI+” 行动走深向实。

战略布局:中国移动如何打造行业领先的 AI 生态

高性能基座大模型是如何炼成的?这首先离不开中国移动始终将人工智能作为公司战略转型的重要方向。

十年间,中国移动组建了由 IEEE Fellow、中国移动集团首席科学家冯俊兰博士领衔的 2000 + 人才雁阵,引入超 150 个海内外 TOP 高校 AI 专业博士,牵头承担了开放创新平台等 20 + 项国家 AI 重大重点专项任务,申请超过 930 项专利,发表 160 余篇顶会顶刊论文,获顶级 AI 竞赛 TOP5 奖项 19 项,主导了国内外 86% 的网络智能化标准,成为全球公认最领先的自智网络运营商,同时也是国资央企在人工智能领域的骨干力量。

基于生态优势,中国移动设立 “九天揽月” 合作计划,通过联合研发、成果引进、资本合作等多种方式引入业界优质能力,以科技部支持建设的 “智慧网络国家新一代人工智能开放创新平台” 和国资委、发改委支持建设的 “中央企业人工智能协同创新平台” 两大国家级重大平台为依托,与产业共同攻关大模型核心技术、共建先进大模型基础设施、共创行业大模型和相关标准,加快推动基于大模型的规模化行业应用蓬勃发展。

可以发现,中国移动在人工智能这条道路上,要比我们想象的走得更远。它早已不是一家单纯的通信运营商,而是通过构建多模态基座大模型,打造全要素 “AI+” 服务运营体系,成为通用人工智能时代的供给者、汇聚者和运营者。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

网易跟贴

注册 手机发跟贴 登录并发贴

网友评论仅供其表达个人看法,并不表明网易立场。

我己窥探灵魂一角意识的本质就是时时好坏感知,接着好坏思索,然后趋利避害人活着一般靠大脑犒赏系统而活着,被犒赏时,感觉好啊,舒服啊,美啊,是真理啊。相反当累苦饿或者靠认知和理智而活,说服自己那样做,好处多多。像看到未来带来的好处,就在眼前。有时你的判断和反应,看似天经地义。实则是系统在作怪,如很困,但你还想玩,不想睡,眼睛却时不时的闭上。如很难,绝望。然后你就放弃,堕落,消极,变流浪汉。形象比喻:意识是司令,系统是兵,负责收集并告知好坏对大脑的一点理解左脑因果逻辑,右脑3D感知因万事万物多有他的因果逻辑。因果可分为:以自己想法为目的的因果判断,本能上的因果反应,事件因果的判断,属性的因果判断,时间上的因果关系。思考:因果关系经历多,就能进行因果思考。物体远动见多了,就能回忆进行想象判断过程:有新的认知,那建立新的因果逻辑,遇事主动搜索关联因果,进行因果匹配因为一个因果逻辑,一个3D感知,就能对这宇宙产生认知一个逻辑想象,一个三维想象就能产生创造新认知之信息对错辨别动机判断,诚恳的,那对。眼见为实的,那对。有因果或符合逻辑的那对。大家多怎么说,那对。说的有理有据的有详细,那对。如果新的真的那记住,记住因果属性就完成了认知识别,空间感,想法,好坏,预判,联想,系统为你的人生路,主动保驾护航,主动想你所想,主动为你着想,并告知缘由给意识加情绪犒赏预设好坏逻辑,带来了什么可以让社会向好的发展,向文明发展,向美发展,向智慧发展,是对好坏评判的标准(好的维度分很多种,如时间空间数量大小广窄高矮深浅多少暗亮冷热香臭甜苦乱洁坚定迷茫熟练笨拙好坏对错真假新旧美丑智笨爱善恶情感利己利国和对比)美就是一种智慧的体现(如花瓶,跑车)本能就是先天会的。人刚出生,没有对好的概念。但脑子里有预设好坏逻辑(自己看不到)。但遇到事件后,本能会产生好坏感受。回顾感知自己因果反应,就会知道背后逻辑。设置以上逻辑,AI就能理解好,产出好。好到让人爱不释手。影响人工智能,让一切设备拥有了智能。应用无处不在。人类将拥有一个强大的助手。彻底解放双手虽说好坏判断是天性但输入历史教训,AI将更文明,输入真的好坏经验与认知,AI动机就进入正轨,直接上岗工作

不克制兽性,不克制自我,放纵自我得寸进尺自私自利趋利避害,就是亲兄弟也会争斗不止,何况一个银河系跨度多在十万光年,一次旅行多要几万年,如果不克制自我克制自私,几万年后,就算500年前是一家,见面时依然会摩擦不断,争斗不止。结局就是永远一盘散沙。散沙只会任人欺负,团结才会更大更强,更好生存。

目前没有跟贴,欢迎你发表观点

给小学数学题加句废话,OpenAI o1就翻车了,苹果论文质疑AI推理

返回网易首页 下载网易新闻客户端

漫谈大数据的思想形成与价值维度

漫谈大数据的思想形成与价值维度

清华基于微博分析获得的大数据幸福指数发现人们周六最幸福,相信大家心情不错,因此今天不谈枯燥的技术。 关于大数据的思维、理念、方法论已经被反复消费了,本来我想直接进入交互环节,继挺兄还是要求先有一部分规定动作,我就先自弹自唱几十分钟,既然是漫谈,也不见得扣题,说到哪里是哪里。 各位有问题,我可以择时择机插入讨论。 先说大数据思想的形成吧。 自从人类开始文字和数字,数据就开始产生。 就数据增长曲线而言,极小的初值确实要经历漫长的过程达到人类能感知的曲线拐点。 谷歌前CEO埃里克·施密特曾给出了一个有趣的数据:从人类文明曙光初现到2003年一共产生的数据,只相当于2010年两天产生的数据量。 而一旦越过拐点,“大数据摩尔定律”的滚滚铁轮下,指数效应爆发:最近两年产生的数据量相当于之前产生的全部数据量。 在漫长的数据蓄水过程中,数学和统计学逐渐发展,人们开始注意对数据的量化分析,在人类进入信息时代以前这样的例子就不胜枚举。 比如经济上,黄仁宇先生对宋朝经济的分析中发现了“数目字管理”(即定量分析)的广泛应用(可惜王安石变法有始无终)。 又如军事,“向林彪学习数据挖掘”的桥段不论真假,其背后量化分析的思想无疑有其现实基础,而这一基础甚至可以回推到2000多年前,孙膑正是通过编造“十万灶减到五万灶再减到三万灶”的数据、利用庞涓的量化分析习惯对其进行诱杀。 到上世纪50-60年代,磁带取代穿孔卡片机,启动了数据存储的革命。 磁盘驱动器随即发明,它带来的最大想象空间并不是容量,而是随机读写的能力,这一下子解放了数据工作者的思维模式,开始数据的非线性表达和管理。 数据库应运而生,从层次型数据库(IBM为阿波罗登月设计的层次型数据库迄今仍在建行使用),到网状数据库,再到现在通用的关系数据库。 与数据管理同时发源的是决策支持系统(DSS),80年代演变到商业智能(BI)和数据仓库,开辟了数据分析——也就是为数据赋予意义——的道路。 那个时代运用数据管理和分析最厉害的是商业。 第一个数据仓库是为宝洁做的,第一个太字节的数据仓库是在沃尔玛。 沃尔玛的典型应用是两个:一是基于retaillink的供应链优化,把数据与供应商共享,指导它们的产品设计、生产、定价、配送、营销等整个流程,同时供应商可以优化库存、及时补货;二是购物篮分析,也就是常说的啤酒加尿布。 关于啤酒加尿布,几乎所有的营销书都言之凿凿,我告诉大家,是Teradata的一个经理编的,人类历史上从没有发生过,但是,先教育市场,再收获市场,它是有功的。 仅次于沃尔玛的乐购(Tesco),强在客户关系管理(CRM),细分客户群,分析其行为和意图,做精准营销。 这些都发生在90年代。 00年代时,科研产生了大量的数据,如天文观测、粒子碰撞,数据库大拿吉姆·格雷等提出了第四范式,是数据方法论的一次提升。 前三个范式是实验(伽利略从斜塔往下扔),理论(牛顿被苹果砸出灵感,形成经典物理学定律),模拟(粒子加速太贵,核试验太脏,于是乎用计算代替)。 第四范式是数据探索。 这其实也不是新鲜的,开普勒根据前人对行星位置的观测数据拟合出椭圆轨道,就是数据方法。 但是到90年代的时候,科研数据实在太多了,数据探索成为显学。 在现今的学科里,有一对孪生兄弟,计算XX学和XX信息学,前者是模拟/计算范式,后者是数据范式,如计算生物学和生物信息学。 有时候计算XX学包含了数据范式,如计算社会学、计算广告学。 2008年克里斯·安德森(长尾理论的作者)在《连线》杂志写了一篇《理论的终结》,引起轩然大波。 他主要的观点是有了数据,就不要模型了,或者很难获得具有可解释性的模型,那么模型所代表的理论也没有意义了。 跟大家说一下数据、模型和理论。 大家先看个粗糙的图。 首先,我们在观察客观世界中采集了三个点的数据,根据这些数据,可以对客观世界有个理论假设,用一个简化的模型来表示,比如说三角形。 可以有更多的模型,如四边形,五边形。 随着观察的深入,又采集了两个点,这时发现三角形、四边形的模型都是错的,于是确定模型为五边形,这个模型反映的世界就在那个五边形里,殊不知真正的时间是圆形。 大数据时代的问题是数据是如此的多、杂,已经无法用简单、可解释的模型来表达,这样,数据本身成了模型,严格地说,数据及应用数学(尤其是统计学)取代了理论。 安德森用谷歌翻译的例子,统一的统计学模型取代了各种语言的理论/模型(如语法),能从英文翻译到法文,就能从瑞典文翻译到中文,只要有语料数据。 谷歌甚至能翻译克莱贡语(StarTrek里编出来的语言)。 安德森提出了要相关性不要因果性的问题,以后舍恩伯格(下面称之为老舍)只是拾人牙慧了。 当然,科学界不认同《理论的终结》,认为科学家的直觉、因果性、可解释性仍是人类获得突破的重要因素。 有了数据,机器可以发现当前知识疆域里面隐藏的未知部分。 而没有模型,知识疆域的上限就是机器线性增长的计算力,它不能扩展到新的空间。 在人类历史上,每一次知识疆域的跨越式拓展都是由天才和他们的理论率先吹起的号角。 2010年左右,大数据的浪潮卷起,这些争论迅速被淹没了。 看谷歌趋势,”bigdata”这个词就是那个时间一下子蹿升了起来。 吹鼓手有几家,一家是IDC,每年给EMC做digitaluniverse的报告,上升到泽字节范畴(给大家个概念,现在硬盘是太字节,1000太=1拍,阿里、Facebook的数据是几百拍字节,1000拍=1艾,网络是个位数艾字节,谷歌是两位数艾字节,1000艾=1泽);一家是麦肯锡,发布《大数据:创新、竞争和生产力的下一个前沿》;一家是《经济学人》,其中的重要写手是跟老舍同著《大数据时代》的肯尼思?库克耶;还有一家是Gartner,杜撰了3V(大、杂、快),其实这3V在2001年就已经被编出来了,只不过在大数据语境里有了全新的诠释。 咱们国内,欢总、国栋总也是在2011年左右开始呼吁对大数据的重视。 2012年子沛的书《大数据》教育政府官员有功。 老舍和库克耶的《大数据时代》提出了三大思维,现在已经被奉为圭臬,但千万别当作放之四海而皆准的真理了。 比如要数据全集不要采样。 现实地讲,1.没有全集数据,数据都在孤岛里;2.全集太贵,鉴于大数据信息密度低,是贫矿,投入产出比不见得好;3.宏观分析中采样还是有用的,盖洛普用5000个样本胜过几百万调查的做法还是有实践意义;4.采样要有随机性、代表性,采访火车上的民工得出都买到票的结论不是好采样,现在只做固定电话采样调查也不行了(移动电话是大头),在国外基于Twitter采样也发现不完全具有代表性(老年人没被包括);5.采样的缺点是有百分之几的偏差,更会丢失黑天鹅的信号,因此在全集数据存在且可分析的前提下,全量是首选。 全量>好的采样>不均匀的大量。 再说混杂性由于精确性。 拥抱混杂性(这样一种客观现象)的态度是不错的,但不等于喜欢混杂性。 数据清洗比以前更重要,数据失去辨识度、失去有效性,就该扔了。 老舍引用谷歌PeterNovig的结论,少数高质量数据+复杂算法被大量低质量数据+简单算法打败,来证明这一思维。 Peter的研究是Web文本分析,确实成立。 但谷歌的深度学习已经证明这个不完全对,对于信息维度丰富的语音、图片数据,需要大量数据+复杂模型。 最后是要相关性不要因果性。 对于大批量的小决策,相关性是有用的,如亚马逊的个性化推荐;而对于小批量的大决策,因果性依然重要。 就如中药,只到达了相关性这一步,但它没有可解释性,无法得出是有些树皮和虫壳的因导致治愈的果。 西药在发现相关性后,要做随机对照试验,把所有可能导致“治愈的果”的干扰因素排除,获得因果性和可解释性。 在商业决策上也是一样,相关性只是开始,它取代了拍脑袋、直觉获得的假设,而后面验证因果性的过程仍然重要。 把大数据的一些分析结果落实在相关性上也是伦理的需要,动机不代表行为。 预测性分析也一样,不然警察会预测人犯罪,保险公司会预测人生病,社会很麻烦。 大数据算法极大影响了我们的生活,有时候会觉得挺悲哀的,是算法觉得了你贷不贷得到款,谷歌每调整一次算法,很多在线商业就会受到影响,因为被排到后面去了。 下面时间不多了,关于价值维度,我贴一些以前讲过的东西。 大数据思想中很重要的一点是决策智能化之外,还有数据本身的价值化。 这一点不赘述了,引用马云的话吧,“信息的出发点是我认为我比别人聪明,数据的出发点是认为别人比我聪明;信息是你拿到数据编辑以后给别人,而数据是你搜集数据以后交给比你更聪明的人去处理。 ”大数据能做什么?价值这个V怎么映射到其他3V和时空象限中?再贴上解释。 “见微”与“知著”在Volume的空间维度。 小数据见微,作个人刻画,我曾用《一代宗师》中“见自己”形容之;大数据知著,反映自然和群体的特征和趋势,我以“见天地、见众生”比喻之。 “著”推动“微”(如把人群细分为buckets),又拉动“微”(如推荐相似人群的偏好给个人)。 “微”与“著”又反映了时间维度,数据刚产生时个人价值最大,随着时间decay最后退化为以集合价值为主。 “当下”和“皆明”在Velocity的时间维度。 当下在时间原点,是闪念之间的实时智慧,结合过往(负轴)、预测未来(正轴),可以皆明,即获得perpetual智慧。 《西游记》里形容真假孙悟空,一个是“知天时、通变化”,一个是“知前后、万物皆明”,正好对应。 为达到皆明,需要全量分析、预测分析和处方式分析(prescriptiveanalytics,为让设定的未来发生,需要采取什么样的行动)。 “辨讹”和“晓意”在Variety的空间维度。 基于大体量、多源异质的数据,辨讹过滤噪声、查漏补缺、去伪存真。 晓意达到更高境界,从非结构数据中提取语义、使机器能够窥探人的思想境界、达到过去结构化数据分析不能达到之高度。 先看知著,对宏观现象规律的研究早已有之,大数据的知著有两个新特点,一是从采样到全量,比如央视去年“你幸福吗”的调查,是街头的采样,前不久《中国经济生活大调查》关于幸福城市排名的结论,是基于10万份问卷(17个问题)的采样,而清华行为与大数据实验室做的幸福指数(继挺兄、我、还有多位本群群友参与),是基于新浪微博数据的全集(托老王的福),这些数据是人们的自然表达(而不是面对问卷时的被动应对),同时又有上下文语境,因此更真实、也更有解释性。 北上广不幸福,是因为空气还是房价或教育,在微博上更容易传播的积极情绪还是消极情绪,数据告诉你答案。 《中国经济生活大调查》说“再小的声音我们都听得见”,是过头话,采样和传统的统计分析方法对数据分布采用一些简化的模型,这些模型把异常和长尾忽略了,全量的分析可以看到黑天鹅的身影,听到长尾的声音。 另一个特点是从定性到定量。 计算社会学就是把定量分析应用到社会学,已经有一批数学家、物理学家成了经济学家、宽客,现在他们也可以选择成为社会学家。 国泰君安3I指数也是一个例子,它通过几十万用户的数据,主要是反映投资活跃程度和投资收益水平的指标,建立一个量化模型来推知整体投资景气度。 再看见微,我认为大数据的真正差异化优势在微观。 自然科学是先宏观、具体,进入到微观和抽象,这时大数据就很重要了。 我们更关注社会科学,那是先微观、具体,再宏观、抽象,许小年索性认为宏观经济学是伪科学。 如果市场是个体行为的总和,我们原来看到是一张抽象派的画,看不懂,通过客户细分慢慢可以形成一张大致看得懂的现实图景,不过是马赛克的,再通过微分、甚至定位个人,形成高清图。 我们每一个人现在都生活在零售商的bucket中(前面说的乐购创造了这个概念),最简单的是高收入、低收入这类反映背景的,再有就是反映行为和生活方式的,如“精打细算”、“右键点击一族”(使用右键的比较techsavvy)。 反过来我们消费者也希望能够获得个性化的尊崇,Nobodywantstobenobodytoday。 了解并掌握客户比以往任何时候都更重要。 奥巴马赢在大数据上,就是因为他知道西岸40-49岁女性的男神是乔治·克鲁尼,东岸同样年龄段女性的偶像则是莎拉·杰西卡·帕克(《欲望都市》的主角),他还要更细分,摇摆州每一个郡每一个年龄段每一个时间段在看什么电视,摇摆州(俄亥俄)1%选民随时间变化的投票倾向,摇摆选民在Reddit上还是Facebook上,都在其掌握之中。 对于企业来说,要从以产品为中心,转到以客户(买单者)甚至用户(使用者)为中心,从关注用户背景到关注其行为、意图和意向,从关注交易形成转到关注每一个交互点/触点,用户是从什么路径发现我的产品的,决定之前又做了什么,买了以后又有什么反馈,是通过网页、还是QQ、微博或是微信。 再讲第三个,当下。 时间是金钱,股票交易就是快鱼吃慢鱼,用免费股票交易软件有几秒的延迟,而占美国交易量60-70%的高频程序化交易则要发现毫秒级、低至1美分的交易机会。 时间又是生命,美国国家大气与海洋管理局的超级计算机在日本311地震后9分钟发出海啸预警,已经太晚。 时间还是机会。 现在所谓的购物篮分析用的其实并不是真正的购物篮,而是结帐完的小票,真正有价值的是当顾客还拎着购物篮,在浏览、试用、选择商品的时候,在每一个触点影响他/她的选择。 数据价值具有半衰期,最新鲜的时候个性化价值最大,渐渐退化到只有集合价值。 当下的智慧是从刻舟求剑到见时知几,原来10年一次的人口普查就是刻舟求剑,而现在东莞一出事网络迁徙图就反映出来了。 当然,当下并不一定是完全准确的,其实如果没有更多、更久的数据,匆忙对网络迁徙图解读是可能陷入误区的。 第四个,皆明。 时间有限,就简单说了。 就是从放马后炮到料事如神(predictiveanalytics),从料事如神到运筹帷幄(prescriptiveanalytics),只知道有东风是预测分析,确定要借箭的目标、并给出处方利用草船来借,就是处方性分析。 我们现在要提高响应度、降低流失率、吸引新客户,需要处方性分析。 辨讹就是利用多源数据过滤噪声、查漏补缺和去伪存真。 20多个省市的GDP之和超过全国的GDP就是一个例子,我们的GPS有几十米的误差,但与地图数据结合就能做到精确,GPS在城市的高楼中没有信号,可以与惯性导航结合。 晓意涉及到大数据下的机器智能,是个大问题,也不展开了。 贴一段我的文章:有人说在涉及“晓意”的领域人是无法替代的。 这在前大数据时代是事实。 《点球成金(Moneyball)》讲的是数量化分析和预测对棒球运动的贡献,它在大数据背景下出现了传播的误区:一、它其实不是大数据,而是早已存在的数据思维和方法;二、它刻意或无意忽略了球探的作用。 从读者看来,奥克兰竞技队的总经理比利·比恩用数量化分析取代了球探。 而事实是,在运用数量化工具的同时,比恩也增加了球探的费用,军功章里有机器的一半,也有人的一半,因为球探对运动员定性指标(如竞争性、抗压力、意志力等)的衡量是少数结构化量化指标无法刻画的。 大数据改变了这一切。 人的数字足迹的无意识记录,以及机器学习(尤其是深度学习)晓意能力的增强,可能逐渐改变机器的劣势。 今年我们看到基于大数据的情感分析、价值观分析和个人刻画,当这些应用于人力资源,已经或多或少体现了球探承担的作用。

国内做大数据的公司有哪些?

1、上海市大数据股份有限公司(简称“上海大数据股份”),是经上海市人民政府批准成立的国有控股混合所有制企业。

致力于成为智慧城市建设的主力军、国内大数据应用领域的领军企业和全球领先的公共大数据管理和价值挖掘解决方案提供商,满足政府对公共数据治理和提升城市管理及公共服务水平的要求,构建公共大数据与商业数据服务、以及政企数据融合的桥梁,促进社会经济发展。

2、辉略(上海)大数据科技有限公司,目前在中国交通(城市智能信号灯优化模型与平台,交通预算决策系统模型等)、环境(PM2.5污染检测和治理)、医疗(医院WIFI定位模型,病历匹配模型等)、汽车(用户购买转化率模型)等领域进行大数据项目运营与模型开发。

3、成都市大数据股份有限公司成立于2013年,作为成都市实施国家大数据发展战略的载体,2018年完成股份制改革并挂牌新三板,成都产业集团全资持股,主要涉及数据运营、投资并购、信息技术三大业务方向。

扩展资料:

大数据发展的一些趋势:

趋势一:数据的资源化

何为资源化,是指大数据成为企业和社会关注的重要战略资源,并已成为大家争相抢夺的新焦点。 因而,企业必须要提前制定大数据营销战略计划,抢占市场先机。

趋势二:与云计算的深度结合

大数据离不开云处理,云处理为大数据提供了弹性可拓展的基础设备,是产生大数据的平台之一。 自2013年开始,大数据技术已开始和云计算技术紧密结合,预计未来两者关系将更为密切。 除此之外,物联网、移动互联网等新兴计算形态,也将一齐助力大数据革命,让大数据营销发挥出更大的影响力。

运动员身体状况、身体素质测试设备,能够自动出数据报告?

在网上搜索到一种意大利进口的光学体能检测系统,09年的李宁篮球训练营,选拔运动员的时候就用了这种新的测量设备,Optojump Next,它是一套全新的分析和评估系统,为竞技体育评价和优化运动员的体能提供新理念:基于专业并准确的客观数据,可以为运动员开发特别定制的训练计划。 通过获取基本的参数,可以确定运动员体能和身体条件的级别,教练员和研究员可以持续地检测和监视运动员的状况;因此,可以用一种简单并直接的方法确认运动员的体能或身体状况;建立实时数据库,比较同一个运动员或不同运动员在不同时期的数值(甚至在数月或数年之间)。 它是由发射端和接收端组成的一种光学测量系统。 根据选定的分辨率,每一节包含33到100个发光二极管。 发射端的发光二极管连续不断地与接收端进行通讯;系统探测两端之间任何的通讯中断并计算它们的持续时间。 以1/1000秒的精度测量一系列跳跃的过程中的着地和腾空时间。 以这些数据为基础,通过新一代Optojump 软件,以最大的精确度和实时地获得与运动员体能有关的数据。 非接触式运动机械部件保证测量的准确性及可靠性。 通过在指定地点安装小型摄像机,Optojump Next不仅可以获得数字数据,还可以记录测试的影像信息,并且完全和测量事件同步。 可以在数据和图像之间交叉核对。 视频和其它数据保存在数据库中,可以比较不同运动员或同一个运动员在不同时期的体能。 它可以分为单米系统、模块化系统以及二维系统。 你有兴趣的话,你可以上网搜索下,他们的这个身体测试的设备,几乎适用所有的运动,挺实用的,一物多用,而且精确度也很高。

  • 声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
  • 本文地址:https://srwj168.com.cn/jinrong/24735.html
生成图片 是一张 AI 比飓风更可怕的
深圳今年第2个 日光盘 诞生!3小时售罄332套房源