3不开源 统一生物语言大模型阿里云先开了! AlphaFold

把169861个生物物种数据装进大模型,大模型竟get到了生物中心法则的奥秘——

不仅 能识别DNA、RNA与相应蛋白质之间的内在联系 ,在基因分类、蛋白质相互作用预测、热稳定性预测等7种不同类型任务中也能比肩SOTA模型。

模型名为,由阿里云飞天实验室生物智能计算团队打造。

相比AlphaFold 3因未开源遭到650多名学者联名批评,LucaOne训练推理代码及相关数据目前均 已开源

LucaOne是目前首个 全生物系统的核酸语言+蛋白语言的融合基座模型 。换句话说,LucaOne由核酸(DNA、RNA)和蛋白质序列联合训练而来。

通过一系列实验,研究人员发现它能广泛适用各种下游任务。

在含13个物种、关系对总数量为24000的核酸序列和其对应蛋白的正负样本数据集中, LucaOne提供表征的模型达到0.85的预测准确率

远高于目前业内最好的预训练模型组合ESM-3B+DNAbert2(0.73)及其他建模方式,也显著高于LucaOne的单核酸训练版本+单蛋白训练版本。

其他任务如针对流感H3N2病毒疫苗有效性(免疫逃逸风险)的预测,LucaOne 准确率可达100%

量子位也联系到了论文一作,聊了聊LucaOne的实现细节,以及AI for Science在生物科学领域的发展。

核酸和蛋白质序列联合训练

总的来说,LucaOne围绕中心法则的数据进行构建,能够学习到中心法则背后的原理和逻辑,可提取基因转录和蛋白质翻译过程中固有的复杂模式和关系,在使用层面相当于 提供了一个对DNA、 RNA、蛋白质的无差别表征

分子生物学的中心法则即遗传信息从DNA传递给RNA,再从RNA传递给蛋白质的过程,这一过程包括DNA的复制、RNA的转录和蛋白质的翻译。

展开来看,LucaOne整个工作流是这样婶儿的:

从技术上讲,构建LucaOne的难点首先是 数据集的构建

在生命科学领域,真实存在的只是分子数据。

例如,核酸的表示方式是4种碱基。DNA是腺嘌呤(A)、鸟嘌呤(G)、胞嘧啶(C)和胸腺嘧啶(T);RNA是腺嘌呤(A)、鸟嘌呤(G)、胞嘧啶(C)、尿嘧啶(U)。蛋白质由氨基酸组成,自然界存在的氨基酸大约有20-22种,每种氨基酸也用一个字母表示。

而人类为理解这些分子的性质与作用,通常需要添加很多注释信息,包括一些图片的注释。注释信息属于人类语言,自然界本身不存在,从而就形成了一种生命科学领域的从“自然界”语言到“人类文化”语言的跨模态。

因此,LucaOne的预训练数据不仅包含DNA、RNA、蛋白质这三类分子的序列(核苷酸序列或者氨基酸序列)数据,同时还使用了这些分子的 注释信息

总共涵盖了169861个物种的核酸和蛋白质序列和注释信息,分为两部分:

核酸数据集来自RefSeq,包括核酸序列及注释;蛋白质数据集来自InterPro、UniProt、ColabFold、RCSB-PDB、AlphaFold2,包括蛋白质序列、注释和三维结构。

据介绍,在数据集的收集处理方面,阿里云飞天实验室与中山大学、浙江大学等多个团队进行了合作。

另一大难点是生物分子序列的预测和大语言模型预测下一个token不同,在模型训练阶段还需要一些专门的设计。

LucaOne采用了 Transformer-Encoder 架构,由20个编码器块组成,嵌入维度为2560,总参数量。

研究人员在此基础上进行了一些优化:

此外,在数据处理和模型训练过程中,核苷酸和氨基酸用统一的方式进行表征或编码。通过token-type embeddings实现核酸和蛋白质序列的混合训练,区分核苷酸(0)和氨基酸(1)。

在两个自监督掩码任务的基础上,研究人员还增加了 八个半监督预训练任务 ,通过序列 注释 增强模型对数据的理解。

已能理解基因和蛋白对应关系

为验证核酸和蛋白质数据混合训练的优势,研究人员分别使用核酸和蛋白质数据单独训练了两个额外的模型——LucaOne-Gene和LucaOne-Prot,并使用相同的5.6M checkpoint在分子生物学中心法则任务中进行了比较。

使用t-SNE可视化说明,与其他模型相比,LucaOne的嵌入在两个数据集上呈现出更紧密的聚类,可能包含了更多上下文信息。

为验证LucaOne通过广泛学习基因及蛋白语言,已具备对生物学中心法则里的基因和蛋白对应关系的理解能力,研究人员设计了一个数据集及评测任务。

选取13个物种的核酸序列和其对应蛋白的正负样本数据集,关系对总数量为24000,其中正负样本比例1:2。基因序列数据是其在基因组的原始数据,包括了大量的非编码区(内含子,调控元件,及“废品片段”等)。

采用训练:验证:测试比例为:4:3:25;即仅3200组数据作为训练,18750组数据作为测试集来 预测其核酸序列是否可以翻译成数据组里的蛋白序列

结果LucaOne提供表征的模型达到的预测准确率,不仅远高于目前业内最好的预训练模型组合ESM-3B+DNAbert2(0.73)及其他建模方式,也明显高于LucaOne的单核酸训练版本+单蛋白训练版本。

这表明这两种大分子数据联合训练可以显著增强模型的学习效果。

有意思的是,研究人员发现在模型细分表现里,LucaOne 海鞘 这种生物里的预测表现比较差(其他模型也类似),进一步分析海鞘的特性表明,因为进化适应性等各种原因,海鞘利用中心法则的具体规则-密码子偏好性,和其他生物明显不同。

他们猜测LucaOne可能用的是另一种中心法则语法 “方言” ,而这种“方言”在训练数据集里仅有100条,因此模型没有很好的学习到这种规则。

在其他下游任务中,LucaOne对不同类型输入的下游任务也广泛适用。

具体来说,研究人员评估了7个不同类型的下游生物计算任务,包括:

为简化下游任务,研究人员使用了三种对应不同输入形式的简单网络架构:

结果表明,GenusTax、ProtStab、ncRNAFam、InfA、PPI任务上,LucaOne显著优于其他模型;ProtLoc任务上,LucaOne与ESM2-3B相当,优于SOTA;ncRPI任务上,LucaOne优于DNABert2+ESM2-3B的组合:

值得一提的是,在流感H3N2病毒的免疫逃逸风险预测中,研究人员采用了1968年至2010年间分离的大规模H3N2病毒HA序列数据进行了基于流感毒株抗原关系的预测模型。

通过病毒HA抗原序列来预测其是否会诱导HIA实验的血凝现象,进而预测其是否在特定人群中会发生免疫逃逸。

要知道,目前预防与控制流感最有效的方法是接种流感疫苗,但是由于流感病毒极快的变异速度,导致不能及时与准确地推荐与流行病毒相匹配的流感疫苗株。根据WHO和CDC的监测,流感疫苗的有效性在40%-60%之间。因此准确预测流行毒株,判断免疫逃逸风险是一个重要且困难的命题。

研究人员使用基于LucaOne+一层感知机的模型达到了100%的准确率。

这也说明LucaOne学习的大量核酸序列信息,包括大量其他病毒序列,为计算特定任务提供了很好的信息补充。

更多细节,感兴趣的家人们可查看原论文。

“Science for AI”

如前文所述,LucaOne背后开发团队来自阿里云飞天实验室LucaTeam,LucaTeam也与多个团队展开了深度合作。

中山大学医学院 施莽 教授及其团队参与了LucaOne模型的数据设计与验证。施莽教授认为:

中国医学科学院北京协和医学院病原生物学研究所所长、美国微生物科学院会士 舒跃龙 教授及其团队参与了LucaOne在流感病毒方面的分析与验证工作。舒跃龙教授表示:

此外,论文一作 贺勇 是阿里云飞天实验室生物计算高级算法专家,我们也就LucaOne与其展开聊了聊AI for Science在生物科学领域的发展。

在他看来,AI for Science在生物科学领域正处于刚起步的阶段,考虑到AI可解释性的问题,基本上现在他们还只是把AI当做一个工具,但同时现在是发展AI for Science的一个很好的时间节点。

不过,目前的局限在于测序得到还是分子的序列数据,而真实世界每个分子的存在是一个 空间结构 ,这可能就需要更复杂的模型来处理。

而不同学科间的研究方法不同、探索微观世界也受限于目前的设备技术,贺勇认为人类对生物科学这个领域的认识目前也只是冰山一角,还无法从全局角度构建一个全面通用的系统。

最后他还补充道:

论文链接:https://www.biorxiv.org/content/10.1101/2024.05.10.592927v1GitHub链接:https://github.com/LucaOne


2021年,信息技术发展突飞猛进。 人工智能、大数据、开源、虚拟现实(VR)、增强现实(AR)……每个领域的发展几乎都可圈可点。 在人工智能领域,人工智能的语言大模型、图文大模型乃至多模态大模型的基本能力已得到了充分展现。 例如,阿里巴巴达摩院公布多模态大模型M6最新进展,参数从万亿跃迁至10万亿;鹏城实验室与网络联合发布全球首个知识增强千亿大模型——鹏城—网络·文心,参数规模达到2600亿。 不仅如此,人工智能与其他科学领域的交叉融合也擦出火花。 在《科学》近日公布的2021年度科学突破榜单上,AlphaFold和RoseTTA-fold两种基于人工智能预测蛋白质结构的技术位列榜首。 在人机交互领域,扎克伯格将Facebook公司更名为“Meta”时,特斯拉和SpaceX首席执行官埃隆·马斯克则将注意力放在脑机接口上。 马斯克认为脑机接口装置将更有可能改变世界,帮助四肢瘫痪或有身体缺陷的人更好地生活和工作,“复杂的脑机接口装置可以让你完全沉浸在虚拟现实中”。 此外,今年5月,斯坦福大学开发出一套皮质内脑机接口系统,可以从运动皮层的神经活动中解码瘫痪患者想象中的手写动作,并将其转换为文本。 在超算领域,最值得一提的是,今年11月,我国超算应用团队凭借“超大规模量子随机电路实时模拟”成果斩获国际高性能计算应用领域的最高奖项“戈登贝尔奖”。 在开源方面,RISC-V开源指令集及其生态快速崛起;由华为公司牵头,中国科学院软件研究所、麒麟软件等参与的openEuler操作系统开源社区业已汇聚了7000名活跃开发者,完成8000多个自主维护的开源软件包,催生了10多家厂商的商业发行版……回望2021年,信息技术版邀请业内专家梳理上述四个领域的发展脉络,展望未来发展趋势。 作者 张双虎AlphaFold或是2021年人工智能(AI)领域的“一哥”。 近日,《科学》杂志公布了 2021 年度科学突破榜单,AlphaFold 和 RoseTTA-fold 两种基于人工智能预测蛋白质结构的技术位列榜首。 此前几天,由中国工程院院刊评选的“2021全球十大工程成就(近5年全球实践验证有效、有全球影响力的工程科学和技术重大成果)”中,AlphaGo和AlphaFold亦榜上有名。 在接受《中国科学报》采访时,数位专家回望今年人工智能领域取得的成就时,均谈到了AlphaFold。 “面向科学发现的AlphaFold和中国正在构建的人工智能发展生态不能不说。 ” 浙江大学人工智能研究所所长吴飞对《中国科学报》说。 中科院自动化研究所模式识别国家重点实验室研究员王金桥则提名“用AI进行新冠诊断”“人工智能与生物、制药、材料等科学融合(AI for Science)”和“三模态大模型紫东太初”。 在医学领域,AI识别咳嗽声早已用于肺炎、哮喘、阿尔茨海默氏症等疾病检测。 美国麻省理工学院研究人员研发出可以通过分析咳嗽录音识别新冠患者的AI模型,识别出新冠患者咳嗽的准确率为98.5%,其中识别无症状感染者的准确度高达100%。 日前,有报道称该模型已用于识别奥密克戎病毒。 “紫东太初首次实现了图—文—音语义统一表达,兼具跨模态理解和生成能力。 ” 王金桥说,“目前与新华社共同发布的‘全媒体多模态大模型研发计划’,实现对全媒体数据理解与生成的统一建模,打造全栈国产化媒体人工智能平台,已 探索 性地应用于纺织业和 汽车 行业质检等场景。 ”12月7日, 科技 部官网公布3份函件,支持哈尔滨、沈阳、郑州3地建设国家新一代人工智能创新发展试验区。 至此,我国已经有18个国家新一代人工智能创新发展试验区,这将引领带动中国人工智能创新发展。 “我国正在推动人工智能生态发展,构建良好生态。 ”吴飞说,“目前已有15个国家新一代人工智能开发创新平台、18个国家新一代人工智能创新发展试验区、8个人工智能创新应用先导区和高等学校设置的人工智能本科专业和交叉学科等人才培养载体。 ”“一是大模型,二是人工智能和基础学科的结合。 ”孙茂松对《中国科学报》说,“语言大模型、图文大模型乃至多模态大模型的基本能力已得到了充分展现,确定了它作为智能信息处理基础软设施的地位。 同时,它并非简单地扩大规模,而是对数字资源整合能力和计算能力都提出了挑战。 虽然它的局限性也很明显,但它所表现出的某些‘奇特’性质(如少样本学习、深度双下降、基于提示的任务调整等),使学者产生了超大参数规模或会引发质变的期待,从而为新的突破埋下了伏笔。 ”今年,人工智能领域从“大炼模型”走向“炼大模型”阶段,从千亿量级到万亿量级,在大模型领域,似乎没有最大,只有更大。 3月,北京智源人工智能研究院发布我国首个超大规模人工智能模型“悟道1.0”。 6月,智源就改写了自己的纪录,发布悟道2.0,参数规模达到1.75万亿;9月,浪潮人工智能研究院推出了中文巨量语言模型——源 1.0,参数量达2457亿;11 月,阿里巴巴达摩院公布多模态大模型 M6 最新进展,参数从万亿跃迁至 10 万亿;12月,鹏城实验室与网络联合发布全球首个知识增强千亿大模型——鹏城—网络·文心,参数规模达到2600亿。 与此相应,最近快手和苏黎世联邦理工学院提出了一个新的推荐系统Persia,最高支持100万亿级参数的模型训练。 另一方面,人工智能在基础学科领域不断攻城略地。 7月,DeepMind公司人工智能程序Alphafold2研究成果又登顶《自然》,在结构生物学研究领域,人工智能或带领生物学、医学和药学挺进新天地;11月,美国南加利福尼亚大学研究人员通过脑机连接设备,让猴子玩 游戏 和跑步机,从而进行神经活动数据研究;12月,DeepMind开发的机器学习框架,已帮助人们发现了纯数学领域的两个新猜想,展示了机器学习支持数学研究的潜力。 “今年人工智能在各行业应用方面也取得不小的成绩。 ”孙茂松说,“人工智能与基础学科结合已显示出巨大潜力,发表了多篇顶级论文,已展露出某种较强的趋势性,即‘人工智能+基础科学’大有可为。 ”作者 张双虎脑机接口、AR眼镜、智能语音、肌电手环、隔空手势识别……2021年,从基础研究到应用落地,人机交互领域风起云涌。 不管是智能 健康 、元宇宙,还是自动驾驶领域的蓬勃发展,似乎都表明,人机交互正站在产业化落地的门口。 “我们研发的高通量超柔性神经电极已通过科研临床伦理审批,即将开展脑机接口人体临床试验。 ”中科院上海微系统所副所长、传感技术联合国家重点实验室副主任陶虎对《中国科学报》说,“安全稳定地大规模采集人体大脑的神经元信号并进行闭环调控,将实现病人感知和运动功能的修复。 ”脑机接口技术给患者带来越来越多的便利。 今年5月,斯坦福大学研究人员在《自然》发表封面论文,开发出一套皮质内脑机接口系统,可以从运动皮层的神经活动中解码瘫痪患者想象中的手写动作,并将其转换为文本。 借助该系统,受试者(因脊髓损失瘫痪)每分钟可以打出近百个字符,且自动更正后的离线准确率超过了 99%。 不久前,马斯克表示,希望明年能在人类身上使用Neuralink 的微芯片装置。 该芯片将用于治疗脊髓损伤、帕金森氏症等脑部疾病和神经系统疾病。 目前,相关技术正在等待美国食品药品监督管理局的批准。 “脑机接口领域已经蓄积了相当的技术,有望成为解决大脑疾病的利器。 ”陶虎说,“大家都在抢占临床应用的先机,明年可能会实现技术落地应用。 预计两三年内,国内会出现可媲美马斯克Neuralink的独角兽企业。 ”“人机交互将引申出新的万亿级市场。 ”福州大学特聘教授严群这句判断,也囊括了元宇宙这个巨大的市场。 有人称2021年是“元宇宙元年”,也有人认为这不过是“旧瓶装新酒”。 但无论如何,元宇宙已是今年人机交互领域绕不开的话题。 “元宇宙是虚拟现实、增强现实和混合现实的综合,它实际上并非新的东西。 ”北京邮电大学人机交互与认知工程实验室主任刘伟告诉《中国科学报》,“元宇宙是现实世界和虚拟世界跨越未来的发展方向,但还有些技术问题未能很好地解决。 ”在真实世界里,人机交互问题和人机环境系统的混合问题未能很好地解决。 真实世界的人机交互中,不管是输入、处理还是输出过程中,客观数据、主观信息和知识依然不能完美融合。 刘伟认为,无论真实世界还是虚拟世界,人类和机器决策都有“快决策”和“慢决策”过程。 人类决策有时依靠逻辑决策多些,有时直觉决策多些,这种“混合决策”不断变换,而且很难找到变化规律。 这方面的问题机器决策目前还未能解决。 “元宇宙还处在画饼的前期阶段。 ”刘伟说,“因为它的底层机理没有解决——人在真实世界里未能完美解决人机交互的问题,带到元宇宙里同样不能解决。 ”谈到人机交互,刘伟认为第二个不能不说的问题是“复杂领域”。 “今年的诺贝尔物理学奖,也给了复杂系统预测气候变化模型的提出者。 ”刘伟说,“人机交互也是一个复杂系统,它既包括重复的问题,还包括杂乱的、跨域协同的问题。 ”刘伟认为,从智能的角度说,复杂系统包括三个重要组成部分,一是人,二是装备(人造物),三是环境。 这其实是多个事物之间相互作用,交织在一起、既纠缠又重叠的“人机环系统”问题。 “在人机交互中,机器强在处理‘复’的问题,人擅长管‘杂’的事——跨域协同、事物间平衡等。 因为人们还没找到复杂事物的简单运行规律,所以解决所有智能产品、智能系统问题,要从人、机、环这个系统里找它们的结合、融合和交互点。 而且,人要在这个系统中处于主导地位。 ”人机交互领域引起刘伟重视的第三个现象,是“人工智能帮数学家发现了一些定律”。 “最近,DeepMind研发了一个机器学习框架,能帮助数学家发现新的猜想和定理。 ”刘伟说,“人工智能是一个基本的数学工具,同时,数学又反映了一些基本规律。 如果人工智能可以帮助数学家处理一些数学问题,那么,人们将更好地认识复杂系统的简单规律,人机交互方面就可能会取得新突破。 ”作者 张云泉(中国科学院计算技术研究所研究员) 今年是我国超算应用实现丰收的一年。 11月中旬在美国举行的全球超算大会(SC21)上,中国超算应用团队凭借基于一台神威新系统对量子电路开创性的模拟(“超大规模量子随机电路实时模拟”),一举摘得国际上高性能计算应用领域的最高学术奖——“戈登贝尔奖”。 同时,在SC 21大学生超算竞赛总决赛上,清华大学超算团队再次夺得总冠军,实现SC竞赛四连冠。 这些大规模应用软件可扩展性和性能调优方面的成绩表明,我国在并行软件方面的发展方兴未艾。 回到超算对产业的驱动来看,我们要重提“算力经济”一词。 早在2018年,我们提出“算力经济”概念,认为以超级计算为核心的算力经济将成为衡量一个地方数字经济发展程度的代表性指标和新旧动能转换的主要手段。 综合近几年的发展趋势,我们认为高性能计算当前发展趋势已充分表明,随着超算与云计算、大数据、AI的融合创新,算力已成为当前整个数字信息 社会 发展的关键,算力经济已经登上 历史 舞台。 通过对2021年中国高性能计算机发展现状综合分析,可以总结出当前高性能计算正呈现出以下几个特点。 首先,高性能计算与云计算已经深度结合。 高性能计算通常是以MPI、高效通信、异构计算等技术为主,偏向独占式运行,而云计算有弹性部署能力与容错能力,支持虚拟化、资源统一调度和弹性系统配置。 随着技术发展,超级计算与容器云正融合创新,高性能云成为新的产品服务,AWS、阿里云、腾讯、网络以及商业化超算的代表“北龙超云”,都已基于超级计算与云计算技术推出了高性能云服务和产品。 其次,超算应用从过去的高精尖向更广、更宽的方向发展。 随着超级计算机的发展,尤其是使用成本的不断下降,其应用领域也从具有国家战略意义的精密研制、信息安全、石油勘探、航空航天和“高冷”的科学计算领域向更广泛的国民经济主战场快速扩张,比如制药、基因测序、动漫渲染、数字电影、数据挖掘、金融分析及互联网服务等,可以说已经深入到国民经济的各行各业。 从近年中国高性能计算百强排行榜(HPC TOP100)来看,超算系统过去主要集中于科学计算、政府、能源、电力、气象等领域,而近5年互联网公司部署的超算系统占据了相当大比例,主要应用为云计算、机器学习、人工智能、大数据分析以及短视频等。 这些领域对于计算需求的急剧上升表明,超算正与互联网技术进行融合。 从HPC TOP100榜单的Linpack性能份额看,算力服务以46%的比例占据第一;超算中心占24%,排名第二;人工智能、云计算和短视频分别以9%、5%和4%紧随其后。 可以看出,人工智能占比的持续增加与机器学习等算法和应用的快速崛起,以及大数据中的深度学习算法的广泛应用有很大关系。 互联网公司通过深度学习算法重新发现了超级计算机,特别是GPU加速的异构超级计算机的价值,纷纷投入巨资建设新系统。 综合来看,目前的算力服务、超算中心、人工智能、科学计算等领域是高性能计算的主要用户,互联网、大数据,特别是AI领域增长强劲。 再次,国家层面已经制订了战略性的算力布局计划。 今年5月,国家发展改革委等四部门联合发布《全国一体化大数据中心协同创新体系算力枢纽实施方案》,提出在京津冀、长三角、粤港澳大湾区、成渝以及贵州、内蒙古、甘肃、宁夏建设全国算力网络国家枢纽节点,启动实施“东数西算”工程,力促把东部的数据送到西部进行存储和计算,同时在西部建立算力节点,改善数字基础设施不平衡的布局,有效优化数据中心的布局结构,实现算力升级,构建国家算力网络体系。 最后,人工智能的算力需求已成为算力发展主要动力。 机器学习、深度学习等算法革新和通过物联网、传感器、智能手机、智能设备、互联网技术搜集的大数据,以及由超级计算机、云计算等组成的超级算力,被公认为是人工智能时代的“三驾马车”,共同掀起最新一轮的人工智能革命。 在人工智能蓬勃发展这一背景下,虚拟化云计算向高性能容器云计算演进,大数据与并行计算、机器学习融合创新就成为了产业发展的最新方向。 此外,在智能计算评测方面,我国已经提出了包括AIPerf 500在内的众多基准测试程序,这是对传统Linpack测试标准的有力补充。 这些发展表明超算技术向产业渗透的速度加快,我们已经进入一个依靠算力的人工智能时代,这也是未来发展的必然趋势之一。 随着用户对算力需求的不断增长,算力经济必将在未来 社会 发展中占据重要地位。 作者 武延军(中国科学院软件研究所研究员)开源发展可圈可点并非只是今年的事。 最近几年,开源领域发生了很多重要的事情。 例如,RISC-V开源指令集及其生态的快速崛起。 这与上世纪90年代初Linux诞生一样。 当时,UNIX和Windows是主流,很少有人能够预料到今天以Linux为内核的操作系统已经遍及人们生活的方方面面。 如今,人们每天使用的App,超过80% 概率是运行在以Linux为内核的安卓操作系统上,而且,支撑其业务的后端服务器上运行的操作系统很大概率也是Linux发行版。 所以,今天的RISC-V也同样可能被低估,认为其不成熟,很难与ARM和X86抗衡。 但也许未来RISC-V就像Linux一样,最终成为全球范围内的主流指令集生态,产品遍及方方面面。 仅2020年,RISC-V International(RVI,RISC-V基金会迁入瑞士之后的新名称)的会员数增长了133%。 其实RVI迁入瑞士这件事情本身也意义重大,是一次开源领域面对大国竞争保持初心不“选边站”的经典案例,值得全球其他开源基金会参考。 在国内,2019年底,华为公司牵头,中国科学院软件研究所、麒麟软件等参与的openEuler操作系统开源社区正式成立。 在短短的两年内,社区已经汇聚了7000名活跃开发者,完成8000多个自主维护的开源软件包,催生了10多家厂商的商业发行版。 这是中国基础软件领域第一个真正意义上的“根社区”,虽然与20多年 历史 的Debian、Fedora还有差距,但迈出了重要一步,对学术研究、技术研发、产业创新来说,终于有了国内主导的、可以长期积淀的新平台。 同时,华为在遭遇安卓操作系统GMS(谷歌移动服务)海外断供之后,推出了鸿蒙操作系统HarmonyOS,并在开放原子开源基金会下启动开源项目OpenHarmony。 目前OpenHarmony短时间内已经吸引了国内众多厂商参与,也侧面反映了国内产业界对新一代万物互联操作系统的旺盛需求。 尽管其在生态规模和技术完整程度方面与安卓仍有差距,但毕竟迈出了打造自主生态的第一步。 这相当于为源代码合理使用划定了一个边界,即合理使用仅限于接口,一旦深入到接口的实现代码,则需要遵守相关许可。 这对开源知识产权的法律界定具有重要参考意义。 今年5月,《2021中国开源发展蓝皮书》重磅发布。 它不仅系统梳理了我国开源人才、项目、社区、组织、教育、商业的现状,并给出发展建议,而且为国家政府相关管理部门制定开源政策、布局开源战略提供参考,为科研院所、 科技 企业以及开源从业者提供更多的案例参考和数据支撑。 而不论是开源软件向围绕开放指令集的开源软硬件生态发展,还是开源有严格的法律边界约束,抑或是国内龙头企业正尝试通过开源 探索 解决“卡脖子”问题,且已经取得了一定的效果……众多案例都指向一个方向——开源趋势不可阻挡。 因为它源自人类分享知识、协同创造的天性,也是人类文明在数字时代薪火相传的重要模式。 当然,不可否认的是,开源还存在很多问题,例如,开源软件供应链安全的问题。 这里的安全既有传统意义上软件质量、安全漏洞的问题,也有开源软件无法得到持续有效维护的问题(如OpenSSL在出现HeartBleed问题时只有两位兼职维护者,log4j出现问题时只有三位兼职维护者),更有大国竞争导致的“断供”问题(如GitHub曾限制伊朗开发者访问)。 随着开源软件向GitHub这类商业平台的集中,这一问题会更加突出,甚至演变为重大风险。 开源软件这一本应属于全人类的智慧资产,可能变为实施“长臂管辖”的武器。 为了避免这一问题,开源代码托管平台、开源软件构建发布平台等公共基础设施需要“去中心化”。 世界需要多个开源软件基础设施,以最大程度消除政治力量对开源社区的威胁。 对于中国来说,随着开源软件成为众多科研、工业等重大基础设施的重要支撑部分,开源软件本身也要有一个基础设施,具备代码托管、编译、构建、测试、发布、运维等功能,保证开源软件供应的安全性和连续性,进而增强各行各业使用开源软件的信心。 未来,核心技术创新与开源贡献引领将成为国内企业发展的新动力,或将我国开源事业推向另一个高潮。

  • 声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
  • 本文地址:https://srwj168.com.cn/keji312/13714.html
中国文化体验日 新疆文艺演出亮相科威特
踩雷 ! 牛散或 连续跌停!又有A股公司快跌破面值