虫鸣鸟叫 AI开源音频生成模型鼓点都能生成 Stability 摇滚

作者： 2024年06月07日网红浏览

机器之心报道

编辑：蛋酱、小舟

音频生成领域又有好消息：刚刚，Stability AI 宣布推出开放模型 Stable Audio Open，该模型能够生成高质量的音频数据。

项目地址：https://huggingface.co/stabilityai/stable-audio-open-1.0

与 Stability AI 的商业 Stable Audio 产品（可生成长达三分钟的更长、连贯的音乐曲目）不同，Stable Audio Open 可以通过简单的文本提示生成长达 47 秒的高质量音频数据。

经过专业训练后，这个模型已经非常适合创建鼓点、乐器 riffs、环境音、拟声录音和其他用于音乐制作和声音设计的音频样本。虽然它可以生成简短的音乐片段，但它并未针对完整的歌曲、旋律或人声进行优化。

Stable Audio Open 的主要优势在于，用户可以根据自己的自定义音频数据对模型进行微调。

比如，下方是鼓手根据自己的鼓声录音样本进行微调生成的新节拍：

warm_arpeggios_on_an_analog_synthesizer_with_a_gradually_ri,

试听链接：https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650920885&idx=4&sn=45344ce92b50541bbee3be44bd366652&chksm=84e413cbb3939addd288702f3d08e690b1eba2a1cbd25d8d1cecaa2ca4f447dc12aa36e8d587&token=167504815&lang=zh_CN#rd

生成森林中鸟儿唱歌的音频：

【blackbird】tmp_gradio_8cc6bd4d9dd695112ffb021c7f3c9539e74,

试听链接：https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650920885&idx=4&sn=45344ce92b50541bbee3be44bd366652&chksm=84e413cbb3939addd288702f3d08e690b1eba2a1cbd25d8d1cecaa2ca4f447dc12aa36e8d587&token=167504815&lang=zh_CN#rd

再生成一段「动次打次」的摇滚乐：

【摇滚】rock_beat_played_in_a_treated_studio_session_drummi,

试听链接：https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650920885&idx=4&sn=45344ce92b50541bbee3be44bd366652&chksm=84e413cbb3939addd288702f3d08e690b1eba2a1cbd25d8d1cecaa2ca4f447dc12aa36e8d587&token=167504815&lang=zh_CN#rd

训练细节与数据集

Stable Audio Open 是基于 Transformer 架构的潜在扩散模型，由三个组件组成：将波形压缩为可管理序列长度的自编码器、用于文本调节的基于 T5 的文本嵌入，以及在自编码器的潜在空间中运行的基于 transformer 的扩散 (DiT) 模型。

随着包括 Stability 在内的音乐生成器越来越受欢迎，版权以及一些生成器创建者可能滥用版权的方式正成为人们关注的焦点。

Stability AI 对本次模型的训练采取了负责任的态度，在文生图模型训练上的「版权问题」曾让这家公司深陷争议之中。因此，Stable Audio Open 使用来自 FreeSound 和 Free Music Archive 的音频数据进行训练，确保未经许可未使用任何受版权保护或专有的材料。

数据集共包含 486492 个音频记录，其中 472618 个来自 Freesound，13874 个来自 Free Music Archive 。所有音频文件均为 CC0、CC BY 或 CC Sampling+ 许可。这些数据用于训练自编码器和 DiT，此外研究者使用了公开的预训练 T5 模型（t5-base）进行文本调节。

在开始训练之前，研究者进行了深入分析，以确保训练数据中没有未经授权的版权音乐。

他们首先使用基于 AudioSet 类别的 PANNs 音乐分类器识别了 FreeSound 中的音乐样本。被识别的音乐样本中至少有 30 秒的音乐被预测为属于音乐相关类别，阈值为 0.15（PANNs 输出概率范围为 0 至 1）。

识别出的音乐样本被发送到 Audible Magic（一家值得信赖的内容检测公司）的识别服务，以确保不存在受版权保护的音乐。Audible Magic 标记了疑似受版权保护的音乐，这些会被删除，然后再对数据集进行训练。大部分被删除的内容都是现场录音，其中的背景音乐都是受版权保护的。经过上述处理后，研究者得到了 266324 个 CC0、194840 个 CC-BY 和 11454 个 CC 采样 + 音频记录。

最后要确保的是， FMA 子集中不存在受版权保护的内容。在这种情况下，程序略有不同，因为 FMA 子集中包含音乐信号。研究者根据大型版权音乐数据库进行元数据搜索，并标记任何可能匹配的内容，被标记的内容会由人工逐一审核。这一过程之后，最终获得了 8967 首 CC-BY 和 4907 首 CC0 音乐。

局限性

Stable Audio Open 1.0 作为一个音频生成模型，也有一些局限性，包括：

值得注意的是，Stable Audio Open 是一个开放模型，但是从技术上讲它不是开源的。Stable Audio Open 并未使用实际的开放源代码促进会 (OSI) 批准的许可证，而是根据 Stability AI 非商业研究社区协议许可证向用户提供。

与此同时，Stable Audio Open 也不能用于商业用途；服务条款禁止这样做。而且，它在不同音乐风格和文化中的表现并不一样好，或者在使用英语以外的语言描述时也表现不佳。

Stability AI 将此归咎于训练数据。模型描述中写道：「数据源可能缺乏多样性，数据集中并非所有文化都具有同等代表性。模型生成的样本将反映训练数据的偏差。」返回

求几首适合的婚纱照背景音乐!帮忙介绍下~

不能是表达伤感和离别的音乐，不管哪一款婚纱照，都不会和谐的，但是也不要选择太过动感的音乐，比如DJ舞曲，比较强烈的摇滚音乐，这些都不要考虑了，和婚纱照的美好也不太搭调。最好是选择整个过程都比较安静，但是又不是表达伤感的那种轻音乐。虽然不是很详细但是亲应该有些了解了。我也不能很详细的给你解说太多。。打字麻烦。。。。。 (*^__^*) 嘻嘻亲如果要详细的内容我给你个网址,我当时选婚纱照背景音乐也是从这里看，才选好的·~ “北京婚纱摄影”开头字母+net

口水贴：Linux和BSD到底那个更适合桌面版

Firstly, are you full of bullshit ?Secondly, GNU/Linux and BSD Unix both have many distributions, every distributions aim is different to each example, Ubuntu aims for design usability, OpenBSD aims for design safety, FreeBSD aims for design my time to talk, bye~~

如何建立完整可用的安全大数据平台

整体而言，大数据平台从平台部署和数据分析过程可分为如下几步： 1、linux系统安装一般使用开源版的Redhat系统--CentOS作为底层平台。为了提供稳定的硬件基础，在给硬盘做RAID和挂载数据存储节点的时，需要按情况配置。例如，可以选择给HDFS的namenode做RAID2以提高其稳定性，将数据存储与操作系统分别放置在不同硬盘上，以确保操作系统的正常运行。 2、分布式计算平台/组件安装目前国内外的分布式系统的大多使用的是Hadoop系列开源系统。 Hadoop的核心是HDFS，一个分布式的文件系统。在其基础上常用的组件有Yarn、Zookeeper、Hive、Hbase、Sqoop、Impala、ElasticSearch、Spark等。先说下使用开源组件的优点：1）使用者众多，很多bug可以在网上找的答案（这往往是开发中最耗时的地方）。 2）开源组件一般免费，学习和维护相对方便。 3）开源组件一般会持续更新，提供必要的更新服务『当然还需要手动做更新操作』。 4）因为代码开源，若出bug可自由对源码作修改维护。再简略讲讲各组件的功能。分布式集群的资源管理器一般用Yarn，『全名是Yet Another Resource Negotiator』。常用的分布式数据数据『仓』库有Hive、Hbase。 Hive可以用SQL查询『但效率略低』，Hbase可以快速『近实时』读取行。外部数据库导入导出需要用到Sqoop。 Sqoop将数据从Oracle、MySQL等传统数据库导入Hive或Hbase。 Zookeeper是提供数据同步服务，Yarn和Hbase需要它的支持。 Impala是对hive的一个补充，可以实现高效的SQL查询。 ElasticSearch是一个分布式的搜索引擎。针对分析，目前最火的是Spark『此处忽略其他，如基础的MapReduce 和 Flink』。 Spark在core上面有ML lib，Spark Streaming、Spark QL和GraphX等库，可以满足几乎所有常见数据分析需求。值得一提的是，上面提到的组件，如何将其有机结合起来，完成某个任务，不是一个简单的工作，可能会非常耗时。 3、数据导入前面提到，数据导入的工具是Sqoop。用它可以将数据从文件或者传统数据库导入到分布式平台『一般主要导入到Hive，也可将数据导入到Hbase』。 4、数据分析数据分析一般包括两个阶段：数据预处理和数据建模分析。数据预处理是为后面的建模分析做准备，主要工作时从海量数据中提取可用特征，建立大宽表。这个过程可能会用到Hive SQL，Spark QL和Impala。数据建模分析是针对预处理提取的特征/数据建模，得到想要的结果。如前面所提到的，这一块最好用的是Spark。常用的机器学习算法，如朴素贝叶斯、逻辑回归、决策树、神经网络、TFIDF、协同过滤等，都已经在ML lib里面，调用比较方便。 5、结果可视化及输出API可视化一般式对结果或部分原始数据做展示。一般有两种情况，行熟悉展示，和列查找展示。在这里，要基于大数据平台做展示，会需要用到ElasticSearch和Hbase。 Hbase提供快速『ms级别』的行查找。 ElasticSearch可以实现列索引，提供快速列查找。平台搭建主要问题： 1、稳定性 Stability 理论上来说，稳定性是分布式系统最大的优势，因为它可以通过多台机器做数据及程序运行备份以确保系统稳定。但也由于大数据平台部署于多台机器上，配置不合适，也可能成为最大的问题。曾经遇到的一个问题是Hbase经常挂掉，主要原因是采购的硬盘质量较差。硬盘损坏有时会到导致Hbase同步出现问题，因而导致Hbase服务停止。由于硬盘质量较差，隔三差五会出现服务停止现象，耗费大量时间。结论：大数据平台相对于超算确实廉价，但是配置还是必须高于家用电脑的。 2、可扩展性 Scalability 如何快速扩展已有大数据平台，在其基础上扩充新的机器是云计算等领域应用的关键问题。在实际2B的应用中，有时需要增减机器来满足新的需求。如何在保留原有功能的情况下，快速扩充平台是实际应用中的常见问题。上述是自己项目实践的总结。整个平台搭建过程耗时耗力，非一两个人可以完成。一个小团队要真正做到这些也需要耗费很长时间。目前国内和国际上已有多家公司提供大数据平台搭建服务，国外有名的公司有Cloudera，Hortonworks，MapR等，国内也有华为、明略数据、星环等。另外有些公司如明略数据等还提供一体化的解决方案，寻求这些公司合作对于入门级的大数据企业或没有大数据分析能力的企业来说是最好的解决途径。对于一些本身体量较小或者目前数据量积累较少的公司，个人认为没有必要搭建这一套系统，暂时先租用AWS和阿里云就够了。对于数据量大，但数据分析需求较简单的公司，可以直接买Tableau，Splunk，HP Vertica，或者IBM DB2等软件或服务即可。