首页 » 99链接平台 » 生成式AI走进小学生编程第一课:画条线生成音乐、草图一秒变大作(生成音乐一课技术草图)

生成式AI走进小学生编程第一课:画条线生成音乐、草图一秒变大作(生成音乐一课技术草图)

南宫静远 2024-11-04 23:35:52 0

扫一扫用手机浏览

文章目录 [+]

作者:蛋酱

在经典作品《小王子》中,有这样一幕情节:一个小孩子画下了蛇吞象的样子,他向大人们展示自己的作品,并问他们害不害怕。
然而,所有的成年人都说:「一顶帽子有什么可怕的?」

但对于充满想象力的孩子来说,这并不是一顶帽子,而是一条正在消化大象的蟒蛇:

生成式AI走进小学生编程第一课:画条线生成音乐、草图一秒变大作(生成音乐一课技术草图) 99链接平台
(图片来自网络侵删)

相信每一位读者都曾被这段情节所打动,这就是艺术创作的精髓所在。
对于小朋友来说,即使是几笔简单的线条,也代表着最纯真可爱的想象。

比如,简单的几笔涂鸦,为何不能代表光怪陆离的科幻世界?借助 AI 的「画笔」,从灵感到完整作品也不过几秒的时间:

再比如,一条随手画出的波浪线,也能变成一段美妙的旋律:

这些神奇的「AI 魔法」,都来自于一个名为「腾讯 AI 编程第一课」的小程序。

孩子们的「AI 第一课」

自 2022 年以来,生成式 AI 热度不减,以 Stable Diffusion、GPT-4、PaLM 2 为代表的大模型成为了热门关键词,并衍生出文本生成、图像生成、动画制作、视频生成等领域的落地产品,深刻改变了人们的生活方式。

不难想象,未来将是 AI 创造更多价值的时代。
这个时代对青少年的 AI 认知与计算思维提出了新的要求,但这些「高大上」的技术,对孩子们来说仍然是有距离感的。

如何将最前沿的技术以易感知的方式传递给他们,增强青少年对科学技术的兴趣、深化青少年对 AI 领域发展的认知呢?

通过剧本式、「玩中学」的方式,腾讯与中国宋庆龄基金会共同发布「AI 编程第一课」公益项目,为全国零基础青少年提供 AI 和编程启蒙小程序平台,首批上线内容结合中国航天、未来交通两项国家重大科技议题,原创趣味探索故事,让青少年在1小时中初识计算思维、AI基本原理、人机协同理念等。

开学之际,「腾讯 AI 编程第一课」正式上线。
在腾讯音乐天琴实验室的技术支持下,小程序上线了「AI 创作」版块,分为「AI 作曲」和「AI 作画」两个功能,希望能让孩子们体验到最新 AI 技术的魅力。

今年 10 岁的静宜(化名)是「腾讯AI 编程第一课」的首批「用户」之一。
几天试用下来,最让她好奇的就是「AI 创作」功能的实现原理:

「为什么不同的线可以生成不同的曲调?」

「曲线如何变成音乐?」

「AI 是怎么猜到我心中想画的是什么呢?」

这些问题的确令人好奇,所以这款宝藏应用背后有哪些 AI 技术?接下来,让我们一探究竟。

从一条线到「宫商角徵羽」的神奇之旅

提到 AI 音乐生成,大部分人并不陌生。
今年 1 月,谷歌发布了「MusicLM」,实现了从文本或图像中生成高保真音乐。
之后,Meta 开源了可生成各种音频的 PyTorch 库「AudioCraft」,能够基于用户输入的文本生成高质量、高保真的音频,不仅能生成有旋律的音乐,甚至还可以选择乐器。
这一系列方法都有一个特点:直接从文本 / 图像生成音频。

在「AI 作曲」功能研发过程中,天琴实验室首先对上述方法进行了尝试与评估。
他们发现,现有的从文本到音频的音乐生成大模型确实取得了不错的进展,但距离大规模商用还有一个挑战必须解决:采样率低的问题。

「音乐的标准采样率为 44.1 kHz 或 48 kHz,语音的采样率是 16 kHz,目前大部分方法生成的音乐只有 24 kHz 或者 32 kHz,音质有待提升。
」天琴实验室 AI 作曲团队技术人员泽文表示。

来自 QQ 音乐负责此次「AI 作曲」功能研发的团队成员都有过音乐创作经历,有人曾担任乐队吉他手,也有人曾是音乐制作人。
这些经历让他们对于生成音乐的质量要求更加极致,同时也带来了重要的启发:他们忽然想到,或许可以采用与人类创作过程非常相似的生成方式,以保证音乐的连贯性和高质量。

最终,他们决定采用「符号音乐生成」这一技术路线。
「从自然语言处理的角度来看,乐符本来就可视为一种语言,不同的是乐谱包含的信息密度比文本更高,还包括旋律、节拍、乐器、流派等。
」天琴实验室 AI 作曲技术人员哲旭表示。

经过与一线产品团队的交流,技术团队还获得了一个重要洞察:相比于常见的「哼唱识曲」,「画线谱曲」对于青少年来说是更具新鲜感的生成方式,更能引发他们对 AI 的兴趣。

在这个设想的推动下,技术团队以「曲线」作为输入,以乐谱转化为音频作为输出,打造出了颇具创意的「AI 作曲」功能。
具体来说:

第一步是从划线图像到音符的识别。
孩子们画线的起伏高低就象征着旋律的变化,界面中的横轴为时间,纵轴对应不同的音符「do re mi sol la」,同时,也对应着中国传统的五音「宫商角徵羽」。
第二步是旋律的续写。
有了五个音符的组合,AI 就有了灵感,并将其扩展为一段 16 秒的旋律。
模型基于自回归的方式逐个音符进行预测,每个时刻的输入都依赖于上一个时刻的输出,直到生成一段连贯的音乐。
第三步就是编曲。
编曲模型会分析旋律的节奏、调子、和弦,给旋律加上不同的乐器和节奏,并提供了流行、古典和电子三种编曲风格。
第四步是算法渲染,乐谱将被转化为音频。

至此,一首完整的音乐就完成了。

天琴实验室 AI 作曲负责人 Ethan 表示,符号音乐生成技术的价值远不止于娱乐向、教育向的 C 端产品,更值得期待的是成为高效的音乐人创作工具。
从文本直接到音频的过程像一个「黑箱」,而「符号音乐生成」有完整的乐理系统支撑,生成结果也是可编辑的,音乐人可以在生成的乐谱中进行二次创作。

这种对于技术落地价值的考量,在天琴实验室的技术探索中是一以贯之的。
作为腾讯音乐旗下首个音视频实验室,他们希望真正将 AI 创新技术融入到产品之中,为用户提供高度个性化及差异化的音乐娱乐体验。

目前,天琴实验室在 AI 音乐生成的技术积累已经覆盖了作曲、混音、编曲、作词、演唱等全部音乐创作环节。
除了提供「作曲、混音、编曲」能力的一站式音乐生成技术「琴乐」,以及 AI 辅助作词平台「觅词」。
此外,腾讯音乐 AI 伴侣「小琴」和「小天」两款虚拟人产品均已应用于歌曲的智能演唱之中。

比如,本次「AI 编程第一课」的主题曲《魔法字符》,就是由腾讯、QQ 音乐、腾讯音乐天琴实验室共同打造的,从作曲到演唱全链路均由 AI 完成。
其中,「琴乐」一站式音乐生成技术完成作曲、混音及编曲,「觅词」辅助创作了趣味十足的魔法歌词,虚拟人「小琴」负责最终演绎。

AI 时代,每个人都是「神笔马良」

与音乐的意义类似,绘画也是一种表达情感的方式。

当前,AI 在绘画生成方面的应用已经比较成熟,比如通过文字 Prompt 生成图像的 Stable Diffusion、Midjourney。
但用过的人都知道,如何设计 Prompt 也是一大难点,生成结果未必总能「如人所愿」。

问题来了:AI 能不能接住小朋友的奇思妙想呢?

天琴实验室 AI 作画团队的成员们意识到,对于「AI 作画」功能的用户群体 6-12 岁的孩子来说,以文字形式去生成图像仍然存在一定的门槛,特别是仅使用文本难以控制生成细节,无法对图片进行细化编辑。

因此,他们将目光锁定在一种更能发挥想象力和创造力的方法:线稿成画。

在「AI 编程第一课」的「AI 作画」中,不同于传统的「文生图」需要输入非常复杂的 Prompt,用户只需要简单描绘几笔,就能让「草图」变成「精品」。

这种方法不仅需要扩散模型强大的生成能力,还需要精确的条件控制方案。
「AI 作画」这一功能能够在短时间内顺利上线,很大程度上得益于天琴实验室在图像生成领域的技术积累。

从 2022 年,天琴实验室开始布局生成式 AI 技术,并在 QQ 音乐和全民 K 歌中应用落地,比如直播礼物、歌词海报、歌曲背景图、AIGC 播放器、歌曲封面图等多项功能。
对生成图像风格 / 内容的精确控制,一直是天琴实验室在重点研究的方向。

比如,「AI 歌曲封面」就是 AI 技术与音乐理解结合的一大成果,为 QQ 音乐曲库中大量封面留空的作品自动生成封面,不仅能够让音乐人和作品的关注度得到提升,更重要的为新上作品提供了降低制作成本的选择。

此外,天琴实验室还推出了 AI 音乐视觉生成技术 MUSE(Music Envision),「以歌生图」能力就是其一大亮点:用户选择一首歌或一段歌词,就可以将歌曲的意境用 AI 技术具象化呈现出来,包括歌词海报、歌词动效视频等视觉内容。

这种「意境」与「具象」的转化,在本次「AI 作画」中也有所体现。
「小朋友的绘画作品可能会更加写意,对于这种情况,我们专门使用儿童涂鸦和最终成品图进行了搭配训练,为模型定制相关能力以提升最终生成效果。
」天琴实验室 AI 作画负责人 Ben 表示。
「我们在精确描绘和物体识别之间进行了一种平衡,一方面让草图的线条起到引导作用,另一方面通过简单的线条进行内容本身的识别,同时给到模型一定的自由发挥空间。

而这些成果和经验不只用于腾讯音乐的内部业务,也正在赋能全行业。

很多 AI 应用面向的用户数量都比较庞大,这将带来极高的大模型推理成本。
对于这个问题,天琴实验室推出了 MUSE Light 大模型推理加速引擎,并在 HuggingFace 公开发布了 lyraSD、lyraChatGLM、lyraBELLE 三项开源大模型的加速版本,实践效果均为行业领先,在 B 端助力技术从业者和科研工作者节约时间和成本。

在「AI 编程第一课」的研发实践中,MUSE Light 帮助节省了 90% 以上的推理成本,使图像的生成加速了 10 倍,且有效提升了用户体验。

此外,团队还观察到:「从草图生成图像的技术已经取得不错的效果,但如果他人想去尝试一件同样的事情,前期会花很多的时间,才能找到比较合用的模型。

为了解决这个痛点,天琴实验室将过往的技术实践经验汇集在 AI 绘图创作平台「MUSE UI」之中。
该平台融合了 MUSE Light 大模型推理加速等多项行业领先的创新技术,提供了「一键出图」、「模型广场」、「图搜模型」、「动图生成」、「一键定制绘图加速服务」、「多场景绘图应用」等多项功能。
借助 MUSE UI,设计师、插画师和其他专业人士将节约更多时间成本并最大程度地提高效率。

据了解,经过内部业务实践的检验之后,MUSE UI 平台也将在不久后面向全行业开放。

当万物皆可 AI 生成的时代来临

这两年来,与生成式 AI 相关的技术创新与应用总能成为热门话题。

虽然从内容生产的维度去评价,AI 生成音乐、图像作品的艺术价值还存在诸多争议。
但可以期待的是,随着技术的不断发展,现阶段的很多问题将被克服,AI 生成内容的水准必然会有所突破。

从生产力发展的角度看,生成式 AI 使得内容生产的门槛不断降低,效率不断提高,这对于各行各业来说都是巨大的变革。
例如,使用 AI 生成营销文案,成本仅为人工撰写的几十分之一,且内容更加多样化。

可以确定的是,未来的社会生产分工,将会更注重人机协作模式,对人的计算思维能力的培养也更加重要。
我们必须适应这种变化,找到自身在新时代的定位,更充分地去感受科技带来的美好。

在这种背景下,科学教育理念也需要随之进化。
对于今天的青少年来说,他们未必需要过多关注 AI 的底层技术,未必需要一行一行地编写代码,更重要的是先学会如何「Prompt」。

对于「AI 编程第一课」的青少年用户来说,这可能是他们的「AI 第一课」,也是他们成为智能时代新型人才的起航点。

标签:

相关文章