新融资 1.25 亿,用户超 1000 万,Suno 打算如何「改造」音乐行业?
昨天,Suno 在 X 上宣布成功完成了 1.25 亿美元的 B 轮融资。本轮投资者中,有风险投资公司 Lightspeed Venture Partners,还包括风险投资基金 Founders Collective,以及科技高管和投资者 Nat Friedman。
根据 The Information 的消息来源,本轮融资后 Suno 估值达到 5 亿美元。新筹集的资金将用于扩大公司的员工队伍,截至今年早些时候,公司仅有 12 名员工。
自 8 个月前推出首款产品以来,Suno AI 的用户群体已迅速增长至超过 1000 万。微软公司更是将 Suno 的功能直接整合到了其 Copilot 产品中。
在 Suno 的歌曲排行榜中 ,Stone 是第一首超过 100 万次收听的歌曲。如果 AI 音乐在开发一两年后就能如此流行,难以想象一下五年后它变成什么样。
最近,知名科技博主 No Priors 邀请到了 Suno 的联合创始人兼首席执行官 Mikey Schulman 展开一场精彩的讨论。在访谈中,Mikey 分享了与他人合作创办 Suno 的心路历程,AI 音乐的难点以及它未来将会如何引爆产业变革。
文章基于 No Priors 对 Mikey Schulman 的访谈编译,Founder Park 略有增删。
01
从物理学到 AIGC:
一切源于热爱?
Sarah:作为一位音乐爱好者,你的转型之旅相当独特,从音乐领域跨越到哈佛物理学博士,再到创立数家人工智能企业,能否跟我们分享一下这段历程?
Mikey:确实,这是一条曲折的路。我玩音乐已经有很长时间了,四岁起学习钢琴,成长过程中参与了很多乐队。然而,我意识到虽然我热爱音乐,但我的专长并不在此。相比之下,物理是更为明智的选择。我一路求学,从大学到研究生,直到取得物理学博士学位,专注于量子计算的研究。然而,尽管量子计算魅力无限,我内心清楚,它并不是我的终身事业。
Sarah:你是否预想过自己会成为一位理论物理学家?
Mikey:我从来没有设定过固定的职业路径,从不限定自己要做什么或不做什么。在研究生期间,我接触到的量子力学研究不仅理论深奥,而且在实践层面极具挑战。这一领域在上世纪 50 年代奠定基础,其中包含许多复杂的低温微波工程挑战,这些对于实际应用至关重要,我发现自己在处理这些问题上比一般的物理学家更有天赋。我在这里找到了自己的优势,享受着每一个探索的瞬间。
Sarah: 能否谈谈你是如何从物理学术界转向创业的?
Mikey: 我的转折点始于偶然遇见一家名为 Kentro 的小公司,它只有大约 10 名成员,但我立刻被那里的人和氛围吸引了。于是,我决定加入他们,成为一名软件工程师。幸运的是,我入职之后机器学习的机遇便显现出来,尤其是在 2014 年,有物理学博士学位的我恰好成为了这一新兴领域中的一员。我抓住这个机会,快速学习,组建团队,开发出一些有趣的产品,最终在 2018 年,我们的公司被 S&P Global 收购。
Sarah:你们的起点是基于一个开源模型——Bark。能否分享一下你们最初的灵感来源,以及你们是如何进入音乐生成这片领域的呢?
Mikey:在 Kensho,我们专注于文本处理,直到被 S&P Global 收购后,我们接手了首个音频相关的项目——将收益电话会议转录为文字。你们两位都阅读过的收益电话会议记录,有很大一部分就是 S&P Global 的成果。以往这类工作全靠人工,不仅繁琐而且费时,但通过自动化,我们显著提升了效率和处理量,也因此对音频 AI 产生了浓厚的兴趣。虽然我们本身就是音乐爱好者,但恰恰是这样一个并不那么吸引人的项目——收益电话会议的音频转录,点燃了我们的热情。此外,我们观察到相比于图像和文本领域,音频处理技术的发展滞后许多,这一情况在 2020 年尤为明显,而近年来图像和文本技术的飞速发展更是加剧了这一差距。
像我之前提到的,我们并没有一个详尽的长远规划。在开源项目 Bark 的开发过程中,甚至在它发布之前,我们就已经确定语音不是我们的主攻方向。确实,有不少人建议我们投身语音技术领域,他们认为开一个语音公司会更直接,「你会构建一个伟大的 B2B 产品,人们会喜欢它」。但我们太喜欢音乐了。所以我们决定建立一个音乐公司。
02
新一轮产业变革:
既是消费者,也是创作者
Sarah:为何你们决定不专注于语音而是投身音乐?
Mikey:语音虽然迷人,但它缺乏我们所追求的那种创造性的自由度。语音的目的在于准确传达信息,哪怕稍显机械或缺乏感情色彩,只要传达的信息无误,任务就算完成了。而真正的创造力发生在音频的一个完全不同的部分,那就是音乐。
Elad:你们在技术实现上有哪些独到之处,特别是在处理音乐生成上?
Mikey:我们主要采用 Transformer 模型,这得益于我们团队在文本处理方面的背景,而 Transformer 模型在音乐生成上同样表现出色。音频的采样率极高,每秒达到约 50,000 个样本点,我们面临的挑战在于如何有效地将这种连续信号转换为可管理的 tokens 集,这是一个需要创新思维的过程。
Sarah:你们如何评估模型生成音乐的质量?
Mikey:音乐的美感是评估的关键,这在 AI 领域是一个公认的事实。我们可能在技术指标上达到高准确度,但音乐的感染力和情感表达往往超越了这些量化的标准。音乐评估往往更为主观,意味着要听很多东西,并让人们听很多东西。在如何评估这些东西的问题上,我们还有很长的路要走,同时这个评估过程也让我们更深入地理解人类情感。
Elad:你的音乐背景在 Suno 的开发中发挥了怎样的作用?
Mikey:创办公司以来,我反而学到了更多关于音乐的新知识,接触到了之前从没接触过的音乐流派。我的音乐背景或许帮助我们避免了模型中的隐性偏见,我们尽量让模型不受限于传统的音乐理论框架,就像不要告诉 GPT 这是一个名词,那是一个动词,而是让GPT 自己去理解。如果我告诉我的模型只有 12 种音调,我的模型将只知道如何输出 12 种音调;如果我告诉我的模型有 50 种不同的乐器,我将永远无法获得那种独特的音色。音乐的无限可能性和多样性正是我们想要模型能够自行探索的。
Sarah:在你看来,AI 音乐生成面临的最大挑战是什么?
Mikey:音乐的独特之处在于它能触动人心,这是最大的挑战,因为 AI 音乐的目标正是激发听众的情感反应。音乐的多样性、文化依赖性以及个体差异性都给模型设计带来了挑战。
对于那些整天在文本大模型中打转的人来说,他们很容易想到这样的事情:「这就是我在法学院入学考试中的表现,我可以用同样的方法通过律师资格考试。」
这些对我们来说都不存在,就像我做了一首歌,它让我有了某种感觉,可能是颗粒感的音频让我有了某种感觉。我们正在探索如何让模型不仅能够生成悦耳的旋律,更重要的是能够触动人心。
Elad:Suno 的未来规划中,你们如何看待普通用户、专业人士及企业用户的需求?
Mikey:我想说的是,我们正试图改变整个世界与音乐的互动方式,并为人们带来新的体验。这意味着这是一款消费产品,而不是在 Ableton、Logic 或 Pro Tools 中加入 AI。这适合所有人,比如我妈妈。人们会花大量时间在电脑前享受创作歌曲的乐趣,对于自己的作品,他们感到有创造力和拥有感,并乐于分享它,这与现在的音乐创作方式不同。现在的音乐创作有时很痛苦,但它只为最终产品服务。而我认为,当你向人们开放这一切时,你肯定会关心最终产品,但你也会真正关心这段旅程,关心是否真正享受音乐创作。我做音乐的最大乐趣就是和朋友们一起玩音乐,即兴演奏,即使你没有在录音。
在商业方面,立刻对产品收费可能并不符合传统智慧,但这实际上非常重要,因为我们正试图创造一套并不存在的行为方式,以了解究竟是什么让人们愿意掏钱,而不仅仅是沿袭现有的 SaaS 定价模式。
Elad:我记得我曾经和一些在 90 年代非常活跃的人交谈过,当时网络浏览器真正进入了人们的视野,他们试图找出适合网页的商业模式,重点落在了小额支付上,所以每次阅读《纽约时报》的文章时,你只需支付几分之一美分的费用。当然,世界最终还是倒向了基于广告的模式,但和我交谈过的那个时代的人中,没有谁认为广告模式一定是正确的答案,他们只是觉得这是短期内最容易做的事情。
Mikey:是的。
Sarah: 我记得我们之前讨论过创作平台上的一个现象,那就是创作者和观众之间的比例通常失衡,并且这种失衡因平台而异。你认为像 Suno 这样的创新工具能在多大程度上改变这一现状呢?
Mikey: 我认为,Suno 这样的平台能够开启一个全新的「微创作」时代,我们可以制作我们三个人都会听的歌曲,因为它捕捉到了我们三个人的某一时刻,就像我们自拍一样,而现在的音乐中完全没有这样的分享动力。Suno 技术的潜力在于,它能模糊创作与消费的界限,使这两者相互渗透,最终,我们不再区分谁是创作者、谁是消费者,因为所有人都在以自己的方式享受音乐带来的乐趣。
Elad: 这样的未来图景真是令人憧憬,它似乎预示着音乐、音乐产业乃至音乐在社会中的角色都将发生深刻变革。你对五年后这个行业的展望是什么?
Mikey: 如果我们能够让数十亿人以新的方式体验音乐创作,那么音乐消费的时间和经济投入都将显著增长。亲自参与创作过程,无疑会加深人们与音乐艺术家之间的情感纽带。正如数字音频工作站(DAW)曾经那样,它降低了音乐制作的门槛,促进了音乐和文化的快速演变。未来,如果你有一副好耳机,你有一双好耳朵,你愿意下功夫学习工具,你就可以在宿舍里做音乐。随着更多人通过 Suno 这样的工具轻松创作,音乐风格的演变和新音乐的发掘速度将急剧加快。当人们发现制作一张专辑并不需要价值 50 万美元的 SSL 调音台和 10 名员工时,当有一些 15 岁的年轻人也能被前所未有的发掘出来时,这无疑会是下一场音乐革命。
另外,如果你看看过去十年的音乐,很多变化都是音质上的,因此歌曲的趣味性会稍逊一筹,就像很多数字化的东西一样。事实上,我很期待相反的结果。人工智能固然能创造出我们从未听过的声音,但将这些工具交到人们手中,我们就能解锁歌曲结构和和弦变化,借鉴不同风格并与其他风格混合,创造出新颖的作品。在我最乐观的时候,我会在 TikTok 上说, Suno 让我们每次听音乐的时间都超过 30 秒。也许我有点天真和乐观,但我认为这是非常有可能的。