新融资 1.25 亿，用户超 1000 万，Suno 打算如何「改造」音乐行业？

区块链币圈网 2024-05-26 01:29 202 0

图片来源：由无界AI生成

昨天，Suno 在 X 上宣布成功完成了 1.25 亿美元的 B 轮融资。本轮投资者中，有风险投资公司 Lightspeed Venture Partners，还包括风险投资基金 Founders Collective，以及科技高管和投资者 Nat Friedman。

根据 The Information 的消息来源，本轮融资后 Suno 估值达到 5 亿美元。新筹集的资金将用于扩大公司的员工队伍，截至今年早些时候，公司仅有 12 名员工。

自 8 个月前推出首款产品以来，Suno AI 的用户群体已迅速增长至超过 1000 万。微软公司更是将 Suno 的功能直接整合到了其 Copilot 产品中。

在 Suno 的歌曲排行榜中，Stone 是第一首超过 100 万次收听的歌曲。如果 AI 音乐在开发一两年后就能如此流行，难以想象一下五年后它变成什么样。

最近，知名科技博主 No Priors 邀请到了 Suno 的联合创始人兼首席执行官 Mikey Schulman 展开一场精彩的讨论。在访谈中，Mikey 分享了与他人合作创办 Suno 的心路历程，AI 音乐的难点以及它未来将会如何引爆产业变革。

文章基于 No Priors 对 Mikey Schulman 的访谈编译，Founder Park 略有增删。

01 从物理学到 AIGC：

一切源于热爱？

Sarah：作为一位音乐爱好者，你的转型之旅相当独特，从音乐领域跨越到哈佛物理学博士，再到创立数家人工智能企业，能否跟我们分享一下这段历程？

Mikey：确实，这是一条曲折的路。我玩音乐已经有很长时间了，四岁起学习钢琴，成长过程中参与了很多乐队。然而，我意识到虽然我热爱音乐，但我的专长并不在此。相比之下，物理是更为明智的选择。我一路求学，从大学到研究生，直到取得物理学博士学位，专注于量子计算的研究。然而，尽管量子计算魅力无限，我内心清楚，它并不是我的终身事业。

Sarah：你是否预想过自己会成为一位理论物理学家？

Mikey：我从来没有设定过固定的职业路径，从不限定自己要做什么或不做什么。在研究生期间，我接触到的量子力学研究不仅理论深奥，而且在实践层面极具挑战。这一领域在上世纪 50 年代奠定基础，其中包含许多复杂的低温微波工程挑战，这些对于实际应用至关重要，我发现自己在处理这些问题上比一般的物理学家更有天赋。我在这里找到了自己的优势，享受着每一个探索的瞬间。

Sarah: 能否谈谈你是如何从物理学术界转向创业的？

Mikey: 我的转折点始于偶然遇见一家名为 Kentro 的小公司，它只有大约 10 名成员，但我立刻被那里的人和氛围吸引了。于是，我决定加入他们，成为一名软件工程师。幸运的是，我入职之后机器学习的机遇便显现出来，尤其是在 2014 年，有物理学博士学位的我恰好成为了这一新兴领域中的一员。我抓住这个机会，快速学习，组建团队，开发出一些有趣的产品，最终在 2018 年，我们的公司被 S&P Global 收购。

Sarah：你们的起点是基于一个开源模型——Bark。能否分享一下你们最初的灵感来源，以及你们是如何进入音乐生成这片领域的呢？

Mikey：在 Kensho，我们专注于文本处理，直到被 S&P Global 收购后，我们接手了首个音频相关的项目——将收益电话会议转录为文字。你们两位都阅读过的收益电话会议记录，有很大一部分就是 S&P Global 的成果。以往这类工作全靠人工，不仅繁琐而且费时，但通过自动化，我们显著提升了效率和处理量，也因此对音频 AI 产生了浓厚的兴趣。虽然我们本身就是音乐爱好者，但恰恰是这样一个并不那么吸引人的项目——收益电话会议的音频转录，点燃了我们的热情。此外，我们观察到相比于图像和文本领域，音频处理技术的发展滞后许多，这一情况在 2020 年尤为明显，而近年来图像和文本技术的飞速发展更是加剧了这一差距。

像我之前提到的，我们并没有一个详尽的长远规划。在开源项目 Bark 的开发过程中，甚至在它发布之前，我们就已经确定语音不是我们的主攻方向。确实，有不少人建议我们投身语音技术领域，他们认为开一个语音公司会更直接，「你会构建一个伟大的 B2B 产品，人们会喜欢它」。但我们太喜欢音乐了。所以我们决定建立一个音乐公司。

02 新一轮产业变革：

既是消费者，也是创作者

Sarah：为何你们决定不专注于语音而是投身音乐？

Mikey：语音虽然迷人，但它缺乏我们所追求的那种创造性的自由度。语音的目的在于准确传达信息，哪怕稍显机械或缺乏感情色彩，只要传达的信息无误，任务就算完成了。而真正的创造力发生在音频的一个完全不同的部分，那就是音乐。

Elad：你们在技术实现上有哪些独到之处，特别是在处理音乐生成上？

Mikey：我们主要采用 Transformer 模型，这得益于我们团队在文本处理方面的背景，而 Transformer 模型在音乐生成上同样表现出色。音频的采样率极高，每秒达到约 50,000 个样本点，我们面临的挑战在于如何有效地将这种连续信号转换为可管理的 tokens 集，这是一个需要创新思维的过程。

Sarah：你们如何评估模型生成音乐的质量？

Mikey：音乐的美感是评估的关键，这在 AI 领域是一个公认的事实。我们可能在技术指标上达到高准确度，但音乐的感染力和情感表达往往超越了这些量化的标准。音乐评估往往更为主观，意味着要听很多东西，并让人们听很多东西。在如何评估这些东西的问题上，我们还有很长的路要走，同时这个评估过程也让我们更深入地理解人类情感。

Elad：你的音乐背景在 Suno 的开发中发挥了怎样的作用？

Mikey：创办公司以来，我反而学到了更多关于音乐的新知识，接触到了之前从没接触过的音乐流派。我的音乐背景或许帮助我们避免了模型中的隐性偏见，我们尽量让模型不受限于传统的音乐理论框架，就像不要告诉 GPT 这是一个名词，那是一个动词，而是让GPT 自己去理解。如果我告诉我的模型只有 12 种音调，我的模型将只知道如何输出 12 种音调；如果我告诉我的模型有 50 种不同的乐器，我将永远无法获得那种独特的音色。音乐的无限可能性和多样性正是我们想要模型能够自行探索的。

Sarah：在你看来，AI 音乐生成面临的最大挑战是什么？

Mikey：音乐的独特之处在于它能触动人心，这是最大的挑战，因为 AI 音乐的目标正是激发听众的情感反应。音乐的多样性、文化依赖性以及个体差异性都给模型设计带来了挑战。

对于那些整天在文本大模型中打转的人来说，他们很容易想到这样的事情：「这就是我在法学院入学考试中的表现，我可以用同样的方法通过律师资格考试。」

这些对我们来说都不存在，就像我做了一首歌，它让我有了某种感觉，可能是颗粒感的音频让我有了某种感觉。我们正在探索如何让模型不仅能够生成悦耳的旋律，更重要的是能够触动人心。

Elad：Suno 的未来规划中，你们如何看待普通用户、专业人士及企业用户的需求？

Mikey：我想说的是，我们正试图改变整个世界与音乐的互动方式，并为人们带来新的体验。这意味着这是一款消费产品，而不是在 Ableton、Logic 或 Pro Tools 中加入 AI。这适合所有人，比如我妈妈。人们会花大量时间在电脑前享受创作歌曲的乐趣，对于自己的作品，他们感到有创造力和拥有感，并乐于分享它，这与现在的音乐创作方式不同。现在的音乐创作有时很痛苦，但它只为最终产品服务。而我认为，当你向人们开放这一切时，你肯定会关心最终产品，但你也会真正关心这段旅程，关心是否真正享受音乐创作。我做音乐的最大乐趣就是和朋友们一起玩音乐，即兴演奏，即使你没有在录音。

在商业方面，立刻对产品收费可能并不符合传统智慧，但这实际上非常重要，因为我们正试图创造一套并不存在的行为方式，以了解究竟是什么让人们愿意掏钱，而不仅仅是沿袭现有的 SaaS 定价模式。

Elad：我记得我曾经和一些在 90 年代非常活跃的人交谈过，当时网络浏览器真正进入了人们的视野，他们试图找出适合网页的商业模式，重点落在了小额支付上，所以每次阅读《纽约时报》的文章时，你只需支付几分之一美分的费用。当然，世界最终还是倒向了基于广告的模式，但和我交谈过的那个时代的人中，没有谁认为广告模式一定是正确的答案，他们只是觉得这是短期内最容易做的事情。

Mikey：是的。

Sarah: 我记得我们之前讨论过创作平台上的一个现象，那就是创作者和观众之间的比例通常失衡，并且这种失衡因平台而异。你认为像 Suno 这样的创新工具能在多大程度上改变这一现状呢？

Mikey: 我认为，Suno 这样的平台能够开启一个全新的「微创作」时代，我们可以制作我们三个人都会听的歌曲，因为它捕捉到了我们三个人的某一时刻，就像我们自拍一样，而现在的音乐中完全没有这样的分享动力。Suno 技术的潜力在于，它能模糊创作与消费的界限，使这两者相互渗透，最终，我们不再区分谁是创作者、谁是消费者，因为所有人都在以自己的方式享受音乐带来的乐趣。

Elad: 这样的未来图景真是令人憧憬，它似乎预示着音乐、音乐产业乃至音乐在社会中的角色都将发生深刻变革。你对五年后这个行业的展望是什么？

Mikey: 如果我们能够让数十亿人以新的方式体验音乐创作，那么音乐消费的时间和经济投入都将显著增长。亲自参与创作过程，无疑会加深人们与音乐艺术家之间的情感纽带。正如数字音频工作站（DAW）曾经那样，它降低了音乐制作的门槛，促进了音乐和文化的快速演变。未来，如果你有一副好耳机，你有一双好耳朵，你愿意下功夫学习工具，你就可以在宿舍里做音乐。随着更多人通过 Suno 这样的工具轻松创作，音乐风格的演变和新音乐的发掘速度将急剧加快。当人们发现制作一张专辑并不需要价值 50 万美元的 SSL 调音台和 10 名员工时，当有一些 15 岁的年轻人也能被前所未有的发掘出来时，这无疑会是下一场音乐革命。

另外，如果你看看过去十年的音乐，很多变化都是音质上的，因此歌曲的趣味性会稍逊一筹，就像很多数字化的东西一样。事实上，我很期待相反的结果。人工智能固然能创造出我们从未听过的声音，但将这些工具交到人们手中，我们就能解锁歌曲结构和和弦变化，借鉴不同风格并与其他风格混合，创造出新颖的作品。在我最乐观的时候，我会在 TikTok 上说， Suno 让我们每次听音乐的时间都超过 30 秒。也许我有点天真和乐观，但我认为这是非常有可能的。