初识音频数字水印
2017 年春,我还在热火朝天地运营着《嘻哈之城》网站,当年现象级的综艺节目《中国有嘻哈》预定在 6 月开播。作为参与招募选手的媒体,那时为了一些选手组织的事宜也经常往北京跑。
4 月,音乐财经媒体《小鹿角音乐》的财经峰会也在北京召开了,他们正在征集路演项目,因为当时在北京所以我也报了名,没想到就此选上了。其中一起路演的项目有一个名叫“SoundLinks”,是由 2 位物理博士主导的项目;
“——将互联网嵌入音乐,提供创新的版权互动变现服务” ,是他们的 Slogan。
SoundLinks 路演时创始人描述的更多的是应用场景和商业价值,并没有提太多的原理。从功能上简单理解就是:当你在演唱会的时候掏出手机,就会根据曲目自动转向到淘宝链接?
当时觉得应该是和听歌识曲的原理差不多(听歌识曲其实已经很多年了,但我并不太清楚背后的细节)。
路演的主办方在会后请各项目方参加晚宴,我正巧和 2 位博士一桌,由于我们公司一直以来和音频领域都颇有渊源,所以出于兴趣想和 2 位博士稍微探讨一下 Soundlinks 后面的原理,但不知 2 位博士是出于商业保密还是不屑于和非物理专业人士沟通的原因,一提到原理就三缄其口,仿佛多说 2 句话我就会把他们的项目盗版了似的。
当时我也是有点不屑,心想:听歌识曲不是早就有了嘛,有啥好遮遮掩掩的呢?
不过,音频水印这件事从此在我心里播下了一颗种子。
2017 - 2021 NFT 爆发
与此同时,在我关注的另一个赛道——区块链:
Crypto Punks 这个项目上线,而 Crypto Kitties 这个游戏的火热出圈,让 NFT 这个概念逐渐走到人们面前。
4 年后,NFT 迎来了爆发期:
- 2021 年 2 月:NBA 数字球星卡被爆炒,引爆了主流用户。
- 2021 年 3 月:数字画作《Everydays: The First 5000 Days》,在佳士得拍出了 6900 万美元。
- 2021 年 4 月:Bored Ape Yacht Club(无聊猿)上线,成为潮流、时尚风向标。
- 2021 年 8 月:主流的 NFT 交易市场 OpenSea 月交易额突破了 30 亿美元。
随着 NFT 概念的火热,国内互联网企业迅速跟进;最多的时候全国有数百个数字藏品平台,连一众互联网大厂都陆续推出了自己的数字藏品平台。
水印绑定 NFT:来自前司的启发
2021 下半年,各类数字藏品、元宇宙项目雨后春笋般的涌现。我也作为首席架构师加入了一家名为图扣的区块链项目公司。
图扣公司的老板区教授有个发明专利:《视觉图像识别编码技术》。
专利原理就是:
将一个图片的一些特定部位颜色编码取值,组成一个序列并编码;然后通过该序列去溯源,这些颜色编码取值允许有一定的容差,所以只要颜色基本符合就可以被识别(其实就是图形化的二维码)。
当时这套图形识别的算法是由 CTO 负责开发,而我更多的是负责应用的落地。随着在开发中对区块链和 NFT 技术的愈发了解,一些疑问在我心头总是挥之不去:
人们为什么要花钱买一张可以被随便复制的图片?NFT 存在的意义到底是什么?
图扣公司的专利倒是正好可以解决第一个问题:图片确实可以被复制,但是我们可以给图片打上水印编码,而水印是可以溯源的,扫一扫就可以获取图片主人的信息,这就避免了盗版的问题。
很可惜的是,后来由于众所周知的 2022 年上海之春事件,这个项目原地解散了,到最后也没有验证这个理念是否可行。
但是,NFT 绑定确权水印,我觉得这个方案是切实可行的,水印正好弥补了 NFT 无法绑定链下资产的这个缺陷。
对于 NFT 的思考
在图扣公司期间,我和一些人深入探讨过 NFT 的意义。可惜,大家对于它的认知还是停留在炒作、割韭菜这个层面。
这也是有时我比较反感币圈和链圈的一些原因:大多数人其实没什么技术信仰,普遍追逐金钱而已,对于区块链技术可能对于人类长久以来的政治经济秩序带来的改变并不是那么的在意。很多人虽然号称专注区块链行业多年,其实连最基本的去中心化基础理论都没搞明白。😔
回顾下什么是 NFT:
NFT 是“非同质化代币”(Non-Fungible Token)的缩写,它和普通 Token 区别就是在区块中写入了一些数据以区分它和其他 Token,并且它是无法篡改的。你可以视 Token 为可以自由流动的法币,而 NFT 则是一张没有面额的纪念币。它的价格完全由二级拍卖市场决定。
在上海之春的禁闭期内,我也反复思考了 NFT 的实用落地场景;
之前说我公司和音频领域有很深的渊源:我们前身曾经是某知名音响品牌的中国代理,也是最早一批搭建商用录音棚的公司。籍此,我认识了很多独立音乐制作人。
而随着 2008 年电商崛起以后,声卡,话筒这些设备逐渐平价化,制作广播级的音乐作品不再需要天价的专业设备,普通人成为音乐人不再是一件遥不可及的事。
但即使是流媒体时代,一直缠绕着音乐人的 2 个难题还是未解决:数字音乐的盗版下载以及音乐作品的变现能力。
前者由于数字作品的可复制性,一旦被下载就无法控制被再传播;后者则由于各大流媒体平台的把控,艺术家们只能拿到为数不多的创作分成。
💡生命中遇到的人和事,总有可能在某个时间节点汇合。
某天我忽然意识到:Soundlinks 的音频水印、NFT 的可交易性、图扣的链下确权方式;这 3 样东西加起来正好解决这 2 个问题;
音频水印为 MP 3 复制传播提供了追踪溯源的可能,NFT 则为音乐本身提供了 2 级市场交易的可能性,另外 NFT 本身也有版税的这个概念,创作者可以通过每次交易获得版税。
这样,艺术家不再需要通过流媒体平台来售卖自己的音乐,而是成为在去中心化世界中独立发行音乐股票的上市公司,他的粉丝就是他的股民。
再次探究音频水印背后的原理
经过了产品层面的深度思考,我认为做一个基于 NFT 的音乐交易平台是有可行性的。但是摆在面前的问题是:如何尽快在技术上验证项目具有可行性,以及尽早的找出其中的难点进行攻克;
经过网上一番搜索,最后找到了这个软件: Audiowmark;
Audiowmark 是一个基于振幅编码的 C++ 软件,是 Stefan Westerfeld 在 2020 年开发的一个音频水印工具,而他的灵感又是来自于 Martin Steinebach 在 2004 年出版的论文:《Digitale Wasserzeichen für Audiodaten》1。
简单介绍下振幅编码:
基于短时傅里叶变化(STFT)将音频信号转为正弦波,正弦波有一个属性叫“振幅”(振幅决定了声音的响度);然后取一个阈值,当振幅大于阈值则取值为 1,小于阈值时则取值为 0,最后组成了一段二进制的编码。(可以理解为声音的指纹之类的东西,当然这只是笼统的描述,Aduiowmark 在实现算法的时候出于工程上的考量,还是加了很多复杂的实施细节。)
关于音频水印的来龙去脉,想了解更多可以看看这篇文章:《音频水印技术浅入浅出》
以现在的眼光看 Audiowmark 其实是已经相对落后的技术方案了。微软亚洲研究院在 2023 年提出了一篇论文:《WavMark: Watermarking for Audio Generation, 2023》2,通过神经网络实现数字水印的 WavMark 鲁棒性是 Audiowmark 的 28 倍。
但在当时的情况下,Audiowmark 的文档更详细,社区支持更强。WavMark 虽然基于 Python 更方便部署,但是推出并没有太久。所以我为了避免掉坑,还是选择了发布时间更久一些的 Audiowmark。
由于早期对水印原理的一知半解,在某个瞬间我还错误地认为数字信号转为模拟信号会导致编码的识别率降低,以至于险些否认了整个项目的可行性。
但其实水印算法是完全基于物理原理的,和播放的设备没有太大关系。理论上哪怕你拿个洗脸盆来敲,只要你敲出了符合的响度,也是可以被正确识别的(甚至基于此可以引申出黑客攻击原理:如何模仿一段振幅编码来冒充正确的音频用以绕过识别。)
最后的实验结果当然是跑通了,而且识别率还非常高,能到达 98%以上的识别率。
在验证完可行性后,我立即把核心玩法的流程规划出来。
现代音乐,其实已经有非常成熟的工业化制作流程。一首流行音乐在制作阶段往往会分成多个轨道,例如:人声(Vocals)、鼓组(Drums)、贝斯(Bass)、键盘(Keys)、旋律(Melody)等等。
我的设想是:由艺术家上传一定数量的轨道 (Track),并铸造为 NFT 发售给他的粉丝。而他的粉丝在收集到完整的 5 轨 NFT 后再合成为一首完整的单曲(Single)NFT,最终这些单曲 NFT 可以在交易市场中交易,而艺术家可以在每次交易中获得版税。
为了更方便的识别和交易单曲 NFT,可以提供类似 Soundlinks 那样的识别功能。
因为每个单曲是由 5 个 Track 合成而来,所以这个项目命名为:Track 5 Music。
行动:万向区块链周的黑客松
2023 年 9 月,我刚完成了一个驻场开发的项目,正打算休息一段时间。突然有一天看到了万向区块链周的黑客松活动宣传;
在我的想象中,黑客松应该是这样的:一群彼此配合默契的小伙伴,围绕着赛事主办方出的主题,不分昼夜地开发,渴了就拿红牛咖啡当水喝,累了就往睡袋里一躺睡一会,最后在 48 小时内开发出了一款软件。
从未参加过此类活动的我,想象着那紧张刺激的比赛场景,上一个项目的疲惫瞬间忘了,马上决定要报名。
我的想法:趁此机会把之前的 NFT 项目完成雏形;
赛事主办方要求只能团队参赛,我在选手群内寻觅队友无果后,拉上前同事设计师小姐姐一起参赛,而她的设计也确实给力。
公链的选择
关于公链的选择其实也纠结过很久,放在我面前的选择有 3 个:
以太坊: 拥有仅次于 BTC 的知名度, Solidity 智能合约编写也比较简单。但是 NFT 的 Mint 需要大量的 Gas 费,而 Eth 当时的价格已经来到了 1500 u 左右,我恐怕大部分的用户承受不了铸造的成本。另外,即使是完成了 L 2 升级的以太坊,效率也比不过当时的新生公链们。
Near:说实话我对 Near 是有感情的,我的 Web 3 基本上就是 Near 带入门的,2021 年时 Near 东亚区的工程师们非常热衷于技术布道,他们不但免费授课,组织各类学习活动,甚至还给你发奖学金。但是后来的 2 年,Near 对于底层基础设施的创新,以及开发者社区的支持肉眼可见的降低了,导致不管是在开发者还是二级市场中人气都很低。
Solana:非常强势的新生代公链,不管是底层基础设施的创新,还是开发者生态,各类工具链都非常强悍。而且在二级市场也有很好的知名度,流动性也不错,Token 在 15 u 左右,Gas 费也在可以接受的范围内。
最后决定,写 2 个版本的智能合约:黑客松的时候用以太坊的版本,日后正式运营用 Solana 的版本。
Demo 问世
距离比赛日只有 2 周不到的时间,所以在技术选型上一切围绕着一个目标:快!。
APP 端采用了 React Native、后端采用了 GO 的脚手架 Nunu、服务器白嫖了 AWS 的 S 2 和 S 3、智能合约则使用了 Infura 提供的 SDK。
经过 1 周的开发,我完成了 Demo 版 80%的内容,由于考虑到比赛现场不能无所事事,我特地留了 20%的内容打算去赛场完成。
事实证明我想多了,国内的黑客松更像是一个 Demo Day,大家都是拿着已经开发好的软件过来路演,根本没有几个人是在现场开发的。😂
遗憾的是:由于主要的精力都放在开发上了,所以并没有为路演准备太多,整个 BP 也只有可怜的 3 页,在最后路演环节没能将项目亮点讲清,导致未获得评委的较高评分。
放弃运营
虽然整个产品的完成度接近 70%,核心技术问题也逐个攻破。但最后我还是决定放弃上线运营 Track 5 Music 这个项目。
有经验的开发者都知道:开发一个产品的时间和精力其实是可控。在制定完详细的规划前提下,加上富有经验的开发者,一个项目最多几个人月就可以完成足够早期上线运营的 MVP 版本。
但是决定一个项目成败的往往不是技术和产品本身,而是大多数开发者最难以逾越的运营。
假设一个产品的生命周期是 3 年,那很有可能它的早期冷启动阶段就需要 1 年,在这 1 年中,除了没有收入,还需要投入大量的时间和费用去孵化它。
当然,也不排除运气好开发出了爆款。但是爆款也有爆款的问题,面对蜂拥而入的流量,如果开发者没法在短时间内做好架构上的调整,结局很有可能是流失了大部分用户。
另外,对于国内 Web 3 开发者来说悬在头顶达摩克利斯之剑就是:合规。
国内的数字藏品平台只允许在规定的几个联盟链上开发,了解联盟链的开发者都知道:联盟链是阉割版的公链,它的 Token 是无法自由流通的(无法上交易所交易)。所以完全失去了流动性。
剩下的唯一选择就是:出海。
但在评估了出海运营所需要的成本,以及 NFT 概念逐渐遇冷的背景下,最终我还是放弃了将 Track 5 Music 上线运营的念头。
几年后,当我回顾复盘这个项目的时候,惊讶地发现:即使是在 2023 年那个 NFT 概念遇冷的时刻,如果按照原定计划采用 Sol 作为平台基础货币,在这 2 年间也迎来了 10 ~ 30 倍的回报。
也就是说如果这个平台上线运营,不管是艺术家,还是粉丝、包括平台方,都可能迎来了一波不小的财富增长。
此刻,我想:“创业有时也不能过于冷静周全的思考,找对一个方向,义无反顾的投入就完了。“
因为,你的付出总会以一种方式获得回报。
尾声(段子)
一日,木木来到技术群吹水。群友看到木木来了便说到:“木木,你是不是又和财务自由擦肩而过了?”
木木不答,对群主说:“最近可有什么空投可撸?”说罢正要打开自己的 Web 3 钱包。群友们又故意说道:“你一定是技术不行,又让项目烂尾了!”
木木愣了一下,飞快地打字:“你们怎么这样乱说,我还没碰到过解决不了的问题…”
“那你为什么没把 Track 5 Music 这个项目上线?”
木木在屏幕前脸一红,慢慢说道:“君子爱财,取之有道。割韭菜赚的钱不算钱…”
接连便是难懂的话,什么“为天地立心,为生民立命”、什么“志士不饮盗泉之水”、什么“见利思义,见危授命”之类,引得众人都发出爆笑的表情包,群内充满了快活的空气。
感谢观看,如果您想对本项目了解更多,请访问:
郑重申明
本文的项目方案及源代码仅供学习交流,如有参考本文产生的任何金融产品或投资项目与本人无关。