“拟人化很厉害,比起千篇一律的机械音生动太多。”“软件进步这么神速,硬件什么时候跟进啊,我等不及了。”在一段国产自研革命性AI语音技术展示的独白视频下,你能够听到各种各样评论的声音。
木几萌,昵称“萌萌”,由“元语文字”大模型驱动,也都是全球首个由大模型驱动的AI虚拟主播,自2023年初发布后“萌萌”曾登上百度贴吧与BiliBili等多个平台全站热榜前十,时至今日,其粉丝总量仍超过其他所有同类竞品的总和。
“萌萌”的创作者正是广州烁谷科技有限公司创始人谢伟铎,烁谷科技作为音频AI领域的革新力量,其核心的“超拟真语音合成能力”堪称行业巅峰,能自主理解文本,展现出包括哭、笑、唱、叫在内的,极具张力且与真人无异的超细腻声音情感表达,并且仅需3秒样本便能瞬时克隆任意音色,相似度可高达99.5%以上 。
10月24日,广东省互联网信息办公室发布了“广东省生成式人工智能服务已备案信息”的公告,烁谷科技自研的“元语文字”大模型正式通过备案,跻身该批次省内新增通过的11款备案大模型之列,成为全广东省2023年至今通过备案的共计105款大模型中的一员。而烁谷科技的新一代V3语音合成模型上线仅3个月用户总量便突破百万。
12月初,烁谷科技创始人谢伟铎在接受南方财经记者专访时表示,大模型的超拟真不是流于表面的发音更拟人,而是突破“像”的边界,在常规说话之外,让文本感知与声音表现深度融合。它通过能识别文本情绪与风格,自动匹配动漫、“霸道总裁”、“小萝莉”等多样音色及口音、发音特征,联合语义与声线找到最具表现力的平衡点再生成。其核心在于模型真正能够先感知内容,再思考决定以哪种方式朗读。
以技术之“矛”炼就技术之“盾”
南方财经:当初为何进入“声音”赛道?
谢伟铎:“萌萌”其实是我在大学期间制作的个人兴趣项目。她意外火了之后,我们也因此认识了不少团队伙伴,现在团队中的很多成员,最初都是“萌萌”的粉丝或观众。
当时我们在语言交互等方面已经做得比较拟人真实了,但唯独声音这一块,找遍了国内外开源或商业语音的合成方案后,发现中文效果都很机械。即便是当时相对好一些的微软合成引擎,听起来也还是很明显的“合成感”。
所以我们决定,基于自身在大模型和AI方向的技术积累,自己打造一个专门面向情感表达、追求自然度和拟真度的语音合成技术。最初只是应用在“萌萌”身上,后来我们直播时,观众们都惊讶这个声音怎么这么真实,纷纷问能不能开放出来,让他们也能用来做视频或其他内容。我们看到这个需求后,觉得这是个值得做的事,于是就开始推进了。
南方财经:大模型的形成需要海量数据,如何让AI声音更加的拟人化,更富有人类情感?
谢伟铎:大模型的成型要从两方面来说,它与人类的学习过程很相似,要学好一个东西首先教材要好里面的内容得精;另外,人本身也得聪明,所以我们也是从这两个方面去着手。
我们在数据采集环节拥有一套自研的全链路全球化管道,覆盖从采集、清洗、自动化标注到入库的完整流程。该管道并非完全程序化,而是内嵌AI模型,使其能像真人一样“浏览”数据。同时,根据给出的关键词,自主判断数据的相关性、质量与类型,并记录详细备注。后续可基于AI标注信息,更精准地完成文本转录及潜在情感信息的提取。整套采集程序均为从零自研,以精准匹配产品对数据的需求与预期。
在算法层面,我们持续迭代大模型,最终演进至目前的3.0版本。团队在基底层技术投入巨大,使模型即使在相同数据条件下,也能举一反三,挖掘深层关联。例如,面对“你好,今天天气很不错”这类文本,普通模型仅进行平淡朗读,而我们的模型能结合上下文情感与语义,实现自然、丰富且广泛的表现力。
南方财经:音频深度合成存在哪些风险?烁谷科技构建出的“创造—应用—守护”安全闭环是如何形成的?
谢伟铎:除AI生成能力外,我们还构建了从“创造—应用—守护”的技术安全闭环,旨在以技术之“矛”炼就技术之“盾”,解决音频深度合成的潜在风险,为社会乃至国家安全发展提供坚实保障。
凭借其自研的VocaMark音频隐形水印技术与VocaAntiFake音频鉴伪专家大模型,实现了对AI生成音频或涉版权音频内容的精准“无痕溯源”与“高精度鉴别”,并能有效抵御翻录、剪辑等恶意混淆攻击手段 。
实现“声音导演”级精细化演进
南方财经:投资机构比较重视公司在哪方面的布局?
谢伟铎:在公司技术获得高度认可的同时我们成功得到奇绩创坛投资的种子轮融资,以及多个机构数百万元的算力额度支持,当前估值约数千万元,更获得了阿里巴巴、Keep、中国移动等数百家行业巨头与中小企业的认可与合作。近期,正与多家头部机构商议Pre-A轮融资。
我们能够获得机构的关注和深度合作的原因还是技术领先。即便对标海外同类型的独角兽企业,我们的效果依旧大幅领先,这本身就具备足够吸引力;另一方面,我们此前已积累近百万注册用户、峰值日活近三十万,运营数据扎实,也是金融机构看重的加分项。
南方财经:当前企业的商业模式如何规划?
谢伟铎:我们企业总体分为To C;To B以及To G三大商业模式。
面向C端个人及内容创作者,我们推出跨平台综合声音创作 SaaS,用户输入文本、选择或自建角色,即可一键生成专业级配音,满足短视频、播客、有声书等多元场景需求。
向B端用户开放 API和开发接口,供硬件、软件及解决方案厂商集成。不仅可以应用于陪伴类 App、智能硬件等,还可定制品牌语音包,实现“即插即用”的声音能力输出。
此外,我们还输出音频安全与监管技术,协助政府对 AI 生成内容进行风险识别、溯源与合规管控,降低舆情及版权隐患,打造人工智能时代的“音频防火墙”。
南方财经:“AI+数字音频”赛道的未来发展方向如何?还有哪些需要攻克的难点?
谢伟铎:我认为“AI+数字音频”赛道必然朝着更具感知力、表现力、真实感的方向演进。尽管当前已实现较高智能,但在细节可控性上仍与“声音导演”级别的精细化指令存在差距,例如,呈现一句话的时候,语调上扬或是压下的表现力仍然不稳定。因此,技术层面,可控性、表现力上限仍有大幅提升空间,我们将持续突破。
应用层面,我们计划把新一代技术快速推向市场,从底层完成换代,把市面上千篇一律的“小帅小美”声线,升级为更个性化、多样化的声音,赋予每个人声音创作的自由。
(文章来源:21世纪经济报道)