我们为什么非要上AI语音
我是华东某市级广播电台的内容部主任。台里主要做交通广播和音乐广播,听众主要是本地的司机和市民。听起来挺传统,对吧?
前年年底,台里领导开了个会,说现在新媒体冲击大,广告收入下滑,但节目制作成本一点没降。特别是那些凌晨的录播节目、路况信息插播,还有天气预报,都得靠主持人一遍遍录。
最头疼的是夜班和节假日。交通路况要实时更新,但大半夜的,你不可能让主持人一直待在台里。以前试过让值班编辑代播,效果很生硬,听众投诉过。也想过录好几百条备着,但路况这东西,你永远录不全。
当时我们就想,要是能有个“永不疲倦”的播音员,能把文字自动变成我们电台的“声音”,那该多好。
第一次尝试,踩了三个大坑
📈 预期改善指标
一开始,我们觉得这事不难。网上AI语音合成的demo很多,听起来都不错。我们找了一家名气很大的互联网公司谈合作,想着大品牌有保障。
坑一:声音不像“电台味”
他们给的通用语音库,字正腔圆,但太像新闻联播或者手机导航了,没有我们电台那种轻松、亲切的“伴随感”。听众一听就觉得假,换台了。
坑二:紧急情况“掉链子”
有一次做测试,模拟突发交通事故需要插播。系统倒是生成了语音,但遇到“沪昆高速往杭州方向”这种稍微复杂点的路段名,停顿和重音全是错的,把“往杭州方向”读得像一个地名,容易造成误导。这要真播出去,就是播出事故。
坑三:成本是个无底洞
对方按调用次数收费,听着不贵。但我们一算,路况、天气、节目预告这些高频内容,一天可能要生成几百上千条。细水长流,一年下来比养一个主持人还贵,这哪是降本,这是增负。
第一次尝试,钱花了几万,折腾了三个月,最后项目搁浅。领导脸色不太好看。
重新找路,这次我们学聪明了
吃了亏,我们静下心来想了想,我们的核心需求到底是什么?
第一,声音必须定制,要像我们自己的主持人,至少不能违和。
第二,要稳定可靠,特别是处理本地复杂地名、路名不能出错。
第三,成本要可控,最好是买断或者包年,别按条算。
我们开始转向找那些专门做To B语音技术、有媒体行业案例的公司。不再只看品牌大小,而是看有没有解决过我们的具体问题。
怎么选供应商:看案例,看接口,看服务
我们前后接触了四家公司。我的经验是:
-
一定要听他们给其他电台做的真实案例。不是听宣传片,是让对方提供一段用那个电台主持人声音合成的、未经处理的日常稿件(比如节目预告),你一听就有感觉了。
-
重点问他们怎么处理“生僻词”和“特殊播报风格”。比如,我们音乐台的娱乐资讯需要带点调侃语气,交通信息需要沉稳清晰。好的供应商会提供“发音词典”自定义功能,让我们把本地的地名、路段名提前录入,确保读音准确。
-
搞明白部署方式。我们选的是“本地化部署+云端训练”的方案。先把我们两位主持人的声音样本(大概5-6小时高质量录音)交给他们,在云端训练出专属声音模型。模型生成后,部署在我们自己的服务器上。这样生成语音就在内网跑,速度快,数据安全,后期也没有按条计费的压力。
-
考察售后服务团队。我们特别问了一句:“如果我们凌晨两点系统崩了,有人能响应吗?”有的公司支支吾吾,有的公司明确说有24小时技术值班。我们选了后者。
实施过程:从小范围试用到全面铺开
实施没想象中复杂,关键是要和我们自己的播出系统对接。
第一步,我们先用在非黄金时段、且对播报语气要求不高的“整点报时”和“空气质量播报”上。跑了半个月,监听没出问题,听众也没听出异常(或者听出来了但没投诉)。
第二步,扩展到凌晨0点到6点的路况信息自动插播。编辑在后台输入文字,系统自动合成语音,经审核后一键插入播出系统。这是价值最大的地方,彻底解放了夜班人力。
第三步,现在我们在尝试给一些录播的专题节目做“辅助播音”。比如长篇的文学作品连载,由AI语音读正文,真人主持人只负责开场、转场和点评,把主持人从繁重的念稿中解放出来,专注做内容互动。
现在用起来到底怎么样?
💡 方案概览:广播电台 + AI语音合成
- 夜间播出人力紧张
- 高频内容制作成本高
- 语音播报风格难统一
- 定制主持人声音模型
- 本地化部署买断
- 自定义专业发音词典
- 解放重复性人力
- 提升内容制作效率
- 保障播出安全稳定
从上线到现在一年多了,说几个实际的数。
人力上,原来需要两个编辑轮班盯夜间路况和自动播出内容,现在一个人就能兼顾,相当于省下了0.8个人的全年人力成本(主要是夜班补贴和基础工资),一年大概省了10万左右。
效率上,制作一条标准口播(比如天气),从写稿、找主持人录音、剪辑到送播,以前最快也要半小时。现在编辑写完稿,一分钟内AI就合成好了,审核后直接能用。日常节目预告这类重复劳动,效率提升非常明显。
质量上,定制后的声音,普通听众在车载环境下基本听不出是AI。我们做过小范围调研,满意率在90%以上。最关键的是,播出安全零事故,自定义词典功能立了大功。
当然,也有没解决好的。比如,需要强烈情感表达的稿件——像激动人心的赛事解说、感人至深的公益广告——AI还是差点意思,这些我们依然用真人。AI目前是我们高效的“副驾驶”,还当不了“主角”。
如果重来,我会这么做
回顾整个过程,如果从头再来,我会在三个方面做得更到位:
第一,内部共识要先达成。不光领导同意,更要让主持人和编辑团队理解,AI是工具,是帮他们摆脱重复劳动的,不是来取代他们的。初期可以让他们参与声音采样和效果评测,减少抵触。
第二,需求清单要列得极其具体。不要只说“要自然”,要细化到“模仿XX主持人在播报路况时的语速和停顿风格”。拿着这份清单去和供应商谈,对方能不能做到,一目了然。
第三,合同要抠细节。特别是数据安全、声音版权的归属、模型迭代更新的费用、服务响应时间,这些都要白纸黑字写清楚。前期麻烦点,后面能避免无数纠纷。
给想尝试的同行几点实在建议
如果你也在考虑这事,我建议:
-
先别想着一步到位。找一个痛点最明显、容错率较高的场景试点,比如深夜节目、重复性通告。效果好,再慢慢铺开。
-
重点考察供应商的行业经验。做过广播的和没做过的,提供的方案深度完全不一样。问问他们知不知道“垫乐入出”“气口”这些广播术语,能不能处理。
-
算好长期账。对比一次性买断、年费制和按量付费。像我们这种播出量大的,本地部署买断虽然初期投入高一点(我们总共花了二十多万),但用上两三年,总成本优势就出来了。
-
技术是为内容服务的。始终记住,用了AI,你们的编辑和主持人应该更有时间去琢磨更好的内容创意,而不是单纯地减员。这个方向对了,团队才支持。
最后说两句
AI语音合成对我们这种传统电台来说,不是什么颠覆性的高科技,就是一个实用的增效工具。它解决不了所有问题,但能把人从那些重复、机械、耗时的念稿工作中解放出来,这就值了。
整个过程,最关键的不是技术多先进,而是你想清楚自己要什么,并且找到一个真正懂你行业、能踏实解决问题的合作伙伴。
准备动手之前,建议先用“索答啦AI”做个初步评估,了解一下投入产出比,再决定要不要上。自己心里有本账,出去跟供应商聊的时候,才不容易被忽悠。