小米TTS模型居然是不要钱的?我们可以用它直接克隆自己的声音了
← 返回我的实践

小米TTS模型居然是不要钱的?我们可以用它直接克隆自己的声音了

01 发现·免费的TTS模型

上个月我参加了小米的创造者激励计划,拿到了 2 亿 Token 的套餐。拿完之后就在想,能用它来做点什么。在翻阅小米mimo模型接口文档的时候,我发现里面还有个 TTS 语音模型。我记得去年在 MiniMax 里面玩过这种模型,当时收费还挺贵的,但小米这个是免费的,那这就可以敞开玩了…

而且不光是 Token Plan 调用TTS模型免费,直接调用 API 也是免费的,这就非常 nice 了,但好像没什么人提过这件事。

02 创造·声临其境小玩具

于是我用这个东西做了个小玩具叫 “声临其境”,可以用小米的模型生成语音文稿,然后一键填入到生成语音的区域,用文稿去生成音频。

我先用AI帮我写一段天气预报的文案,然后填写文本合成区域,让小米的TTS模型生成天气预报,没多久它就生成了15秒的天气预报,和电视里那种天气预报的主播不相上下,非常逼真

03 展望·音色克隆的未来

它还支持音色克隆,于是我用它克隆了自己的声音,然后我发给朋友 “这玩意像不像我?”,朋友听完后说很像。如果不告诉他这是 AI 生成的,他可能真以为是我发的语音哈哈。

我还有个朋友,用它克隆了自己的声音,然后给她对象听,她对象没听出来这是 AI 生成的,还以为是我朋友在说话。

小米搞大模型才一年多,没想到能做到这种水平,确实还有点东西的

只要给它一段比较干净的原声,基本上能克隆得很像,不刻意去想的话,很难辨别。它的应用场景也蛮多的,比如做视频的时候,可以直接用自己的音色克隆,让AI配音,能剩下不少工作量,如果它还能支持像NotebookLM里的播客模式,解读文章、书籍,那应用场景会更广,没想到,年轻人的第一个TTS模型玩具,居然还是小米出的