小米TTS模型居然是不要钱的？我们可以用它直接克隆自己的声音了

01 发现·免费的TTS模型

上个月我参加了小米的创造者激励计划，拿到了 2 亿 Token 的套餐。拿完之后就在想，能用它来做点什么。在翻阅小米mimo模型接口文档的时候，我发现里面还有个 TTS 语音模型。我记得去年在 MiniMax 里面玩过这种模型，当时收费还挺贵的，但小米这个是免费的，那这就可以敞开玩了…

而且不光是 Token Plan 调用TTS模型免费，直接调用 API 也是免费的，这就非常 nice 了，但好像没什么人提过这件事。

02 创造·声临其境小玩具

于是我用这个东西做了个小玩具叫 “声临其境”，可以用小米的模型生成语音文稿，然后一键填入到生成语音的区域，用文稿去生成音频。

我先用AI帮我写一段天气预报的文案，然后填写文本合成区域，让小米的TTS模型生成天气预报，没多久它就生成了15秒的天气预报，和电视里那种天气预报的主播不相上下，非常逼真。

03 展望·音色克隆的未来

它还支持音色克隆，于是我用它克隆了自己的声音，然后我发给朋友 “这玩意像不像我？”，朋友听完后说很像。如果不告诉他这是 AI 生成的，他可能真以为是我发的语音哈哈。

我还有个朋友，用它克隆了自己的声音，然后给她对象听，她对象没听出来这是 AI 生成的，还以为是我朋友在说话。

小米搞大模型才一年多，没想到能做到这种水平，确实还有点东西的。

只要给它一段比较干净的原声，基本上能克隆得很像，不刻意去想的话，很难辨别。它的应用场景也蛮多的，比如做视频的时候，可以直接用自己的音色克隆，让AI配音，能剩下不少工作量，如果它还能支持像NotebookLM里的播客模式，解读文章、书籍，那应用场景会更广，没想到，年轻人的第一个TTS模型玩具，居然还是小米出的。