这套语音写作工作流,帮我节省了50%的时间
← 返回我的实践

这套语音写作工作流,帮我节省了50%的时间

现在 AI 大模型发展得非常迅猛,也衍生出了一个新产品——AI 语音输入法,如雨后春笋般冒出来。

以前语音输入存在两个问题:一是识别准确率不准,二是转文字后的结果无法二次调整。但在大模型加持下,这些问题被很好地解决了,所以,越来越多的语音输入法出现了。

01 为什么要用语音写作

大家都知道纯手写文章,速度是非常慢的,如果采用语音写作的方式,效率将大大提升。以我自己为例,按正常说话速度,10 分钟一般能说 2000 字左右,如果手写这么多字,不知道得多久了……

语音输入速度约为手写的 3-5 倍,这是工作流重构的基础。

所以,不光是我,身边很多朋友也在尝试语音写作,只能说用了的都说好。

在这篇文章,我和大家汇报下自己探索出来的新方法。


02 过去的一些尝试

过去,我基本上都是在用Get笔记进行语音写作,但它们出于成本考虑,调用的是手机自带的语音识别模型,所以识别准确率特别低。

之所以选择它,是因为它接入了DeepSeek,能把识别不准的内容二次整理成还算过得去的文本,但问题也很明显:

第一,识别准确率太低,会丢失非常多信息。 第二,整理出来的文稿 AI 味特别重,每次写文章都要推倒重来,相当于重写一遍。

所以语音写作的工作量并没有降低特别多。

于是我开始探索新的语音写作方式,就探索出用现在这个Skill做语音写作的方法。

准备工具:

  • 编程工具:Trae(国内版)
  • 豆包语音输入法

大部分人应该跟我刚开始一样,提到编程工具就头大,即使知道了,也不会主动去用它,但AI编程还真不一样,打字即编程,简单易上手,我们一开始可以抱着玩的心态,玩着玩着就会了。

我个人虽然用 Cursor、Claude Code 这些主流编程工具,但对于很多新手,我还是推荐用 Trae 上手会比较快,这是字节出的编程工具,还可以免费使用很多国内大模型。


03 新的语音写作方式是什么样的?

我创建了个语音写作的Skill,AI每次会调用它帮我修改语音稿,先简单介绍下大致流程:

每次只需要发这个给AI,让它调用Skill即可

Step 1 豆包输入法语音转文字

语音输入法我选择了豆包输入法,它的识别率目前是最高的。当我写一篇文章时,会先在文档里写好文章的大纲,然后一段一段地填写内容。这样能保证用豆包输入法语音写作时,整体结构不会乱。如果让它转录整篇文章,文字都会堆成一坨,它是不会自动分段的,所以曲线救国用这种方式。

Step 2 在IDE打开文稿所在的目录

打开Trae这类IDE工具,第一步就是指定项目的文件夹,这样AI才知道项目的上下文,更好的完成任务。

我们把文稿所在的本地目录在IDE打开,然后进行后续处理。我因为在飞书文档写,一般会把它复制到本地的 Obsidian 仓库里。

Step 3 调用语音写作 Skill 润色文稿

这一步,我会正式调用语音写作 Skill 来润色文稿。

我们都知道AI写出来的东西都容易带有AI味,丢失自己的风格,而要让AI学会我们的风格,有两个重要的事情:

一是让AI学习我们过去的文章,知道我们的大概风格,我之前在介绍素材整理的Skill有提到过;

二是要给AI一个错题记录,这就好比我们以前学数学知识,都需要不断刷错题才能进步,AI也是如此,所以每次AI修改完成之后,我会让AI把它修改的版本,和我改的最终版本做对比,找出差异,总结更新到Skill目录里的风格学习文档,持续更新,这样后面就能更好的参考了。

我的素材库不光有公众号文章,还有读书笔记、每日复盘记录,里面有大量的个人案例,AI帮我润色文稿时,我会让它看看有没有需要补充的案例,如果有的话,它就会在底部列出来给我拿参考,有好几次,它找出的案例,我自己都不记得写过……

在AI写的稿子出来后,我们就可以在IDE编辑器的DIFF面板,看到前后的对比,本来它是程序员用来对比不同版本的代码的工具,但我们拿来对比修改文章,也没什么毛病……

大家可以自己体验一下,在diff面板编辑有种莫名的爽感,一是它用红色标记了原稿,绿色标记了修改稿,我们只需要上下滑动就可以查看,一目了然;二是大家可以看下面这个图,是不是有种审稿的感觉,多了一层掌控感哈哈;第三,我们在这里面是一段一段的修改,写作压力一下子降低了,原本是一整篇长文,现在只需要一段段修改。

其实,这还有比较吊的功能,就是AI自动补全,它会自动预测你要修改的下个词,给你参考。

当我们改完后,就需要进行前面说的最后一步,让AI对比修改前后的版本,记录错题。

所以,每次用语音写作Skill,我们都在迭代它,使用的越多,它会越像你,但不管再怎么像,都不可能一稿就过,这连我们自己都做不到。

不过,目前我这个Skill,还有很多优化的空间,比如说给它加一些检测机制,AI自动判断文章修改后,风格是否一致,有没有活人感等等。


这个语音写作工作流,对我效率提升很大,以前写一篇两三千字的文章需要2个小时,现在缩短到一小时基本上就能搞定了。