聊聊语音输入

2016-12-03

很遗憾，本文还是用键盘敲出来的。

老罗在 M1 的发布会上演示了通过科大讯飞语音输入法实现的一段快速文字输入。老罗现场噼里啪啦地说了一长段胡说八道的话，结果语音识别的正确率几乎为百分之百，识别的反应速度也是飞快。

全场的惊叹和尖叫这说明了，很多人还没有意识到，目前的语音识别技术在识别正确率和效率方面其实已经非常成熟了。诚然，一项技术要落地到应用层面，并且让大众用户接受和认可，有时还有长长的路要走。

我想到了另一个问题：以前我们用键盘打字，单纯从速度上看，肯定不如语音输入来的快。但是，通常我们输入文字（比如写一篇文章）时，不会那么一气呵成，往往是边想措辞边打字。而这打字的动作延迟，正好给了大脑留有思考的时间。所以边打字边思考反而感觉比较流畅。

倘若使用语音输入，写文章就是边想边说。当思路跟不上语速的时候，必然会造成停顿，如果再要斟酌措辞的话，还会带来重复，甚至需要删改前文。

这样，断断续续的语音流，在识别效率和效果上肯定不如整句整段的好。但现实中，用语音写一篇文章，除非是背稿子，否则不可能说得特别流畅。老罗发布会上的那段胡说八道，其实也是经过演练的。

所以，在我看来，语音识别的真正问题，不单纯是识别方面的问题，还有怎么处理停顿、重复、删改这方面的难题。希望看到包括讯飞在内的语音输入解决方案提供方，未来在这方面能取得长足的进展和提升。

利益相关披露：文中提到的科大讯飞，作者不是该公司的员工或管理层，也不持有该公司的股份或期权。