百度人工智能中的语音识别技术正在改变速记行业。
近日,百度宣布将推出一款能将音频转换为文本的SwiftScribe web应用,这将改变速记行业完全依赖人工的现状。该web应用以百度深度语音识别系统为后盾,将音频文件转换为文本,转换效率比人工速记快1.67倍。
百度首席科学家吴恩达认为,这一应用将改变采访和视频字幕的产生。他在社交网络上评论道:“这个应用非常适合把长语音转换成文本的人,人工智能会达到1 1大于2的效果。”
具体应用方面,用户可以在PC端打开SwiftScribe网页应用,选择wav、mp3格式的文件上传,系统可以立即处理,时长1分钟的音频文件可以在30秒内转换。用户可以使用键盘快捷键来加速播放、倒带和添加换行符。经过处理后,通过手动调整大小写、标点符号和一些拼写细节,可以快速准确地完成音频转换。
百度推出的音频文件转文本应用SwiftScribe。
从使用效果来看,SwiftScribe可以将速记员的效率提高1.67倍,工作时间缩短40%。目前,该系统可以在一小时内处理音频文件。
据悉,百度将首先邀请30-50名速记员对测试版应用进行测试。
百度透露,该应用未来将增加语音识别和视频文件自动标点功能,支持更多文件格式,从而降低用户使用门槛。
此次推出的SwiftScribe web应用依托百度新一代深度语音识别系统Deep Speech 2,曾被《麻省理工科技评论》评为“2016年十大突破技术”之一。通过使用数千小时的语音数据进行训练,Deep Speech 2可以不断地“学习”从语音中识别特定的单词。
2016年9月1日,在2016百度世界大会上,百度董事长兼CEO李彦宏表示,百度的语音识别准确率可以达到97%,已经超过了人们的语音识别能力。
据了解,百度在2016年推出了搭载DeepSpeech2的安卓输入法TalkType,让用户可以通过语音快速输入单词。百度硅谷人工智能实验室项目负责人Bijit Halder在公告中表示:“TalkType是首个智能语音优先输入法。”
对话机将成为2017年人工智能的发展趋势。百度吴恩达曾在接受《华尔街日报》采访时表示,随着准确率和用户体验的提升,百度的语音产品已经过了用户心目中的“试用期”。随着语音产品的快速发展,亚马逊、苹果、谷歌、微软等科技巨头都在加紧研发自己的语音识别技术。
国内智能语音语言技术和人工智能技术研究公司科大讯飞已经推出了以语音转文字为核心业务的转录服务平台——讯飞听力网站。根据该网站,科大讯飞的机器转录服务在一小时内转录音频大约需要5分钟。如果是音质清晰、普通话标准的音频,转写正确率可达90%以上。
目前,百度SwiftScribe音频转换服务免费向公众开放。据百度消息称,我们希望在未来将这一应用转化为商业应用。