Flashlight ASR是由Facebook AI研究团队设计的开源语音识别工具包。它拥有处理大型数据集的能力,速度和效率非常突出。可以将速度归功于其在语言建模、机器翻译和语音合成中仅使用卷积神经网络。
在理想情况下,大多数语音识别引擎使用卷积和递归神经网络来理解和建模语言。然而,递归网络可能需要高计算能力,从而影响引擎的速度。
Flashlight ASR使用C++编译,支持在CPU和GPU上运行。
优点:
- 它是最快的语音转文本系统之一。
- 您可以将其用于各种语言和方言。
- 该模型不会消耗大量的GPU和CPU资源。
缺点:
- 它不提供任何预先训练的语言模型,包括英语。
- 你需要有深厚的编码专业知识来操作这个工具。
- 对于新用户来说,它有一个陡峭的学习曲线。
Athena是一个基于序列到序列的语音转文本开源引擎,在Apache 2.0开源许可下发布。该工具包适合研究人员和开发人员的端到端语音处理需求。模型可以处理的任务包括:自动语音识别(ASR)、语音合成、语音检测和关键字定位等。所有语言模型都基于TensorFlow实现,使更多开发人员可以访问该工具包。