从GitHub下载源代码,并将其安装到您的Python中以使用它。该工具已经在英语模型上进行了预训练。但是,您仍然可以使用您的数据训练模型。或者,您可以获得一个预先训练的模型,并使用自定义数据对其进行改进。
优点:
- DeepSpeech很容易定制,因为它是一个原生代码解决方案。
- 它为Python、C、.Net Framework和JavaScript提供了开发包,不管哪一个开发语言,都可以使用该工具。
- 它可以在各种小设备上运行,包括Raspberry Pi设备。
- 它的每字错误率非常低,为7.5%。
- Mozilla对隐私问题采取了严肃的态度。
Tensorflow ASR是一个使用Tensorflow 2.0作为深度学习框架来实现各种语音处理的语音转文本开源引擎。这个项目在Apache 2.0许可下发布。 Tensorflow最大优势是其准确率,作者声称它几乎是一个“最先进”的模型。它也是维护最好的工具之一,定期更新以改进其功能。例如,该工具包现在还支持在TPU(一种特殊硬件)上进行语言培训。 Tensorflow还支持使用特定的模型,如:Conformer、ContextNet、DeepSpeech2和Jasper。可以根据要处理的任务进行选择。例如,对于一般任务可以考虑DeepSpeech2,但对于精度有较高要求的则使用Conformer。