DeepSpeech - 聚合AI导航网聚合AI导航网

语音识别

DeepSpeech

Project DeepSearch是Mozilla的一个开源语音转文本引擎。此语音转文本命令和库在Mozilla公共许可证（MPL）下发布。它的模型参考的是百度深度语音研究论文，具有端到端的可训练性，并支持多种语言音频转录。它使用Google的TensorFlow进行训练和实现。

链接直达手机查看

从GitHub下载源代码，并将其安装到您的Python中以使用它。该工具已经在英语模型上进行了预训练。但是，您仍然可以使用您的数据训练模型。或者，您可以获得一个预先训练的模型，并使用自定义数据对其进行改进。

优点：

DeepSpeech很容易定制，因为它是一个原生代码解决方案。
它为Python、C、.Net Framework和JavaScript提供了开发包，不管哪一个开发语言，都可以使用该工具。
它可以在各种小设备上运行，包括Raspberry Pi设备。
它的每字错误率非常低，为7.5%。
Mozilla对隐私问题采取了严肃的态度。

相关导航

Tensorflow ASR

Tensorflow ASR是一个使用Tensorflow 2.0作为深度学习框架来实现各种语音处理的语音转文本开源引擎。这个项目在Apache 2.0许可下发布。 Tensorflow最大优势是其准确率，作者声称它几乎是一个“最先进”的模型。它也是维护最好的工具之一，定期更新以改进其功能。例如，该工具包现在还支持在TPU（一种特殊硬件）上进行语言培训。 Tensorflow还支持使用特定的模型，如：Conformer、ContextNet、DeepSpeech2和Jasper。可以根据要处理的任务进行选择。例如，对于一般任务可以考虑DeepSpeech2，但对于精度有较高要求的则使用Conformer。

Flashlight ASR

Flashlight ASR是由Facebook AI研究团队设计的开源语音识别工具包。它拥有处理大型数据集的能力，速度和效率非常突出。可以将速度归功于其在语言建模、机器翻译和语音合成中仅使用卷积神经网络。在理想情况下，大多数语音识别引擎使用卷积和递归神经网络来理解和建模语言。然而，递归网络可能需要高计算能力，从而影响引擎的速度。 Flashlight ASR使用C++编译，支持在CPU和GPU上运行。

Whisper

Whisper是Open AI的创意工具，提供了转录和翻译服务。该AI工具于2022年9月发布，是最准确的自动语音识别模型之一。它从市场上的其他工具中脱颖而出，因为它训练了大量的训练数据集：来自互联网的68万小时的音频文件。这种多样化的数据范围提高了该工具的鲁棒性。用Whisper进行转录必须先安装Python或命令行界面。他提供了五种型号的模型，所有型号都具有不同的大小和功能。这些包括微小、基本、小型、中型和大型。模型越大，转录速度越快。尽管如此，你必须要有一个好的CPU和GPU设备，才能最大限度发挥它们的性能

OpenSeq2Seq

OpenSeq2Seq正如它的名字一样，是一个开源的语音转文本工具包，可以帮助训练不同类型的序列到序列模型。该工具包由Nvidia开发，在Apache 2.0许可证下发布，这意味着它对所有人都是免费的。它训练执行转录，翻译，自动语音识别和情感分析任务的语言模型。可以根据自己的需求，使用默认预训练模型或者训练自己的模型。OpenSeq2Seq在使用多个显卡和计算机时可以达到最佳性能。它在Nvidia驱动的设备上工作得最好。

SpeechBrain

SpeechBrain是一个用于促进语音相关技术的研究和开发的开源工具包。它支持各种任务，包括：语音识别、增强、分离、说话日志和麦克风信号处理等。Speechbrain使用PyTorch作为开发框架。开发人员和研究人员可以从Pytorch的生态系统和支持中受益，以构建和训练神经网络。

Vosk

Vosk是最紧凑、最轻量级的语音转文本引擎之一。这个开源工具包可以在多种设备上离线运行，包括：Android、iOS和Raspberry Pi。它支持20多种语言或方言，包括：英语、中文、葡萄牙语、波兰语、德语等。