Julius是一个古老的语音转文本项目,起源于日本,最早可以追溯到1997年。它是在BSD-3许可证下发布。它主要支持日语ASR,但作为一个独立于语言的程序,该模型可以理解和处理多种语言,包括英语,斯洛文尼亚语,法语,泰语等。转录的准确性在很大程度上取决于您是否拥有正确的语言和声学模型。该项目是用C语言编写的,支持在Windows,Linux,Android和macOS系统中运行。
优点:
- Julius可以执行实时语音到文本的转录,内存占用率低。
- 它有一个活跃的社区,可以帮助解决ASR问题。
- 用英语训练的模型可以在网上下载。
- 它不需要访问互联网进行语音识别,因此适合重视隐私的用户。
缺点:
- 像任何其他开源程序一样,您需要具有技术经验的用户才能使其工作。
- 它有一个巨大的学习曲线。
Kaldi是专门为语音识别的研究人员创建的语音识别工具。它是用C++编写的,并在Apache 2.0许可证下发布,这是限制最少的开源许可。与Whisper和DeepSpeech等专注于深度学习的工具不同,Kaldi主要专注于使用老式可靠工具的语音识别模型。这些模型包括隐马尔可夫模型(Hidden Markov Models)、高斯混合模型(Gaussian Mixture Models)和有限状态传感器(Finite State Transducers)。