Whisper Large-v3：OpenAI最新的自动语言识别模型下载与功能介绍 | AI工具导航

Whisper Large-v3 是OpenAI开发的一个自动语音识别（ASR）和语音翻译模型。该模型在100万小时的弱标签音频和400万小时的伪标签音频数据上进行了训练，显示出在多种语言上的出色性能改进。

Whisper Large-v3下载地址

Hugging Face：https://huggingface.co/openai/whisper-large-v3

GitHub：https://github.com/openai/whisper

Whisper Large-v3功能和特点

1.训练数据：
数据规模：模型在100万小时的弱标签音频和400万小时的伪标签音频数据上进行训练。这些数据由Whisper Large-v2模型收集。
训练轮数：模型进行了2.0个训练轮次。
2.模型架构：
输入特征：Whisper Large-v3使用128个梅尔频率倒谱系数（Mel-frequencycepstralcoefficients,MFCCs）作为输入特征，而之前的版本使用80个。
语言支持：增加了对粤语的新语言标记。
改进：相比于Whisper Large-v2，错误率减少了10% 到20%，显著提高了语音识别和翻译的准确性。
3.多任务能力：
多语言识别：能够识别和翻译多种语言，包括英语、中文、法语、西班牙语、德语、日语等。
多任务学习：模型不仅可以进行语音识别，还可以执行语音翻译、语言识别和语音活动检测等任务。