Whisper Large-v3 是OpenAI开发的一个自动语音识别(ASR)和语音翻译模型。该模型在100万小时的弱标签音频和400万小时的伪标签音频数据上进行了训练,显示出在多种语言上的出色性能改进。
Whisper Large-v3下载地址
Hugging Face:https://huggingface.co/openai/whisper-large-v3
GitHub:https://github.com/openai/whisper
Whisper Large-v3功能和特点
1.训练数据:
数据规模:模型在100万小时的弱标签音频和400万小时的伪标签音频数据上进行训练。这些数据由Whisper Large-v2模型收集。
训练轮数:模型进行了2.0个训练轮次。
2.模型架构:
输入特征:Whisper Large-v3使用128个梅尔频率倒谱系数(Mel-frequencycepstralcoefficients,MFCCs)作为输入特征,而之前的版本使用80个。
语言支持:增加了对粤语的新语言标记。
改进:相比于Whisper Large-v2,错误率减少了10% 到20%,显著提高了语音识别和翻译的准确性。
3.多任务能力:
多语言识别:能够识别和翻译多种语言,包括英语、中文、法语、西班牙语、德语、日语等。
多任务学习:模型不仅可以进行语音识别,还可以执行语音翻译、语言识别和语音活动检测等任务。
Whisper Large-v3使用场景
自动字幕生成:将视频中的语音内容转换为文本字幕。
实时翻译:将一种语言的语音实时翻译成另一种语言。
语音助手:增强语音助手的语音识别和理解能力。
语音分析:用于大规模语音数据分析和处理。
数据统计
相关导航
暂无评论...