OpenAI发布三款新语音模型，错误率显著降低

腾赚网 2025年03月21日 14:03 123 0

OpenAI近日发布三款全新语音模型，包括两款语音转文本模型GPT-4o Transcribe和GPT-4o MiniTranscribe，以及一款文本转语音模型GPT-4o MiniTTS。新模型在准确性、自然度等方面均有显著提升，尤其在多语言支持和复杂环境下的表现更为出色。相比之前的Whisper模型，新版本大幅降低了词错误率，同时减少了“幻觉”现象的发生，即不再随意编造词汇或内容。开发人员还强调，这些改进让模型更贴近实际应用场景，为用户提供更可靠的服务。

OpenAI发布三款新语音模型，错误率显著降低-第1张图片-腾赚网

文本转语音模型GPT-4o MiniTTS则以高度可定制化为核心亮点。用户可通过简单指令调整语音风格，比如模拟疯狂科学家的语气或展现同理心的客服语调。这标志着OpenAI正逐步实现其“AI智能体”的愿景，即打造能独立完成任务的自动化系统。不过，与以往开源策略不同，此次发布的转录模型暂未公开，主要因其规模庞大且资源需求较高，难以在普通设备上运行。产品团队表示，未来开源将更加谨慎，确保模型真正满足特定需求。

本文地址： https://www.tengzhuan.com/post/739821.html

文章来源：腾赚网