幸运彩app下载阿里巴巴通义履行室推出三款AI语音模子，平方话识别诞妄率仅4.97%

幸运彩app官方网站下载

冠亚和

发布日期：2026-02-24 12:09 点击次数：83

幸运彩app下载阿里巴巴通义履行室推出三款AI语音模子，平方话识别诞妄率仅4.97%

一个模子解决52种谈话，还认得了22种中国方言

要不息Qwen3-ASR究竟作念了什么，先把它假想成一位超等速记员。这位速记员不单和会俗语和英语，还会广东话、阿拉伯语、德语、法语、西班牙语、葡萄牙语、印尼语、意大利语、韩语、俄语、泰语、越南语、日语、土耳其语、印地语、马来语、荷兰语、瑞典语、丹麦语、芬兰语、波兰语、捷克语、菲律宾语、波斯语、希腊语、匈牙利语、马其顿语和罗马尼亚语，统共30种谈话。

光这30种谈话还不够。在汉文方言方面，这位速记员还专诚学过安徽话、东北话、福建话、甘肃话、贵州话、河北话、河南话、湖北话、湖南话、江西话、宁夏话、山东话、陕西话、山西话、四川话、天津话、云南话、浙江话，加上香口岸音粤语、广东口音粤语、吴语和闽南语，忖度22种方言。两者相加，这套系统共支合手52种谈话和方言。

伸开剩余85%

四个阶段的"养成之路"：从海量数据到强化学习

Qwen3-ASR的素养流程，像极了培养一位顶级翻舌人的旅途，总共资格了四个阶段。

第一阶段是打地基。AuT编码器需要先零丁学习怎么"听"，用的是不详4000万小时的语音数据，主淌若汉文和英语。这个阶段产出的编码器，不详在不同长度的音频片断下都理会职责，因为它弃取了动态戒备力窗口机制，窗口大小不错在1秒到8秒之间机动转变。

第二阶段是"见世面"。通盘Qwen3-Omni多模态基础模子，用3万亿个词元（token，不错不息为翰墨或语音的最小处理单元）的音频、视觉和翰墨混杂数据进行预素养，让模子具备对多种信息样式的笼统不息才气。0.6B和1.7B两个版块都资格了这一阶段。

第四阶段是"捕快"。计较团队使用了一种叫作念GSPO（群体序列战术优化）的强化学习法度，用约5万条语音数据对模子进行临了的打磨。这5万条数据里，中英文占35%，多谈话数据占35%，各样功能性测试数据占30%。强化学习的后果出乎想到地显赫——它对模子在嘈杂环境下的理会性、转录一致性以及处理难点案例的才气，都有彰着进步。

三跑得有多快？0.6B版块每秒能处理2000秒音频

以"首字恭候时代"（TTFT，即用户说完话到模子启动输出第一个字的蔓延）为揣度圭臬：在单用户使用的情况下，平均恭候时代低至92毫秒，95%的肯求在105毫秒内就能看到第一个字。换个直不雅的说法，从你说完话到模子启动输出，不详只需要一眨眼的十分之一。

当同期有128个用户并发肯求时，及时因子（RTF，即处理1秒音频需要些许秒）为0.064，朦拢量达到每秒处理2000秒音频。也就是说，每过1秒钟，模子就能处理完相等于2000秒的语音内容。关于需要大界限部署的工业场景，这个数字意味着不错用很低的老本撑合手大都用户同期使用。

1.7B的大版块稍慢一些，单用户情况下TTFT平均102毫秒，128并发时朦拢量约为每秒1220秒音频。两个版块均支合手离线批量处理和在线异步推理两种模式，均基于vLLM v0.14.0框架运行。

在本体测试中，流式模式比较离线模式确乎会带来一定的准确率耗费，但耗费幅度在可采纳范围内。以Qwen3-ASR-1.7B为例，在LibriSpeech圭臬测试集上，离线模式的词诞妄率是1.63%（clean）和3.38%（other），流式模式则是1.95%和4.51%。在Fleurs英语测试集上，离线3.35%，流式4.02%；汉文测试集上，离线2.41%，流式2.84%。总体来看，流式模式引入的独特过错约在0.3到1.1个百分点之间。

为了全面评估模子性能，计较团队不仅测试了公开基准数据集，还专诚构建了一套里面测试集，遮蔽了好多公开测试集里较少出现的实在场景。

在公开英语基准测试中，Qwen3-ASR-1.7B在GigaSpeech（众包汇注语音）上达到8.45%词诞妄率，在Common Voice英语集上达到7.39%，在VoxPopuli上达到9.15%，幸运彩app笼统阐发优于GPT-4o-Transcribe、Gemini-2.5-Pro等营业API，并全面高出Whisper-large-v3等开源模子。在LibriSpeech朗诵语音测试集上，1.7B版块的clean集词诞妄率为1.63%，接近最优水平。

平方话方面，Qwen3-ASR的上风愈加彰着。在包含多种声学环境和会议灌音的WenetSpeech测试集上，1.7B版块的CER（字符诞妄率）为4.97%（汇注语音）和5.88%（会议灌音），大幅优于GPT-4o-Transcribe的15.30%和32.27%，以及Gemini-2.5-Pro的14.43%和13.47%。Doubao-ASR在这个测试集上以致无法给出合理限度（标注为N/A）。

里面压力测试的限度更能诠释问题。在包含16种口音英语的测试集上，Qwen3-ASR-1.7B达到16.07%词诞妄率，优于系数对比系统。在老东说念主儿童平方话测试中，1.7B版块达到3.81%字符诞妄率，而Gemini-2.5-Pro在同场景下高达36.93%。极点杂音环境下，1.7B版块达到16.17%，Whisper-large-v3则高达63.17%。遮蔽22种方言的混杂方言测试集上，Qwen3-ASR-1.7B达到15.94%，优于Doubao-ASR的19.85%和Whisper-large-v3的44.55%。

现存的诞妄主要集会在马来语（ms）和印度尼西亚语（id）之间的混浊，因为这两种谈话在发音和词汇上都相等接近，即等于东说念主类偶而也难以远离。

专诚为字幕生成而生的"时代戳神器"：Qwen3-ForcedAligner

假定你有一段15秒的灌音，里面说了"你好，我是通义千问"，ForcedAligner能告诉你："你"出咫尺0.5秒到0.66秒，"好"在0.66秒到0.89秒，"我"在0.89秒到1.10秒……依此类推。这个功能在字幕生成、语音数据标注、白话评测等场景里相等实用。

Qwen3-ForcedAligner的蓄料想路十足不同。它把时代戳预计再行界说为一个"填空"任务：给定一段音频和对应翰墨，在每个词或字的前后插入荒谬的时代槽标识[time]，然后让模子平直预计每个槽对应的时代索引。时代索引以80毫秒为一个单元，最多支合手3750个单元，对应最长300秒的音频。

素养数据方面，由于东说念主工标注时代戳极为斯文，计较团队用MFA生成的伪标注数据动作素养素材，但并非简便复制MFA的输出——模子经过"提取和平滑"处理，最终预计限度比MFA本人更理会、偏移更小。

时代戳准确度测试：比竞争敌手精准67%到77%

揣度时代戳准确度的主张叫作念AAS（积存平均偏移），数值越小诠释预计时代戳和实在时代戳之间的差距越小。

在MFA标注的短句测试集上，Qwen3-ForcedAligner-0.6B的平均AAS为42.9毫秒，而NFA为129.8毫秒，WhisperX为133.2毫秒，相对减少了约67%到68%。汉文单独测试中，Qwen3-ForcedAligner的AAS为33.1毫秒，而Monotonic-Aligner高达161.1毫秒。

长音频场景下，差距愈加悬殊。在长度拼接至300秒的测试集上，Qwen3-ForcedAligner的平均AAS为52.9毫秒，NFA为246.7毫秒，WhisperX更是高达2708.4毫秒（近3秒的偏移）。传统器具在处理长音频时准确率急剧着落，而Qwen3-ForcedAligner的性能基本不受音频长度影响。

{jz:field.toptypename/}

在东说念主工标注的测试集上（这是更接近实在情况的"黄金圭臬"），Qwen3-ForcedAligner的各项AAS均在24.8到42.5毫秒之间，而NFA在86.7到140毫秒之间，阐发出相对减少约53%到77%的偏移量。

至顶AI履行室洞见

论文地址：

https://arxiv.org/pdf/2601.21337

END

本文来自至顶AI履行室，一个专注于探索生成式AI前沿本领过火期骗的履行室。辛勤于于鼓吹生成式AI在各个界限的转换与冲破，挖掘其潜在的期骗场景，为企业和个东说念主提供切实可行的解决决策。

Q&A

Q1：Qwen3-ASR支合手哪些谈话和方言？

A：Qwen3-ASR-1.7B和Qwen3-ASR-0.6B共支合手52种谈话和方言，包括30种谈话（汉文、英语、日语、韩语、法语、德语、西班牙语等）和22种中国方言（四川话、粤语、闽南语、吴语、东北话等）。Qwen3-ForcedAligner-0.6B则支合手其中11种主要谈话的时代戳对王人。

Q3：Qwen3-ForcedAligner和MFA等传统时代戳器具比较有什么上风？

A：Qwen3-ForcedAligner-0.6B用一个调和模子支合手11种谈话，无需针对每种谈话单独确立，还支合手跨谈话混用场景。在时代戳精度上，积存平均偏移比NFA和WhisperX减少约67%到77%，且在长音频下性能不左迁，而传统器具在长音频场景下准确率会急剧下滑。

发布于：北京市

上一篇：幸运彩app 国内质料相比好的接链环品牌有哪些？
下一篇：幸运彩app AI从“聊天”到“干活”，国内产业落地迎来爆发期

推荐资讯