艾艾普科技在 Mozilla Common Voice 17.0 上的 ASR Pro 评估

2024年11月15日 · 4 分钟阅读

CEO @ iApp Technology

本报告呈现了自动语音识别系统 (艾艾普 ASR Pro) 在 Mozilla Common Voice 17.0 数据集上的评估结果，旨在比较各种国内外 ASR 服务的性能。

数据集和评估指标

本次评估在 Mozilla Common Voice 17.0 数据集上进行，这是一个广泛使用且包含多样化音频样本的数据集，用于测试 ASR 准确性。我们使用词错误率 (WER) 和字符错误率 (CER) 作为评估各项 ASR 服务的主要指标。

WER 和 CER 计算

我们使用 jiwer 库来计算 WER 和 CER，这是 ASR 评估的标准工具。各项指标描述如下：

词错误率 (WER): 在词级别衡量错误率，通过词替换、删除和插入的总数除以参考文本中的总词数来计算。
字符错误率 (CER): 在字符级别衡量错误率，计算方式与 WER 相同，但以字符为单位，提供更详细的准确性测量。

使用 jiwer 按照以下步骤执行了 WER 和 CER 计算：

将参考文本和从 ASR 获取的文本调整为相同的格式（例如，小写，去除标点符号）。
通过将每个 ASR 的结果与参考文本进行比较来计算 WER 和 CER。

准确性评估表

下表总结了各项 ASR 服务的词错误率 (WER)、字符错误率 (CER) 和准确性。

iApp ASR 评估

重要信息：

艾艾普 ASR PRO 具有最高的准确性，WER 为 92.41%，CER 为 97.81%。
Google ASR 和 Thai Local Competitor 的准确性水平相似，WER 值分别为 88.11% 和 88.64%。
艾艾普 ASR Base 表现可靠，WER 值为 85.48%，是高度准确的 艾艾普 ASR PRO 的一个良好替代方案。

CER 评估

下图显示了艾艾普 ASR Pro 与其他 ASR 服务之间字符错误率 (CER) 的比较。

iApp ASR CER 评估 (含泰语)

总结：

艾艾普 ASR Pro vs Thai Local Competitor: 艾艾普 ASR Pro 在 CER 方面的胜率达到 47.3%，在许多情况下表现出优势，平局 29.2%，劣势 23.6%。
艾艾普 ASR Pro vs Google ASR: 艾艾普 ASR Pro 的胜率为 44.9%，平局 31.0%，劣势 24.1%。
进一步的比较显示了这些 ASR 服务之间的竞争力。

WER 评估

下图显示了艾艾普 ASR Pro 与其他 ASR 服务之间词错误率 (WER) 的比较。

iApp ASR WER 评估 (含泰语)

注释：

艾艾普 ASR Pro vs Thai Local Competitor: 艾艾普 ASR Pro 在 WER 方面的胜率为 38.2%，平局率为 38.5%，劣势率为 23.3%。
艾艾普 ASR Pro vs Google ASR: 艾艾普 ASR Pro 的胜率为 35.5%，平局率为 41.1%，劣势率为 23.5%。
这些结果显示了不同 ASR 服务的不同性能水平。

结论

本次评估表明，艾艾普 ASR PRO 具有最高的准确性水平。Google ASR 和 Thai Local Competitor 具有均衡的能力和良好的准确性，而 艾艾普 ASR Base 具有相当的准确性。这些信息可以帮助用户根据其具体需求选择合适的 ASR 服务。

您可以在 https://iapp.co.th/docs/speech/speech-to-text/pro 测试艾艾普 ASR PRO

艾艾普科技在 Mozilla Common Voice 17.0 上的 ASR Pro 评估

数据集和评估指标

WER 和 CER 计算

准确性评估表

CER 评估

WER 评估

结论

ChindaX

SpeechFlow

ChindaGO

数据集和评估指标​

WER 和 CER 计算​

准确性评估表​

CER 评估​

WER 评估​

结论​

数据集和评估指标

WER 和 CER 计算

准确性评估表

CER 评估

WER 评估

结论