评估 ChindaLLM 泰国 AI 聊天机器人助手性能
本次评估旨在考察 ChindaLLM(泰国 AI 聊天机器人助手)的性能,该助手旨在为各种文档提供高度准确的响应。ChindaLLM 利用最先进的泰国 LLM 模型 OpenThaiGPT,能够以 10 种语言提供精确答案,从而提高组织内部沟通和客户服务效率。
1. ChindaLLM 简介
本次评估旨在考察 ChindaLLM(泰国 AI 聊天机器人助手)的性能,该助手旨在为各种文档提供高度准确的响应。ChindaLLM 利用最新版本的 OpenThaiGPT(目前最先进的泰国 LLM 模型),能够以 10 种语言提供精确答案,从而高效地改善您组织内部的沟通和客户服务。 主要功能包括:支持多文档处理的检索增强生成(RAG)系统;通过 LINE、Messenger 和网站界面进行集成;利用基于代理的 AI 实现自定义函数和工具调用;支持各种模型和个性化设置;网页搜索能力;多模态支持;以及文本转语音、语音转文本和图像生成功能。 该系统使用了三个数据集进行评估:TyDiQA、XQuAD 和 iapp_wiki_qa_squad。这些数据集包含泰语的抽取式问答对和上下文,共收集了 2,695 个样本。
评估设置
模型配置
- 模型: OpenThaiGPT1.5 7B
- 温度: 0.2 我们收集数据集中所有唯一的上下文并进行存储。对于每个问题,系统会检索出最相关的 k 个文档,并评估它们是否与该问题的 ground truth 文档匹配。 在 P@k 中,如果检索到的文档集中有一个文档与 ground truth 匹配,则得分为 1;否则得分为 0。然后计算所有问题的平均得分。 在 MRR@k 中,得分根据文档的排名分配:如果检索到的文档集中有一个文档与 ground truth 匹配,则得分为 1/rank,如果不匹配则得分为 0。然后计算所有问题的平均得分。最后,使用检索到的文档和问题生成答案以进行比较。
评估数据集
TyDiQA (763 个样本):涵盖 11 种不同语言的问答,包含 204k 对问答(包括泰语)。它包含在纯英语语料库中找不到的语言现象。为了提供真实的جستجوی اطلاعات 任务并避免提示效应,问题由人工撰写,数据直接以每种语言收集,不使用翻译。此评估数据集是泰语句子嵌入排行榜的一部分。 XQuAD (1,190 个样本):用于评估跨语言问答性能的基准数据集。该数据集包含 SQuAD v1.1 开发集中的 240 个段落和 1190 对问答,以及它们翻译成的十种语言的专业译文:西班牙语、德语、希腊语、俄语、土耳其语、阿拉伯语、越南语、泰语、中文和印地语。因此,该数据集在 11 种语言之间是完全并行的。此评估数据集是泰语句子嵌入排行榜的一部分。 Iapp_wiki_qa_squad (742 个样本):从泰国维基百科文章中提取的抽取式问答数据集。它改编自原始的 iapp-wiki-qa-dataset,符合 SQuAD 格式。此评估数据集是泰国 LLM 排行榜的一部分。
关键指标概述
- P@K (Precision at K):衡量检索系统在 K 个最佳文档中检索到 ground truth 标签文档的性能,以问题总数的百分比表示。
- MRR@K (Mean Reciprocal Rank at K):衡量检索系统检索到 ground truth 标签文档的性能,并考虑文档在 K 个最佳文档中的排名作为得分,以问题总数的百分比表示。
评估结果
Precision@K
| 数据集 | Precision@1 | Precision@5 | Precision@10 |
|---|---|---|---|
| TyDiQA | 0.8912 | 0.9879 | 0.9934 |
| XQuAD | 0.9059 | 0.9916 | 0.9941 |
| iapp_wiki_qa_squad | 0.9286 | 0.9663 | 0.9784 |
MRR@K
| 数据集 | MRR@10 |
|---|---|
| TyDiQA | 0.9343 |
| XQuAD | 0.9439 |
| iapp_wiki_qa_squad | 0.9446 |
结论
- Precision@1 在 iapp_wiki_qa_squad (0.9286) 中最高 → 检索系统在此数据集中比其他数据集更频繁地能在第 1 位检索到正确的相关文档。
- Precision@5 和 Precision@10 在所有评估数据集中都接近 1.0 → 这意味着前 5 个和 10 个检索到的文档通常包含正确的相关文档。
- 在 XQuAD 数 据集中,Precision@5 和 Precision@10 最高 (0.9916 和 0.9941) → 这表明在此数据集中,检索系统检索到的最准确的相关文档。
- MRR@10 在 iapp_wiki_qa_squad (0.9446) 中最高 → 相关文档最常在第 1-2 位检索到。
- 接着是 XQuAD,MRR@10 (0.9439) → 这与 iapp_wiki_qa_squad 非常接近。
- TyDiQA 的 MRR@10 (0.9343) 最低 → 尽管此值在三个数据集中是最低的,但仍然非常高,相关文档经常出现在第 1-2 位。