跳到主要内容

评估 ChindaLLM 泰国 AI 聊天机器人助手性能

· 5 分钟阅读
Kobkrit Viriyayudhakorn
CEO @ iApp Technology

本次评估旨在考察 ChindaLLM(泰国 AI 聊天机器人助手)的性能,该助手旨在为各种文档提供高度准确的响应。ChindaLLM 利用最先进的泰国 LLM 模型 OpenThaiGPT,能够以 10 种语言提供精确答案,从而提高组织内部沟通和客户服务效率。

1. ChindaLLM 简介

本次评估旨在考察 ChindaLLM(泰国 AI 聊天机器人助手)的性能,该助手旨在为各种文档提供高度准确的响应。ChindaLLM 利用最新版本的 OpenThaiGPT(目前最先进的泰国 LLM 模型),能够以 10 种语言提供精确答案,从而高效地改善您组织内部的沟通和客户服务。 主要功能包括:支持多文档处理的检索增强生成(RAG)系统;通过 LINE、Messenger 和网站界面进行集成;利用基于代理的 AI 实现自定义函数和工具调用;支持各种模型和个性化设置;网页搜索能力;多模态支持;以及文本转语音、语音转文本和图像生成功能。 该系统使用了三个数据集进行评估:TyDiQA、XQuAD 和 iapp_wiki_qa_squad。这些数据集包含泰语的抽取式问答对和上下文,共收集了 2,695 个样本。

评估设置

模型配置

  • 模型: OpenThaiGPT1.5 7B
  • 温度: 0.2 我们收集数据集中所有唯一的上下文并进行存储。对于每个问题,系统会检索出最相关的 k 个文档,并评估它们是否与该问题的 ground truth 文档匹配。 在 P@k 中,如果检索到的文档集中有一个文档与 ground truth 匹配,则得分为 1;否则得分为 0。然后计算所有问题的平均得分。 在 MRR@k 中,得分根据文档的排名分配:如果检索到的文档集中有一个文档与 ground truth 匹配,则得分为 1/rank,如果不匹配则得分为 0。然后计算所有问题的平均得分。最后,使用检索到的文档和问题生成答案以进行比较。

评估数据集

TyDiQA (763 个样本):涵盖 11 种不同语言的问答,包含 204k 对问答(包括泰语)。它包含在纯英语语料库中找不到的语言现象。为了提供真实的جستجوی اطلاعات 任务并避免提示效应,问题由人工撰写,数据直接以每种语言收集,不使用翻译。此评估数据集是泰语句子嵌入排行榜的一部分。 XQuAD (1,190 个样本):用于评估跨语言问答性能的基准数据集。该数据集包含 SQuAD v1.1 开发集中的 240 个段落和 1190 对问答,以及它们翻译成的十种语言的专业译文:西班牙语、德语、希腊语、俄语、土耳其语、阿拉伯语、越南语、泰语、中文和印地语。因此,该数据集在 11 种语言之间是完全并行的。此评估数据集是泰语句子嵌入排行榜的一部分。 Iapp_wiki_qa_squad (742 个样本):从泰国维基百科文章中提取的抽取式问答数据集。它改编自原始的 iapp-wiki-qa-dataset,符合 SQuAD 格式。此评估数据集是泰国 LLM 排行榜的一部分。

关键指标概述

  • P@K (Precision at K):衡量检索系统在 K 个最佳文档中检索到 ground truth 标签文档的性能,以问题总数的百分比表示。
  • MRR@K (Mean Reciprocal Rank at K):衡量检索系统检索到 ground truth 标签文档的性能,并考虑文档在 K 个最佳文档中的排名作为得分,以问题总数的百分比表示。

评估结果

Precision@K

数据集Precision@1Precision@5Precision@10
TyDiQA0.89120.98790.9934
XQuAD0.90590.99160.9941
iapp_wiki_qa_squad0.92860.96630.9784

MRR@K

数据集MRR@10
TyDiQA0.9343
XQuAD0.9439
iapp_wiki_qa_squad0.9446

结论

  • Precision@1iapp_wiki_qa_squad (0.9286) 中最高 → 检索系统在此数据集中比其他数据集更频繁地能在第 1 位检索到正确的相关文档。
  • Precision@5Precision@10 在所有评估数据集中都接近 1.0 → 这意味着前 5 个和 10 个检索到的文档通常包含正确的相关文档。
  • XQuAD 数据集中,Precision@5Precision@10 最高 (0.9916 和 0.9941) → 这表明在此数据集中,检索系统检索到的最准确的相关文档。
  • MRR@10iapp_wiki_qa_squad (0.9446) 中最高 → 相关文档最常在第 1-2 位检索到。
  • 接着是 XQuADMRR@10 (0.9439) → 这与 iapp_wiki_qa_squad 非常接近。
  • TyDiQAMRR@10 (0.9343) 最低 → 尽管此值在三个数据集中是最低的,但仍然非常高,相关文档经常出现在第 1-2 位。