评估 ChindaLLM 泰国 AI 聊天机器人助手性能

2025年3月19日 · 5 分钟阅读

CEO @ iApp Technology

本次评估旨在考察 ChindaLLM（泰国 AI 聊天机器人助手）的性能，该助手旨在为各种文档提供高度准确的响应。ChindaLLM 利用最先进的泰国 LLM 模型 OpenThaiGPT，能够以 10 种语言提供精确答案，从而提高组织内部沟通和客户服务效率。

1. ChindaLLM 简介

本次评估旨在考察 ChindaLLM（泰国 AI 聊天机器人助手）的性能，该助手旨在为各种文档提供高度准确的响应。ChindaLLM 利用最新版本的 OpenThaiGPT（目前最先进的泰国 LLM 模型），能够以 10 种语言提供精确答案，从而高效地改善您组织内部的沟通和客户服务。主要功能包括：支持多文档处理的检索增强生成（RAG）系统；通过 LINE、Messenger 和网站界面进行集成；利用基于代理的 AI 实现自定义函数和工具调用；支持各种模型和个性化设置；网页搜索能力；多模态支持；以及文本转语音、语音转文本和图像生成功能。该系统使用了三个数据集进行评估：TyDiQA、XQuAD 和 iapp_wiki_qa_squad。这些数据集包含泰语的抽取式问答对和上下文，共收集了 2,695 个样本。

评估设置

模型配置

模型: OpenThaiGPT1.5 7B
温度: 0.2 我们收集数据集中所有唯一的上下文并进行存储。对于每个问题，系统会检索出最相关的 k 个文档，并评估它们是否与该问题的 ground truth 文档匹配。在 P@k 中，如果检索到的文档集中有一个文档与 ground truth 匹配，则得分为 1；否则得分为 0。然后计算所有问题的平均得分。在 MRR@k 中，得分根据文档的排名分配：如果检索到的文档集中有一个文档与 ground truth 匹配，则得分为 1/rank，如果不匹配则得分为 0。然后计算所有问题的平均得分。最后，使用检索到的文档和问题生成答案以进行比较。

评估数据集

TyDiQA (763 个样本)：涵盖 11 种不同语言的问答，包含 204k 对问答（包括泰语）。它包含在纯英语语料库中找不到的语言现象。为了提供真实的جستجوی اطلاعات 任务并避免提示效应，问题由人工撰写，数据直接以每种语言收集，不使用翻译。此评估数据集是泰语句子嵌入排行榜的一部分。 XQuAD (1,190 个样本)：用于评估跨语言问答性能的基准数据集。该数据集包含 SQuAD v1.1 开发集中的 240 个段落和 1190 对问答，以及它们翻译成的十种语言的专业译文：西班牙语、德语、希腊语、俄语、土耳其语、阿拉伯语、越南语、泰语、中文和印地语。因此，该数据集在 11 种语言之间是完全并行的。此评估数据集是泰语句子嵌入排行榜的一部分。 Iapp_wiki_qa_squad (742 个样本)：从泰国维基百科文章中提取的抽取式问答数据集。它改编自原始的 iapp-wiki-qa-dataset，符合 SQuAD 格式。此评估数据集是泰国 LLM 排行榜的一部分。

关键指标概述

P@K (Precision at K)：衡量检索系统在 K 个最佳文档中检索到 ground truth 标签文档的性能，以问题总数的百分比表示。
MRR@K (Mean Reciprocal Rank at K)：衡量检索系统检索到 ground truth 标签文档的性能，并考虑文档在 K 个最佳文档中的排名作为得分，以问题总数的百分比表示。

评估结果

Precision@K

数据集	Precision@1	Precision@5	Precision@10
TyDiQA	0.8912	0.9879	0.9934
XQuAD	0.9059	0.9916	0.9941
iapp_wiki_qa_squad	0.9286	0.9663	0.9784

MRR@K

数据集	MRR@10
TyDiQA	0.9343
XQuAD	0.9439
iapp_wiki_qa_squad	0.9446

结论

Precision@1 在 iapp_wiki_qa_squad (0.9286) 中最高 → 检索系统在此数据集中比其他数据集更频繁地能在第 1 位检索到正确的相关文档。
Precision@5 和 Precision@10 在所有评估数据集中都接近 1.0 → 这意味着前 5 个和 10 个检索到的文档通常包含正确的相关文档。
在 XQuAD 数据集中，Precision@5 和 Precision@10 最高 (0.9916 和 0.9941) → 这表明在此数据集中，检索系统检索到的最准确的相关文档。
MRR@10 在 iapp_wiki_qa_squad (0.9446) 中最高 → 相关文档最常在第 1-2 位检索到。
接着是 XQuAD，MRR@10 (0.9439) → 这与 iapp_wiki_qa_squad 非常接近。
TyDiQA 的 MRR@10 (0.9343) 最低 → 尽管此值在三个数据集中是最低的，但仍然非常高，相关文档经常出现在第 1-2 位。

评估 ChindaLLM 泰国 AI 聊天机器人助手性能

1. ChindaLLM 简介

评估设置

评估数据集

关键指标概述

评估结果

结论

ChindaX

SpeechFlow

ChindaGO

1. ChindaLLM 简介​

评估设置​

评估数据集​

关键指标概述​

评估结果​

结论​

1. ChindaLLM 简介

评估设置

评估数据集

关键指标概述

评估结果

结论