评估 Thanoy 泰国法律 AI 助手表现

2025年3月19日 · 5 分钟阅读

CEO @ iApp Technology

本次评估报告评估了由 OpenThaiGPT 驱动的泰国法律 AI 助手 Thanoy，该助手旨在为各种法律文件和查询提供准确可靠的法律建议。Thanoy 经过 10,000 多篇泰国法律文章和法规的训练，为寻求法律指导的法律专业人士和普通用户提供了一项先进的解决方案。

Thanoy AI Assistant

1. Thanoy 简介

Thanoy 是一款人工智能驱动的助手，旨在增强对泰国法律信息和建议的可及性。它利用 OpenThaiGPT 来分析和响应用户查询，提供对泰国法律法规的见解。主要功能包括可通过 LINE 聊天机器人界面访问，确保用户可以随时获得法律建议。Thanoy 的设计旨在确保其回应基于对泰国法律格局的全面理解，使其成为专业人士和非专业人士的宝贵工具。

2. 评估方法

2.1 评估团队和方法

这项全面的评估由 iApp 的 LLM 团队在 @Por 的领导下进行，采用自动评估方法，以确保客观性和可扩展性。

2.2 技术设置

评估模型: OpenAI GPT-4o API
温度设置: 0（以获得最大的一致性和准确性）
样本量: 第一批 1,000 个样本
数据来源: 100,000 多个 JSON-Lines 格式的聊天日志
后续批次: 后续批次将随机抽取额外的 1,000 个样本

2.3 评估标准

评估评估了每次交互的三个关键组成部分：

查询: 用户的法律问题
上下文: 检索到的法律文件和法规
响应: Thanoy 的 AI 生成的法律建议

对于每个样本，GPT-4o 评估了：

相关性: Thanoy 的响应是否与用户的查询和检索到的上下文相关
质量分数: 对整体响应质量的 0-10 分评分

3. 详细实验结果

3.1 整体绩效指标

评估样本总数: 1,000
平均相关性得分: 4.325/10
标准差: 3.29
参考文档: 内部 LarkSuite Wiki

3.2 相关性分布

类别	数量	百分比
不相关	659 次请求	65.9%
相关	341 次请求	34.1%

3.3 最高分数分布

分数	数量	百分比
2 分	248 次请求	24.8%
3 分	244 次请求	24.4%
8 分	165 次请求	16.5%

4. 深入分析和主要发现

4.1 响应-查询一致性

发现: Thanoy 的大多数响应都与用户查询高度一致，表明其具有有效的自然语言理解和法律推理能力。

4.2 上下文检索挑战

已识别的关键问题: 主要性能瓶颈在于检索增强生成 (RAG) 系统：

频繁的上下文不匹配: RAG 系统经常检索不相关的法律文件
分数影响: 尽管响应准确，但不相关的上下文会显著降低评估分数

4.3 上下文依赖性分析

场景 1 - 检索到的不必要上下文:

某些查询不需要法律文件上下文即可获得准确响应
提供不相关上下文时，即使响应正确，分数也会下降

场景 2 - 未检索到的不必要上下文:

不需要上下文且未提供任何上下文的查询通常得分较低
即使响应正确地解决了用户的问题，也会发生这种情况

4.4 底层模型能力

积极发现: OpenThaiGPT 表现出强大的基础法律知识：

即使在上下文检索不正确的情况下，也能提供准确的法律建议
展现出对泰国法律原则和概念的强大理解
尽管存在 RAG 系统限制，仍保持响应质量

5. 技术建议和未来改进

5.1 RAG 系统增强优先级

需要立即采取行动: 当前的 RAG 系统需要全面重新开发：

当前挑战: 频繁检索不相关的法律文件
拟议解决方案: 实施 GraphRAG 技术
团队状态: GraphRAG 方法的积极研究和审查

5.2 评估方法完善

未来批次策略:

继续进行 1,000 个样本的批次，采用随机抽样
实施 A/B 测试，改进 RAG 系统
开发更精细的法律准确性评估指标

5. Thanoy 和 AI 在法律服务领域的未来

Thanoy 不仅仅是即时法律建议的工具，更是未来 AI 驱动的法律服务进步的基础。随着人工智能技术的不断发展，像 Thanoy 这样的助手的能力有望得到提升，特别是在理解复杂的法律语言和提供更精准的见解方面。本次评估的反馈和表现对于推动未来改进至关重要，并确保 Thanoy 能够满足泰国日益增长的可及法律援助需求。

6. 结论和影响评估

本次对 1,000 个样本进行的全面评估揭示了 Thanoy 作为泰国法律 AI 助手表现的重要见解：

6.1 主要优势

强大的语言理解能力: OpenThaiGPT 对泰国法律查询表现出强大的理解能力
基础法律知识: 即使在上下文检索不理想的情况下，也能提供准确的建议
响应一致性: 在各种法律主题和问题类型上保持高质量

6.2 关键改进领域

RAG 系统大修: 主要关注提高上下文检索的准确性（65.9% 的不相关率）
GraphRAG 实施: 积极研究下一代检索技术
评估完善: 加强对法律特定准确性评估的指标

6.3 战略意义

本次由 iApp LLM 团队进行的评估为 Thanoy 发展成为领先的泰国法律 AI 助手提供了关键数据。研究结果既展示了潜力，也揭示了当前的局限性，为实现 AI 驱动法律服务更高的性能标准制定了明确的路线图。

参考: 完整的评估方法和详细结果已记录在 iApp 的内部研究 wiki 中，以供持续的技术改进。

评估 Thanoy 泰国法律 AI 助手表现

1. Thanoy 简介

2. 评估方法

2.1 评估团队和方法

2.2 技术设置

2.3 评估标准

3. 详细实验结果

3.1 整体绩效指标

3.2 相关性分布

3.3 最高分数分布

4. 深入分析和主要发现

4.1 响应-查询一致性

4.2 上下文检索挑战

4.3 上下文依赖性分析

4.4 底层模型能力

5. 技术建议和未来改进

5.1 RAG 系统增强优先级

5.2 评估方法完善

5. Thanoy 和 AI 在法律服务领域的未来

6. 结论和影响评估

6.1 主要优势

6.2 关键改进领域

6.3 战略意义

ChindaX

SpeechFlow

ChindaGO

1. Thanoy 简介​

2. 评估方法​

2.1 评估团队和方法​

2.2 技术设置​

2.3 评估标准​

3. 详细实验结果​

3.1 整体绩效指标​

3.2 相关性分布​

3.3 最高分数分布​

4. 深入分析和主要发现​

4.1 响应-查询一致性​

4.2 上下文检索挑战​

4.3 上下文依赖性分析​

4.4 底层模型能力​

5. 技术建议和未来改进​

5.1 RAG 系统增强优先级​

5.2 评估方法完善​

5. Thanoy 和 AI 在法律服务领域的未来​

6. 结论和影响评估​

6.1 主要优势​

6.2 关键改进领域​

6.3 战略意义​

1. Thanoy 简介

2. 评估方法

2.1 评估团队和方法

2.2 技术设置

2.3 评估标准

3. 详细实验结果

3.1 整体绩效指标

3.2 相关性分布

3.3 最高分数分布

4. 深入分析和主要发现

4.1 响应-查询一致性

4.2 上下文检索挑战

4.3 上下文依赖性分析

4.4 底层模型能力

5. 技术建议和未来改进

5.1 RAG 系统增强优先级

5.2 评估方法完善

5. Thanoy 和 AI 在法律服务领域的未来

6. 结论和影响评估

6.1 主要优势

6.2 关键改进领域

6.3 战略意义