评估 Thanoy 泰国法律 AI 助手表现
本次评估报告评估了由 OpenThaiGPT 驱动的泰国法律 AI 助手 Thanoy,该助手旨在为各种法律文件和查询提供准确可靠的法律建议。Thanoy 经过 10,000 多篇泰国法律文章和法规的训练,为寻求法律指导的法律专业人士和普通用户提供了一项先进的解决方案。

1. Thanoy 简介
Thanoy 是一款人工智能驱动的助手,旨在增强对泰国法律信息和建议的可及性。它利用 OpenThaiGPT 来分析和响应用户查询,提供对泰国法律法规的见解。主要功能包括可通过 LINE 聊天机器人界面访问,确保用户可以随时获得法律建议。Thanoy 的设计旨在确保其回应基于对泰国法律格局的全面理解,使其成为专业人士和非专业人士的宝贵工具。
2. 评估方法
2.1 评估团队和方法
这项全面的评估由 iApp 的 LLM 团队在 @Por 的领导下进行,采用自动评估方法,以确保客观性和可扩展性。
2.2 技术设置
- 评估模型: OpenAI GPT-4o API
- 温度设置: 0(以获得最大的一致性和准确性)
- 样本量: 第一批 1,000 个样本
- 数据来源: 100,000 多个 JSON-Lines 格式的聊天日志
- 后续批次: 后续批次将随机抽取额外的 1,000 个样本
2.3 评估标准
评估评估了每次交互的三个关键组成部分:
- 查询: 用户的法律问题
- 上下文: 检索到的法律文件和法规
- 响应: Thanoy 的 AI 生成的法律建议
对于每个样本,GPT-4o 评估了:
- 相关性: Thanoy 的响应是否与用户的查询和检索到的上下文相关
- 质量分数: 对整体响应质量的 0-10 分评分
3. 详细实验结果
3.1 整体绩效指标
- 评估样本总数: 1,000
- 平均相关性得分: 4.325/10
- 标 准差: 3.29
- 参考文档: 内部 LarkSuite Wiki
3.2 相关性分布
| 类别 | 数量 | 百分比 |
|---|---|---|
| 不相关 | 659 次请求 | 65.9% |
| 相关 | 341 次请求 | 34.1% |
3.3 最高分数分布
| 分数 | 数量 | 百分比 |
|---|---|---|
| 2 分 | 248 次请求 | 24.8% |
| 3 分 | 244 次请求 | 24.4% |
| 8 分 | 165 次请求 | 16.5% |
4. 深入分析和主要发现
4.1 响应-查询一致性
发现: Thanoy 的大多数响应都与用户查询高度一致,表明其具有有效的自然语言理解和法律推理能力。
4.2 上下文检索挑战
已识别的关键问题: 主要性能瓶颈在于检索增强生成 (RAG) 系统:
- 频繁的上下文不匹配: RAG 系统经常检索不相关的法律文件
- 分数影响: 尽管响应准确,但不相关的上下文会显著降低评估分数
4.3 上下文依赖性分析
场景 1 - 检索到的不必要上下文:
- 某些查询不需要法律文件上下文即可获得准确响应
- 提供不相关上下文时,即使响应正确,分数也会下降
场景 2 - 未检索到的不必要上下文:
- 不需要上下文且未提供任何上下文的查询通常得分较低
- 即使响应正确地解决了用户的问题,也会发生这种情况
4.4 底层模型能力
积极发现: OpenThaiGPT 表现出强大的基础法律知识:
- 即使在上下文检索不正确的情况下,也能提供准确的法律建议
- 展现出对泰国法律原则和概念的强大理解
- 尽管存在 RAG 系统限制,仍保持响应质量
5. 技术建议和未来改进
5.1 RAG 系统增强优先级
需要立即采取行动: 当前的 RAG 系统需要全面重新开发:
- 当前挑战: 频繁检索不相关的法律文件
- 拟议解决方案: 实施 GraphRAG 技术
- 团队状态: GraphRAG 方法的积极研究和审查
5.2 评估方法完善
未来批次策略:
- 继续进行 1,000 个样本的批次,采用随机抽样
- 实施 A/B 测试,改进 RAG 系统
- 开发更精细的法律准确性评估指标
5. Thanoy 和 AI 在法律服务领域的未来
Thanoy 不仅仅是即时法律建议的工具,更是未来 AI 驱动的法律服务进步的基础。随着人工智能技术的不断发展,像 Thanoy 这样的助手的能 力有望得到提升,特别是在理解复杂的法律语言和提供更精准的见解方面。本次评估的反馈和表现对于推动未来改进至关重要,并确保 Thanoy 能够满足泰国日益增长的可及法律援助需求。
6. 结论和影响评估
本次对 1,000 个样本进行的全面评估揭示了 Thanoy 作为泰国法律 AI 助手表现的重要见解:
6.1 主要优势
- 强大的语言理解能力: OpenThaiGPT 对泰国法律查询表现出强大的理解能力
- 基础法律知识: 即使在上下文检索不理想的情况下,也能提供准确的建议
- 响应一致性: 在各种法律主题和问题类型上保持高质量
6.2 关键改进领域
- RAG 系统大修: 主要关注提高上下文检索的准确性(65.9% 的不相关率)
- GraphRAG 实施: 积极研究下一代检索技术
- 评估完善: 加强对法律特定准确性评估的指标