การประเมินผล ChindaLLM ผู้ช่วยแชทบอท AI ภาษาไทย
การประเมินนี้ตรวจสอบประสิทธิภาพของ ChindaLLM ผู้ช่วยแชทบอท AI ภาษาไทย ที่ออกแบบมาเพื่อให้คำตอบที่มีความแม่นยำสูงในเอกสารหลากหลายประเภท โดยใช้ OpenThaiGPT ซึ่งเป็นโมเดล LLM ภาษาไทยที่ทันสมัยที่สุดในปัจจุบัน ChindaLLM สามารถให้คำตอบได้ใน 10 ภาษา ซึ่งช่วยพัฒนาการสื่อสารภายในองค์กรและการบริการลูกค้าได้อย่างมีประสิทธิภาพ
1. บทนำเกี่ยวกับ ChindaLLM
การประเมินนี้ตรวจสอบประสิทธิภาพของ ChindaLLM ผู้ช่วยแชทบอท AI ภาษาไทย ซึ่งออกแบบมาเพื่อให้คำตอบที่มีความแม่นยำสูงในเอกสารหลากหลายประเภท โดยใช้ OpenThaiGPT ซึ่งเป็นโมเดล LLM ภาษาไทยที่ทันสมัยที่สุดในปัจจุบัน ChindaLLM สามารถให้คำตอบได้ใน 10 ภาษา ซึ่งช่วยพัฒนาการสื่อสารภายในองค์กรและการบริการลูกค้าได้อย่างมีประสิทธิภาพ
ฟีเจอร์หลักของระบบประกอบด้วย Retrieval-Augmented Generation (RAG) พร้อมระบบที่สามารถจัดการเอกสารหลายชุด การเชื่อมต่อผ่าน LINE, Messenger และเว็บไซต์ รวมถึงการใช้ฟังก์ชันเฉพาะและการเรียกใช้เครื่องมือโดยใช้ AI แบบ agent-based รองรับโมเดลและการปรับแต่งส่วนบุคคล ความสามารถในการค้นหาผ่านเว็บ รองรับหลายโหมดการทำงาน เช่น การแปลงข้อความเป็นเสียง การแปลงเสียงเป็นข้อความ และการสร้างภาพ
ระบบนี้ได้รับการประเมินโดยใช้ชุดข้อมูลสามชุด ได้แก่ TyDiQA, XQuAD และ iapp_wiki_qa_squad ซึ่งประกอบด้วยคำถาม-คำตอบที่สกัดจากภาษาไทยพร้อมกับบริบทจากตัวอย่าง 2,695 รายการ
การตั้งค่าการประเมินผล
การตั้งค่าของโมเดล
- โมเดล: OpenThaiGPT1.5 7B
- อุณหภูมิ: 0.2
เราได้รวบรวมบริบทที่ไม่ซ้ำจากชุดข้อมูลและเก็บไว้ สำหรับแต่ละคำถาม ระบบจะดึงเอกสารที่เกี่ยวข้องมากที่สุดจำนวน k อันดับ และประเมินว่ามันตรงกับเอกสารที่ถูกต้องหรือไม่
ใน P@k หากเอกสารในชุดที่ดึงมาตรงกับเอกสารที่ถูกต้อง มันจะได้รับคะแนน 1 ถ้าไม่ตรงจะได้คะแนน 0 จากนั้นคำนวณคะแนนเฉลี่ยสำหรับทุกคำถาม
ใน MRR@k จะได้รับคะแนนตามอันดับของเอกสาร: คะแนน 1rank หากเอกสารในชุดที่ดึงมาตรงกับเอกสารที่ถูกต้อง และ 0 หากไม่ตรง คำนวณคะแนนเฉ ลี่ยจากทุกคำถาม จากนั้นใช้เอกสารที่ดึงมาและคำถามเพื่อสร้างคำตอบสำหรับการเปรียบเทียบ
ชุดข้อมูลการประเมินผล
TyDiQA (763 ตัวอย่าง): การตอบคำถามที่ครอบคลุม 11 ภาษา โดยมีคำถาม-คำตอบ 204,000 คู่ (รวมถึงภาษาไทย) ชุดข้อมูลนี้ใช้เพื่อหลีกเลี่ยงผลกระทบจากการแปลภาษา โดยคำถามจะถูกเขียนโดยมนุษย์และข้อมูลจะถูกรวบรวมโดยตรงในแต่ละภาษา
XQuAD (1,190 ตัวอย่าง): ชุดข้อมูลมาตรฐานสำหรับการประเมินผลการตอบคำถามข้ามภาษา ซึ่งประกอบด้วยคำถาม-คำตอบจากชุดข้อมูล SQuAD v1.1 ที่แปลเป็น 10 ภาษา
Iapp_wiki_qa_squad (742 ตัวอย่าง): ชุดข้อมูลการตอบคำถามที่สกัดจากบทความใน Wikipedia ภาษาไทย และดัดแปลงจากชุดข้อมูล iapp-wiki-qa-dataset เป็นรูปแบบ SQuAD
คีย์เมตริกส์
- P@K (Precision at K): วัดประสิทธิภาพของระบบในการดึงเอกสารที่ตรงกับคำตอบจากชุดเอกสารที่มีอันดับ K
- MRR@K (Mean Reciprocal Rank at K): วัดการดึงเอกสารที่ตรงกับคำตอบและพิจารณาคะแนนตามอันดับของเอกสารในชุด K
ผลลัพธ์การประเมิน
Precision@K
ชุดข้อมูล | Precision@1 | Precision@5 | Precision@10 |
---|---|---|---|
TyDiQA | 0.8912 | 0.9879 | 0.9934 |
XQuAD | 0.9059 | 0.9916 | 0.9941 |
iapp_wiki_qa_squad | 0.9286 | 0.9663 | 0.9784 |
MRR@K
ชุดข้อมูล | MRR@10 |
---|---|
TyDiQA | 0.9343 |
XQuAD | 0.9439 |
iapp_wiki_qa_squad | 0.9446 |