ตัวชี้วัดประสิทธิภาพหลัก (KPIs) ในประเมินงาน Retrieval-Augmented Generation (RAG)บนโมเดลภาษาใหญ่ (LLM)

8 สิงหาคม 2567 · One min read

Kobkrit Viriyayudhakorn

CEO @ iApp Technology

iApp ASR preview

1. ความแม่นยำ

1.1 ความแม่นยำในการดึงข้อมูล

คำจำกัดความ: วัดความเกี่ยวข้องของเอกสารที่ดึงมาโดยระบบ

ตัวชี้วัด: Precision@k, Recall@k, F1 Score

เป้าหมาย: เพื่อให้แน่ใจว่าเอกสารที่ดึงมามีความเกี่ยวข้องสูงกับคำค้นหา

1.2 ความแม่นยำในการสร้าง

คำจำกัดความ: ประเมินความถูกต้องและความเกี่ยวข้องของคำตอบที่สร้างขึ้น

ตัวชี้วัด: BLEU Score, ROUGE Score, การประเมินจากมนุษย์

เป้าหมาย: เพื่อให้มั่นใจว่าข้อความที่สร้างขึ้นมีความถูกต้องและเหมาะสมตามบริบท

2. ความล่าช้า

2.1 ความล่าช้าในการดึงข้อมูล

คำจำกัดความ: เวลาที่ใช้ในการดึงเอกสารที่เกี่ยวข้อง

ตัวชี้วัด: เวลาดึงข้อมูลเฉลี่ยในหน่วยมิลลิวินาที

เป้าหมาย: ลดเวลาการดึงข้อมูลเพื่อเพิ่มประสบการณ์การใช้งาน

2.2 ความล่าช้าในการสร้าง

คำจำกัดความ: เวลาที่ใช้ในการสร้างคำตอบหลังจากดึงเอกสาร

ตัวชี้วัด: เวลาสร้างคำตอบเฉลี่ยในหน่วยมิลลิวินาที

เป้าหมาย: ให้แน่ใจว่าการสร้างคำตอบรวดเร็วเพื่อรักษาการมีส่วนร่วมของผู้ใช้

3. การมีส่วนร่วมของผู้ใช้

3.1 ระยะเวลาการใช้งานต่อเซสชัน

คำจำกัดความ: เวลาที่ผู้ใช้ใช้ในการโต้ตอบกับผลิตภัณฑ์เฉลี่ยต่อเซสชัน

ตัวชี้วัด: ระยะเวลาเซสชันเฉลี่ยในนาที

เป้าหมาย: เพิ่มระยะเวลาเซสชันเพื่อบ่งบอกถึงการมีส่วนร่วมของผู้ใช้ที่สูงขึ้น

3.2 อัตราการโต้ตอบ

คำจำกัดความ: ความถี่ของการโต้ตอบของผู้ใช้กับระบบ

ตัวชี้วัด: จำนวนการโต้ตอบต่อเซสชัน

เป้าหมาย: ส่งเสริมการโต้ตอบบ่อยๆ เพื่อเพิ่มความพึงพอใจของผู้ใช้

4. ความพึงพอใจของผู้ใช้

4.1 ข้อเสนอแนะจากผู้ใช้

คำจำกัดความ: ข้อเสนอแนะโดยตรงจากผู้ใช้เกี่ยวกับประสบการณ์ของพวกเขา

ตัวชี้วัด: Net Promoter Score (NPS), Customer Satisfaction Score (CSAT)

เป้าหมาย: บรรลุคะแนนความพึงพอใจสูงเพื่อให้แน่ใจว่าผู้ใช้มีประสบการณ์ที่ดี

4.2 อัตราความผิดพลาด

คำจำกัดความ: ความถี่ของข้อผิดพลาดที่ผู้ใช้พบ

ตัวชี้วัด: จำนวนข้อผิดพลาดต่อ 100 การโต้ตอบ

เป้าหมาย: ลดอัตราความผิดพลาดเพื่อปรับปรุงความน่าเชื่อถือและความไว้วางใจของผู้ใช้

5. ความสามารถในการปรับขนาด

5.1 ปริมาณงานของระบบ

คำจำกัดความ: จำนวนคำค้นหาที่ระบบสามารถจัดการได้ต่อวินาที

ตัวชี้วัด: Queries per second (QPS)

เป้าหมาย: ให้แน่ใจว่าระบบสามารถจัดการโหลดสูงได้อย่างมีประสิทธิภาพ

5.2 การใช้ทรัพยากร

คำจำกัดความ: ประสิทธิภาพของการใช้ทรัพยากรโดยระบบ

ตัวชี้วัด: การใช้ CPU และหน่วยความจำ

เป้าหมาย: ปรับการใช้ทรัพยากรให้เหมาะสมเพื่อลดค่าใช้จ่ายและปรับปรุงประสิทธิภาพ

6. ผลกระทบทางธุรกิจ

6.1 อัตราการแปลง

คำจำกัดความ: เปอร์เซ็นต์ของผู้ใช้ที่ดำเนินการตามที่ต้องการ (เช่น การซื้อ, การลงทะเบียน)

ตัวชี้วัด: เปอร์เซ็นต์อัตราการแปลง

เป้าหมาย: เพิ่มอัตราการแปลงเพื่อขับเคลื่อนการเติบโตของธุรกิจ

6.2 ผลตอบแทนการลงทุน (ROI)

คำจำกัดความ: ผลตอบแทนทางการเงินที่เกิดจากผลิตภัณฑ์เมื่อเทียบกับค่าใช้จ่ายของมัน

ตัวชี้วัด: เปอร์เซ็นต์ ROI

เป้าหมาย: ให้แน่ใจว่าผลิตภัณฑ์ให้ผลตอบแทนทางการเงินในเชิงบวก

สรุป

การติดตาม KPIs เหล่านี้จะให้ความเข้าใจที่ครอบคลุมเกี่ยวกับประสิทธิภาพและความสำเร็จของผลิตภัณฑ์ LLM RAG โดยการมุ่งเน้นที่ความแม่นยำ ความล่าช้า การมีส่วนร่วมของผู้ใช้ ความพึงพอใจของผู้ใช้ ความสามารถในการปรับขนาด และผลกระทบทางธุรกิจ ผู้มีส่วนได้เสียสามารถตัดสินใจที่มีข้อมูลเพื่อปรับปรุงผลิตภัณฑ์และบรรลุวัตถุประสงค์เชิงกลยุทธ์ การตรวจสอบและปรับปรุง KPIs เหล่านี้อย่างสม่ำเสมอจะช่วยให้รักษาความสอดคล้องกับเป้าหมายทางธุรกิจและความต้องการของผู้ใช้ที่เปลี่ยนแปลงไป

หากคุณสนใจการพัฒนาและการประเมินผลผลิตภัณฑ์ RAG ที่มีประสิทธิภาพสูง ไอแอพพ์เทคโนโลยี มีแพลตฟอร์ม RAG LLM ที่ล้ำสมัยภายใต้ชื่อ Chinda ซึ่งพร้อมให้บริการคุณ https://chinda.iapp.co.th

ตัวชี้วัดประสิทธิภาพหลัก (KPIs) ในประเมินงาน Retrieval-Augmented Generation (RAG)บนโมเดลภาษาใหญ่ (LLM)

1. ความแม่นยำ

1.1 ความแม่นยำในการดึงข้อมูล

1.2 ความแม่นยำในการสร้าง

2. ความล่าช้า

2.1 ความล่าช้าในการดึงข้อมูล

2.2 ความล่าช้าในการสร้าง

3. การมีส่วนร่วมของผู้ใช้

3.1 ระยะเวลาการใช้งานต่อเซสชัน

3.2 อัตราการโต้ตอบ

4. ความพึงพอใจของผู้ใช้

4.1 ข้อเสนอแนะจากผู้ใช้

4.2 อัตราความผิดพลาด

5. ความสามารถในการปรับขนาด

5.1 ปริมาณงานของระบบ

5.2 การใช้ทรัพยากร

6. ผลกระทบทางธุรกิจ

6.1 อัตราการแปลง

6.2 ผลตอบแทนการลงทุน (ROI)

สรุป

ChindaX

Speechflow

1. ความแม่นยำ​

1.1 ความแม่นยำในการดึงข้อมูล​

1.2 ความแม่นยำในการสร้าง​

2. ความล่าช้า​

2.1 ความล่าช้าในการดึงข้อมูล​

2.2 ความล่าช้าในการสร้าง​

3. การมีส่วนร่วมของผู้ใช้​

3.1 ระยะเวลาการใช้งานต่อเซสชัน​

3.2 อัตราการโต้ตอบ​

4. ความพึงพอใจของผู้ใช้​

4.1 ข้อเสนอแนะจากผู้ใช้​

4.2 อัตราความผิดพลาด​

5. ความสามารถในการปรับขนาด​

5.1 ปริมาณงานของระบบ​

5.2 การใช้ทรัพยากร​

6. ผลกระทบทางธุรกิจ​

6.1 อัตราการแปลง​

6.2 ผลตอบแทนการลงทุน (ROI)​

สรุป​

1. ความแม่นยำ

1.1 ความแม่นยำในการดึงข้อมูล

1.2 ความแม่นยำในการสร้าง

2. ความล่าช้า

2.1 ความล่าช้าในการดึงข้อมูล

2.2 ความล่าช้าในการสร้าง

3. การมีส่วนร่วมของผู้ใช้

3.1 ระยะเวลาการใช้งานต่อเซสชัน

3.2 อัตราการโต้ตอบ

4. ความพึงพอใจของผู้ใช้

4.1 ข้อเสนอแนะจากผู้ใช้

4.2 อัตราความผิดพลาด

5. ความสามารถในการปรับขนาด

5.1 ปริมาณงานของระบบ

5.2 การใช้ทรัพยากร

6. ผลกระทบทางธุรกิจ

6.1 อัตราการแปลง

6.2 ผลตอบแทนการลงทุน (ROI)

สรุป