OpenAI ผู้สร้าง ChatGPT ได้เปิดตัว o3 โมเดลการใช้เหตุผลขั้นสูงรุ่นถัดจาก o1 ซึ่งอ้างว่ากำลังเข้าใกล้ AGI หรือเอไอที่ฉลาดเทียบเท่ามนุษย์ และมาพร้อมกับ o3-mini ที่เล็กกว่าและเหมาะสำหรับปรับแต่งใช้กับงานเฉพาะด้าน แต่น่าเสียดายที่ตอนนี้ยังไม่ได้เปิดให้ใช้สำหรับยูสเซอร์ทั่วไป ซึ่งเปิดให้เฉพาะนักวิจัยด้านความปลอดภัยที่ลงทะเบียนเพื่อดูตัวอย่าง o3-mini ส่วน O3 ยังไม่ได้เปิดให้ทดสอบ ทั้งนี้ OpenAI มีแผนจะปล่อย o3-mini ออกมาให้ใช้งานกันในช่วงปลายเดือนมกราคม และต่อจากนั้นก็จะปล่อย o3 ตามมา
หลายคนอาจสงสัยว่า OpenAI เพิ่งปล่อย o1 ออกมาเมื่อต้นปี และอยู่ดี ๆ ก็มาเปิดตัว o3 แล้ว o2 ล่ะออกมาตอนไหน ซึ่งเหตุผลก็คือบริษัทได้ข้ามรุ่น o2 ไปเนื่องจากชื่อไปตรงกับ O2 ผู้ให้บริการโทรคมนาคมของอังกฤษ นอกจากนี้ไม่มีใครคิดว่า o3 จะเปิดตัวในช่วงนี้ เนื่องจากในสัปดาห์นี้ แซม อัลท์แมน ซีอีโอ OpenAI เผยว่าก่อนจะเปิดตัวโมเดลการใช้เหตุผลรุ่นใหม่ เขาต้องการที่จะเห็นกรอบในการทดสอบของรัฐบาลสหรัฐฯ ออกมาก่อน เพื่อตรวจสอบและหลีกเลี่ยงความเสี่ยงที่เกิดจากโมเดล
โมเดล o3 ได้ผ่านการทดสอบ ARC-AGI ที่ประเมินความชาญฉลาดของเอไอ โดยสามารถทดสอบ Low-compute scenarios ได้คะแนน 75.7% และทดสอบ High-compute ได้คะแนน 87.5% ซึ่งเทียบได้กับประสิทธิภาพของมนุษย์มีเกณฑ์อยู่ที่ 85% นอกจากนี้ได้ทดสอบ 2024 American Invitational Mathematics Exam เกี่ยวกับคณิตศาสตร์ได้คะแนน 96.7% ซึ่งผิดไปเพียงข้อเดียว และทำข้อสอบ GPQA Diamond เกี่ยวกับชีววิทยา ฟิสิกส์ และเคมี ในระดับบัณฑิตศึกษาได้คะแนน 87.7% และทดสอบ Frontier Math benchmark โดย EpochAI สามารถแก้โจทย์ปัญหาได้ 258.2% ซึ่งไม่มีโมเดลใดที่ทำได้เกิน 2% เลยสักราย
OpenAI เผยว่าตาม Codeforces benchmark นั้นโมเดล o3-mini มีประสิทธิภาพที่เหนือกว่า o1 เสียอีก นอกจากนี้ o3 มีฟีเจอร์ Adaptive thinking time สามารถปรับเวลาในการคิดตามสถานการณ์ได้ โดยมีความเร็วในการประมวลผลทั้งแบบช้า ปานกลางและสูง ซึ่งการตั้งค่าประมวลผลที่สูงกว่าให้ผลลัพธ์ที่ดีกว่า
การเปิดตัว o3 โมเดลการใช้เหตุผลรุ่นใหม่ของ OpenAI เกิดขึ้นในขณะที่ บริษัทพัฒนาเอไออื่น ๆ เพิ่งออกมาเปิดตัวโมเดลการใช้เหตุผลรุ่นแรกของตัวเอง เช่น เดือนพฤศจิกายน DeepSeek บริษัทเอไอของจีนได้เปิดตัวโมเดล DeepSeek-R1 และอาลีบาบาได้เปิดตัวโมเดล Qwen นอกจากนี้ วันพฤหัสบดีที่ผ่านมา Google ได้เปิดตัว Gemini 2.0 Flash Thinking Experimental