DeepSeek บริษัทเอไอสัญชาติจีนได้ทำการอัปเกรดโมเดลเอไอ DeepSeek V3 เป็นรุ่น V3-0324 บน GitHub ซึ่งช่วยปรับปรุงให้มีความสามารถที่เพิ่มขึ้น ได้แก่ การใช้เหตุผล การเขียนโคดโปรแกรม และการแก้โจทย์ปัญหาต่าง ๆ หลังจากแอปฯ AI Assistant ของ DeepSeek ที่ขับเคลื่อนด้วยโมเดล DeepSeek-V3 ได้ขึ้นแท่นเป็นแอปฯ ฟรียอดนิยมใน Apple App Store ของสหรัฐฯ แซงหน้าแอปฯ ChatGPT จาก OpenAI ไปเมื่อเดือนมกราคมที่ผ่านมา

โมเดล DeepSeek-V3 รุ่นก่อนหน้านี้ได้รับการฝึกโดยใช้ชิปรุ่นเก่า H800 ของ NVIDIA ที่ใช้เงินทุนไม่เกิน 6 ล้านเหรียญสหรัฐฯ (ประมาณ 210 ล้านบาท) ซึ่งน้อยกว่าค่าใช้จ่ายในการฝึกโมเดลเอไอของสหรัฐฯ ที่ใช้ชิปรุ่นประสิทธิภาพสูงกว่า แต่ประสิทธิภาพของ DeepSeek-V3 นั้นใกล้เคียงกับ ChatGPT 4o และต่อมา DeepSeek ได้เปิดตัว DeepSeek R1 โมเดลการใช้เหตุผลที่มีประสิทธิภาพเทียบชั้นกับ GPT o1 ของ OpenAI และตั้งแต่นั้นมากระแสเอไอของ DeepSeek ได้กระตุ้นให้บริษัทเอไอชั้นนำต้องเร่งพัฒนาโมเดลเพื่อความเป็นหนึ่ง

โมเดล DeepSeek-V3-0324 มีพารามิเตอร์เพิ่มขึ้นเป็น 671,000 ล้านพารามิเตอร์ จากเดิม 685,000 ล้านพารามิเตอร์ และมีประสิทธิภาพในการใช้เหตุผลด้านต่าง ๆ ใกล้เคียงกับโมเดลชั้นนำ ได้แก่ Qwen-Max, GPT-4.5 และ Claude-Sonnet-3.7 ประกอบด้วย

  • MMLU-Pro ความสามารถในการตอบคำถามจากหลากหลายสาขาวิชา เช่น วิทยาศาสตร์, คณิตศาสตร์, ประวัติศาสตร์, กฎหมาย และวิชาชีพอื่น ๆ
  • GPQA ความสามารถในการตอบคำถามที่ใช้ความรู้เชิงลึกและการวิเคราะห์ขั้นสูง เช่น คำถามในสาขาฟิสิกส์, ชีววิทยา หรือปรัชญา
  • MATH-500 ประเมินความสามารถในการแก้โจทย์คณิตศาสตร์และการใช้เหตุผลทางคณิตศาสตร์ที่ใช้แข่งขันในระดับมัธยมปลาย โดยการสุ่ม 500 ข้อ
  • AIME การสอบคณิตศาสตร์ระดับมัธยมปลายในสหรัฐฯ ที่มีความยากสูงระดับแข่งขันโอลิมปิก
  • LiveCodeBench ความสามารถในการเขียนโคดและแก้ปัญหาการเขียนโปรแกรม

นอกจากนี้ DeepSeek-V3-0324 ได้เปลี่ยนใบอนุญาตโอเพนซอร์สมาอยู่ภายใต้ใบอนุญาต MIT ซึ่งช่วยดึงดูดให้นักพัฒนาทั่วโลกนำไปใช้งานมากขึ้น รวมทั้งการใช้เชิงพาณิชย์ เช่น แอปฯ และแชตบอตที่ขับเคลื่อนด้วยเอไอ เพื่อช่วยในการแข่งขันกับโมเดลโอเพนซอร์สอื่น ๆ เช่น LLaMA ของ Meta AI