xAI ได้แสดงตัวอย่างความสามารถของ Grok-1.5 ซึ่งเป็นแชตบอตเอไอเวอร์ชันใหม่ และยังเป็นโมเดลรุ่นแรกที่มีความสามารถในการประมวลผลรูปภาพได้ด้วย โดยนำเสนอว่า Grok-1.5 เป็นโมเดลแบบ Multimodal AI เวอร์ชันแรกของบริษัท ซึ่งนอกจากประมวลผลข้อความได้แล้ว ยังสามารถประมวลผลข้อมูลรูปภาพได้หลากหลาย ได้แก่ เอกสาร ไดอะแกรม แผนภูมิ ภาพหน้าจอ และภาพถ่าย ส่วนวันเปิดตัวจะมีขึ้นในเร็ว ๆ นี้
xAI เผยว่า Grok-1.5 สามารถให้เหตุผลในหลายสาขาวิชา ตั้งแต่ความเข้าใจในเอกสาร แผนภาพวิทยาศาสตร์ แผนภูมิ ภาพหน้าจอ และรูปถ่าย พร้อมแสดงตัวอย่างความสามารถให้เราเห็นบางส่วน เช่น สามารถแปลงภาพโฟลวชาร์ตออกมาเป็นโค้ดโปรแกรมภาษาไพทอน เปรียบเทียบขนาดวัตถุที่อยู่ภายในภาพ การตัดสินใจจากภาพว่ารถต้องเปลี่ยนเลนไปในทิศทางใด การวิเคราะห์ระยะห่างรอบรถยนต์ว่ามีเพียงพอที่จะขับแทรกเข้าไปได้หรือไม่ และบอกทิศทางการหันหน้าของไดโนเสาร์ (ดูภาพประกอบด้านล่างตามลำดับ)
xAI ได้แนะนำ Grok-1.5 เพิ่มเติมด้วยชุดข้อมูลของมาตรฐานการชี้วัดที่เรียกว่า RealWorldQA เพื่อประเมินความสามารถในการทำความเข้าใจของโมเดลแบบ Multimodal AI โดยการใช้รูปภาพมากกว่า 700 ภาพ พร้อมคำถามและคำตอบที่ใช้ตรวจสอบ ซึ่งเมื่อเราดูคะแนนของ RealWorldQA และมาตรฐานการชี้วัดอื่น ๆ แล้ว บอกได้เลยว่า Grok-1.5 มีคะแนนที่ไล่เลี่ยกับ GPT-4V และ Gemini Pro 1.5 อีกทั้งประกาศว่าในอนาคตจะมีการปรับปรุงความสามารถเกี่ยวกับรูปภาพ เสียง และวิดีโอ
ปลายเดือนมีนาคม xAI ได้เปิดตัว Grok-1.5 ว่าจะมาพร้อมด้วยความสามารถในการให้เหตุผล และรองรับความยาวของข้อความที่แชตบอตสามารถประมวลผลได้ (context length) ที่ 128,000 โทเค็น ซึ่งช่วยให้เข้าใจการไหลของข้อมูลที่รับเข้ามาได้ดีขึ้น รวมทั้งได้ปรับปรุงเกี่ยวกับการเขียนโค้ด และทำงานที่เกี่ยวข้องกับคณิตศาสตร์ที่ดีขึ้น นอกจากนี้ อีลอน มัสก์ เผยว่า Grok 2 จะเหนือกว่าเอไอในปัจจุบันทุกตัวชี้วัด ซึ่งขณะนี้กำลังอยู่ระหว่างการเทรนให้ฉลาดขึ้น