คริสเตียน ลาฟอร์ต (Christian Laforte) ประธานเจ้าหน้าที่บริหารชั่วคราวของ Stability AI เผยในงาน Computex ที่ไต้หวันว่าจะเผยโฉม Stable Diffusion 3 โมเดล AI สร้างภาพด้วยข้อความ ต่อสาธารณะในวันที่ 12 มิถุนายนนี้

ลาฟอร์ตเผยในงานว่าทีมงานทุ่มเทกับ Stable Diffusion 3 (SD3) มาก โดยเฉพาะในมุมความปลอดภัยของ AI ทางบริษัทจึงเชื่อว่าตัวโมเดลน่าจะพร้อมออกมาให้โลกภายนอกทดสอบได้แล้ว

ภาพที่ SD XL 1.0 สร้างขึ้น (ซ้าย) เทียบกับภาพที่ SD 3 สร้างขึ้น (ที่มา The Register)

เขาเชื่อว่าโมเดลตัวใหม่เปลี่ยนวิธีการพัฒนา AI ไปอย่างสิ้นเชิงจากเดิมที่การพัฒนาโมเดล AI เป็นผลมาจากการวิจัยแถวหน้า กลับกลายมาเป็นผลของการวิวัฒนาการตามธรรมชาติแทน

ในตัวอย่างของ SD 3 เผยให้เห็นรูปภาพมือมนุษย์ที่อยู่บนกีตาร์ เทียบกับภาพที่ใช้ Stable Diffusion XL 1.0 ที่ออกมาในปี 2023 สร้างขึ้นมา เห็นได้ว่าภาพที่ใช้ SD 3 สร้างขึ้นมีรายละเอียดสมจริงกว่ามาก โดยเฉพาะในลักษณะของกีตาร์และมือ

ลาฟอร์ตชี้ว่าความก้าวหน้าของ SD 3 เกิดขึ้นได้จากเทคโนโลยี Multimodal Diffusion Transformer ที่ทำให้การเข้าใจพรอมต์ (คำสั่งที่ป้อนเข้าไป) ออกมาดีขึ้นมาก และยังรวดเร็วกว่าเวลาที่ใช้ในการป้อนพรอมต์ด้วย

ในด้านฮาร์ดแวร์ ลาฟอร์ตอธิบายว่าการที่มีหน่วยความจำแบนด์วิดท์สูง (HBM) ที่ศักยภาพมากเกือบ 92 กิกะไบต์นั้นเป็นตัวช่วยอย่างมาก แต่ก็แสดงความหวังให้มีฮาร์ดแวร์ที่ดีกว่านี้ด้วย