OpenAI เปิดตัวฟีเจอร์สร้างรูปภาพแบบเนทีฟใน ChatGPT ได้โดยตรงด้วย GPT-4o

OpenAI ได้เปิดตัวฟีเจอร์สร้างรูปภาพแบบเนทีฟที่มีความถูกต้องมากขึ้นอยู่ใน ChatGPT ที่ขับเคลื่อนโดยโมเดล GPT-4o ได้โดยตรง ซึ่งไม่ต้องประสานการทำงานดึงความสามารถจากโมเดล DALL-E 3 ที่สร้างรูปภาพโดยเฉพาะเข้ามาช่วยเหลือเหมือนเมื่อก่อน ซึ่งพร้อมสำหรับสมาชิกระดับ ChatGPT Plus, Pro, Team และผู้ใช้งานแบบฟรีที่จำกัดจำนวน 3 รูปต่อวันเช่นเดียวกับตอนใช้ DALL-E รวมทั้งฟีเจอร์นี้จะมีอยู่ใน Sora เครื่องมือสร้างวิดีโออีกด้วย

OpenAI เปิดตัวแชตบอตเอไอ ChatGPT โดยใช้โมเดล GPT 3.5 เมื่อ 30 พฤศจิกายน 2022 ที่สามารถตอบคำถามได้หลากหลาย เขียนโคดโปรแกรม เขียนบทความสร้างเนื้อหา และแก้โจทย์คณิตศาสตร์ แต่ถ้าผู้ใช้ต้องการสร้างรูปภาพจะต้องใช้ DALL-E โมเดลสร้างรูปภาพที่แยกออกมาต่างหาก ซึ่งเปิดตัวมาตั้งแต่ 5 มกราคม 2021 ซึ่งใช้งานไม่ค่อยสะดวก เพราะต้องใช้งานข้ามหน้าจอไปมา ดังนั้นต่อมา OpenAI จึงได้เชื่อมการทำงานให้ผู้ใช้ ChatGPT สามารถพิมพ์ข้อความสั่งงานไปยัง DALL-E 3 แล้วส่งผลลัพธ์กลับมาได้

DALL-E 3 เป็นโมเดลสร้างรูปภาพที่ใช้เทคนิคแบบ Diffusion model ซึ่งเริ่มจากสร้างรูปภาพด้วยการสุ่ม Noise แล้วค่อย ๆ ทำให้ภาพชัดขึ้นตามข้อความบริบท ภาพมีความละเอียดสูง ปรับแต่งภาพเฉพาะจุดได้ดี แต่เมื่อเจอคำสั่งที่ซับซ้อน (บอกให้ใส่วัตถุหลายชิ้น) จะสร้างภาพออกมาผิดเพี้ยน และการสร้างข้อความประกอบในรูปภาพมักมีความผิดพลาด

ต่อมา OpenAI ได้เทรนโมเดล GPT-4o ให้สร้างรูปภาพในแบบ Native ซึ่งใช้เทคนิค Autoregressive สร้างภาพจากซ้ายไปขวาและจากบนลงล่าง อีกทั้งเป็นโมเดลที่สามารถประมวลผลข้อความและภาพได้พร้อมกัน จึงสร้างรูปภาพที่มีข้อความถูกต้องมากขึ้น และรองรับคำสั่งที่ซับซ้อนได้ เช่น การใส่วัตถุหลายชิ้นในภาพ

การสร้างรูปภาพที่มีวัตถุหลายชิ้นและสั่งให้มีการจัดวางอย่างเป็นระเบียบ

OpenAI เผยว่าการสร้างรูปภาพของ GPT-4o ได้รับการเทรนโดยใช้ข้อมูลที่เปิดเผยต่อสาธารณะ และแหล่งภาพที่ได้รับลิขสิทธิ์อย่างถูกต้องผ่านพันธมิตร อย่างเช่น Shutterstock นอกจากนี้บริษัทมีนโยบายป้องกันการสร้างรูปภาพเลียนแบบผลงานของศิลปินโดยไม่ได้รับอนุญาต และไม่ให้บอตเข้าไปเก็บรูปภาพในเว็บไซต์ที่ไม่อนุญาต รวมทั้งป้องกันการลบลายน้ำ สร้างภาพลามกอนาจาร ภาพบิดเบือน และมีการใส่เมตาดาตา C2PA เพื่อบ่งบอกว่าเป็นภาพที่สร้างโดยเอไอ

ฟีเจอร์การสร้างรูปภาพแบบ Native ใน ChatGPT ที่ขับเคลื่อนด้วย GPT-4o เปิดตัวหลังจากที่ Google ได้ทดลองการสร้างรูปภาพแบบ Native บน Gemini 2.0 Flash ซึ่งสามารถประมวลผลข้อความ ถามตอบและสร้างรูปภาพได้จบในโมเดลเดียว อีกทั้งสามารถสร้างรูปภาพได้อย่างถูกต้องและสมจริง แต่มีรายงานว่าพบบางคนนำไปใช้ลบลายน้ำบนภาพที่มีลิขสิทธิ์ และสร้างรูปภาพที่มีตัวละครลิขสิทธิ์