Meta เปิดตัว Movie Gen โมเดลสร้างวิดีโอและคลิปเสียงออกมาแข่งกับ OpenAI

วันศุกร์ที่ 4 ตุลาคม Meta ได้เปิดตัวโมเดลเอไอใหม่ Movie Gen ที่สามารถแปลงข้อความให้เป็นวิดีโอและคลิปเสียงที่สมจริง โดยอ้างว่าสามารถออกมาสู้กับโมเดลของ OpenAI และ ElevenLabs ได้ พร้อมกับโพสต์แสดงคลิปวิดีโอตัวอย่างผลงานที่สร้างด้วย Movie Gen หลายคลิป เช่น หมูเด้ง หรือลูกฮิปโปฯ ที่กำลังว่ายน้ำ หมีโคอาลาและคนกำลังเล่นเซิร์ฟด้วยกัน ซึ่งความเคลื่อนไหวนี้เกิดขึ้นหลังจากงาน Meta Connect 2024 ที่มีการอัปเดตเกี่ยวกับ Meta Quest 3S และโมเดลภาษาขนาดใหญ่ Llama 3.2

Meta เผยว่า Movie Gen เป็นเครื่องมือสร้างวิดีโอที่จะช่วยให้ผู้คนสร้างสรรค์ผลงานเทียบชั้นฮอลลีวูดได้ โดยผู้ใช้สามารถป้อนข้อความกำหนดรายละเอียดแล้วแปลงออกมาเป็นวิดีโอและเสียงได้เลย และยังสามารถแปลงภาพถ่ายให้เป็นวิดีโอได้อีกด้วย ซึ่งบริษัทได้พัฒนางานด้านเอไอมาอย่างต่อเนื่องตั้งแต่โมเดลแรก Make-A-Scene ต่อด้วยโมเดล Llama Image และมาถึงโมเดล Movie Gen ก็ได้รวมเอาฟีเจอร์เด็ดมารวมไว้ด้วยกัน

Movie Gen มีฟีเจอร์เด่น 4 อย่างด้วยกัน ได้แก่ การสร้างวิดีโอ สามารถแปลงข้อความในหนึ่งคำสั่งออกมาเป็นวิดีโอได้นานถึง 16 วินาทีด้วยอัตรา 16 เฟรมต่อวินาที ต่อมาคือ การสร้างวิดีโอเฉพาะบุคคล โดยผู้ใช้สามารถแนบรูปภาพรวมเข้ามากับข้อความคำสั่ง ซึ่งจะสร้างวิดีโอโดยช่วยปรับแต่งให้เข้ากับบุคคลในรูปภาพ

การตัดต่อวิดีโอที่แม่นยำ สามารถแก้ไขภาพขั้นสูงและการแก้ไขเฉพาะจุด เช่น การเพิ่ม การลบ หรือการแทนที่วัตถุหนึ่งด้วยอีกวัตถุหนึ่ง เช่น ใส่ชุดให้เพนกวิน ใส่ชุดให้สุนัข และเปลี่ยนภาพพื้นหลังจากคนที่ออกกำลังกายในธรรมชาติให้กลายเป็นอยู่ในสนามกีฬา สุดท้ายการสร้างเสียง สามารถสร้างเสียงคุณภาพสูงได้นานถึง 45 วินาที ได้แก่ เสียงในสภาพแวดล้อมต่าง ๆ เอฟเฟกต์เสียงในชีวิตประจำวัน และดนตรีบรรเลง ที่สามารถซิงก์ความสอดคล้องกับเนื้อหาในวิดีโอ

อย่างไรก็ตาม แม้ว่า Movie Gen จะยังไม่พร้อมปล่อยออกมาใช้งานในตอนนี้ แต่เท่าที่ดูจากตัวอย่างแล้วเห็นได้ชัดว่าผลงานมีประสิทธิภาพสามารถแข่งขันกับโมเดลของ Runway, OpenAI, ElevenLabs และ Kling ได้เลยล่ะ