'VALL-E' ปัญญาประดิษฐ์จาก Microsoft สามารถจำลองเสียงใครก็ได้ภายใน 3 วินาที! (มีตัวอย่างเสียง)

ล่าสุด Microsoft เปิดตัวปัญญาประดิษฐ์ (AI) ชื่อ ‘VALL-E’ ที่จำลองเสียงของคนได้ โดย AI ตัวนี้ถูกฝึกจากข้อมูลเสียงพูด 60,000 ชั่วโมง และสามารถใช้คลิปเนื้อหา 3 วินาทีเพื่อประมวลผลเป็นเนื้อหาต่าง ๆ ด้วยเสียงจากในคลิป

VALL-E ยังมีจุดเด่นที่สามารถจำลองอารมณ์และน้ำเสียงของผู้พูดได้ โดยไม่จำกัดแค่เฉพาะเสียงจากต้นฉบับ แต่สามารถสร้างคำใหม่หรือประโยคใหม่โดยใส่อารมณ์ลงไปในเสียงที่ออกมาได้

ตัวอย่างเสียงที่สร้างขึ้นโดย VALL-E บางส่วนได้ถูกแชร์ลงใน GitHub ซึ่งผู้ที่สนใจสามารถคลิกที่คำว่า GitHub เพื่อเข้าไปฟังได้เลย!

ตัวอย่างเสียงที่สร้างจากคลังข้อมูล LibriSpeech

ตัวอย่างน้ำเสียงที่แตกต่างกันจาก VALL-E

ตัวอย่างน้ำเสียงที่เปลี่ยนไปตามอารมณ์ของผู้พูดจาก VALL-E

โกรธ

ง่วง

ทั่วไป/ธรรมชาติ

มีความสุข

จากตัวอย่างในข้างต้นจะเห็นว่า ตัวอย่างเสียงจาก Microsoft ยังคงมีคุณภาพที่หลากหลาย ในขณะที่บางตัวอย่างอาจดูเป็นธรรมชาติ บางตัวอย่างก็ยังเห็นได้ชัดว่าเป็นเสียงที่สร้างจากเครื่องมือ AI และฟังแล้วคล้ายเสียงหุ่นยนต์ อย่างไรก็ตามความสามารถในการเรียนรู้ของ AI จะทำให้ในอนาคต VALL-E จะยิ่งพัฒนาศักยภาพได้ดียิ่งขึ้น

แม้ VALL-E จะเป็นปัญญาประดิษฐ์ที่น่าประทับใจ แต่มันก็สร้างความกังวลในด้านจริยธรรมเช่นกัน เพราะยิ่ง AI มีความอัจฉริยะมากขึ้น เนื้อหาที่สร้างออกมาก็จะยิ่งเหมือนจริง และอาจทำให้ผู้ไม่ประสงค์ดีนำจุดเด่นของ AI ตัวนี้ไปใช้ในทางที่ไม่ดีได้ เช่น การหลอกลวงทางโทรศัพท์โดยจำลองเสียงของคนรู้จักของเหยื่อ เป็นต้น

อย่างไรก็ตามความกังวลที่เกิดขึ้นก็เป็นเหมือนเทคโนโลยีอื่น ๆ ที่จะถูกนำไปใช้ทั้งในด้านดีและไม่ดี และเรายังคงต้องรอดูต่อไปว่า Microsoft จะใช้มาตรการใดเพื่อควบคุมการใช้ VALL-E ในทางที่ไม่ผิดหลักจริยธรรม

ที่มา: Windows Central

พิสูจน์อักษร : สุชยา เกษจำรัส