จิตต์สุภา ฉิน : Deepfake การปลอมแปลงที่ลงลึก

จิตต์สุภา ฉินFacebook.com/JitsupaChin

การเมืองบนโซเชียลมีเดียในช่วงก่อนและหลังการเลือกตั้งมีข้อมูลเยอะแยะมากมายให้สมองเราต้องคอยประมวลผลไม่หยุดหย่อน

ลำพังแค่ต้องคอยนั่งไล่หาสาระและเหตุผลให้กับแต่ละเรื่องที่เกิดขึ้นก็เหนื่อยจะแย่อยู่แล้ว

ยังต้องแบ่งสมองส่วนใหญ่ๆ มานั่งวิเคราะห์อีกว่าอันไหนเป็นข้อเท็จจริง อันไหนเป็นข้อมูลปลอมที่มีผู้ไม่หวังดีเสกสรรปั้นแต่งขึ้นมาทำลายเครดิตของฝ่ายตรงข้าม

ถ้าคุณผู้อ่านคิดว่าทั้งหมดที่เราเจอมามันหนักแล้ว รออีกไม่นาน มันจะหนักกว่านี้อีกค่ะ

ครั้งหนึ่งเราเคยเชื่อกันว่าหากมีหลักฐานประกอบไม่ว่าจะเป็นภาพนิ่งหรือวิดีโอ เรื่องนั้นจะต้องเป็นเรื่องจริงแน่นอน

แต่เมื่อเวลาผ่านไป พลังแห่งโฟโต้ช็อปได้แสดงให้เราเห็นว่าภาพนิ่งนี่แหละตัวอันตราย ต้องไม่หลงเชื่อง่ายๆ

มันก็เลยเสียความน่าเชื่อถือไปโดยปริยาย

คงไว้แต่วิดีโอที่ยากจะปลอมแปลง

ดังนั้น อะไรก็ตามที่มีหลักฐานออกมาเป็นวิดีโอที่เราเห็นปากของคนในนั้นเผยอขึ้นเผยอลงตรงกับเสียงที่เปล่งออกมาทางลำโพงก็น่าจะสรุปไปได้เลยว่าเรื่องนั้นเกิดขึ้นจริง คนคนนั้นพูดแบบนั้นจริงๆ

ยุคนั้นก็กำลังจะผ่านพ้นไปอีกไม่นานหลังจากนี้ ด้วยการมาถึงของเทคโนโลยี deepfake ค่ะ

 

Deepfake เป็นเทคโนโลยีที่ใช้ปัญญาประดิษฐ์เข้ามาแก้ไขภาพวิดีโอ เป็นที่ถกเถียงกันมาสักระยะหนึ่งแล้วเนื่องจากมันถูกนำไปใช้กับการดัดแปลงภาพยนตร์สำหรับผู้ใหญ่ด้วยการนำใบหน้าของดาราฮอลลีวู้ด (หรือใครก็ได้) ไปใส่เข้ากับร่างกายของนักแสดงหนังโป๊ เว็บไซต์ยอดฮิตที่เป็นแหล่งรวมของคลิปประเภทนี้ บางเว็บถึงกับมีหมวดหมู่หนังที่เป็น deepfake ให้เลือกดูได้ตามใจชอบ

ในเมื่อดาราฮอลลีวู้ดตัวจริงไม่ยอมเปลื้องผ้าแสดงเอง ก็ไม่เป็นไร ตัดต่อหัวมาใส่กับตัวแค่นี้ก็เพียงพอที่จะหล่อเลี้ยงจินตนาการให้ปลิดปลิวไปได้ไกลแล้ว

ล่าสุดนักวิทยาศาสตร์จาก Stanford University, the Max Planck Institute for Informatics, Princeton University และ Adobe Research ร่วมกันผลิตผลงานเพื่อแสดงให้เห็นว่าสามารถใช้ซอฟต์แวร์ทำ deepfake เพื่อแก้ไขสิ่งที่คนพูดในวิดีโอ

โดยให้คนมายืนหน้าตรง มองกล้อง พูดประโยคหนึ่งประโยค อย่างเช่น I love the smell of napalm in the morning จากนั้นก็ให้ลองเปรียบเทียบดูว่าเมื่อนำไปตัดต่อใหม่ และแก้ไขคำว่า napalm เป็นคำว่า french toast

ผลลัพธ์ที่ได้ออกมาดูแนบเนียนราวกับว่าคนคนนั้นไม่เคยพูดคำว่า napalm ตั้งแต่ต้น

 

วิธีการสร้างวิดีโอปลอมแบบนี้ขึ้นมา เกิดจากการที่นักวิทยาศาสตร์ใช้เทคนิคหลายอย่างมารวมเข้าด้วยกัน เริ่มจากการสแกนวิดีโอเพื่อแยกหน่วยเสียงที่คนในวิดีโอพูด นำมาจับคู่เข้ากับรูปปาก และท้ายที่สุดก็จะสร้างออกมาเป็นโมเดลสามมิติเฉพาะในบริเวณช่วงล่างของใบหน้า จับซ้อนเข้ากับวิดีโอต้นฉบับก็เป็นอันเสร็จเรียบร้อย

เหมือนจริงแค่ไหน ก็ขนาดที่ให้อาสาสมัครลองมาดูแล้วทายว่าเป็นของจริงหรือของปลอม มากกว่าครึ่งเข้าใจผิดว่าวิดีโอปลอมเป็นของจริง

วิดีโอต้นฉบับที่นักวิจัยปล่อยออกมาครั้งนี้ดูสมจริงสมจังกว่าที่ควรจะเป็นเล็กน้อย

เนื่องจากว่าให้คนในวิดีโอช่วยอัดเสียงคำที่พูดใหม่ทับลงไปด้วย ถ้านักแสดงไม่อัดเสียงให้ใหม่ก็อาจจะไม่แนบเนียนเท่า แต่ก็ใช่ว่าจะต้องพึ่งวิธีนี้ไปอีกนานสักเท่าไหร่

เพราะบริษัทซอฟต์แวร์อย่าง Adobe เคยอวดให้ดูมาแล้วว่าตอนนี้บริษัทมีซอฟต์แวร์ที่สามารถตัดแต่งเสียงได้แล้วนะ และก็เช่นกัน เนียนจนแทบจะแยกไม่ออก

 

ข้อจำกัดของการทำ deepfake ในลักษณะนี้คือ ในตอนนี้ยังต้องใช้กับวิดีโอที่เป็นแบบถ่ายเน้นส่วนหัวและหันหน้าเข้าหากล้องเท่านั้น และยังไม่สามารถปรับเปลี่ยนอารมณ์หรือโทนเสียงของผู้พูดได้เพราะมิเช่นนั้นจะออกมาไม่เป็นธรรมชาติ คนในวิดีโอจะต้องยืนหรือนั่งนิ่งๆ ไม่ยกไม้ยกมือขึ้นมาในระหว่างพูดเพื่อป้องกันไม่ให้ผลลัพธ์ออกมาเพี้ยน

ถึงแม้ว่าจะยังมีข้อจำกัด แต่ข้อจำกัดทั้งหมดที่บอกมาล้วนแต่ทำนายได้ไม่ยากว่ามันจะถูกปลดล็อกได้ทุกเปลาะอีกไม่นานข้างหน้า deepfake จะทำได้ดีขึ้น เก่งขึ้น ภายในเวลาอันรวดเร็ว

และที่สำคัญ มันมีเครื่องมือให้สามารถทำได้ง่ายๆ แบบที่คนทำไม่จำเป็นต้องเป็นวิศวกรซอฟต์แวร์ผู้ปราดเปรื่องแต่อย่างใด

ประโยชน์ของ deepfake เท่าที่พอจะนึกออก ก็คือประโยชน์สำหรับอุตสาหกรรมภาพยนตร์ที่สามารถใช้เทคโนโลยีนี้เพื่อแก้ไขข้อผิดพลาดโดยที่ไม่ต้องเรียกนักแสดงมาออกกองถ่ายทำกันใหม่

ถ้าหากพูดผิดตรงไหนก็แค่ใช้ซอฟต์แวร์แก้ หรือสามารถใช้เปลี่ยนให้นักแสดงแต่ละเรื่องพูดภาษาต่างประเทศได้

เมื่อถึงเวลานั้นก็น่าจะบอกลาเสียงพากย์ที่ไม่ตรงกับปากได้เลย

 

อย่างไรก็ตาม ประโยชน์ของมันก็ยังดูน้อยนิดนักเมื่อเทียบกับความเสียหายที่อาจจะเกิดขึ้น

การใส่ร้ายป้ายสีจะทำได้ง่ายและแนบเนียนจนผู้ถูกกระทำอาจจะไม่มีโอกาสได้แก้ตัว หรือแก้ตัวไปอย่างไรก็ฟังไม่ขึ้น

ลองคิดดูนะคะ ว่าทุกวันนี้สิ่งที่คนพร้อมจะหลงเชื่อมันไม่จำเป็นต้องเหมือนหรือเนียน 100% หรอกใช่ไหม ต่อให้ภาพถูกตัดต่อมากากๆ หรือเสียงถูกเอามาปะเข้าด้วยกันแบบหน้าด้านๆ ถ้าใจอยากจะเชื่อ อคติทั้งหมดก็พร้อมจะบังตาให้เราตัดสินใจเชื่อทันทีโดยที่ไม่ต้องเสียเวลาหาข้อมูลเพิ่มเติม

มีการเสนอว่าควรต้องทำให้ซอฟต์แวร์ deepfake เหล่านี้ระบุให้ชัดๆ ไปเลยว่า นี่คือวิดีโอที่ผ่านการตัดต่อมา

อย่างเช่น การใส่ลายน้ำ หรือใส่กราฟิกให้เห็นเป็นเงาของผู้ชมอยู่รอบๆ คล้ายๆ กับกำลังดูละครปาหี่ เพื่อให้เป็นการบอกใบ้ว่าทั้งหมดที่เห็นเป็นเพียงแค่การแสดง ไม่ใช่ของจริง

แต่ของแบบนี้คนที่ไม่ประสงค์ดีและมีฝีมือสักเล็กน้อยก็สามารถเอาออกได้ง่ายๆ และทุกวันนี้ซอฟต์แวร์สำหรับใช้ตัดต่อวิดีโอประเภทนี้ก็แจกจ่ายกันแบบลับๆ บนอินเตอร์เน็ตอยู่แล้ว

หากจะตั้งคำถามว่า แล้วมนุษยชาติควรจะทำอย่างไรเพื่อป้องกันหายนะที่อาจเกิดขึ้นจากการมาถึงของเทคโนโลยีนี้ ก็คงตอบได้ยากมาก เพราะไม่น่าจะป้องกันได้ เราอาจจะต้องไปกันถึงจุดที่เราจะต้องตั้งแง่และสงสัยไว้ก่อนว่าคลิปวิดีโอ “ทุกคลิป” ที่เราดูล้วนเป็นคลิปที่ผ่านการตัดต่อมาแล้ว

บนโลกอินเตอร์เน็ต จะไม่มีอะไรเป็นเรื่องจริงอีกต่อไป ทางเดียวที่จะบอกได้ว่าอะไรจริงคือเราจะต้องเห็นมันด้วยสองตา “อยู่ตรงหน้า” หรือสัมผัสมันด้วยสองมือของเราเท่านั้น

แต่ไม่ต้องกลัวหรอกนะคะ อยู่ๆ ไปเดี๋ยวก็จะปรับตัวกันไปได้เอง