ที่มา | มติชนสุดสัปดาห์ ฉบับวันที่ 11 - 17 เมษายน 2568 |
---|---|
คอลัมน์ | Biology Beyond Nature |
ผู้เขียน | ภาคภูมิ ทรัพย์สุนทร |
เผยแพร่ |
Biology Beyond Nature | ภาคภูมิ ทรัพย์สุนทร
ภูมิปัญญาในโครงข่ายประสาท (2)
(ประวัติศาสตร์อุตสาหกรรมไบโอเทค)
Perceptron หนึ่งในสถาปัตยกรรมโครงข่ายประสาทเทียมยุคแรกสุดถูกนำเสนอตั้งแต่ปลายทศวรรษที่ 1950s โดย Frank Rosenblatt
มันเป็นโครงข่ายประสาทที่มีแค่เซลล์ประสาทตัวรับ ส่งสัญญาณต่อถึงตัวประมวลผล และต่อไปยังตัวตอบสนอง
โครงข่ายประสาทนี้มีเซลล์ประสาทจำลองสำหรับการประมวลแค่ชั้นเดียว กระนั้นมันก็ยังสามารถถูกฝึกให้จำแนกข้อมูลง่ายๆ อย่างจำแนกภาพผู้ชาย/ผู้หญิงผ่านตัวอย่างภาพเยอะๆ พร้อมเฉลย จากนั้นก็ให้โครงข่ายประสาท “เรียนรู้” ผ่านการปรับจูนตัวแปรที่กำหนดพฤติกรรมของแต่ละเซลล์ประสาทเทียมในระบบจนจำแนกภาพได้ใกล้เคียงเฉลยที่สุด
เมื่อโครงข่ายประสาทได้เรียนรู้ตัวอย่างมากเพียงพอแล้วมันก็จะสามารถจำแนกภาพใหม่ที่ไม่เคยเห็นมากก่อนได้ถูกต้อง
Multi-Layer Perceptron (MLP) มีจำนวนเซลล์ประสาทจำลองสำหรับการประมวลผลหลายชั้นทำหน้าที่ในการคัดกรองและถอดแยกชิ้นส่วนข้อมูลที่เข้ามาได้ละเอียดลออหลายหลายมิติมากกว่า Perceptron แบบที่มีตัวประมวลผลชั้นเดียวข้างต้น
แม้มนุษย์เราจะรู้มานานแล้วว่าโครงข่ายประสาทจริงๆ ในสมองมีการประมวลผลหลายชั้นแบบนี้แต่สำหรับโครงข่ายประสาทเทียมเราติดปัญหาว่าการจะปรับจูนตัวแปรในเซลล์ประสาทหลายๆ ชั้นแบบนี้ระหว่างกระบวนการเรียนรู้ทำได้ยากมาก
ช่วงกลางทศวรรษที่ 1980s ทีมวิจัยของ Geoffrey Hinton คิดค้นเทคนิคที่เรียกว่า backpropagation มาแก้ปัญหานี้
ทำให้ MLP เริ่มถูกเอามาใช้อย่างแพร่หลายนับแต่นั้นมา (Hinton ได้รางวัลโนเบลจากผลงานนี้ไปเมื่อปี 2024)

Cr. ณฤภรณ์ โสดา
ทศวรรษที่ 1980s ยังมีอีกความก้าวหน้าสำคัญในการพัฒนาโครงข่ายประสาทเทียมสำหรับประมวลผลข้อมูลที่มามาตามลำดับเวลา (time series data) เช่น การอ่านหรือฟังทำความเข้าใจเสียงที่เข้ามาทีละคำ การวิเคราะห์ข้อมูลสภาวะอากาศหรือตลาดหุ้นที่ผ่านแปรไปตามช่วงเวลา
โจทย์สำคัญที่ต้องแก้คือโครงข่ายประสาทจะต้องสามารถจดจำ “บริบท (context)” ได้ว่าข้อมูลที่เข้ามาก่อนหน้ามีอะไรบ้างจึงจะสามารถประมวลได้ถูกต้อง (เช่น การจะเข้าใจประโยคเราต้องพิจารณาคำที่เข้ามาก่อนหน้าตั้งแต่ต้นประโยค ไม่ใช้แค่คำสุดท้ายคำเดียว)
โครงข่ายประสาทแบบที่ผ่านมารวมทั้ง MLP นั้นทำงานแบบ feedforward คือสัญญาณข้อมูลวิ่งผ่านไปทางเดียว ข้อมูลอะไรที่ผ่านไปแล้วก่อนหน้าจะลืมหมด
ประมวลผลได้แค่ข้อมูลล่าสุดที่ผ่านไปขณะนั้นๆ
ข้อจำกัดนี้นำมาสู่การคิดค้น Recurrent Neural Network (RNN) โครงข่ายประสาทที่มี feedback สัญญาณข้อมูลขาออกของบางเซลล์ประสาทถูกวนย้อนกลับไปเป็นส่วนหนึ่งของสัญญาณข้อมูลขาเข้าใหม่
ด้วยกลไกนี้ทำให้โครงข่ายประสาทสามารถจดจำข้อมูลที่ผ่านไปก่อนหน้าไว้ใช้ประมวลผลได้ด้วย
อย่างไรก็ตาม ถ้าข้อมูลที่เข้ามาก่อนหน้ายาวมากๆ โครงข่ายประสาทก็จะเริ่มจำบริบทไม่หมด (เช่น ฟังประโยคยาวมากๆ จนลืมไปแล้วว่าต้นประโยคพูดว่าอะไร)
ปลายทศวรรษที่ 1990s แนวคิดนี้ถูกต่อยอดโครงข่ายประสาทอีกแบบที่เรียกว่า Long Short-Term Memory (LSTM) ซึ่งเสริมกลไกช่วยเลือกว่าบริบทก่อนหน้าอันไหนสำคัญต้องจำให้ดีและอันไหนปล่อยผ่านลืมๆ ไปบ้างได้
วิธีนี้ช่วยแก้ไขปัญหาบางส่วนของ RNN แต่สำคัญการประมวลผลตามลำดับเวลาที่ต้องการบริบทยาวมากๆ ก็ยังมีปัญหาอยู่ เช่น การจะเข้าใจภาษาสื่อสารรู้เรื่องต้องจำเนื้อหาที่คุยกันมาตั้งแต่หลายร้อยหลายพันประโยคก่อนหน้าไม่ใช่แค่ประโยคสองประโยคที่ผ่านมาเท่านั้น
ปัญหาสำคัญอีกอย่างของสถาปัตยกรรมโครงข่ายประสาทแบบมี feedback นี้ก็คือกระบวนการฝึกฝนเรียนรู้ข้อมูลยุ่งยากซับซ้อนกว่าแบบที่มีแต่ feedforward อย่างเดียวมาก
ความสามารถในการจดจำและเข้าใจ “บริบท” ยาวๆ นี้จะยังคงเป็นโจทย์สำคัญสำหรับโครงข่ายประสาทเทียมของเอไอในปัจจุบัน ไม่ว่าจะเป็นตระกูล LLM ที่ใช้ประมวลผลภาษาหรือ DNA language model ที่ต้องเข้าใจหน้าที่ของลำดับเบสดีเอ็นเอ

Cr. ณฤภรณ์ โสดา
สําหรับงานภาษาไม่ว่าจะเป็นการอ่านหรือการเขียนก็ต้องดูบริบท คำเดียวกันในต่างบริบทก็มักสื่อความหมายต่างกัน บางทีเราต้องดูเนื้อหาก่อนหน้าหลายคำ หลายประโยค หรือแม้แต่หลายหน้ากระดาษกว่าจะเข้าใจจริงๆ ว่าคำหนึ่งคำที่เรากำลังอ่านตรงหน้าสื่อถึงอะไรหรือหนึ่งคำที่เรากำลังจะเขียนเติมต่อไปควรจะเป็นคำอะไร
สำหรับงานดีเอ็นเอไม่ว่าเราจะอยากทำความเข้าใจหน้าที่ชิ้นส่วนลำดับเบสหรือออกแบบชิ้นส่วนลำดับเบสให้ทำหน้าที่ตามต้องการ เราก็ต้องดูว่าลำดับเบสอื่นๆ ที่อยู่รายล้อมทั้งจีโนมนั้นคืออะไรทำงานอย่างไร
โจทย์อีกแบบที่บริบทมีความสำคัญมากคือโจทย์ประมวลผลภาพ เราไม่สามารถจำแนกภาพได้ด้วยการประมวลค่าแต่ละจุดสี (pixel) เดี่ยวๆ บนภาพแต่เราต้องประมวลกลุ่มของจุดสีที่อยู่ใกล้เคียงกันเพื่อให้เห็นแบบแผนของเส้น ความมืดสว่าง ลวดลาย รูปทรงพื้นฐานต่างๆ ที่จำเป็นต่อการบอกว่าภาพๆ นี้มีวัตถุ มีตัวอะไรอยู่กันแน่
หลักการนี้เป็นที่มีมาของ Convolution Neuron Network (CNN) โครงข่ายประสาทเทียมอีกแบบที่บุกเบิกโดย Yann LeCun ในช่วงทศวรรษที่ 1980s เช่นกัน
ต้นแบบของผลงานนี้ภายใต้ชื่อ “LeNet” ถูกเอามาจำแนกภาพรหัสไปรษณีย์ที่เขียนด้วยลายมือออกมาเป็นตัวเลข 0-9 ได้อย่างแม่นยำ
กว่าสามทศวรรษให้หลังแนวคิดนี้ถูกผลักดันสู่ความนิยมกระแสหลักอีกครั้งด้วยผลงานชื่อ “AlexNet” ของ Alex Krizhevsky, Ilya Sutskever และ Geoffrey Hinton
ในปี 2012 แม้ว่า CNN จะไม่ใช่แนวคิดใหม่แล้วในเวลานั้นแต่ด้วยสมรรถนะของฮาร์ดแวร์ที่ดีขึ้นมากรวมทั้งขนาดโครงข่ายประสาทและข้อมูลตัวอย่างสำหรับการเรียนรู้ที่ใหญ่กว่าเดิมมหาศาล
ทำให้ AlexNet สามารถเอาชนะคู่แข่งแบบลิบลับไม่เห็นฝุ่นในโจทย์การจำแนกภาพ

Cr. ณฤภรณ์ โสดา
การเปิดตัวของ AlexNet กลายเป็นอีกก้าวกระโดดของงานวิจัยปัญญาประดิษฐ์ยุคใหม่ Sutskever หนึ่งสมาชิกทีมวิจัยเคยเล่าว่าหนึ่งบทเรียนสำคัญจากงานนี้คือเพียงแค่ขยายขนาดโครงข่ายประสาทเทียมและอัดข้อมูลสำหรับการเรียนรู้เข้าไปเยอะๆ (แบบที่สมัยก่อนทำไม่ได้ด้วยข้อจำกัดทางฮาร์ดแวร์) โครงข่ายประสาทเทียมก็อาจสำแดงความเฉลียวฉลาดแบบที่เราไม่คาดคิดมาก่อนขึ้นมาได้
สามปีหลังจากนั้นในปี 2015 Sutskever กลายเป็นหนึ่งในผู้ร่วมก่อตั้งและหัวหน้าทีมวิจัยของ OpenAI สตาร์ตอัพผู้เปิดตัว ChatGPT และปลุกกระแสตื่นเอไอที่เราเห็นอยู่ทุกวันนี้
แต่ก่อนจะข้ามไปถึงประวัติศาสตร์ช่วงนั้นยังมีอีกหนึ่งสถาปัตยกรรมโครงข่ายประสาทเทียมที่เราควรต้องรู้จัก สถาปัตยกรรมที่กลายมาเป็นอีกหนึ่งจุดเปลี่ยนสำคัญของวงการเอไอ
ปี 2017 ทีมวิจัยจาก Google ตีพิมพ์บทความวิจัยชื่อ “Attention Is All You Need” นำเสนอสถาปัตยกรรมโครงข่ายประสาทเทียมตัวใหม่ที่เรียกว่า “Transformer” เข้ามาแย่งซีนจาก RNN และ CNN ที่ครองตำแหน่งดารานำของวงการเอไอด้านภาษามาหลายปี
ขณะที่ RNN (และงานต่อยอดแนวนี้อย่าง LSTM) เอาข้อความจากประโยคหรือย่อหน้าเข้ามาประมวลผลทีละคำ และใช้ feedback ภายในโครงข่ายประสาทจำข้อมูลก่อนหน้ามากพอจะเข้าใจบริบท Transformer เอาข้อความยาวๆ สับเป็นชิ้นย่อยๆ (ที่นักวิทยาการคอมพิวเตอร์เรียกว่า “token”) แล้วเอาเข้ามาประมวลผลพร้อมกันหมดเลยรวดเดียว
ข้อดีของวิธีนี้คือโครงข่ายประสาทของ Transformer สามารถประมวลผลบริบทของเนื้อหาได้ยาวกว่าเพราะไม่ต้องพยายามจำข้อมูลยาวๆ เอาไว้เองจนเจอปัญหาการ “ลืม” เนื้อหาต้นๆ ข้อความอย่าง RNN
ข้อดีอีกอย่างคือการที่มันไม่ได้พึ่งพา feedback ภายในโครงข่ายประสาทโดยตรงทำให้กระบวนการเรียนรู้เรียบง่ายกว่ามาก และที่สำคัญคือการที่มันสับข้อมูลเป็นชิ้นย่อยๆ เข้ามารวดเดียวนั้นทำให้มันสามารถใช้ประโยชน์จากระบบคอมพิวเตอร์สมัยใหม่ที่มีระบบประมวลผลแบบคู่ขนานจำนวนมากๆ ได้ดี
ส่วน CNN ที่แรกเริ่มเอาไว้ใช้วิเคราะห์ภาพมีการเอาข้อมูลทั้งก้อน (แต่ละ pixel จากทั้งภาพ) เข้ามาวิเคราะห์พร้อมกันแบบคู่ขนานอยู่แล้ว และยังมีกลไกที่ใช้วิเคราะห์บริบทในบริเวณต่างๆ บนภาพ Transformer ใช้หลักการคล้ายคลึงกันในการวิเคราะห์บริบทรอบๆ คำแต่ละคำในข้อความผ่านเข้า
แต่ Transformer มีกลไกล้ำกว่านั้นที่เรียกว่า self-attention ช่วยให้มันจัดลำดับความสัมพันธ์ได้ด้วยความคำไหนน่าจะเกี่ยวข้องกับคำไหนบ้างในข้อความ คำที่อยู่ใกล้กันในข้อความอาจจะไม่ได้มีความสัมพันธ์กันมากกว่าคำที่อยู่ไกลกันมากกว่า
ความยืดหยุ่นในการจัดลำดับเหนียวแน่นความสัมพันธ์ ทำให้ Transformer มองบริบทของคำได้กว้างกว่าและมีประสิทธิภาพมากกว่า CNN
งานวิจัยตอนปี 2017 แสดงการใช้ Transformer ในงานแปลภาษาได้อย่างแม่นยำเหนือกว่าสถาปัตยกรรมโครงข่ายประสาทเทียมแบบอื่นๆ ก่อนหน้า ถูกอ้างอิงไปแสนกว่าครั้งในช่วงไม่กี่ปีที่ผ่านมา และถูกนำไปใช้ในงานสารพัดอย่างในเอไอแทบทุกตัวที่พวกเราส่วนใหญ่คุ้นเคยกันในปัจจุบัน เอไอที่วิเคราะห์และสังเคราะห์ข้อความ เสียง ภาพ ฯลฯ
จากข้อความ (“prompt”) เมื่อผนวกกับเทคนิคการเรียนรู้แบบ self-supervised (ตอนที่ 44) ข้อมูลที่มีอยู่มหาศาล และฮาร์ดแวร์ที่ทรงพลังก็ช่วยกันจุดระเบิดยุคทองของเอไอตอนนี้
ความพิเศษของ Transformer ในการเข้าใจบริบทข้อความภาษามนุษย์ยาวๆ (อาจจะยาวขนาดหนังสือเป็นเล่มๆ) ชวนให้นักชีววิทยาคิดว่ามันก็น่าจะเอไปใช้ในการทำความเข้าใจภาษาของดีเอ็นเอ เข้าใจหน้าที่การทำงานของลำดับเบสในบริบทของจีโนมยาวหลักล้านหลักพันล้านเบสได้เช่นกัน
ติดตามต่อตอนหน้าครับ
สะดวก ฉับไว คุ้มค่า สมัครสมาชิกนิตยสารมติชนสุดสัปดาห์ได้ที่นี่https://t.co/KYFMEpsHWj
— MatichonWeekly มติชนสุดสัปดาห์ (@matichonweekly) July 27, 2022