ภูมิปัญญาในโครงข่ายประสาท (2) (ประวัติศาสตร์อุตสาหกรรมไบโอเทค)

ภาคภูมิ ทรัพย์สุนทร

Biology Beyond Nature | ภาคภูมิ ทรัพย์สุนทร

 

ภูมิปัญญาในโครงข่ายประสาท (2)

(ประวัติศาสตร์อุตสาหกรรมไบโอเทค)

 

Perceptron หนึ่งในสถาปัตยกรรมโครงข่ายประสาทเทียมยุคแรกสุดถูกนำเสนอตั้งแต่ปลายทศวรรษที่ 1950s โดย Frank Rosenblatt

มันเป็นโครงข่ายประสาทที่มีแค่เซลล์ประสาทตัวรับ ส่งสัญญาณต่อถึงตัวประมวลผล และต่อไปยังตัวตอบสนอง

โครงข่ายประสาทนี้มีเซลล์ประสาทจำลองสำหรับการประมวลแค่ชั้นเดียว กระนั้นมันก็ยังสามารถถูกฝึกให้จำแนกข้อมูลง่ายๆ อย่างจำแนกภาพผู้ชาย/ผู้หญิงผ่านตัวอย่างภาพเยอะๆ พร้อมเฉลย จากนั้นก็ให้โครงข่ายประสาท “เรียนรู้” ผ่านการปรับจูนตัวแปรที่กำหนดพฤติกรรมของแต่ละเซลล์ประสาทเทียมในระบบจนจำแนกภาพได้ใกล้เคียงเฉลยที่สุด

เมื่อโครงข่ายประสาทได้เรียนรู้ตัวอย่างมากเพียงพอแล้วมันก็จะสามารถจำแนกภาพใหม่ที่ไม่เคยเห็นมากก่อนได้ถูกต้อง

Multi-Layer Perceptron (MLP) มีจำนวนเซลล์ประสาทจำลองสำหรับการประมวลผลหลายชั้นทำหน้าที่ในการคัดกรองและถอดแยกชิ้นส่วนข้อมูลที่เข้ามาได้ละเอียดลออหลายหลายมิติมากกว่า Perceptron แบบที่มีตัวประมวลผลชั้นเดียวข้างต้น

แม้มนุษย์เราจะรู้มานานแล้วว่าโครงข่ายประสาทจริงๆ ในสมองมีการประมวลผลหลายชั้นแบบนี้แต่สำหรับโครงข่ายประสาทเทียมเราติดปัญหาว่าการจะปรับจูนตัวแปรในเซลล์ประสาทหลายๆ ชั้นแบบนี้ระหว่างกระบวนการเรียนรู้ทำได้ยากมาก

ช่วงกลางทศวรรษที่ 1980s ทีมวิจัยของ Geoffrey Hinton คิดค้นเทคนิคที่เรียกว่า backpropagation มาแก้ปัญหานี้

ทำให้ MLP เริ่มถูกเอามาใช้อย่างแพร่หลายนับแต่นั้นมา (Hinton ได้รางวัลโนเบลจากผลงานนี้ไปเมื่อปี 2024)

ลักษณะคร่าวๆ ของโครงข่ายประสาทแต่ละแบบ
Cr. ณฤภรณ์ โสดา

ทศวรรษที่ 1980s ยังมีอีกความก้าวหน้าสำคัญในการพัฒนาโครงข่ายประสาทเทียมสำหรับประมวลผลข้อมูลที่มามาตามลำดับเวลา (time series data) เช่น การอ่านหรือฟังทำความเข้าใจเสียงที่เข้ามาทีละคำ การวิเคราะห์ข้อมูลสภาวะอากาศหรือตลาดหุ้นที่ผ่านแปรไปตามช่วงเวลา

โจทย์สำคัญที่ต้องแก้คือโครงข่ายประสาทจะต้องสามารถจดจำ “บริบท (context)” ได้ว่าข้อมูลที่เข้ามาก่อนหน้ามีอะไรบ้างจึงจะสามารถประมวลได้ถูกต้อง (เช่น การจะเข้าใจประโยคเราต้องพิจารณาคำที่เข้ามาก่อนหน้าตั้งแต่ต้นประโยค ไม่ใช้แค่คำสุดท้ายคำเดียว)

โครงข่ายประสาทแบบที่ผ่านมารวมทั้ง MLP นั้นทำงานแบบ feedforward คือสัญญาณข้อมูลวิ่งผ่านไปทางเดียว ข้อมูลอะไรที่ผ่านไปแล้วก่อนหน้าจะลืมหมด

ประมวลผลได้แค่ข้อมูลล่าสุดที่ผ่านไปขณะนั้นๆ

ข้อจำกัดนี้นำมาสู่การคิดค้น Recurrent Neural Network (RNN) โครงข่ายประสาทที่มี feedback สัญญาณข้อมูลขาออกของบางเซลล์ประสาทถูกวนย้อนกลับไปเป็นส่วนหนึ่งของสัญญาณข้อมูลขาเข้าใหม่

ด้วยกลไกนี้ทำให้โครงข่ายประสาทสามารถจดจำข้อมูลที่ผ่านไปก่อนหน้าไว้ใช้ประมวลผลได้ด้วย

อย่างไรก็ตาม ถ้าข้อมูลที่เข้ามาก่อนหน้ายาวมากๆ โครงข่ายประสาทก็จะเริ่มจำบริบทไม่หมด (เช่น ฟังประโยคยาวมากๆ จนลืมไปแล้วว่าต้นประโยคพูดว่าอะไร)

ปลายทศวรรษที่ 1990s แนวคิดนี้ถูกต่อยอดโครงข่ายประสาทอีกแบบที่เรียกว่า Long Short-Term Memory (LSTM) ซึ่งเสริมกลไกช่วยเลือกว่าบริบทก่อนหน้าอันไหนสำคัญต้องจำให้ดีและอันไหนปล่อยผ่านลืมๆ ไปบ้างได้

วิธีนี้ช่วยแก้ไขปัญหาบางส่วนของ RNN แต่สำคัญการประมวลผลตามลำดับเวลาที่ต้องการบริบทยาวมากๆ ก็ยังมีปัญหาอยู่ เช่น การจะเข้าใจภาษาสื่อสารรู้เรื่องต้องจำเนื้อหาที่คุยกันมาตั้งแต่หลายร้อยหลายพันประโยคก่อนหน้าไม่ใช่แค่ประโยคสองประโยคที่ผ่านมาเท่านั้น

ปัญหาสำคัญอีกอย่างของสถาปัตยกรรมโครงข่ายประสาทแบบมี feedback นี้ก็คือกระบวนการฝึกฝนเรียนรู้ข้อมูลยุ่งยากซับซ้อนกว่าแบบที่มีแต่ feedforward อย่างเดียวมาก

ความสามารถในการจดจำและเข้าใจ “บริบท” ยาวๆ นี้จะยังคงเป็นโจทย์สำคัญสำหรับโครงข่ายประสาทเทียมของเอไอในปัจจุบัน ไม่ว่าจะเป็นตระกูล LLM ที่ใช้ประมวลผลภาษาหรือ DNA language model ที่ต้องเข้าใจหน้าที่ของลำดับเบสดีเอ็นเอ

ความหมายของคำในภาษาขึ้นอยู่กับบริบทที่อยู่รายล้อม
Cr. ณฤภรณ์ โสดา

สําหรับงานภาษาไม่ว่าจะเป็นการอ่านหรือการเขียนก็ต้องดูบริบท คำเดียวกันในต่างบริบทก็มักสื่อความหมายต่างกัน บางทีเราต้องดูเนื้อหาก่อนหน้าหลายคำ หลายประโยค หรือแม้แต่หลายหน้ากระดาษกว่าจะเข้าใจจริงๆ ว่าคำหนึ่งคำที่เรากำลังอ่านตรงหน้าสื่อถึงอะไรหรือหนึ่งคำที่เรากำลังจะเขียนเติมต่อไปควรจะเป็นคำอะไร

สำหรับงานดีเอ็นเอไม่ว่าเราจะอยากทำความเข้าใจหน้าที่ชิ้นส่วนลำดับเบสหรือออกแบบชิ้นส่วนลำดับเบสให้ทำหน้าที่ตามต้องการ เราก็ต้องดูว่าลำดับเบสอื่นๆ ที่อยู่รายล้อมทั้งจีโนมนั้นคืออะไรทำงานอย่างไร

โจทย์อีกแบบที่บริบทมีความสำคัญมากคือโจทย์ประมวลผลภาพ เราไม่สามารถจำแนกภาพได้ด้วยการประมวลค่าแต่ละจุดสี (pixel) เดี่ยวๆ บนภาพแต่เราต้องประมวลกลุ่มของจุดสีที่อยู่ใกล้เคียงกันเพื่อให้เห็นแบบแผนของเส้น ความมืดสว่าง ลวดลาย รูปทรงพื้นฐานต่างๆ ที่จำเป็นต่อการบอกว่าภาพๆ นี้มีวัตถุ มีตัวอะไรอยู่กันแน่

หลักการนี้เป็นที่มีมาของ Convolution Neuron Network (CNN) โครงข่ายประสาทเทียมอีกแบบที่บุกเบิกโดย Yann LeCun ในช่วงทศวรรษที่ 1980s เช่นกัน

ต้นแบบของผลงานนี้ภายใต้ชื่อ “LeNet” ถูกเอามาจำแนกภาพรหัสไปรษณีย์ที่เขียนด้วยลายมือออกมาเป็นตัวเลข 0-9 ได้อย่างแม่นยำ

กว่าสามทศวรรษให้หลังแนวคิดนี้ถูกผลักดันสู่ความนิยมกระแสหลักอีกครั้งด้วยผลงานชื่อ “AlexNet” ของ Alex Krizhevsky, Ilya Sutskever และ Geoffrey Hinton

ในปี 2012 แม้ว่า CNN จะไม่ใช่แนวคิดใหม่แล้วในเวลานั้นแต่ด้วยสมรรถนะของฮาร์ดแวร์ที่ดีขึ้นมากรวมทั้งขนาดโครงข่ายประสาทและข้อมูลตัวอย่างสำหรับการเรียนรู้ที่ใหญ่กว่าเดิมมหาศาล

ทำให้ AlexNet สามารถเอาชนะคู่แข่งแบบลิบลับไม่เห็นฝุ่นในโจทย์การจำแนกภาพ

Transformer รับข้อความเข้ามารวดเดียวและมีกลไกจัดลำดับความสัมพันธ์ระหว่างแต่ละส่วนในประโยค
Cr. ณฤภรณ์ โสดา

การเปิดตัวของ AlexNet กลายเป็นอีกก้าวกระโดดของงานวิจัยปัญญาประดิษฐ์ยุคใหม่ Sutskever หนึ่งสมาชิกทีมวิจัยเคยเล่าว่าหนึ่งบทเรียนสำคัญจากงานนี้คือเพียงแค่ขยายขนาดโครงข่ายประสาทเทียมและอัดข้อมูลสำหรับการเรียนรู้เข้าไปเยอะๆ (แบบที่สมัยก่อนทำไม่ได้ด้วยข้อจำกัดทางฮาร์ดแวร์) โครงข่ายประสาทเทียมก็อาจสำแดงความเฉลียวฉลาดแบบที่เราไม่คาดคิดมาก่อนขึ้นมาได้

สามปีหลังจากนั้นในปี 2015 Sutskever กลายเป็นหนึ่งในผู้ร่วมก่อตั้งและหัวหน้าทีมวิจัยของ OpenAI สตาร์ตอัพผู้เปิดตัว ChatGPT และปลุกกระแสตื่นเอไอที่เราเห็นอยู่ทุกวันนี้

แต่ก่อนจะข้ามไปถึงประวัติศาสตร์ช่วงนั้นยังมีอีกหนึ่งสถาปัตยกรรมโครงข่ายประสาทเทียมที่เราควรต้องรู้จัก สถาปัตยกรรมที่กลายมาเป็นอีกหนึ่งจุดเปลี่ยนสำคัญของวงการเอไอ

 

ปี 2017 ทีมวิจัยจาก Google ตีพิมพ์บทความวิจัยชื่อ “Attention Is All You Need” นำเสนอสถาปัตยกรรมโครงข่ายประสาทเทียมตัวใหม่ที่เรียกว่า “Transformer” เข้ามาแย่งซีนจาก RNN และ CNN ที่ครองตำแหน่งดารานำของวงการเอไอด้านภาษามาหลายปี

ขณะที่ RNN (และงานต่อยอดแนวนี้อย่าง LSTM) เอาข้อความจากประโยคหรือย่อหน้าเข้ามาประมวลผลทีละคำ และใช้ feedback ภายในโครงข่ายประสาทจำข้อมูลก่อนหน้ามากพอจะเข้าใจบริบท Transformer เอาข้อความยาวๆ สับเป็นชิ้นย่อยๆ (ที่นักวิทยาการคอมพิวเตอร์เรียกว่า “token”) แล้วเอาเข้ามาประมวลผลพร้อมกันหมดเลยรวดเดียว

ข้อดีของวิธีนี้คือโครงข่ายประสาทของ Transformer สามารถประมวลผลบริบทของเนื้อหาได้ยาวกว่าเพราะไม่ต้องพยายามจำข้อมูลยาวๆ เอาไว้เองจนเจอปัญหาการ “ลืม” เนื้อหาต้นๆ ข้อความอย่าง RNN

ข้อดีอีกอย่างคือการที่มันไม่ได้พึ่งพา feedback ภายในโครงข่ายประสาทโดยตรงทำให้กระบวนการเรียนรู้เรียบง่ายกว่ามาก และที่สำคัญคือการที่มันสับข้อมูลเป็นชิ้นย่อยๆ เข้ามารวดเดียวนั้นทำให้มันสามารถใช้ประโยชน์จากระบบคอมพิวเตอร์สมัยใหม่ที่มีระบบประมวลผลแบบคู่ขนานจำนวนมากๆ ได้ดี

ส่วน CNN ที่แรกเริ่มเอาไว้ใช้วิเคราะห์ภาพมีการเอาข้อมูลทั้งก้อน (แต่ละ pixel จากทั้งภาพ) เข้ามาวิเคราะห์พร้อมกันแบบคู่ขนานอยู่แล้ว และยังมีกลไกที่ใช้วิเคราะห์บริบทในบริเวณต่างๆ บนภาพ Transformer ใช้หลักการคล้ายคลึงกันในการวิเคราะห์บริบทรอบๆ คำแต่ละคำในข้อความผ่านเข้า

แต่ Transformer มีกลไกล้ำกว่านั้นที่เรียกว่า self-attention ช่วยให้มันจัดลำดับความสัมพันธ์ได้ด้วยความคำไหนน่าจะเกี่ยวข้องกับคำไหนบ้างในข้อความ คำที่อยู่ใกล้กันในข้อความอาจจะไม่ได้มีความสัมพันธ์กันมากกว่าคำที่อยู่ไกลกันมากกว่า

ความยืดหยุ่นในการจัดลำดับเหนียวแน่นความสัมพันธ์ ทำให้ Transformer มองบริบทของคำได้กว้างกว่าและมีประสิทธิภาพมากกว่า CNN

 

งานวิจัยตอนปี 2017 แสดงการใช้ Transformer ในงานแปลภาษาได้อย่างแม่นยำเหนือกว่าสถาปัตยกรรมโครงข่ายประสาทเทียมแบบอื่นๆ ก่อนหน้า ถูกอ้างอิงไปแสนกว่าครั้งในช่วงไม่กี่ปีที่ผ่านมา และถูกนำไปใช้ในงานสารพัดอย่างในเอไอแทบทุกตัวที่พวกเราส่วนใหญ่คุ้นเคยกันในปัจจุบัน เอไอที่วิเคราะห์และสังเคราะห์ข้อความ เสียง ภาพ ฯลฯ

จากข้อความ (“prompt”) เมื่อผนวกกับเทคนิคการเรียนรู้แบบ self-supervised (ตอนที่ 44) ข้อมูลที่มีอยู่มหาศาล และฮาร์ดแวร์ที่ทรงพลังก็ช่วยกันจุดระเบิดยุคทองของเอไอตอนนี้

ความพิเศษของ Transformer ในการเข้าใจบริบทข้อความภาษามนุษย์ยาวๆ (อาจจะยาวขนาดหนังสือเป็นเล่มๆ) ชวนให้นักชีววิทยาคิดว่ามันก็น่าจะเอไปใช้ในการทำความเข้าใจภาษาของดีเอ็นเอ เข้าใจหน้าที่การทำงานของลำดับเบสในบริบทของจีโนมยาวหลักล้านหลักพันล้านเบสได้เช่นกัน

ติดตามต่อตอนหน้าครับ