EVO เมื่อเอไอปลดล็อกภาษาจีโนม (2) (ประวัติศาสตร์อุตสาหกรรมไบโอเทค)

ภาคภูมิ ทรัพย์สุนทร

Biology Beyond Nature | ภาคภูมิ ทรัพย์สุนทร

 

EVO เมื่อเอไอปลดล็อกภาษาจีโนม (2)

(ประวัติศาสตร์อุตสาหกรรมไบโอเทค)

 

ตลอดหลายทศวรรษที่ผ่านมา ได้มีการพัฒนาเครื่องมือเชิงคำนวณมากมายเพื่อรองรับภารกิจเหล่านี้ ตั้งแต่การค้นหารูปแบบในลำดับดีเอ็นเอ วัดระดับความคล้ายคลึงลำดับเบส ไปจนถึงการทำนายหน้าที่ของยีน

เครื่องมือเหล่านี้ในปัจจุบัน หลายตัวถูกจัดให้อยู่ในข่าย “ปัญญาประดิษฐ์ (AI)” เนื่องจากมีความสามารถในการเรียนรู้รูปแบบจากข้อมูลและคาดการณ์ผลลัพธ์ ซึ่งสะท้อนถึงการทำงานเชิง “สติปัญญา” อย่างหนึ่ง

และแน่นอนว่า AI ก็เป็นคำฮิตติดกระแสอย่างยิ่งในยุคนี้!

การเรียนรู้ทั้งหลายรวมทั้งการเรียนรู้ภาษาของมนุษย์เรียนรู้ผ่านโครงข่ายประสาท (neuron network) ในสมองของเรา ด้วยหลักการที่คล้ายคลึงกัน AI เรียนรู้สิ่งต่างๆ ผ่านโครงข่ายประสาทเทียม (artificial neuron network) แม้ว่าแนวคิดการใช้โครงข่ายประสาทเทียมนี้จะมีมากว่าค่อนศตวรรษแต่ก็เพิ่งมาสร้างผลกระทบเยอะๆ ไม่กี่ปีมานี้ด้วยก้าวกระโดดของเทคนิคที่ช่วยให้โครงข่ายประสาทเทียมของ AI นี้ “เรียนรู้ (learning)” ข้อมูลอย่างมีประสิทธิภาพจนมัน “ฉลาด” พอจะเอาไปใช้งานได้

วิธีการเรียนรู้แบบหนึ่งเรียกว่า supervised learning คือการสอนให้ด้วยตัวอย่าง “โจทย์พร้อมเฉลย” คำตอบที่ถูกต้อง เช่น เราอยากสอนให้เด็ก (หรือ AI) เรียนรู้คำศัพท์เกี่ยวกับผลไม้ เราก็จะมีโจทย์เป็นคำศัพท์ต่างๆ พร้อมกับเฉลยว่าคำไหนบ้างไม่ใช่ผลไม้ คำไหนบ้างเป็นผลไม้ เราอาจจะเฉลยละเอียดไปอีกว่าผลไม้นั้นรสชาติและหน้าตาเป็นอย่างไร

เมื่อเด็กหรือ AI เรียนรู้ฝึกฝนผ่านตัวอย่างโจทย์พร้อมเฉลยไปเยอะๆ ก็จะสามารถเดาได้ถูกต้องในอนาคตว่าคำไหนเป็นผลไม้ และผลไม้ที่ว่ามีคุณสมบัติอย่างไร

ในทางชีววิทยาเราก็สามารถใช้หลักการนี้ในการให้ AI เรียนรู้ที่จะจำแนกลำดับเบสดีเอ็นเอตามหน้าที่ เราก็จะมีโจทย์เป็นลำดับเบสดีเอ็นเอแบบต่างๆ พร้อมเฉลยว่าอันไหนมีหน้าที่อะไร

เพื่อให้ในที่สุด AI สามารถเดาได้หน้าที่ของชิ้นดีเอ็นเอที่เราป้อนให้ได้อย่างแม่นยำ

ปัญหาของวิธีนี้คือ เราต้องมีตัวอย่างโจทย์พร้อมเฉลยที่ถูกต้องจำนวนมากเพื่อจะสอน AI ให้ทำงานได้ดี

ตัวอย่างพร้อมเฉลยพวกนี้ต้องใช้เวลา งบประมาณและแรงงานคนมหาศาลในการเตรียม

ยิ่งไปกว่านั้น AI เรียนที่จะทำงานได้แค่ทีละเรื่องแคบๆ ถ้าจะให้ทำงานใหม่ก็ต้องเรียนรู้กันใหม่ เช่น AI ที่เรียนรู้การจำแนกผลไม้ ก็จะไม่สามารถจำแนกสัตว์ หรือเฟอร์นิเจอร์ หรือคำกิริยาได้

เช่นเดียวกัน AI เรียนรู้มาสำหรับการจำแนกลำดับเบสดีเอ็นเอสำหรับผลิตเอนไซม์ย่อยโปรตีน ก็จะไม่สามารถจำแนกลำดับเบสดีเอ็นเอสำหรับการคุมการเปิดปิดยีน ฯลฯ

การเรียนรู้แบบ supervised และ unsupervised learning
Cr.ณฤภรณ์ โสดา

อีกวิธีเรียนรู้ก็ที่เรียกว่า unsupervised learning คือการให้ตัวอย่างเยอะๆ ไม่ต้องมีเฉลยแต่ให้ไปหาแบบแผนในข้อมูลเอาเอง

เช่น เราอยากสอนเด็กหรือ AI ให้รู้จักคำศัพท์ ไวยากรณ์ และโครงสร้างประโยค เราก็ให้มันดูตัวอย่าง text ไปเยอะๆ จากหนังสือและบทความมหาศาล แล้วก็ไปจัดแบบแผนกลุ่มคำ จัดกลุ่มประโยคเอาเองจากตัวอย่างที่เห็น

หรือถ้าอยากให้เรียนรู้ภาษาดีเอ็นเอเพื่องานชีววิทยาก็ให้ตัวอย่างลำดับเบสเยอะๆ ให้มันไปหาแบบแผนในนั้น

วิธีนี้ประหยัดเวลา งบประมาณและแรงงานลงเยอะเพราะไม่ต้องมีเตรียมเฉลย แถมถ้าทำสำเร็จก็เอาไปใช้งานได้กว้างขวาง

แต่ปัญหาคือการจะให้เด็กหรือ AI ไปหาแบบแผนเองแล้วจัดกลุ่มจำแนกประเภทออกมาได้ดีนั้นทำได้ยากมาก

พอไม่มี “เฉลย” มาอ้างอิงสิ่งที่ถูกต้อง โอกาสจะที่เด็กหรือ AI จะจับแบบแผนมามั่วก็เยอะ

ดังนั้น ตอนหลังก็เลยมีอีกวิธีเรียนรู้ที่เรียกว่า self-supervised learning ซึ่งมี “โจทย์พร้อมเฉลย” แบบ supervised learning แต่แทนที่จะต้องใช้แรงงานคนมาเตรียมเฉลย เราก็ให้ AI ไปทำสร้างทั้งโจทย์และเฉลยเพื่อเรียนรู้ด้วยตัวเองจากกองข้อมูลที่ให้ไป

การเรียนรู้วิธีเดาคำในช่องว่างแบบ self-supervised learning
Cr.ณฤภรณ์ โสดา

กลับไปที่ตัวอย่างการสอนเด็ก (หรือ AI) เรียนรู้ภาษา วิธีการสร้าง “โจทย์พร้อมเฉลย” ง่ายๆ ก็คือหยิบ text ขึ้นมา ปิดซ่อนบางคำใน text ในไว้แล้ว “โจทย์” คือเดาว่าคำที่ซ่อนคืออะไร พอจะ “เฉลย” ก็แค่เปิดคำที่ซ่อนไว้ออกมา

พอได้อ่านทุกข้อความที่ขวางหน้า-ตั้งแต่เทพนิยาย ข่าวสาร คู่มือการใช้งาน ไปจนถึงนวนิยายแฟนตาซี แม้เขายังไม่มีประสบการณ์ในโลกจริงว่า “apple,” “banana,” หรือ “orange” เป็นอย่างไร แต่เขาก็สังเกตเห็นรูปแบบการปรากฏตัวของคำเหล่านี้ในประโยคต่างๆ

เช่น เขาอาจสังเกตได้ว่า “apple,” “banana,” และ “orange” มักจะอยู่ในบริบทเดียวกันกับคำกริยาอย่าง “eat,” “grab,” หรือ “peel”

ขณะเดียวกันก็อาจสังเกตว่าแทบไม่เจอ “apple” หรือ “banana” ในบริเวณที่มักปรากฏคำว่า “sky” หรือ “tall”

แค่เพียงได้อ่านเนื้อหาจำนวนมากขึ้นเรื่อยๆ เด็กก็เริ่มจับทางได้ว่ากลุ่มคำเหล่านี้น่าจะเกี่ยวข้องกับอาหารและการกิน-แม้เขาไม่เคยสัมผัสผลไม้ซักอย่างในชีวิตจริง

ที่น่าอัศจรรย์กว่านั้นคือทำฝึกทำโจทย์ที่เรียบง่ายอย่าง “เติมคำในช่องว่างให้ถูกต้อง” แบบนี้ไม่เพียงช่วยการเรียนรู้เรื่องความหมายคำศัพท์ ไวยากรณ์และโครงสร้างประโยค แต่ยังนำไปสู่การอ่านจับใจความและคิดวิเคราะห์ประมวลผลอย่างลึกซึ้งจาก text ที่อ่านอีกด้วย

Ilya Sutskever อดีตหัวหน้าทีมวิจัยและผู้ร่วมก่อตั้ง OpenAI เคยเล่าเปรียบเทียบว่า

“สมมุติคุณอ่านนิยายสืบสวนยาวหลายร้อยหน้ากระดาษ มีตัวละคร ฉาก บทสนทนา เหตุการณ์ต่างๆ มากมาย มีแกนเรื่องหลัก เรื่องย่อย เส้นเวลาโยงใยสลับซับซ้อน ในบทสุดท้ายหน้าสุดท้ายยอดนักสืบของเราเรียกทุกคนมารวมตัวกันเพื่อเฉลยว่าคนร้ายที่แท้จริงก็คือ…”

เราจะไม่สามารถเติมคำในช่องว่างให้ถูกต้องว่า “…” คือใครได้เลยถ้าเราไม่ได้สามารถปะติปะต่อเชื่อมโยงจนเข้าใจเนื้อหาในนิยายตั้งแต่ต้น

แนวคิดการสร้าง foundation model ที่รอบรู้ทุกเรื่องทางภาษาและดีเอ็นเอ
Cr.ณฤภรณ์ โสดา

การเรียนรู้แบบ self-supervise learning ถูกนำไปใช้ดูดซับองค์ความรู้ทั้งหมดทั้งมวลของมนุษย์บันทึกอยู่ใน text ภาษา กลั่นออกมาเป็นแบบจำลองที่เรียกว่า Large Language Model (LLM) มันสมองที่อยู่เบื้องหลัง AI ตระกูลภาษยอดนิยมทั้งหลายในปัจจุบันอย่าง ChatGPT, Gemini, Claude, Co-pilot, Deepseek ฯลฯ

LLM จัดว่าเป็น “foundation model” คือแบบจำลองที่รอบรู้ทำงานได้สารพัดอย่าง อะไรที่ถาม-ตอบด้วย “ภาษามนุษย์” ทำได้หมดไม่ได้แค่ถูกฝึกมาให้ทำเฉพาะทาง (task-specific model) อย่างจำแนกชนิดผลไม้ หาคำกิริยา หรือแต่งโคลงสี่สุภาพ

ขณะที่ LLM เรียนรู้ภูมิปัญญาของเราที่สั่งสมบันทึกและส่งทอดมาหลายพันปีมาทาง “ภาษามนุษย์” นักชีววิทยาก็เริ่มคิดว่าเราจะสามารถสร้าง foundation model ที่เรียนรู้ทุกอย่างของทุกสิ่งมีชีวิตที่สั่งสมบันทึกและส่งทอดมาผ่านวิวัฒนาการหลายพันล้านปีทาง “ภาษาดีเอ็นเอ” ในลำดับเบส

Foundation model นี้จะเป็นมันสมองให้ AI ที่จะไขแทบทุกปริศนาของวงการชีววิทยายุคใหม่ จะตอบเราได้ทุกคำถามว่าดีเอ็นเอแต่ละส่วนทำหน้าที่อะไร ลำดับเบสที่เปลี่ยนไปมีผลอย่างไร และที่สำคัญที่สุดเราจะออกแบบลำดับเบสดีเอ็นเอแบบไหนจึงจะได้สิ่งมีชีวิตไม่ว่าจะเป็นจุลินทรีย์ พืช สัตว์ หรือมนุษย์ที่มีคุณลักษณะตามต้องการ

ตอนหน้าเราจะมาลงรายละเอียดว่า foundation model แห่งภาษาดีเอ็นเอนั้นจะถูกสร้างขึ้นมาอย่างไร