🎞️ Videos → How to Keep Up with AI
Description
คุณเวหา software engineer และผู้สอนที่มีประสบการณ์ แบ่งปันมุมมองเกี่ยวกับการติดตามความเคลื่อนไหวของ AI ที่เปลี่ยนแปลงอย่างรวดเร็วในงาน Claude Code Meetup โดยเริ่มต้นจากการทำความเข้าใจแนวคิดเรื่อง scaling law ซึ่งส่งผลให้ความฉลาดของโมเดลเพิ่มขึ้นในขณะที่ราคาถูกลงอย่างต่อเนื่อง เนื้อหาครอบคลุมถึงการเปรียบเทียบประสิทธิภาพของโมเดลรุ่นใหม่ๆ อย่าง Gemini 3 Flash และ o3-preview ผ่านการใช้ evaluation หรือเครื่องมือวัดผลรูปแบบต่างๆ เพื่อช่วยในการตัดสินใจเลือกโมเดลให้เหมาะสมกับโจทย์การทำงานจริง นอกจากนี้ยังมีการวิเคราะห์ถึงข้อจำกัดของระบบจัดอันดับยอดนิยมอย่าง LM Arena และความสำคัญของการสร้างชุดทดสอบส่วนตัวเพื่อประเมินผลลัพธ์ให้ตรงกับความต้องการของแต่ละโปรเจกต์
Chapters
- แนะนำตัวและแนวทางการตามข่าว AI ในยุคที่โมเดลใหม่มาทุกสัปดาห์ 0:00
- บทเรียนจากราคาอลูมิเนียม: เมื่อเทคโนโลยีทำให้ของแพงกลายเป็นของถูก 1:08
- Scaling Law: กฎที่ทำให้ AI ฉลาดขึ้น ถูกลง และมั่วน้อยลง 3:08
- Intelligence too cheap to meter: ความฉลาดที่ราคาถูกลงอย่างมหาศาล 4:36
- อย่าดูแค่ชื่อโมเดล แต่ให้ดู Evaluation ที่เหมาะสมกับงานเรา 7:40
- ข้อควรระวังของ LM Arena: ความพึงพอใจของคนอาจไม่ใช่ความฉลาดที่แท้จริง 9:42
- ตัวอย่าง Eval เฉพาะทาง: ตั้งแต่การคุมหน้าจอ UI ไปจนถึงข้อสอบภาษาไทย 11:15
- วิธีเลือกโมเดลและ Harness ให้เหมาะกับงานโปรแกรมมิ่งและบริบทที่ยาวมาก 13:50
- บทสรุป: สร้าง Evaluation ของตัวเองเพื่อวัดผลปัญหาที่เราเจอจริงๆ 14:28
Transcript
คำบรรยายต่อไปนี้อาจไม่ถูกต้องทั้งหมด หากคุณพบข้อผิดพลาดใดๆ คุณสามารถคลิกเมาส์ขวาบนข้อความเพื่อรายงานได้ทันที หรือ แก้ไขบน GitHub
แนะนำตัวและแนวทางการตามข่าว AI ในยุคที่โมเดลใหม่มาทุกสัปดาห์0:00
คนที่จะมาเล่าเรื่อง Lightning Talk อยากให้มาลองนั่งตรงนี้เตรียมตัวไว้ก่อนเลยก็ได้ครับ เดี๋ยวต่อจากผมไปเลย ขอบคุณมากครับ
สวัสดีครับ ผมเวหานะครับ มาช่วยจัดงาน Claude Code Meetup ครั้งนี้ แล้วก็อยากจะมาเล่าให้ฟังว่า เราจะตามข้อมูลเรื่อง AI ให้ทันได้ยังไง เพราะช่วงนี้ผมเป็น software engineer แล้วก็มีไปสอนที่ต่างๆ แล้วทุกคนก็ถามว่า เราจะตามข่าวได้ยังไง มีโมเดลใหม่มาทุกสัปดาห์ วันนี้ก็ Gemini 3 Flash เพิ่งออกมา
ผมคิดว่าวิธีการที่ทำให้เราตามข่าวพวกนี้ได้ สำหรับผมก็คือ
เราต้องเข้าใจเทรนด์สำคัญอย่างหนึ่งก่อน นั่นก็คือเรื่อง scaling law แล้วเราต้องมี tool
ในการเช็คว่างานของเราควรจะตามเรื่องไหนบ้าง ซึ่งเดี๋ยวผมอยากจะมาเล่าให้ฟังวันนี้ครับ
บทเรียนจากราคาอลูมิเนียม: เมื่อเทคโนโลยีทำให้ของแพงกลายเป็นของถูก1:08
ก่อนอื่นเลยเดี๋ยวเราจะพูดเรื่อง scaling law
แต่ก่อนถึง scaling law มีเรื่องคล้ายๆ กันมาเล่าให้ฟัง ในรูปเนี่ยเป็นผมถ่ายรูปมาเมื่อหลายปีแล้ว อันนี้เป็น Washington Monument นะ เป็นเสาใหญ่ๆ อยู่ข้างกับ White House ทำเนียบขาว
ข้างบนสุดเนี่ยเป็นก้อนคล้ายๆ พีระมิดก้อนหนึ่ง ที่ทำมาจากโลหะชนิดหนึ่ง ที่ตอนนั้นราคาแพงกว่าทองอีก แล้วก็ผ่านจนถึงปี 2024 เนี่ย ราคาลดลงไป 564 เท่า
564 เท่านี่ขนาดไหน สมมติเราซื้อของชิ้นนี้มา ในราคา 10,000 บาท เมื่อตอนที่มันสร้าง ตอนนี้ราคาเหลือ 2 บาท เมื่อปริมาณเท่ากัน มีใครอยากทายไหมครับว่า โลหะชิ้นนี้คืออะไร
ตะกั่ว? ผิดครับ
อะไรนะครับ? หมึกพรินเตอร์? เกือบถูกแล้วครับ อันนั้นแพงขึ้นครับ ไม่ใช่ถูกลง มีใครอยากทายอย่างอื่นไหมครับ Vibranium? ใกล้เคียงมาก สมควรไปอยู่ใน Marvel แต่เราอยู่ในโลกจริงครับ ไม่ใช่ครับ
สแตนเลส? เกือบถูกครับ แต่สแตนเลสไม่ใช่โลหะ สรุปว่าไม่ใช่สแตนเลส อลูมิเนียม? ถูกครับ มันคืออลูมิเนียม
ที่เห็นก้อนๆ อยู่ตอนนี้มันคือก้อนอลูมิเนียม เรียกว่า aluminum apex นะ สาเหตุที่ตอนแรกมันโคตรแพง แพงกว่าทองอีกเนี่ย เพราะช่วงปี 1850 ที่มีการสร้าง Washington Monument
ก้อนอลูมิเนียมเนี่ยมันถลุงยากมาก กว่าที่มันจะออกมาจากโลกแล้วกลายเป็นอลูมิเนียมได้ ต้องใช้ค่าแปลงของก้อนดินให้กลายเป็นอลูมิเนียมสูงมาก
ซึ่งสิ่งนี้มันก็เกิดคล้ายๆ กัน กับสิ่งที่เกิดขึ้น กับเรื่อง intelligence เรื่องความฉลาด
Scaling Law: กฎที่ทำให้ AI ฉลาดขึ้น ถูกลง และมั่วน้อยลง3:08
ที่ผมจะเล่าให้ฟังต่อไป ไอเดียที่ผมอยากจะเล่าเรื่อง scaling law เนี่ย มาจากหนังสือเล่มนี้ครับ The Scaling Era and an Oral History จาก Dwarkesh Patel ไม่รู้มีใครเคยฟังพอดแคสต์ Dwarkesh หรือเปล่า
หนึ่งคนนะครับ ก็ไปฟังกันได้ครับ ส่วนใหญ่ก็จะเป็น data scientist ที่อยู่ในฟิลด์มาฟังกัน ก็หนังสือของ Stripe Press นะครับ ผมชอบมาก
สำหรับคนที่ตอบคำถามถูก เอาไปเลยครับ
สำหรับคนที่อยากได้ข้อมูลพอๆ กัน อยากให้ไปซื้อแบบ Audible เพราะว่าเสียงมันจะตรงกับคนที่พูดมากกว่าในหนังสือ
แต่ว่าหนังสือสวยครับ แนะนำ โอเค ต่อมา สิ่งที่จะมาเล่าวันนี้คือเรื่อง scaling law ซึ่งทุกคนก็น่าจะรู้อยู่แล้วมั้งอันนี้ แต่มาแบบย้ำให้ฟังอีกรอบหนึ่ง scaling law ความฉลาดที่ราคาถูกลง และ hallucination ที่ต่ำลง และเราจะเลือกตามเทคโนโลยีใหม่ๆ ยังไง ให้เหมาะสมกับเรานะครับ โอเค scaling law ซึ่งผมคิดว่าทุกคนก็น่าจะรู้จักกันอยู่แล้วใช่ไหมครับ pre-training scaling, post-training scaling test-time scaling, long thinking ที่แบบกดเลือกได้ว่าให้มันใช้เวลาคิดนานขนาดไหน ก็ไปต่อกันเลย ก็คือเรื่อง
Intelligence too cheap to meter: ความฉลาดที่ราคาถูกลงอย่างมหาศาล4:36
intelligence too cheap to meter เทรนด์ที่ 2 คือความฉลาดราคาถูกลงเรื่อยๆ ตัวอย่างคือเมื่อปีที่แล้ว GPT-4o mini ออกมา ถูกกว่า GPT-4 20 เท่า และควาฉลาดก็ไม่ได้ต่างกันมาก Sam ก็เลยนำมาก่อนเลย โคตรถูก ถูกจนไม่ต้องนับกันแล้ว ถูกขนาดไหน ถูกขนาดที่ว่าสัปดาห์ที่แล้ว ตอนที่ GPT-5.2 ออกมา
Sam เอาไปเทียบกับตอนที่ o3-preview ออกมา ที่ทำคะแนน ARC-AGI 1 ได้เกิน 85% อยู่ในช่วงใกล้ๆ กัน ปรากฏว่าราคามันถูกลง 300 เท่า Sam ก็เลยบอกว่า 300 เท่าใน 1 ปี ถูกจัดเลย
อันยิ่งกว่านั้นครับ เมื่อวานนี้
Gemini 3 Flash ออกมา เกิดอะไรขึ้น ปรากฏว่า Gemini 3 Flash ได้ประมาณ 85% เหมือนกัน แม่งถูกลง 26,000 เท่า จาก o3-preview เมื่อปีที่แล้วนะครับ อันนี้เป็นเทรนด์ที่ 2 ที่ฉลาดขึ้น ถูกลง และ more powerful เก่งขึ้น ใครอยากรู้ว่ามันเก่งขึ้นขนาดไหน ตัวนี้เป็น eval ตัวหนึ่งที่คนชอบใช้กัน METR เป็น eval ที่เทียบว่า คนน่าจะใช้เวลานานขนาดไหนในการแก้ปัญหานี้ และถ้า AI แก้ปัญหาได้พอๆ กัน ก็น่าจะมีความสามารถมากขึ้นพอประมาณเท่าๆ กัน
โอเค และ hallucinate น้อยลงด้วย คือมั่วน้อยลง อันนี้ทุกอย่างมีลิงก์นะครับ กดลิงก์ได้ ถ้าใครมีลิงก์ไปที่เว็บก็ไปกดลิงก์ตรงนี้ได้ ซึ่งอันนี้ก็คือแค่ก๊อปมาจากหน้าเว็บ Artificial Analysis จะเห็นได้ว่าตัวที่เพิ่งออกมาใหม่ๆ อย่างเช่น Gemini 3 Flash, Gemini 3 Pro Claude Opus 4.5 ก็เริ่มมั่วน้อยลงเรื่อยๆ แล้ว
ตามเทรนด์คือตัวมั่วก็คือน้อยลงเรื่อยๆ เนื่องจากพอเรามีภาพใหญ่แบบนี้ ภาพใหญ่ที่โมเดลทั้งฉลาดขึ้น ถูกลง และมั่วน้อยลง มันทำให้มีโมเดลใหม่ๆ ตลอดเวลา คำถามคือเราควรจะเลือกตามอะไรดี คำแนะนำที่ปกติผมให้ก็คือ อ้อ และนอกจากจะถูกลงเนี่ย server capacity สูงขึ้นตลอดทุกปีด้วย ข่าวว่า AI bubble หรือเปล่า คือ AI ลงทุนกับการปั๊ม server เยอะขนาดไหน จะเห็นได้ว่าสั้นๆ แค่ปีเดียว ได้ server size แบบ 1 กิกะวัตต์มาแล้ว
scaling law สำหรับคนที่ยังไม่เชื่อ ให้ไปดูวิดีโอนี้ สำหรับ Dario เป็น CEO Anthropic
ถ้าใครตาม Dario จะรู้ว่า Dario เป็นคนพูดจริงทำจริง น่าเชื่อถือ แบบตอน 2 ปีที่แล้วบอกว่า ไม่รู้ scaling law มันจริงหรือเปล่า แต่วันนี้บอกว่ายังไงมันก็เก่งขึ้น ฉลาดขึ้น และเราก็จะรวยขึ้น ลองไปเปิดดูได้ครับผม
อย่าดูแค่ชื่อโมเดล แต่ให้ดู Evaluation ที่เหมาะสมกับงานเรา7:40
เรารู้อยู่แล้วว่า AI มันฉลาดขึ้นเรื่อยๆ หนึ่งใน eval ที่บอกได้คือ eval ชื่อว่า Artificial Analysis Intelligence Index v3 ครับ แต่ละเวอร์ชันมันเทียบกันไม่ได้ ต้องดูเวอร์ชันเดียวกันกับโมเดลขนาดเท่ากัน จะเห็นได้ว่าเมื่อเวลาผ่านไป โมเดลฉลาดขึ้นเรื่อยๆ
อีกอย่างคือ eval นี้รวบรวม 10 eval เข้าด้วยกัน
อันนี้เป็นตัวอย่างอีกหนึ่ง eval คือ ARC-AGI 1
ถ้าเราเลือก eval ที่เหมาะสมกับงานของเราได้ เราก็ไม่จำเป็นต้องไปตามว่าสัปดาห์นี้ จะมีโมเดลอะไรออกมา แค่ดู eval ของเราพอว่าแก้ปัญหาได้ฉลาดขึ้นจริงไหม
แต่แค่ดูชื่อไม่พอนะ ARC-AGI 1 ตอนแรกคนสร้างบอกว่า ถ้ามีโมเดลไหน solve ARC-AGI 1 ได้ นี่แหละคือ AGI ตอนนี้มีตัว solve ได้แล้ว เขาก็เลยออก ARC-AGI 2 และ ARC-AGI 3 ออกมา จีเนียสมาก
ถ้าดูแค่ชื่อไม่พอต้องทำยังไง แทนที่จะดูแค่ชื่อกับ description ให้ไปดูด้วยว่ามันเทสอะไรจริงๆ อย่างเคสนี้ ARC-AGI มี playground ให้ลองเล่น
ซึ่ง eval เกือบทุกตัวจะมี playground ให้ลองดู
หรือบอกว่าพอโมเดล solve แล้วมี thinking test ยังไงบ้าง
อย่างเคสนี้จะมีตัวอย่างให้ 2 ตัวอย่าง
มีคำถาม 1 คำถาม แล้วให้หาคำตอบให้ได้ พอเราดูแบบนี้จะรู้สึกว่ามัน abstract idea มากๆ บอกได้คร่าวๆ ว่าโมเดลน่าจะมีความสามารถ ในการทำ spatial thinking อะไรก็ว่าไป
ต้องดูอีกทีว่าคำถามพวกนี้เหมาะกับงานเราในแง่ไหน
ข้อควรระวังของ LM Arena: ความพึงพอใจของคนอาจไม่ใช่ความฉลาดที่แท้จริง9:42
ประเด็นคือพอเห็นคะแนน eval พุ่งขึ้นเรื่อยๆ
อย่าไป confuse the map with territory นะครับ บางครั้งคะแนนพุ่ง แต่โมเดลอาจจะโง่เท่าเดิม ตัวอย่างหนึ่งคือหลายคนรู้จัก LM Arena
ช่วงแรกคนชอบมาก มันคือการมีคำถาม 1 ข้อ แล้ว blind test คำตอบจาก 2 โมเดล ถ้าโมเดลไหนคนเลือกมากกว่า โมเดลนั้นก็ชนะไป พอคนจำนวนมากมาเลือกคำตอบที่ดีที่สุด มันควรจะหาโมเดลที่ฉลาดที่สุดออกมาได้ อันนี้คือ assumption ของ LM Arena
แต่ก็อาจจะมีคนที่เห็นต่างอย่าง Edwin Chen
CEO ของ Surge AI บริษัทที่ทำ data labeling
เตรียมข้อมูลให้บริษัท AI เอาไปเทรนต่อ เขาบอกว่าใครที่ไป optimize LM Arena
คนนั้นคือ optimize สำหรับทำ clickbait เพราะเราให้ใครก็ไม่รู้มาลองกดเลือกคำตอบ
เขาอาจจะเลือกแค่เพราะยาวกว่า สวยกว่า มี emoji
ข้อคิดคือดูแค่ชื่อและวิธีการไม่พอ ต้องดูว่ามัน optimize สำหรับสิ่งที่เราต้องการจริงๆ ไหม
ตัวอย่าง Eval เฉพาะทาง: ตั้งแต่การคุมหน้าจอ UI ไปจนถึงข้อสอบภาษาไทย11:15
ตัวอย่าง หนึ่งในตัวอย่างของ eval วันที่โมเดลออกเราก็จะเห็นเลย ไปดูจาก model announcement นะครับ จะมี list มาเพียบเลย ให้เราดูว่าอันไหนถูกใจเรา ถ้าคะแนนมันดีเราค่อยไปต่อ ถ้าคะแนนไม่ประทับใจก็แยกย้าย อย่างเช่น มีใครดูมาบ้างครับ Gemini 3 Flash มีอะไรน่าสนใจบ้าง
ถ้าเป็นเมื่อตอนที่ Gemini 3 Pro ออก ตัวที่คนปลื้มกันก็คือ ScreenSpot-Pro
ออกมา 72.7% ในขณะที่ตัวอื่นอยู่ที่ 30% มันเป็น eval ในความสามารถที่เช็คได้ว่า
โมเดลสามารถควบคุมหน้า UI ได้เก่งแค่ไหน เข้าใจหน้า UI ขนาดไหน แล้วควบคุมได้ดีหรือเปล่า มันโดดมาเลยเมื่อเทียบกับชาวบ้านเขา แต่ GPT-5.2 สัปดาห์ที่แล้วออกมาทำไป 86.3%
คนก็เลยกลับไปใช้ GPT ต่อดีกว่า
จะเห็นได้ว่าในนี้ Opus ไม่อยู่ในนี้ เพราะ Opus อาจจะไม่สู้ multimodal เท่าไหร่ คำถามคือเราจะเอา eval ตัวไหนมาเป็นที่พึ่งทางใจ
มาช่วยให้เราเลือกโมเดลที่เหมาะสมกับเราดี มีตัวอย่างง่ายๆ ประมาณ 12 eval ไปเลือกเอาได้ อย่างเช่น Creative Writing เราต้องไปดูอีกทีว่ามันเทสยังไง ตัวนี้เทสว่าโมเดลมีความ creative ขนาดไหน
Context Arena บอกว่าถ้า context มันยาวมากๆ โมเดลจะลืมหรือเปล่า เหมาะสำหรับคนที่จะแก้ codebase ที่ใหญ่มากๆ แสนบรรทัด ล้านบรรทัด ถ้าโมเดลยังจำได้ระหว่างทาง ก็น่าจะมีโอกาสแก้ปัญหาใหญ่ๆ ได้
มาดูอะไรเท่ๆ บ้าง อย่างเช่น AI vs Thai Exam อันนี้เป็นพี่ไททำนะ เอาโมเดลไปรันเทียบกับข้อสอบ O-NET ดูว่ามันเก่งแค่ไหน ถ้าใครอยากทำงานที่มีภาษาไทยด้วย ก็อาจจะลองไปดู eval ตัวนี้ดู ว่ามีโมเดลไหนแก้ปัญหาภาษาไทยได้เก่งๆ แล้วไปลองเทสได้
มีอะไรอีก Play Pokemon สำหรับคนที่ตามอยู่
Gemini 2.5 Pro สามารถเล่น Pokemon Red ได้จบแล้ว แต่ใช้ token ไปเยอะมาก เมื่อเทียบกับตัวใหม่คือ Gemini 3 Pro Gemini 3 Pro แป๊บเดียว ใช้ token นิดเดียว จบแล้ว
วิธีเลือกโมเดลและ Harness ให้เหมาะกับงานโปรแกรมมิ่งและบริบทที่ยาวมาก13:50
คำแนะนำของผมคือไปเลือกโมเดลที่ใช่ ถ้าอยากได้งานที่โค้ดเยอะๆ และทำหลายขั้นตอน
ก็อาจจะดู Terminal Bench แทนที่จะวัดแค่โมเดลอย่างเดียว คือวัดทั้งโมเดลและ harness ด้วย อย่างในรูป ตัวที่เป็นอันดับหนึ่งตอนนี้คือ Droid กับ Opus 4.5 Droid เป็น harness ตัวหนึ่งที่บริษัททำโดยเฉพาะ
เราสามารถเลือกโมเดลไหนก็ได้ แล้วอาจจะไป mix and match กับ Context Arena ดู ถ้าอยากได้โค้ดเยอะๆ เอา context ยาวๆ เลือกโมเดลที่เลือก harness เก่งๆ ไปใช้ด้วยกัน
บทสรุป: สร้าง Evaluation ของตัวเองเพื่อวัดผลปัญหาที่เราเจอจริงๆ14:28
คำแนะนำสุดท้ายคือถ้า eval ที่ว่ามา ไม่มีอันไหนเหมาะสมกับปัญหาเราเลย แนะนำให้ลองทำ eval เป็นของตัวเองครับ เริ่มจากเอา log ที่เรามีก็ได้ แล้วมาเลือกปัญหาเล็กๆ ที่เราเคยทำ เลือกจำนวนปัญหาน้อยๆ เลือก subset ของปัญหามา แล้วอย่าลืมเก็บ log ไว้ด้วยว่า LLM ที่เคยแก้ปัญหาเรา หน้าตามันเป็นยังไง ขอบคุณครับ