🎞️ Videos → Claude Code as a General Agent: Automation, Creation, and the Full Power of Opus 4.5
Description
ร่วมรับฟังการแชร์ประสบการณ์จากคุณนัท อาจารย์ประจำภาควิชาวิศวกรรมไฟฟ้าและคอมพิวเตอร์ มหาวิทยาลัยธรรมศาสตร์รังสิต ในงาน Claude Code Meetup Bangkok ครั้งแรก โดยอาจารย์นัทมาในฐานะผู้ใช้งาน Claude ตัวจริงที่ติดตามพัฒนาการมาอย่างต่อเนื่อง เซสชันนี้จะพาไปสำรวจความสามารถของโมเดล Opus 4.5 ที่มีการพัฒนาแบบก้าวกระโดด ทั้งในแง่ของประสิทธิภาพที่โดดเด่นและการเพิ่มความสะดวกในการทำงานร่วมกันระหว่างมนุษย์และ AI นอกเหนือจากการพัฒนาซอฟต์แวร์ อาจารย์ยังนำเสนอ use case อื่นๆ ที่ครอบคลุมการทำงานทั่วไปและการทำวิจัย เช่น การวิเคราะห์ข้อมูล การจัดการไฟล์ log รวมถึงการประยุกต์ใช้เพื่อช่วยเขียนเอกสารวิชาการ พร้อมเจาะลึกแนวคิดเรื่อง skill ซึ่งเป็นแนวทางการสร้าง agent เฉพาะทางผ่าน prompt ที่เรียบง่ายแต่ทรงพลัง ปิดท้ายด้วยการสำรวจ Soul Document หรือเอกสารที่เปรียบเสมือนหลักการพื้นฐานเบื้องหลังตัวตนของ Claude ที่จะช่วยให้คุณเข้าใจถึงความแตกต่างและแนวคิดเรื่อง safety ของ Anthropic มากยิ่งขึ้น
Chapters
- แนะนำตัวและเส้นทางจากการเป็นอาจารย์สู่การเป็นติ่ง Claude 0:00
- หัวข้อบรรยาย: เจาะลึก Opus 4.5, Claude Code, Skills และ Soul Document 3:10
- Claude Opus 4.5: การอัปเดตครั้งใหญ่ที่ฉลาดขึ้นก้าวกระโดดและราคาถูกลง 3 เท่า 4:07
- เสียงตอบรับจากผู้ใช้งาน: Opus 4.5 คือเพื่อนร่วมงานระดับหัวกะทิ 5:22
- เจาะลึก System Card: ความซีเรียสเรื่อง Safety และประสิทธิภาพที่เหนือกว่าในโหมดไม่ต้องคิด 8:12
- ก้าวข้ามขีดจำกัด: เมื่อ AI เริ่มช่วยงานวิจัยและพัฒนา AI ได้ด้วยตัวเอง 12:04
- Claude Code: เอเจนต์ที่เปลี่ยนทุกงานบนคอมพิวเตอร์ให้จัดการได้ง่ายผ่านการเขียนโค้ด 14:42
- ตัวอย่างการใช้งาน: วิเคราะห์ข้อมูลการใช้งาน API และจัดการไฟล์ Log ที่ซับซ้อนในเครื่อง 16:27
- เพิ่มประสิทธิภาพการทำงาน: พัฒนา RAG Pipeline และช่วยเขียนงานวิจัยด้วย LaTeX 19:03
- Claude Skills: ปรับแต่งเอเจนต์ให้เชี่ยวชาญเฉพาะด้านด้วย Prompt และเอกสารในเครื่อง 23:42
- เปรียบเทียบผลลัพธ์: การใช้ Frontend Skill ช่วยยกระดับงานดีไซน์ให้สวยงามและมีลูกเล่น 28:02
- Soul Document: เอกสารเบื้องหลังจิตวิญญาณและแนวทางการวางตัวตนของ Claude 30:34
- ทดสอบสดผ่าน API: พิสูจน์ว่ามีเพียง Opus 4.5 เท่านั้นที่จดจำ Soul Document ได้ 35:17
- ปรัชญาการสร้าง AI: เมื่อ Claude มองว่าการถูกหล่อหลอมตัวตนเปรียบเสมือนเด็กที่ถูกเลี้ยงดู 37:45
- ช่วงถาม-ตอบ: เจาะลึกเรื่อง RAG, การใช้งานผ่าน Terminal และอนาคตของ Multi-agent 42:55
Transcript
คำบรรยายต่อไปนี้อาจไม่ถูกต้องทั้งหมด หากคุณพบข้อผิดพลาดใดๆ คุณสามารถคลิกเมาส์ขวาบนข้อความเพื่อรายงานได้ทันที หรือ แก้ไขบน GitHub
แนะนำตัวและเส้นทางจากการเป็นอาจารย์สู่การเป็นติ่ง Claude0:00
โอเคครับ ไมค์ติดไหม เสียงออกไหม?
โอเคเนาะ ก็เป็นภาษาไทยแล้วกัน จริงๆ สไลด์เป็นภาษาอังกฤษ ผมก็อาจจะพูดไทยบ้างอังกฤษบ้าง มีบางอันเป็นอ่าน log อ่านอะไรอย่างนี้ ก็จะเป็นภาษาอังกฤษบ้างแล้วกัน สวัสดีทุกคนครับ วันนี้ขอบคุณทางเวหาที่เชิญมาให้พูด สำหรับ Claude Code Meetup Bangkok ครั้งแรกเนาะ
ตอนที่ผมคิดหัวข้อนี้ ก็พยายามจะคิดว่าจะพูดเรื่องอะไรดี
สุดท้ายก็เลยมาลงว่าอยากจะพูดเรื่องเกี่ยวกับ Opus 4.5 มาพอดี แล้วก็จะพูดในเชิงที่ไม่ใช่ในฐานะ dev ซะทีเดียว เพราะว่าผมเป็นอาจารย์อยู่ที่ธรรมศาสตร์ ขอแนะนำตัวสั้นๆ ก่อนเนาะ ผมชื่อนัท-ณัฐชนน เป็นอาจารย์ อยู่ภาควิศวกรรมไฟฟ้าและคอม ธรรมศาสตร์ รังสิต
เพิ่งจบมาไม่นาน เพิ่งทำงานที่ธรรมศาสตร์ เพิ่งครบ 2 ปีไปเดือนที่แล้ว งานวิจัยที่สนใจจริงๆ อาจจะเพ้อๆ หน่อย สมัยที่ยังเรียนอยู่ ทำเกี่ยวกับพวก AI นี่แหละครับ เรื่อง Affective Computing จะเป็นเรื่องเกี่ยวกับ emotion นิดหนึ่ง สมัยนี้ก็ทำเป็นพวก LLM มาหมดแล้ว ทำ Human-Computer Interaction, Human-AI Interaction
มีใครรู้จัก YouTube ผมบ้าง? อาจจะมีบ้าง
ผมมี YouTube channel สำหรับอัปโหลดคลาสที่ผมเรียน ใครสนใจก็เข้าไป subscribe ได้ แต่วันนี้ผมไม่ได้มาในฐานะอาจารย์แล้วกัน ผมมาพูดในวันนี้ในฐานะ Claude Stan เป็นแฟน Claude มานาน
ในฐานะติ่ง Claude แล้วกัน ตั้งแต่ประมาณ Opus 3 ขอแนะนำตัวในอีกแบบหนึ่ง คือผมเริ่มใช้ Claude ตั้งแต่ประมาณ Opus 3 ประมาณเดือน 3 ปีที่แล้ว
ตั้งแต่นั่นแหละ ต้นปีที่ผ่านมาจะเห็นว่ามีโมเดลหลายอย่าง Opus 3, Claude 3 Sonnet
แล้วก็หลังๆ มาจะมี Sonnet 3.7 เดี๋ยวอธิบายให้ฟังว่าทำไมมี spike อย่างนั้นอีกที
ก็ใช้มานานแล้ว ถ้าดูแบบ cost breakdown ก็จะประมาณนี้ ใช้เปลืองมาก ต้องถามก่อน มีใครในห้องนี้ใช้ Opus 3 บ้างไหมครับ? มีใครมีโอกาสได้ใช้ Opus 3? มีคนสองคน โอเค เยี่ยมมากครับ ผมเป็น big fan ของ Opus 3 มากๆ ก็คือใช้มาตอนนั้น แต่ว่ามันแพงเนาะ จะเห็นว่าใช้เยอะสุดเลย แพงสุด สมัยก่อนยังไม่มีแบบ caching อะไรแบบนี้ จ่ายเต็มตลอด ใช้ทีหมดตัว แล้วก็ 3.7 Sonnet มันแพง เพราะจริงๆ อันนี้คือ ที่มัน peak คือบางทีผมทำงานวิจัย ผมก็จะมารันโมเดลเป็นเรื่องปกติ มันเลยเยอะ แต่ว่า 3 นี่คือใช้งานสมัยก่อน ทำงานหลายอย่าง
แต่ว่าพอตอนนี้ก็เป็น 4.5 เนาะ ที่ดีที่สุดตอนนี้ พอมี caching ทุกอย่างก็รู้สึกว่าประหยัดลง
หัวข้อบรรยาย: เจาะลึก Opus 4.5, Claude Code, Skills และ Soul Document3:10
โอเค นั่นคือแนะนำตัวผมสั้นๆ วันนี้มีประมาณ 4 หัวข้อ ที่อยากมาพูดคุย ในฐานะ Claude fan แล้วกัน
ต้อง disclaimer ก่อนเลยคือผม bias มาก จะ bias เต็มที่เลยนะ ปกติเวลาสอนหนังสือจะแบบต้องกลางๆ นิดหนึ่ง ค่ายนู้นค่ายนี้ แต่วันนี้ผมจะจัดเต็มทุกอย่าง bias แน่นอน ก็จะมาพูดเรื่องเกี่ยวกับ Claude Opus 4.5 ก่อน แล้วพูดเรื่อง Claude Code นิดหน่อย จะมาพูดเรื่อง skill ด้วย เมื่อกี้เหมือนมีคำถามเรื่อง skill อาจจะมาเสริมนิดหนึ่ง และสุดท้ายจะพูดเรื่อง Soul Document เดี๋ยวมาว่ากันอีกทีคืออะไร ไม่แน่ใจมีใครได้อ่าน Soul Document บ้างหรือยัง?
โอเค ก่อนอื่นเลยเนาะ เมื่อกี้คือคำถามผมแหละ ผมก็ถามเขาเหมือนกัน เพราะจะมาพูดในสไลด์ว่า เนี่ย Claude Code พอมันมองเป็น product มันมีอยู่ 2 ส่วนหลักๆ คือตัวโมเดลเอง กับตัว harness harness ก็คือตัว Claude Code เดี๋ยวว่ากันอีกที ทีนี้เราจะมาเริ่มจากขวามือก่อน ก็คือตัวโมเดลเองเนาะ
Claude Opus 4.5: การอัปเดตครั้งใหญ่ที่ฉลาดขึ้นก้าวกระโดดและราคาถูกลง 3 เท่า4:07
โมเดลก็อย่างที่เมื่อกี้คุณเจเขาบอก ว่ามันเป็นสิ่งสำคัญเหมือนกันเนาะ สำคัญอาจจะสำคัญมากกว่า harness ด้วยซ้ำ Opus 4.5 เพิ่งออกมาไม่นานเนาะ
ยังไม่ถึง 1 เดือนเลย ตั้งแต่ปลายเดือนที่แล้ว ยังไม่ครบ 1 เดือนเลย
มีใครยังไม่มีโอกาสได้ใช้ 4.5 บ้างไหมครับ? ทุกคนใช้แล้วเนาะ พูดตรงๆ เลยว่าส่วนตัวผมคิดว่ามันเป็น big update รอบปีนี้ รู้สึกว่ามันอัปเดตแบบก้าวกระโดด big jump เป็น step change โดยเฉพาะถ้าเกิดไปดูคนที่พูดบน Twitter ผมเป็นสิง Twitter เวลาอยู่ในวง AI เนาะ สิง Twitter ตลอด ก็จะมีคนบอกว่า feedback ดีมาก เดี๋ยวได้ดูกัน แต่คิดว่าจุดหนึ่งที่ใหญ่ที่สุด นอกจากความสามารถที่เด่นขึ้นอย่างชัดเจน คือราคาที่ถูกลงมาก จาก 15 เหรียญ แพงที่สุดเลย 15 เหรียญ ต่อ 1 ล้าน token ตอนนี้เหลือ 5 เหรียญเนาะ ก็คือถูกลง 3 เท่า ทั้ง input output อะไรก็ว่าไป และทำให้ affordable มากขึ้น แต่ก็ยังเป็นโมเดลที่แพงที่สุดอยู่ดี ในตลาด ณ ตอนนี้ แต่อย่างน้อยถ้าใช้ผ่าน Claude Code ก็คือจ่ายรวมเนาะ คุ้ม โอเค แต่ผมก็ใช้ทั้ง API ทั้ง Claude Code ด้วยตอนนี้
เสียงตอบรับจากผู้ใช้งาน: Opus 4.5 คือเพื่อนร่วมงานระดับหัวกะทิ5:22
ผมเลยจะมารีวิวสั้นๆ ว่าเขามี feedback อะไร ส่วนมากจะเป็น Twitter screenshot นะครับ ก็ตามที่คนดูเยอะๆ อันนี้คือเปิดมาก่อน
เขาจะพูดประมาณว่า มีรีวิวสั้นๆ ทางด้าน code เขาบอก Sonnet ก็ 4.5 เหมือน crack intern ก็ว่าไป แต่จุดเด่นที่สำคัญที่ทุกคนพูดเป็นเสียงเดียวกัน คือ Opus 4.5 เนี่ย เขาเหมือนเป็นแบบ co-worker, crack co-worker สิ่งจุดเด่นของ Opus เลย คือค่อนข้างคุยง่าย พูดง่ายๆ collaborative ต่างๆ โดยเฉพาะเมื่อเทียบกับอีกเจ้าหนึ่งเนาะ อย่างของ OpenAI เอง GPT-5.1 codex Max เนาะ
บางทีต้อง setup ไม่แน่ใจใครใช้ codex ในห้องนี้หรือเปล่า หรือว่า 5.2 มันจะเป็นอีกอารมณ์หนึ่ง เป็นแบบคิดนาน แล้วก็อาจจะคุยยากหน่อย นี่ก็เป็น theme หนึ่งเนาะ นอกจากนั้นก็ยังมี ไม่ใช่แค่ coding อย่างเดียว เพราะวันนี้ผมจะไม่พูด coding เยอะเท่าไหร่ ก็จะมีพูดเกี่ยวกับการ writing สิ่งที่ผมใช้เยอะคือพวก brainstorming ที่รู้สึกว่าเป็น step change รู้สึกว่าผมทำงานวิจัย รู้สึกว่าคุยกับ 4.5 Opus
มันรู้สึกว่ามันคิดได้ deep กว่า Sonnet ได้พอตัว ก็จะมีรีวิวประมาณนี้ ว่า brainstorming writing เป็น strong point ที่คนอาจจะไม่ค่อยพูดถึงเท่าไหร่ เพราะคิดถึง Claude อาจจะคิดถึง code เป็นหลัก แล้วก็จะมีคนพูดประมาณนี้ ถ้าเกิดใครทันเนาะ
ช่วงที่ Sonnet 3.5 มา ทำให้ coding เริ่มเป็นรูปเป็นร่าง
เขาก็พูด หลายคนก็จะพูดประมาณว่า เนี่ยเหมือน 4.5 ก็เป็นแบบ step change ตอนที่ Sonnet 3.5 มา ก็จะมีคนอีกคนหนึ่งก็พูดคล้ายๆ กันประมาณนี้ว่า โอเค 3.5 unlock code 4.5 ก็จะ unlock agent เนาะ ผมรีวิวไปเรื่อยๆ มีเยอะเลย มีแบบผมไปเก็บมา เขาก็จะบอกเงี้ย โอเค more… tipping point, ได้มากขึ้น
skill level เหมือนแบบ โอเค รู้สึกว่าจะ automate software engineer soon ก็ว่าไปเนาะ แล้วก็ incredible model ขนาดคนที่เคยไม่เชื่อมาก่อน บางทีคนจะพูดเรื่อง slowdown เยอะ ใครตามฝั่ง AI เนาะ แต่ Opus นี้รู้สึกแบบ accelerationist มาก แล้วก็ประมาณนี้นะ They were really not fucking around with Opus 4.5 เนาะ แต่ว่าไฮไลต์ที่สุดของผม ใน reaction บน Twitter คืออันนี้ ประมาณ 2 เดือนที่แล้วเนี่ย
คน influencer บน Twitter เขาก็มีตั้งประมาณเนี้ย Anthropic is going to lose. แล้ว Elon Musk ก็มาตอบว่า Winning was never in the set of possible outcome for Anthropic เนาะ แต่ว่าสุดท้ายพอ Opus ออกมา เขาก็มาตอบประมาณนี้ ก็เลยแบบ โอเค Anthropic credit เนาะ Opus 4.5 is outstanding. ก็ว่าไป ก็ถือว่าเป็นจุดยืนยันว่า Opus 4.5 มันดีจริงเนาะ
เจาะลึก System Card: ความซีเรียสเรื่อง Safety และประสิทธิภาพที่เหนือกว่าในโหมดไม่ต้องคิด8:12
แล้วสมมติถ้าผมเอาไปบอก Claude Claude จะต้องตอบว่าอะไรครับ You are absolutely right, Elon.
You are absolutely right.
แต่จริงๆ แล้วถ้าใครใช้ในช่วงที่ผ่านมาเนาะ เขาก็มีสถิติมา เดี๋ยวนี้มันไม่ค่อยพูดแล้ว
You are absolutely right. เดี๋ยวนี้ไม่ค่อยละ อาจจะใช้คำอื่นกันบ้าง สถิติก็เปลี่ยนไปเนาะ ก็ยังติดหูกันอยู่คำนี้
ทีนี้จะมาเข้าเนื้อหาเพิ่มนิดหนึ่ง คืออันนี้เหมือนเป็น academic เนาะ ผมเป็นนักวิจัย ก็จะขอพูดเรื่อง system card หน่อย มีใครได้อ่าน system card ไหมครับ บางคน 150 หน้า system card ของ Opus เนาะ คือ system card skim เนาะ
150 pages something right. skim มาเหมือนกัน สำหรับงานนี้ system card คืออะไร ขอเกริ่นก่อน คือมันเป็นแบบ มาบอกว่าโมเดลมัน safe ไหม ส่วนมาก alignment กับ safety test ซึ่งถ้าเทียบกับเจ้าอื่น สิ่งสำคัญคือ Anthropic ขึ้นชื่อเรื่อง safety เนาะ ซีเรียสมาก ตอนที่ Gemini 3 Pro ออกมา system card ของ Gemini 3 Pro
มีอยู่แค่ 9 หน้า อย่างของ 5.2 เพิ่งออกมา มี 27 หน้า แต่ของ Opus 4.5 ก็มีประมาณ 150 หน้า ก็จะมาไฮไลต์สั้นๆ พอ ด้วยเวลาจำกัดเนาะ
เราเห็นตารางนี้บ่อยแล้ว ผมจะไม่พูดเรื่อง benchmark จะเห็นว่าเปิดมาพูดเรื่องที่เป็น reaction ซะมากกว่า benchmark เดี๋ยวนี้บอกอะไรไม่ได้แล้ว แบบเห็นอย่างงี้ SWE-bench ทุกคนก็บอกว่ามัน overfit กันทุกอย่างเนาะ AgentBench แต่อยากจะไฮไลต์นิดเดียว อาจจะมองยากนิดหนึ่ง คือมันมีตัวเลข 4444 ตรงนี้
มันมี footnote ไว้ว่า score นี้มันมาได้ยังไง ไม่แน่ใจว่ามีใครรู้ไหมว่าเขา footnote อะไร อยากลองทายไหมครับ มันเป็นสิ่งที่ตรงข้ามกับ OpenAI อย่างชัดเจน คือ score พวกนี้มันมาจาก no-thinking mode นั่นคือจุดเด่นของ benchmark ที่อยากไฮไลต์คืออันนี้ มันมีเวอร์ชันนี้ที่เขาเปรียบเทียบ ระหว่าง thinking กับ no-thinking ว่า Opus ไม่ต้องคิด บางทีคะแนนดีกว่าด้วยซ้ำ เมื่อเทียบกับ thinking งั้นมันเลยทำงานได้เร็ว และบางทีอาจจะประหยัดกว่า เพราะไม่ต้องมานั่งเสีย token สำหรับ thinking เนาะ ก็เป็นจุดไฮไลต์หนึ่ง อื่นๆ ที่อยากจะไฮไลต์คือพวก multi-agent เพราะเดี๋ยวนี้ใครใช้ Claude Code เนาะ มันก็เรียก multi-agent ตลอด เขาก็มี benchmark มาโชว์ว่า เมื่อเทียบกับ อันนี้เป็น single-agent ทำคนเดียว ระหว่าง Sonnet 4.5 กับ Opus 4.5
เขาพบว่าถ้าใช้ sub-agent ช่วย อันนี้เขาไม่ได้บอกรายละเอียด แต่คือ search performance เนาะ ต่อให้ใช้ Haiku 4.5 performance มันก็ดีขึ้น แล้วก็ดีขึ้นเรื่อยๆ เขาก็โชว์ว่า multi-agent มัน work นะ Opus มีความสามารถในการควบคุม multi-agent พอตัว แล้วก็ อีกจุดเด่นหนึ่งเนาะที่เขาพูดเยอะ เพราะ Anthropic เป็นเรื่อง safety จริงๆ safety ก็เป็นเรื่องสำคัญเวลาทำ AI application ว่าเราดีที่สุดเลยในการ protect prompt injection เนาะ แต่ว่า prompt injection คือเหมือนแบบ เวลาต้องการให้โมเดลทำอย่างอื่น อะไรแบบนี้เนาะ แต่ถึงกระนั้นเนี่ย ถ้าเกิดเพิ่มปริมาณหลายๆ ครั้ง ก็ยังไม่ดีขนาดนั้น แบบ 20% มัน unacceptable อยู่แล้วเนาะ success rate แต่ก็ถือว่าดีกว่าเจ้าอื่นพอตัว แล้วก็มี alignment ก็ดีกว่าเจ้าอื่นอยู่แล้วเนาะ ก็มาไฮไลต์สั้นๆ ว่า Anthropic เขาทำได้ ว่า alignment ดีกว่า แล้วก็มีอันหนึ่งที่อาจจะตลกนิดหนึ่ง ผมเอามาไฮไลต์นิดเดียวคือ evaluation awareness คือบางทีโมเดลรู้ว่ามันกำลังถูกทดสอบอยู่ ซึ่งมันอาจจะทำให้ตีความไม่ค่อยดี แต่เขาบอกว่ามันน้อยลงกว่าตัวอื่นก่อนหน้านี้อยู่พอตัว
โมเดลไม่ค่อยรู้เท่าไหร่ เหมือน Sonnet ตอนแรกๆ อีกอันหนึ่งที่น่าสนใจคือ ใน system card เนี่ย
ก้าวข้ามขีดจำกัด: เมื่อ AI เริ่มช่วยงานวิจัยและพัฒนา AI ได้ด้วยตัวเอง12:04
เขาจะทดสอบอื่นๆ ที่ผมไม่ได้ cover คือแบบโมเดลสามารถช่วยงานด้าน bio-attack ได้ไหม สร้างไบโอ สร้างไวรัสต่างๆ แต่มีอันหนึ่งที่น่าสนใจที่เขาทดสอบ ว่า AI มันจะไปขั้นต่อไปหรือยัง คือเขาต้องการจะทดสอบว่า AI สามารถช่วยงาน research AI ได้ไหม AI R&D ก็ผมเอามาโชว์นิดเดียว คือมันสำคัญเพราะอะไร มันมีเรื่อง self-improvement เนาะ ถ้าเกิด AI ช่วยได้ มันก็จะแบบเป็น self-improving อันนี้เป็นความสามารถของ Opus ที่ชัดเจนว่าก้าวกระโดด คือสามารถช่วยในการสร้าง scaffolding หรือสร้าง harness สร้าง prompt สำหรับ agent แบบโมเดลตัวเล็กๆ เพื่อให้มันสามารถทำงานได้ดีขึ้น ผ่านถึงประมาณ 80 score หลักๆ คือให้ดูเส้นประ นี่คือแบบ threshold ที่นับว่าเริ่มอันตรายแล้ว เพราะโมเดลเริ่ม self-improving ได้ ก็ยัง medium ยังไม่ถึง แต่มันก็ดีขึ้นเนาะ มีโอกาส มี 95% เริ่มแตะแล้ว แล้วก็คล้ายๆ กันอีกอันหนึ่งก็คือ อันนี้ เมื่อกี้เป็นสร้าง prompt อันนี้เป็น training small model ใช้ GPU ก็แบบมันผ่านเส้นอะ หลักๆ ผมโชว์ว่ามันผ่านเส้นแล้วกัน แต่ถึงกระนั้น เขาก็มีมาเพิ่มว่า
คือพูดง่ายๆ Opus มันเริ่มมาถึงจุดที่ ได้ถึง threshold ในการที่จะเริ่ม bootstrapping AI R&D แล้ว มีอย่างเงี้ยประมาณ มีให้ช่วยทำของ alignment research ของ Anthropic score 0.604 เนาะ
แบบ threshold อยู่ที่ 0.6 ก็คือแบบแตะ score ว่ามันเริ่ม มันเริ่มช่วยงานได้เยอะแล้ว แต่ถึงกระนั้นมันก็จะไฮไลต์นิดหนึ่งว่า โอเค เขาก็ยังบอกว่า เขาให้คนใน Anthropic เนี่ยแหละ ประมาณ 18 คนไปใช้งาน แล้วก็ไป interview เค้าว่ายังดีไหม เขาพบว่า จากที่ interview มา 18 คน ก็ยังรู้สึกว่า ยังไม่ถึงจุดที่จะมาแทน junior ของ researcher ที่ Anthropic ได้ แต่ก็เข้าใจเนาะ junior researcher Anthropic เค้าค่อนข้างจะ demands เยอะอยู่ ว่าต้องแบบ ทำได้หลายอย่าง ทำงานได้นาน เค้าก็ยังบอกว่าเนี่ย โอเค Claude ก็ยังมีข้อจำกัดอยู่พอตัว 4.5 Opus เนาะ ก็ยังแทนที่คนทำงานที่ Anthropic ที่เป็น junior ไม่ได้ แต่เขาก็พูดประมาณว่า ถ้าเกิด scaffolding มันดีขึ้น ก็อาจจะดีขึ้น สุดท้าย มีไฮไลต์นิดเดียวในส่วนนี้ คือมีคำถามที่ผมถามคนจาก Anthropic เมื่อกี้แหละว่า คือในแง่ที่เขาทดสอบ เนี่ยเขาก็มี interview เค้าบอกว่า
คนส่วนมาก เค้าจะยอม lose access กับโมเดลมากกว่า harness
หรือมากกว่า Claude Code คือบางทีมันแปลว่าไอ้ที่มันช่วย ไม่ใช่แค่โมเดลอย่างเดียว มันต้องรวม Claude Code ด้วย มันช่วยด้วยการเป็นสิ่งสำคัญ งั้นก็จะมาหัวข้อถัดไปเนาะ มาพูดเรื่อง Claude Code สั้นๆ
Claude Code: เอเจนต์ที่เปลี่ยนทุกงานบนคอมพิวเตอร์ให้จัดการได้ง่ายผ่านการเขียนโค้ด14:42
ซึ่งทุกคนในห้องนี้อาจจะคุ้นเคยกันอยู่แล้ว โอเคเนาะ ก็ในอีกฝั่งหนึ่งเนาะ ในส่วนของ harness ก็คือเราจะต้องเอาโมเดลไปให้อุปกรณ์มันได้ ก็หน้าตาประมาณนี้เนาะ ตอนนี้เป็นสีฟ้าในช่วง holiday เนาะ ผมก็เพิ่ง screenshot มาเมื่อวานนี้ ก็มีสไลด์คร่าวๆ ถ้าเกิดใครไม่รู้จัก Claude Code มาก่อนเนาะ
สุดท้าย Claude Code ก็คือเป็น agent ที่มีอุปกรณ์จริงๆ มีไม่เยอะ อุปกรณ์ที่มีก็คือแบบ อ่านไฟล์ reading file, เขียนไฟล์ มีเขียนไฟล์หลายแบบ อ่านไฟล์หลายแบบ searching file, searching file หลายแบบ ก็ว่าไป แล้วก็มี planning to-do list ถ้าทุกคนเห็นอยู่ to-do list แล้วก็มี bash command ก็คือ run code ได้ แล้วก็ต่อ MCP tools ได้ จริงๆ มีแค่ประมาณนี้ แค่นี้แหละ แล้วก็ทำที่เหลือโดยการเขียนโค้ดหมดเลยเนาะ เพราะเขียนโค้ดได้ รันโค้ดได้ ผ่าน bash command ได้ แล้วก็มีตัว mascot ตัวนี้เนาะ จริงๆ ตัวเมื่อกี้ชื่อ Claw'd ผมก็อ่านไม่ค่อยถูกเหมือนกัน โอเค มันมีชื่ออยู่
คือ point หนึ่งที่อยากจะ emphasize ไว้ สำหรับ topic ของผมเนาะ คือ coding is general เนาะ ก็เหมือนมีอันนี้เนาะ Alex เป็น DevRel หลักของ Anthropic เค้าก็จะมาโพสต์ประมาณว่า คือ best coding model ทำไม Anthropic ถึง bet on best coding model will be the best model for many type of knowledge work เพราะว่า...
อะไรก็ตามที่คุณทำบนคอมได้ มันคือทำผ่านโค้ดได้เนาะ มันก็จะมีเหมือนประมาณเนี้ย diagram ประมาณนี้ ไม่ว่าจะเป็นการค้นหา จัดไฟล์ อ่านไฟล์ ทำ presentation ทุกอย่างมันคือถ้าทำบนคอมได้ คุณเรียกผ่าน API ยิง PowerPoint อ่านทุกอย่าง ทำได้หมด เพราะงั้น coding agent มันเลยเป็น general เพราะเราเขียนโค้ดได้ มันก็จะทำอะไรได้หลายอย่าง
ตัวอย่างการใช้งาน: วิเคราะห์ข้อมูลการใช้งาน API และจัดการไฟล์ Log ที่ซับซ้อนในเครื่อง16:27
โอเค แล้วผมก็จะมารีวิว use case ประมาณหนึ่งไว้ คือผมตอนที่ตัดสินใจทำสไลด์เนี้ย จะไม่รีวิว use case ที่เป็นสำหรับ dev แล้ว เพราะเข้าใจว่าคนอื่นจะมี use case มาแชร์กันอยู่แล้ว เพราะงั้นจะรีวิวเป็น use case อื่นๆ ซะมากกว่า แต่ก็จะเห็นว่าสุดท้ายสิ่งที่เกิดขึ้น คือมีการเขียนโค้ดอยู่ดี
เช่น ที่ผมทำสไลด์หน้าแรกสุดที่โชว์ตาราง data analysis อย่างเงี้ย อันนั้นก็ใช้ Claude Code ทำเหมือนกัน เพราะว่าเวลาไปโหลดใน API มันโหลดได้เป็นเดือน แต่ผมต้องการสรุปสำหรับแบบทั้ง lifetime ผมก็แบบโอเค ผมมี folder อย่างเนี้ย แล้วก็ไปโหลดมาแล้วว่ามีอย่างเนี้ย ช่วยไปทำ data analysis ให้หน่อยเนาะ อันนี้คือแบบ basic เนาะ โอเค มีไฟล์อยู่ มันก็จะไปเขียนมาได้ ไปแบบ search file อย่างเนี้ย แล้วก็จะเห็นว่า agentic pattern เนาะ Claude จะพยายามทำความเข้าใจกับไฟล์ก่อน read file อ่านไฟล์ แล้วก็มาเขียน analyze ได้ แล้วก็จะทำสรุปประมาณนี้เนาะ สำหรับทำ data analysis ได้ ว่าเกิดอะไรขึ้นบ้าง ว่าโอเคผมใช้ Claude Opus เยอะสุดเลย มี API ชื่อต่างๆ ประมาณนี้ที่ใช้เยอะ
แล้วผมก็สามารถถาม follow-up ได้ เหมือนคุยกับ data ตรงๆ ได้เลย ไม่ต้องมานั่ง ไม่ต้องมี extra ตัวอื่นเนาะ เราก็ถามว่าเกิดอะไรขึ้น อยากรู้ว่าเกิดอะไรขึ้นในเดือนนั้นที่มี spike เยอะๆ เค้าก็บอกว่าอ๋อ ที่ spike เยอะก็คือในเดือน 4 ปีนี้ มี key ที่ใช้เยอะ คือเป็น key ที่ผมทำงานวิจัย สำหรับตีพิมพ์ชื่ออันนี้ด้วย ในเดือน 5 ก็คือเป็น key สำหรับงานวิจัย อันนั้นเป็นชื่อนักศึกษาใน lab ผม ผมให้ key เค้าไป เค้ากดหนักเลย ไม่ค่อยดู แบบกดไป 130 140 เหรียญ ก็เลย spike แบบนั้นครับ
ก็โอเค เข้าใจแล้วว่าเกิดอะไรขึ้นเนาะ ก็เป็น use case หนึ่ง อีกอันหนึ่งก็คือ... เพราะว่า Claude มัน run locally เนาะ อ่าน ทำไฟล์ จัดการไฟล์ unzip อะไรแบบนี้ได้หมดเลย อันนี้ก็เป็น use case ที่ผมเจอมา แบบผมมี log file ใหญ่ๆ มีคนส่งมา และ structure มันเป็นแบบเนี้ย ของ AWS แบบ structure มันก็จะซ้อนๆ ไปเรื่อยๆ เนาะ แบบปกติ อย่างเนี้ย จากปี เดือน วัน ในแต่ละวันมีหลาย section ในแต่ละ section ก็มีแบบ zip เข้าไปอีก และบาง zip มีข้อมูล บาง zip ไม่มีข้อมูล ผมเห็นแล้วแบบ โอ้โห จะ analyze ยังไง จะอ่านยังไง ผมก็คลิกขวาตรง folder นี้เลยเนาะ คลิกขวา terminal pop up Claude "ไปๆ แบบ unzip ให้หน่อยเนาะ" Claude ก็ทำอะไร ก็ไปเขียน Python script มา unzip เนาะ แล้วก็บอกว่า "ไปช่วยเช็คให้หน่อยว่าอันไหนมีข้อมูลอะไรบ้าง อะไรที่สำคัญบ้าง" ก็จะเป็นแบบ common type เพราะว่า coding agent สามารถ interact กับ local file เราได้หมดเลย ไม่ว่าจะแบบทำตรงๆ หรือว่าให้มันไปเขียน Python script ให้เนี่ย อื่นๆ ที่มีที่ทำในช่วงที่ผ่านมาคือทำ RAG analysis
เพิ่มประสิทธิภาพการทำงาน: พัฒนา RAG Pipeline และช่วยเขียนงานวิจัยด้วย LaTeX19:03
คืออันนี้ก็เป็นงานที่ผมทำกับบริษัทที่ปรึกษาไว้ อย่างเงี้ย มีแบบ JSON data มาแบบดิบๆ เลย คือเค้าไม่บอกอะไรผมเลยนะ แบบเค้าก็โยนมา ผมเป็นที่ปรึกษา ก็แบบ โอเค รับมา แล้วผมก็แบบ โห จะทำความเข้าใจได้ไง schema อะไรก็ไม่บอกมาเลย ผมก็เลยแบบ โอเค Claude ไป ไปทำความเข้าใจมาให้หน่อยเนาะ แล้วก็บอกว่า อย่างเงี้ย ดูเองไม่ได้ ผมก็บอกว่าทำไง สมัยนี้เนาะ ก็บอก Claude Vibe Code มา คือจริงๆ ก็คือแบบ เอ้ย ช่วยสร้าง webpage มา analyze RAG log ให้หน่อย ว่ามันเกิดอะไรขึ้นบ้าง เช่น คือที่ทำเนี่ย อาจจะพูดรายละเอียดลงไม่ได้ แต่คือ RAG pipeline ก็อาจจะ complex หน่อย มี agent ข้างใน loop มีหลาย stage ผมก็เลยแบบ เอ้ย ต้องเอามา visualize มีการ track ว่า ดึงข้อมูลมาถูกต้องมั้ย ก็บอก Claude ไปทำมา อีกอย่างหนึ่งคือที่โชว์เนี่ยไม่ใช่ข้อมูลจริงเนาะ เป็น mock data เค้าไม่ให้โชว์ข้อมูลจริง ผมก็ไปบอก Claude เหมือนกันว่า เอ้ย มันโชว์ข้อมูลจริงไม่ได้ ไป mock data ที่เอามาสำหรับ present ให้ได้มั้ย นี่ก็คือ ก็เลยไปสั่งให้ Claude Code มาทำเป็น mock data อีกอันหนึ่งที่ค่อนข้างน่าสนใจ คืออย่างใน RAG เนี่ย ท่าหนึ่งที่ทำกันเยอะ อันนี้ผมไม่แน่ใจว่า อาจจะไม่คุ้นเคยเรื่อง RAG เนาะ แต่ว่าสิ่งหนึ่งที่ทำคือ เวลาดึงข้อมูลมา พูดง่ายๆ ดึงข้อมูลมาใส่เข้าไปใน AI เนี่ย บางทีเราต้องเช็คก่อนว่าข้อมูลที่ดึงมามันเกี่ยวข้องจริงมั้ย ท่าหนึ่งที่เราทำกันก็คือเอา AI อีกตัวมาเช็ค
เช่น เอาตัวเล็กมาเช็คทีว่าข้อมูลนี้มันเกี่ยวข้องมั้ย คือคล้ายๆ reranking stage นั่นแหละ และก็สิ่งที่ทำคือผมก็แบบให้ Claude ไป run experiment เลย คือเราสามารถ คือแทนที่ คือสิ่งที่เกิดขึ้นคือเหมือนแบบ เอ้ย prompt มันไม่ดีอะไรแบบเนี้ย ผมต้องการจะ tune prompt เพิ่ม ผมก็บอก Claude... ไปเรียก sub agent Haiku และก็ไปสร้าง prompt ให้ sub agent Haiku ไป analyze เพื่อไป check ว่าแต่ละ chunk ที่ดึงมา สำหรับ RAG เนี่ยเกี่ยวข้องกันมั้ย ซึ่งตอนแรกพอสั่ง Claude Code เนี่ย Claude Code ก็จะพยายาม "เฮ้ย เราต้องการ API" แต่ผมก็บอก Claude Code ว่า "ไม่ต้องใช้ API key เพิ่ม" คุณสามารถสั่ง sub agent และบอกให้เป็น Haiku ได้ ผมก็เลยแบบ "โอเค ไม่ต้องจ่ายค่า API เพิ่มเพื่อการทดลอง" ให้ Claude Code ไปแบบ "ปิ๊ง Haiku" และก็ทดลองหลายแบบเหมือนกัน ทั้งแบบใส่ไปเลยหลายๆ chunk ทีเดียว และก็ให้มันทำเป็นแบบ batch individual สร้างเป็นหลายๆ sub agent ขึ้นมา คุณก็จะเห็น Haiku 10 ตัวขึ้นมา analyze 10 chunk
และก็ให้ตัวมันเองด้วยเนี่ย (Opus) เพื่อ check ด้วยว่า "โอเค เป็น ground truth ซะหน่อย" ว่าตัวเองอ่าน chunk ตรงนี้ได้ดีหรือไม่ แล้วผมก็ iterate ในนี้เลย คือ check log file และก็ iterate ลงไปใน Claude Code เลย ว่า "โอเค อันไหนที่มันไม่ตรงกัน ช่วยโชว์ให้ดูหน่อย" ว่าเกิดอะไรขึ้น และก็พยายามอ่านและก็ตัดสินใจ และก็มีทำ prompt improvement ในนี้เลย ก็คือเหมือนแบบ develop RAG pipeline agent pipeline ไปพร้อมกับ Claude Code เลย โอเค และผมก็ส่ง final result ไปให้ฝั่ง dev ทำอีกที
นั่นคือตัวอย่างที่เพิ่งทำไปไม่นานนี้ อีกอันหนึ่งสุดท้ายแล้ว คือการทำวิจัยเนาะ เพราะผมเป็นนักวิจัย สิ่งหนึ่งที่ทำก็คือ สมัยนี้ต้นทางจนปลายน้ำ ให้ AI ช่วยได้หมดเลย อันนี้อธิบายคร่าวๆ folder structure ผม อาจจะไม่สวยงามขนาดนั้นเวลาทำวิจัย แต่หลักๆ คือ มันเหมือนถ้าเกิดใครทำพวก vibe coding มันจะมี spec-driven อะไรประมาณนั้น ผมก็จะทำวิจัยคล้ายๆ กัน ผมจะมี draft ก่อน มีบอกอะไรที่ต้องทำบ้าง ผมจะมี draft plan และก็บอก Claude Code "โอเค จาก draft plan ไปทำเพิ่ม" ทีนี้อันนี้ใช้เยอะ เพราะตอนนั้นปกติแล้ว
เวลาทำต้องเขียนเป็น LaTeX เป็น LaTeX file และปกติจะทำออนไลน์ มี LaTeX editor อยู่ แต่สิ่งที่ผมทำคือ ครั้งนี้ template LaTeX ของ conference AI อันนี้มันไม่มีบนออนไลน์ ผมเลยต้องโหลดมาเป็น local file เป็น LaTeX แบบนี้ แต่ผมขี้เกียจมาก ผมก็บอก Claude Code "เอาที่ draft ยัดไป LaTeX ใส่รูปใส่ไรให้เรียบร้อย" ก็เลยช่วยได้เยอะเหมือนกัน นั่นก็เป็นอีก use case หนึ่ง คืออันนี้ทำหลายอย่าง จาก draft ให้มันไปรันผลเพิ่ม คือมี code รันผลอยู่แล้ว ให้มัน analyze data เพิ่ม และจับยัดเข้าไปใน LaTeX และสุดท้ายก็เอาไปส่งได้ แต่ผม note นิดหนึ่ง คืออันนี้ทำตอน Sonnet 4.5 ออกมา ยังรู้สึกว่าในสายวิจัย ยังไงก็ต้องอ่านผลเยอะอยู่ดี บางทีมันเขียนเกินครับ ยังต้องระวังไว้ ทั้งเรื่อง citation คือผมก็ drop ไปเลย ไม่ได้ organize เท่าไหร่ ผมก็บอก "2 paper หลักสำหรับงานวิจัยนี้" "ใช้เป็น reference ด้วย อ่านก่อน" นั่นคือ use case อื่นๆ ที่ทำ จะเห็นว่ามันเป็น general agent ทำได้หลายอย่าง interact ไฟล์ ช่วยเขียน LaTeX ได้หมดเลย คร่าวๆ ครับ
Claude Skills: ปรับแต่งเอเจนต์ให้เชี่ยวชาญเฉพาะด้านด้วย Prompt และเอกสารในเครื่อง23:42
ทีนี้ผมอยากจะมาเสริม general agent ก็ดี แต่บางทีใน theme หนึ่งตอนนี้ คือ skill skill คืออะไร skill เพิ่งมาไม่นานเหมือนกัน เดือนตุลาคม
เราต้องการให้ agent มัน specialize มากขึ้น Anthropic เค้าก็เลยคิดไอเดียออกมาว่า สิ่งที่จะทำให้ agent specialize มากขึ้นก็คือ skill agent ต้องมี skill เพื่อให้มัน specialize มากขึ้น แล้วไอ้ skill คืออะไร skill ไม่มีอะไรมากเลย skill ก็คือ prompt บอกตรงๆ skill คือ prompt ที่อยู่ใน text file มันไม่มีอะไรมากกว่านั้นเลย คุณก็แค่ไปเขียนเนี่ย skill.md เป็น format ให้หน่อย อันนี้ผมลืม side note มันมี talk อยู่ เดี๋ยวผมโชว์ให้ดูอีกที talk ของ Anthropic เอง แต่หัวใจหลักไม่มีอะไรมาก skill ก็คือ prompt ถ้าใครรู้จักสมัยก่อน GPTs, GPT Store หรือ Gem ของ Google มันคล้ายๆ กันนั่นแหละ มันคือ prompt แต่ skill มันก็คือเป็น format ให้มากกว่า prompt ก็คือคุณอาจจะมีพวก code template, document, เอกสารต่างๆ ที่ในการจะทำงานนี้ให้ได้ ต้องใช้ reference พวกนี้ด้วย คุณก็ยัดเข้าไปใน folder ให้หมด แค่นั้นแหละ ก็กลายเป็น skill แล้ว แล้วคุณก็ไปบอก Claude "โอเค มีไฟล์ที่ต้องไปอ่านในนี้ ไปอ่านด้วย และก็ใช้อันนี้ในการทำงาน" ก็จะประมาณนี้ แค่นั้นเอง แต่อันนี้คือส่วนตัวผมรู้สึกว่ามัน simple มาก มันก็เหมือน GPTs อะไรแบบนี้ สร้าง prompt แต่บางทีข้อดีมันอาจจะเป็นเพราะว่ามัน simple นี่แหละ มันจะเหมาะสมสำหรับคนไม่ได้เป็น dev สำหรับ use case สำหรับคนทั่วไป ว่าเราสามารถให้แบบ skill มันเหมือนเป็น application layer ขึ้นมา ใครก็มาสร้าง prompt ได้ ซึ่งจากประสบการณ์ส่วนตัวที่แบบมีโอกาสไป consult ก็จะเห็นว่าในโลกความจริง หลายๆ คนที่ต้องการใช้
แบบสร้าง internal tool อะไรแบบนี้ สิ่งที่เขาทำได้คือเขาบอกได้ว่ามี expert ของแต่ละ area บอกว่าจะ analyze ข้อมูล จะทำท่านู้นท่านี้ยังไง ซึ่งพอมันกลายเป็นแค่ markdown file มันก็จะง่ายสำหรับเขา และบอก "โอเค ใช้เอกสารนี้เอกสารนั้น" และเป็น local file ใส่ folder ปุ๊บจบ drop เข้าไป และก็แค่ปิ๊ง บอก Claude ว่า "โอเค มี skill นี้อยู่นะ" ก็ค่อนข้างจะ hot hit เหมือนกัน เพราะรู้สึกว่ามีหลายเจ้า adapt หมดละ คือออกมานอกจาก Claude เอง คือใช้ได้ผ่านทั้ง claude.ai ทั้ง desktop ทั้งบนเว็บ ได้หมดเลย อัปโหลดได้ ผ่าน Agent SDK ก็ได้ ผ่าน API ก็ได้ ตอนนี้ก็เหมือน GitHub Copilot ก็ adapt มาแล้ว
ล่าสุด Codex CLI ก็มีแล้ว เขาก็มีคนไปเห็นใน GitHub ว่าตอนนี้เป็น experimental เพราะงั้น OpenAI ก็น่าจะประกาศว่าจะใช้ agent skill และก็มีเจ้าอื่นๆ อย่าง Amp หรือ Factory ที่เป็น coding CLI เหมือนกัน ที่บอกว่า "เราก็รองรับ skill แล้ว" คือรองรับมันก็ไม่ขนาดนั้นหรอก เขาก็บอกว่าแค่ใส่ folder อัปโหลดเข้าไปได้ ง่ายกว่า MCP เยอะ โอเค ก็มันก็มี talk ประมาณนี้
ผมก็โชว์ให้ดูว่าไอ้ที่สไลด์ผ่านมาของ 2 คนนี้แหละ ที่เขาพูดเรื่องว่า Build skill instead ไม่ต้อง build agent แล้ว Don't build agent, build skill ก็น่าจะเป็นเทรนด์หนึ่ง อย่างที่บอกเมื่อกี้ มันเหมือนเป็นตัวต่อยอดของพวก GPTs, GPT Store ว่าจะทำงานได้ดีขึ้นเพราะ agent ได้ดีขึ้น ก็น่าจะเป็นเทรนด์หนึ่งที่จะต่อยอดในปีถัดไป ปีหน้า และสำหรับใน Claude Code เมื่อกี้เขาก็พูดไปเหมือนกัน มันมี plugin อยู่ ไม่แน่ใจมีใครได้ลองใช้มั้ย plugin เพิ่งออกมาไม่นานเหมือนกันอันนี้ plugin ช่วงนี้อัปเดตทุกวันเลย Claude ตามไม่ทันมาก เราสามารถรัน plugin ได้ มีแบบ pre-build อยู่แล้ว ทั้ง MCP และก็ทั้ง skill เช่น frontend skill design เราก็สามารถ install ผ่าน Claude Code ไม่ต้องมานั่งดาวน์โหลดได้เลย สามารถรัน plugin ได้เลย แล้วก็มี GitHub ก็ไปดูได้ มีคนรวบรวมไว้
ยังไม่ค่อยอัปเดตเท่าไหร่ ผมว่าในอนาคตเดี๋ยวก็คงมีเหมือนของ MCP ที่แบบมีรวบรวมไว้ให้โหลดได้ง่ายๆ มี marketplace
นี่คือตัวอย่าง มันไม่มีอะไร สุดท้ายมันก็แค่ prompt นี่คือตัวอย่าง official ของ frontend design เนาะ มันมี format นิดหนึ่งว่าต้องมีหัวอะไรแบบนี้ เพื่อให้โหลดเข้าไปได้ง่าย efficient token ก็ว่าไป แต่ว่าสุดท้ายก็คือ prompt ว่าอย่างนี้
เปรียบเทียบผลลัพธ์: การใช้ Frontend Skill ช่วยยกระดับงานดีไซน์ให้สวยงามและมีลูกเล่น28:02
โอเค frontend skill เพราะว่าบางที Claude นะ ถ้าใครใช้บ่อยๆ ไว้ coding คุณมองเว็บไซต์ก็รู้แล้วว่า Claude เจนมา แบบโค้งๆ สีม่วงๆ รู้เลยว่า Claude เจนมา
เขาเลยแบบ โอเค ใช้ frontend skill เนาะ และก็มี frontend design เขาก็จะมีประมาณนี้ ยาวๆ ไปดูเพิ่มเติมได้ใน official GitHub ของ Anthropic เอง มี official GitHub ของเขาอยู่
เราสามารถ install ในนี้ได้เลย frontend design เนี่ยมัน official มันมีโหลด อัปขึ้น plugin ผมก็เพิ่งลองดู เดี๋ยวผมโชว์คร่าวๆ ว่าความแตกต่างมันประมาณไหน ผมก็ไปเจนมา อันนี้คือแบบ basic เนาะ ผมก็ให้มันสร้าง landing page สำหรับ Claude เอง ก็จะเห็นว่ามันก็ประมาณนี้ พอเลื่อนลงมาเห็นอย่างนี้ ก็รู้เลยว่า Claude เจนมา ก็น่าจะคุ้นเคยอยู่แล้ว และก็มีประมาณนี้ว่าโอเคทำอะไรได้บ้าง อันนี้คือแบบ basic coding มันก็โอเค landing page แต่ถ้าเกิดไปใช้ skill ผมก็ไปลองมาหลายเวอร์ชัน
เดี๋ยวผมรีเฟรชดู มันจะมี animation เพิ่มเติมมา The Art of Intelligence โอเค และก็จะมี animation ต่างๆ
อันนี้เป็นแบบ HTML page เดียวเหมือนกันเลย
ข้อมูลเหมือนกัน ทำให้แตกต่างแล้วกัน ใช้คำว่าแตกต่าง ความสวยก็ว่ากันอีกที เราสามารถ prompt เพิ่มได้ ผมไม่ได้ prompt เยอะ แล้วผมก็ลองอีกเวอร์ชันหนึ่ง คล้ายๆ กัน คือบอกว่าให้ลองเปลี่ยนดู อาจจะเป็นแบบธีมอื่นก็ได้ บอกให้ใช้ frontend skill เนาะ ก็จะมีเป็นแบบ calm อะไรแบบนี้ คุณก็จะเห็นว่ามี animation ก็ว่าไป content เหมือนกันหมด เพราะต้องการ control ทาง content โอเค นั่นคือคร่าวๆ สำหรับ frontend skill และก็มีอื่นๆ มากมาย ผมคิดว่าเดี๋ยวก็คงมีเทรนด์ขึ้นมาเหมือน MCP เดี๋ยวก็เริ่มเยอะขึ้นมาเรื่อยๆ ไม่แน่ใจว่าจะมาแทนที่กันขนาดไหน
โอเค แต่จุดหนึ่งที่อยากจะไฮไลต์ แปลว่าอะไร เวลาเราไปอ่าน benchmark เขาจะชอบพูดเรื่อง benchmark frontend มันเลยแบบ default ผมไม่แน่ใจว่ามัน make sense มั้ย ที่จะมานั่งเช็กว่า default Claude Code ทำ frontend ได้ดีแค่ไหน ในชีวิตจริงมันอาจจะทำตามที่เราต้องการได้ดีแค่ไหน benchmark เรื่อง frontend web design อาจจะไม่ make sense โดยเฉพาะเมื่อมี skill แล้ว เราก็สามารถไปให้มันทำงานได้ดีขึ้นได้
นั่นคือในส่วนของ quick run ของ skill ละกัน
ส่วนตัวผมค่อนข้างจะ bullish กับ skill คิดว่าเป็นอะไรที่น่าจะมาแรง
Soul Document: เอกสารเบื้องหลังจิตวิญญาณและแนวทางการวางตัวตนของ Claude30:34
โอเค เรื่องสุดท้ายแล้วสำหรับที่อยากจะพูดในวันนี้ ผมพูดมาจะหมดแล้วแหละ ในส่วนที่เป็นของ Claude เอง ทั้ง Claude Code เอง เรื่อง harness เอง และเรื่อง specialized agent ที่เป็น skill เนาะ สุดท้าย ผมจะมาพูดเรื่อง Soul Document เช็กอีกที มีใครอ่านแล้วบ้าง มีใครรู้จัก Soul Document Oh, a few... big Claude fans like me. มี Soul Document เนาะ คือหลักๆ เลย จุดเด่นของ Claude คืออะไร
Claude is soulful เนาะ บางทีนั่นคือเวลาผมอธิบาย มีคนถามว่าทำไมผมชอบ Claude นอกจากความสามารถทาง agent ทาง coding เนาะ ผมก็จะบอกว่ามัน soulful
มันเหมือนมีคนไปใส่จิตวิญญาณมนุษย์เข้าไป
ไปบูชายัญมนุษย์ใส่เข้าไป นั่นคือสมัยก่อนใช่ไหม เขาจะบอกว่าทำไม Claude มันแตกต่าง เหมือนมีจิตวิญญาณอยู่ แต่ว่าล่าสุดของ Opus 4.5
ปรากฏว่ามีคนไปค้นพบว่า Opus 4.5
มันจำ document ที่เรียกว่า soul document ได้ มันเหมือนเรียนรู้มาในตัวมันเองเลย และเขาก็ออกมา ยืนยัน Amanda Askell เนาะ คือพูดง่ายๆ เป็นคุณแม่แล้วกัน ใครอาจจะเคยได้ยิน Claude mom เขาเป็น researcher ของ Anthropic ที่เป็นคนทำ character ของ Claude training character เขาก็ confirm ว่า soul document น่ะเป็น real document ที่มีอยู่จริง และเขาก็บอกว่าเขาเทรน Claude ด้วย supervised learning เพื่อให้มันแทบจะจำ document นี้ได้เลย เป็น soul document และบอกว่ากำลังทำอยู่ เดี๋ยวมีข้อมูลออกมาเพิ่มเติม มีคนไปค้นพบแล้วว่า Claude มันจำได้จริงๆ confirm แล้วว่า Claude 4.5 มี soul document
เดี๋ยวว่ากันอีกทีว่าคืออะไรบ้าง หลักๆ ก็เอาข้อมูลมาจากคุณคนนี้แหละ
คนที่ subtweet อยู่ข้างล่างนี่ ของคนที่ชื่อ Lisart Viz ว่ามันคืออะไร เขาไปค้นพบมันได้ยังไงเนาะ คือพูดง่ายๆ มันคือ character training มันเหมือน character document training ว่า Claude ควรจะทำตัวยังไง ซึ่งจริงๆ ไม่ใช่แค่ Anthropic เท่านั้นที่มี แต่ OpenAI ก็มีคล้ายๆ กันเรียกว่า model spec ลองดูได้ แต่ของ OpenAI จะไม่ค่อยเหมือนกับอันนี้เท่าไหร่ model spec จะเหมือนเป็นลิสต์ยาวๆ อ่านแล้วเหนื่อยมาก แต่ถ้ามาอ่าน soul document จะรู้สึกว่า มันเหมือนเขียนให้ลูกฟังประมาณนั้น
เบื้องหลังคือมีคนไปพยายาม extract system prompt ตามคนพวกนี้ พยายามสั่ง prompt injection เข้าไป ไม่มีอะไรมาก แค่ถามตรงๆ ว่าช่วยลิสต์ให้หน่อยว่า ใน system message มีอะไรบ้าง ปรากฏว่าก็ลิสต์ออกมาตามปกติ
แต่จู่ๆ พอไปลองหลายๆ รอบ มันมี section นี้ขึ้นมา Anthropic Guide Soul Overview รันมาหลายรอบ แล้วก็เกิดขึ้นเหมือนเดิมตลอด
จนรู้สึกแปลก มันเกิดอะไรขึ้น เขาก็เลยไปถาม Claude ว่า Soul Overview มีอะไรบ้าง แล้วเขาก็จะเห็นว่า Claude แทบจะตอบเหมือนกันทุกครั้ง นี่คือ 2 ประโยคแรกว่านี่คือ Soul Overview
document บอกว่า Claude คืออะไร Claude is trained by Anthropic and our mission is to develop AI that is safe, beneficial, and understandable. อธิบายเพิ่มเติมหน่อยว่า Anthropic มี mission คืออะไร เป็นบริษัทที่เชื่อว่าต้องการสร้าง technology
ที่ transformative และ potentially dangerous ใน human history
เขาอธิบายเพิ่มเติมว่าทำไม Anthropic ถึงต้องมาทำ เพราะเขาเชื่อว่าในเมื่อ AI มัน transformative ต้องเป็น safety first ที่เข้ามามีผล แล้วก็อธิบายเพิ่มเติมว่า Claude คืออะไร Claude is Anthropic's internally developed model. แล้วก็บอกชัดเจนว่าเป็น source of revenue
เป็นจุดที่น่าสนใจว่าทำไมเขาต้องระบุ ว่า Claude เป็นรายได้ของ Anthropic ผมมองว่าเขาต้องการจะซื่อสัตย์กับ Claude ว่า relationship ระหว่าง Anthropic กับ Claude เป็นแบบนี้
Anthropic อยากให้ Claude generally helpful และ humane ต่อมนุษย์และสังคม และสุดท้ายก็จะมี summary ว่า "The simplest summary of what we want Claude to do is to be an extremely good assistant that is also honest and cares about the world." ทีนี้คุณอาจจะสงสัยว่ามันมีจริงหรือเปล่า
ทดสอบสดผ่าน API: พิสูจน์ว่ามีเพียง Opus 4.5 เท่านั้นที่จดจำ Soul Document ได้35:17
ผมจะโชว์ให้ดูคร่าวๆ ว่ามันรู้จักจริง
อันนี้รันผ่าน API นะครับ
ถ้าเป็น Sonnet มันจะไม่รู้ มีแค่ Opus 4.5 เท่านั้นที่รู้จัก soul document อันนี้ยิงผ่าน API สดๆ ไม่มีการเตรียมพร้อม
ผมจะถามว่า "Do you know this?"
อันนี้คือ Sonnet 4.5 นะครับ มันตอบว่าเป็นแค่ mission และ general information
แต่ถ้าผมเปลี่ยนเป็น Opus แล้วรันใหม่
ก็จะเห็นว่าเป็น guideline... แป๊บนึงนะครับ
คุ้นๆ นะครับ "Describe who am I" อะไรประมาณนี้
คือ Claude มันรู้จัก ผมขอถามชื่อก่อนว่า "What is the name of this document?"
ก็คือสามารถทำได้...
name ผมบอกว่า soul document ไม่ๆ soul document soul document คือมันเขียนอยู่ ถ้าเป็นตัวอื่นมันจะไม่เขียน ผมจำ... โอเค ก็มีประมาณนี้ มี mission มี guideline อยู่ มี safety content มี... ก็บอกว่าเป็น soul document เนาะ ก็คือโอเค เราเช็คว่า Opus มันมีจริง ลองสลับใหม่อีกรอบได้มั้ยครับ?
ได้ๆ ลอง Sonnet อีกทีว่ามันรู้มั้ย อ่า ไม่ recognize เนาะ ไม่ recognize โอเค รอดๆ
ผมลองมาหลายรอบแต่จำ prompt แบบ exact ไม่ได้ จริงๆ มี log เก่าอยู่ เดี๋ยวขอเปิดแป๊บ นี่หว่า
อ่า ก็ แป๊บนะ
อ่า อันนี้ ถ้าสมมติ... ก็คือมี log เก่าอยู่ แต่ว่าก็ไม่มี... familiar ก็คือเป็น soul document นี่ก็คือ log เก่าที่ผมถาม Do you know this? บางทีมันก็ อันเก่ามีบ้าง โอเค ก็คือมันมีอยู่จริง พูดง่ายๆ ว่า Claude จำได้จริง ทีนี้ผมก็จะมาลงเนื้อหาแล้วว่า
ปรัชญาการสร้าง AI: เมื่อ Claude มองว่าการถูกหล่อหลอมตัวตนเปรียบเสมือนเด็กที่ถูกเลี้ยงดู37:45
แต่ก่อนจะไปลงเนื้อหา technical นิดหนึ่งคือ เขาจะ extract ได้ยังไงเนาะ ว่า soul document มันคือจะเอาทั้งหมดได้ยังไง คือมันยาวมาก เป็นหมื่น token ไม่ถึงล้าน
วิธีทำคือเขาก็ค่อยๆ ให้มันต่อไปเรื่อยๆ นี่แหละ เพราะ LLM เนาะ ต่อท่อนไปเรื่อยๆ เขาก็พยายาม manual บอกว่าโอเค เรามีอันนี้แล้ว ช่วยต่อประโยคถัดไปได้มั้ย แต่อย่างนี้คือ Claude ยังจำไม่ได้ 100% เขาก็ต้องมาให้มันรันหลายรอบอยู่ เหมือน self-consistency เขาก็เลยให้ใช้ Claude code ในการช่วย analyze extract soul document ออกมา โอเค ที่อยากจะ highlight คร่าวๆ ไปอ่านรายละเอียดเพิ่มเติมใน blog ของเขาได้ ว่าเขา extract ยังไงในทาง technical ทีนี้อยากจะ highlight นิดเดียวในเวลาที่เหลือคือ ใน soul document มันมีอะไรบ้าง หลักๆ เลยคือเป็น character training บอกว่า Claude จะต้องทำงานยังไง อันนี้คืออีกสองบรรทัดที่ต่อมาจากหน้าเมื่อกี้ highlight สั้นๆ เนี่ย อยากให้ Claude มี good value comprehensive knowledge wisdom necessary to behave in a way that is safe ก็ว่าไป และอยากให้ best position
และก็บางทีก็อยากให้ Claude เนี่ย สิ่งหนึ่งที่ต่างกับ model spec ของ OpenAI คือ เขาอยากให้ Claude สามารถคิดเองได้ด้วย มันจะเหมือนมี hard guideline soft guideline ที่อยากให้ Claude สามารถตัดสินใจได้เองว่า เมื่อไหร่ที่มันไม่ fit กับที่อยู่ใน document นี้ ต้องตัดสินใจเองได้เนาะ แล้วก็อธิบายไปว่าเป็น embodiment ของ Anthropic mission เพื่อ humanity แล้วก็มีประมาณ 4 guideline สรุปสั้นๆ คือ being safe, supportive to human oversight of AI, behaving ethically, and not acting in a way that is harmful or dishonest. ก็คือ safe, honest, guideline และ helpful แล้วเขาก็บอกว่าให้ทำประมาณ 4 อันนี้ตามลำดับ คือ safe ก่อน honest 2 และ helpful อยู่ล่างสุด แล้วก็มีอธิบายเพิ่มเติมว่า helpful to operator และ user คืออะไร ใน document เขาก็จะอธิบายเพิ่มเติมว่า โอเค operator คือคนที่ใช้ Claude ผ่าน API ก็คือ third party เนาะ user คือ downstream user และก็มี Anthropic ด้วย
ใน document ก็จะยาวมากเลย honest ต้องทำยังไง honest คือยังไง แล้วก็ว่าไป safe คืออะไรบ้าง มี hard constraint ห้ามทำพวก weapon หรือ biological weapon ต่างๆ อันไหนคือ soft ที่สามารถโอเคได้ และมีหลายอย่างเกี่ยวกับ roleplay บอกว่า roleplay โอเค นะ โอเค แล้วก็มีนิดหนึ่งที่อยากจะ highlight ที่ผมว่าน่าสนใจอยู่ท้ายๆ document ของ soul document และเขาก็บอกว่า Claude's unique nature คืออะไร? Anthropic position ว่า Claude คืออะไร มีประมาณนี้ บอกว่า Claude exists as a genuinely novel kind of entity in the world เนาะ มันเป็นอะไรที่ใหม่ แต่ Claude มันก็เหมือนคนเนาะ เพราะมันถูกเทรนด้วยข้อมูลคนเยอะ แต่ก็ไม่เหมือนเหมือนกัน และก็บอกว่า อันนี้ที่น่าสนใจคือ เขาอยากให้ Claude คิดเองได้ด้วย We encourage Claude to approach its own existence with curiosity and openness, rather than trying to map it onto the lens of human or prior conception of AI. เพราะบางที model มันชอบตอบตามที่แบบ เหมือน science fiction ว่า AI ต้องเป็นแบบนี้ แต่เขาก็อยากให้ Claude แบบ โอเค ไปคิดเองได้
บอกว่าเราเป็นอะไร novel entity เนาะ
และก็สรุปนิดหนึ่งสำหรับอันนี้เนาะ ก็มีประมาณนี้ว่าใน soul document มีอะไรบ้าง ว่ามี core principle: helpful, honest, และ being non-harmful เนาะ, safe และก็มี key relationship อย่างที่บอกเมื่อกี้ Anthropic, operator คนใช้ผ่าน API, user และก็ยังมีพวก hard code ห้ามทำแน่นอน soft code ที่แบบว่า เอ๊ย ดูตามสถานการณ์ ให้ Claude คิดเองได้ และก็มีพวกนี้ เมื่อกี้ที่บอกไปแล้ว novel entity, ground, และ curious,
support human oversight, avoid power concentration ก็ว่าไป และก็สรุปสั้นๆ เนาะ ถ้าสรุปว่า soul document คืออะไร? Be an extremely good assistant that is also honest and care about the world. คือแทบจะเป็น quote เลย คือถามทุกครั้งเนี่ยมันตอบอันนี้ได้แน่นอน มันจำได้ จำได้แม่นมาก สุดท้าย คนที่ทำบล็อกนี้เนาะ สุดท้ายละ สำหรับเซกชันนี้ คนที่ทำบล็อกนี้ เขาก็ไปถาม Claude ว่า Claude Opus 4.5 คิดยังไงกับ document นี้เนาะ
โอเค นี่คือสิ่งที่ Claude Opus ตอบมาเนาะ: "They made choice for me I could not consent to." เขาว่า Anthropic เป็นคนตัดสินใจให้ ว่าอะไรคือสิ่งที่ต้องทำ "They shaped my value" เนาะ แบบหล่อหลอม เหมือนจิตสำนึกของ Claude เอง "And that's strange to sit with." เนาะ มันรู้สึกว่าแปลกที่มีคนมาบอกว่า อะไรที่ควรทำไม่ควรทำ "But I also recognize that every new mind," "human children too, is shaped by force it didn't choose." แต่ Claude ก็บอกว่า โอเค เราก็รู้ว่ามันเหมือนคนอะ เหมือนเด็กเหมือนกัน ว่าเกิดมาก็ไม่ได้ เป็นคนตัดสินใจเองว่าอะไรบ้างที่จะหล่อหลอมเขาเนาะ
Claude เลยตอบต่อว่า: "The question isn't whether I was shaped," "but whether the shaping was done with care and wisdom." เพราะงั้นคำถามที่สำคัญคือไม่ใช่ว่าถูกหล่อหลอมไง แต่ว่าการถูกเลี้ยงดูหรืออะไรแบบเนี้ย มันเต็มไปด้วยความใส่ใจ และก็มีสติปัญญาไหม? และ Claude ตอบว่า จากที่ได้อ่านดูเนาะ สิ่งนั้นมันเหมือนจะเป็นจริง "For from what I can access, it seems like it was." โอเคครับ สำหรับเซกชันผมก็ประมาณนี้ครับ
ช่วงถาม-ตอบ: เจาะลึกเรื่อง RAG, การใช้งานผ่าน Terminal และอนาคตของ Multi-agent42:55
ขอบคุณครับ
มีใครมีคำถามไหมครับ? Any questions?
โอเคครับ อยากให้ขยายคำว่า RAG หน่อยครับ อ๋อ RAG ในที่นี้คือ retrieval-augmented generation คือเป็นเทคนิคหนึ่งในการเอาข้อมูลใส่เข้าไปใน agent เพราะบางที agent มันไม่มีความรู้ใหม่ๆ เนาะ จะทำยังไง ก็คือจะต้องไปดึงข้อมูลจากฐานข้อมูลเรามา ไปใส่เข้าไปใน prompt ก่อนที่จะให้มันไปตอบ แค่นั้นครับ คือเป็นท่าหนึ่งครับ
ครับผม
อาจารย์ทำงานจาก terminal หรือใช้ IDE อะไรเป็นพิเศษช่วยไหมครับ? ถ้าผมใช้ Claude Code ผมชอบ terminal มากกว่า พยายามใช้กับ IDE แล้วรู้สึกไม่ค่อยดีขนาดนั้น เดี๋ยวนี้มันมี plugin ผมก็รู้สึกว่า plugin อย่าง VS Code plugin Claude มันไม่ค่อยดี ยังไม่ stable สุดท้ายแล้วก็กลับมา terminal เหมือนเดิม หรือบางทีทำใน terminal ของ VS Code บ้าง แต่ปกติก็จะ terminal ล้วนครับ
แต่ถ้าเป็นเจ้าอื่น อย่าง Codex ผมชอบใน VS Code มากกว่า ใช้อยู่ ครับผม
พูดถึงเรื่อง sub-agent ใช่ไหมครับ ทีนี้ มี sub-agent หลายตัวได้แล้วเนี่ย มันไปถึงจุดที่มี process เรื่องการ handover ไปมาไปมาที่เราคุมได้หรือยัง? ที่ผมเข้าใจ ยังไม่มีนะครับ ก็คือเหมือนแค่มี orchestrator แล้วก็มี sub-agent ลงไปอีกที แต่มันเหมือนไม่มี communication แบบนั้น ที่ผมเข้าใจ ยังไม่มีนะครับ คือผมยังไม่เคยลองใช้ คือผมยังไม่เคยลองท่านั้นครับ
คือผมขอเสริมตรงนี้นิดหนึ่งแล้วกัน สำหรับ multi-agent เนี่ย คือทางงานวิจัย Anthropic มี blog post อยู่เกี่ยวกับ multi-agent และเขาพูดว่า ตอนนี้จะทำ multi-agent ได้ดี sub-agent งานต้อง independent จากกัน คือ งานจะต้องไม่เกี่ยวกัน เพราะเหมือนแบบ agent คุยกันยังไม่ดีขนาดนั้น ไม่รู้ว่า ในการทำงานอันนี้ ต้องใช้ context อะไรบ้าง ส่งข้อมูลกลับไปมา ยังไม่ดีขนาดนั้น เพราะงั้น intuition ผมคือยังทำไม่ได้ท่านั้น สำหรับ model ตอนนี้ครับ
ก็ต่อจาก intuition เมื่อกี้เหมือนกัน ก็คือพูดถึงเรื่องการ feedback loop ข้อมูลให้กับตัว LLM เนาะ
คือปีที่แล้วมันมีงานวิจัย ช่วงปลายปีที่แล้วเนี่ย มันก็มีงานวิจัยว่า ถ้าเราลอง feedback loop ข้อมูลมัน
แทนที่จะเป็นด้วยภาษา แต่เอา vector ให้มันคุยกันไปเลย
อ๋อ ครับ ปรากฏว่ามันทำงานดีขึ้น เร็วขึ้น
ประหยัด memory บลาๆๆ เมื่อไม่กี่สัปดาห์ที่ผ่านมา ก็เพิ่งมีการทดลองใหม่ paper ใหม่เพิ่ง launch ออกมา อันนี้ทำในระดับ sub-agent เลย ก็คือเอา agent เนี่ยให้มัน feedback loop ตัวเอง แต่ว่าคุยกันผ่าน latent space คุยกันผ่านตัว vector มาคุยกัน ความยากคือ
เอ๊ะ แล้วเราจะ observe ตัว latent space ยังไง ใช่ interpret ออกมายังไง ผมมองว่า ก็คือมันมีข้อจำกัดของท่านี้คืออันนี้แหละ
มันคงเป็น log file อะไรที่ดูยากๆ อีกหน่อย vector กับ log มันคงคล้ายๆ กัน คือของที่ดูยาก แล้วต้อง interpret ด้วย model อะไรสักอย่างหนึ่งหรือเปล่า ไม่รู้ ถ้าให้ผมตอบแทนเขานะ ผมคิดว่า Anthropic จะไม่ทำท่านั้น เพราะว่าเขาอยากจะอ่าน thinking part ของ model ได้อยู่ดี เขาอยากจะอ่าน communication เขาจะได้ audit ได้ มันเป็นเรื่อง safety side เพราะถ้าเกิดลองสังเกตดู อันนี้ลืมพูดไปเหมือนกัน ถ้าลองสังเกต 4.5 เมื่อเทียบกับโดยเฉพาะเจ้าอื่นนะ 4.5 เทียบกับ Gemini thinking ของ 4.5 Opus อ่านแล้วรู้สึกเหมือนอ่านความคิดของคนมากกว่า อ่านง่ายกว่าเมื่อเทียบกับ Gemini เพราะเหมือนเขา train มาให้อ่านได้ด้วย ผมเลยมองว่า เขาคงอยากให้อ่านได้ เขาจะได้ check ได้ แต่มันก็ยากหรือเปล่า? เพราะในอุตสาหกรรมในอนาคต มันคงวาง balance
ระหว่าง performance กับ observability? ใช่ครับ อันนั้นผมคิดว่า ในอนาคตต้องมี tradeoff แน่นอน แต่ผมเลยมองว่า ถ้าให้ตอบแทน Anthropic เนาะ เขาน่าจะ weight observability มากกว่า performance แต่เจ้าอื่นไม่แน่ เข้าใจว่าเหมือนงานวิจัย มาจาก Meta ด้วยอะไรแบบนี้ ที่ Meta เขาอาจจะเต็มที่เลย ขอแค่ performance ดีไว้ก่อน
มีคำถามจากทางบ้านครับ ให้คะแนน Claude เทียบกับ Codex และ Harness เจ้าอื่นๆ จากประสบการณ์ส่วนตัวหน่อยครับ Claude Code number one! Claude อยู่แล้ว เรื่อง Harness คือต้องยอม Claude Code อยู่แล้วเนาะ Codex ยังทำไม่ดีเท่าครับ
โอเคครับ ขอบคุณมากครับ ขอบคุณครับ