กูเกิลเปิดตัว NQ ชุดข้อมูลพัฒนาแชทบอทให้เก่งขึ้น

เป็นยักษ์ใหญ่ด้านดาต้า โอกาสจะพัฒนาสิ่งต่าง ๆ ได้มากกว่าคนอื่นก็มีสูง โดยเราได้เห็นความเคลื่อนไหวนี้มาจากฝั่งของกูเกิลกับการเปิดตัว Natural Questions (NQ) ชุดข้อมูลขนาดมหึมาสำหรับเอาไว้เทรนปัญญาประดิษฐ์

สำหรับการเปิดตัว Natural Questions (NQ) นี้จะเข้ามาช่วยลดปัญหาในการเทรนแชทบอทให้ฉลาดขึ้น จากเดิมที่ไม่สามารถพัฒนาไปได้มากนัก เพราะขาดแคลนข้อมูลที่มีคุณภาพมากพอ เช่น แชทบอทต้องตอบคำถามสำหรับธุรกิจหนึ่ง ๆ อาจต้องการข้อมูลจำนวนมากเกี่ยวกับสิ่งที่ผู้บริโภคจะถามและสิ่งที่มันควรจะตอบ แต่ถ้าธุรกิจไม่สามารถหาข้อมูลระดับนั้นมาได้ โอกาสที่แชทบอทจะเก่งกาจและตอบคำถามแทนทีมงานมนุษย์ก็จะไม่เกิดขึ้น

โดยงานนี้มี 2 นักวิจัยจากทีม Google AI Language อย่าง Tom Kwiatkowski และ Michael Collins ออกมาเผยด้วยว่า นี่คือครั้งแรกที่ความต้องการในส่วนนี้ถูกเติมเต็ม พร้อมยกตัวอย่างการทำงานของระบบ เช่น การส่งคำถามอย่าง ทำไมท้องฟ้าเป็นสีฟ้า เข้าไปใน NQ สิ่งที่ NQ ทำคือการไปอ่านเว็บต่าง ๆ เช่น วิกิพีเดีย ฯลฯ แล้วส่งคำตอบกลับมาให้ ซึ่งมันเรียบเรียงประโยคได้ ไม่ว่าคำตอบนั้นจะยุ่งยากหรือยาวแค่ไหนด้วย

“การจะมีชุดข้อมูลคุณภาพสูงไว้สำหรับตอบคำถามต่าง ๆ นั้น จำเป็นอย่างยิ่งที่จะต้องมีฐานข้อมูลคำถามขนาดใหญ่ และรูปแบบการตอบของมนุษย์ที่ถูกต้องเพื่อเอาไว้เทรนระบบ” ปัจจุบัน NQ ประกอบด้วยชุดคำถามราว 300,000 ชุดที่จับคู่แล้วกับคำตอบของมนุษย์บนวิกิพีเดีย ซึ่งเป็นระบบที่ออกแบบไว้สำหรับเทรนระบบถาม-ตอบในแชทบอท รวมถึงช่วยให้แชทบอทเก่งขึ้นด้วย ทั้งหมดนี้สร้างขึ้นจากระบบของ Google Search ที่เก็บคำถามของผู้ใช้งานรายต่าง ๆ เข้ามา และหาคำตอบให้โดยการเข้าไปอ่านจากวิกิพีเดียที่มนุษย์เข้าไปตอบ โดยการเสิร์ชหาและจับคู่ให้ตรงกันนั้นจะทำได้ 2 ลักษณะ ก็คือคำตอบแบบยาว ที่รวมเอาข้อมูลทั้งหมดที่คาดว่าจะเกี่ยวข้องมาไว้ด้วยกัน กับคำตอบแบบสั้น ที่จะตอบเฉพาะคำถามนั้น ๆ เท่านั้น แต่ความก้าวหน้ายังไม่จบแค่นั้น เพราะในตอนที่เปิดตัวชุดข้อมูลนี้ กูเกิลก็เปิดการแข่งขัน เพื่อเชิญนักพัฒนาในชุมชนด้าน NLU เข้ามาร่วมกันพัฒนาระบบถาม-ตอบให้สามารถเข้าใจเนื้อหาในวิกิพิเดีย และรู้ได้ว่าเนื้อหาเหล่านั้นตรงกับสิ่งที่มีคนถามเข้ามาหรือไม่ เพราะในระบบของ Kwiatkowski กับ Collins นั้น เอไอต้องตัดสินใจได้ว่า ส่วนใดของวิกิพีเดียที่มีข้อมูลที่คนถามต้องการ แต่การแข่งขันที่กูเกิลเปิดขึ้นนั้น ต้องการความสามารถในระดับที่ลึกลงไปมากขึ้น เพื่อให้เข้าใจได้ว่าเรื่องทั้งหมดนั้นกล่าวถึงอะไร

การเปิดตัวครั้งนี้ยังมาพร้อม ActiveQA โครงการวิจัยที่ตั้งเป้าศึกษาการเรียนรู้ของ AI Agent ในการถาม-ตอบ และโครงการ BERT (Bidirectional Encoder Representations from Transformers) กับการสร้างเฟรมเวิร์กของกูเกิลที่อ้างว่าช่วยให้นักพัฒนาสามารถเทรน NLP ให้กับเอไอได้ในเวลา 30 นาที โดยใช้คลาวด์ TPU (Tensor Processing Unit) ของกูเกิล หรือหากใช้ GPU ทั่วไป ก็จะใช้เวลาประมาณ 2 – 3 ชั่วโมง

อ้างอิง: Venturebeat.com