• กองส่งเสริมการวิจัยและบริการวิชาการ มหาวิทยาลัยมหาสารคาม
  • 04-3754-416 (1756)

การถอดความเอกสารโบราณด้วยการเรียนรู้เชิงลึก
Historical Document Transcription using Deep Learning

  • ปีงบประมาณ : 2565 | ประเภททุน : ทุน นิสิต ป.เอก
  • ผู้ร่วมโครงการ : สรายุทธ กรวิรัตน์
  • งบประมาณที่ขอสุทธิ : 60,000 บาท

ความสำคัญ/ ที่มา :

ก่อนยุคดิจิทัลการเก็บข้อมูลส่วนใหญ่อยู่ในรูปแบบการเขียนหรือพิมพ์บันทึกลงในวัสดุต่างๆ เช่น กระดาษ สมุด หนังสือ ใบลาน แผ่นไม้ หรือแผ่นหิน เป็นต้น ตามวัสดุที่มีในยุคสมัยนั้น ดังภาพที่ 1 ตัวอย่างใบลานที่เป็นเอกสารโบราณ  จนกระทั้งการเข้ามาของคอมพิวเตอร์ ข้อมูลจากเอกสารโบราณ เอกสารสำคัญและหนังสือเก่าต่าง ๆ เหล่านี้ เกือบทั้งหมดได้ถูกนำมาเก็บในรูปแบบไฟล์ดิจิทัล ทั้งนี้เอกสารมีเป็นจำนวนมากกระบวนการที่สะดวกในการจัดเก็บคือการสแกนเป็นภาพ แต่เอกสแกนเหล่านี้ยากสำหรับการสืบค้นหาข้อมูลเนื่องจากไม่สามารถสืบค้นด้วยข้อความได้โดยตรง  ต้องอาศัยการเก็บบันทึกข้อมูลลงไฟล์เอกสาร (Text File) เพื่อนำไปทำดัชนี (Index) หรือเมทาดาทา (Meta Data) เพื่อง่ายต่อการค้นหา (Unnankat et al., 2018)  เนื่องด้วยเอกสารที่ต้องการจัดเก็บมีจำนวนมากและเพิ่มขึ้นทุกวัน จึงยากที่จะสามารถบันทึกข้อมูลด้วยแรงงานมนุษย์ รวมถึงเอกสารโบราณที่มีความเก่าแก่ และภาษาโบราณมีคนศึกษาและเข้าใจน้อยลง การถอดอักษรจากภาษาโบราณต้องอาศัยนักประวัติศาสตร์ที่มีความรู้ภาษาโบราณนั้น และทั้งนี้เนื่องจากรูปแบบของเอกสารโบราณมีลักษณะที่มีความแตกต่างกัน นักวิจัยจึงต้องพัฒนาระบบเพื่อให้ทำงานได้ครอบคลุมกับเอกสารหลากหลายประเภท และทำงานอย่างอัตโนมัติ

 

 

(ก)

 

 

(ข)

(ค)

 

ภาพที่ 1 ตัวอย่างเอกสารโบราณ (ก) ใบลาน (Surinta & Chamchong, 2008) (ข) ศิลาหิน (Sidorov, 2018) และ (ค) สมุดไทยโบราณ

          ก่อนยุคการพิมพ์ มีเอกสารโบราณจำนวนมากเป็นรูปแบบลายมือเขียน ดังนี้นการรู้จำลายมือเขียนแบบตัวอักษร (Handwritten Character Recognition) เป็นปัญหางานวิจัยพื้นฐานของการรู้จำเอกสารโบราณ เนื่องจากการรู้จำตัวอักษรที่แม่นยำนำไปสู่การแปลงข้อความทั้งเอกสารมีประสิทธิภาพดีขึ้น  โดยรูปแบบการสร้างเอกสารสามารถจำแนกออกเป็น 2 รูปแบบ ได้แก่ การพิมพ์จากเครื่อง (Printed Text)  และที่เขียนด้วยลายมือ (Handwritten Document)  ซึ่งปัจจุปันข้อมูลที่อยู่ในรูปแบบจากการพิมพ์สามารถถูกแปลงสำเร็จด้วยวิธีการโอซีอาร์ (Optical Character Recognition : OCR) แต่ไม่สามารถใช้ได้กับเอกสารที่เป็นลายมือเขียนอย่างมีประสิทธิภาพ เนื่องจากรูปแบบของลายมือเขียนแต่ละบุคคลมีรูปแบบตัวอักษรไม่คงที่และมีการเขียนแบบเล่นห่าง (Cursive Text)    การแก้ปัญหางานวิจัยทางด้านนี้ได้อาศัย

เทคนิคการอธิบายลักษณะเด่น (Descriptor) (Inkeaw et al., 2019; Okafor et al., 2016; Surinta; et al., 2015) ของรูปตัวอักษรและใช้อัลกอริทึมการเรียนรู้เครื่องจักร (Machine Learning ) ต่าง ๆ ทำให้ผลการรู้จำมีประสิทธิภาพที่ดีมากเพิ่มขึ้นตามลำดับอาทิเช่นในงานวิจัย (Alom et al., 2018; Okafor et al., 2016; Surinta et al., 2015)

          การแปลงทีละอักษรอาจทำให้เกิดการแปลงเป็นคำหรือประโยคที่มีความผิดพลาด เนื่องจากขาดการมองภาพรวม  ทั้งนี้การรู้จำทั้งคำ (Word Recognition) (Bianne-Bernard et al., 2011; El-Yacoubi et al., 1999) ทำให้ได้ความหมายที่สมบูรณ์กว่า ยังเป็นงานที่ท้าทายและมีความยากกว่าการรู้จำตัวอักษร  ซึ่งงานวิจัยทางด้านการรู้จำการเขียนด้วยลายมือ (Handwriting Recognition: HWR) โดยแบ่งออกเป็นสองรูปแบบได้แก่ แบบที่หนึ่ง คือ การวิเคราะห์ระหว่างที่เขียน (Online HWR)   ตัวอย่างการประยุกต์ใช้ที่นิยม คือ การวิเคราะห์ลายมือชื่อ  และแบบที่สอง คือ การวิเคราะห์จากภาพเอกสารที่ถูกเขียนแล้ว (Offline HWR) ตัวอย่างเช่น  ใบเสร็จรับเงินและเอกสารโบราณ เป็นต้น   ทั้งนี้การวิเคราะห์แบบออนไลน์มีความก้าวหน้ากว่าแบบออฟไลน์ เนื่องจากมีคุณภาพของภาพที่ดีกว่า รู้จุดเน้นจากแรงกดปากกา และรู้ลำดับของลายเส้นที่ลาก (He et al., 2016) ขณะที่เอกสารแบบออฟไลน์ส่วนใหญ่มีภาพไม่ชัดเจนเนื่องจากอายุของต้นฉบับ ซึ่งต้องใช้กระบวนการในการปรับปรุงและดึงคุณสมบัติ (Feature Extraction) เพื่อนำมาวิเคราะห์

          เนื่องจากจากความซับซ้อนของการรู้จำข้อความ การแบ่งคำหรือตัวอักษรที่มีประสิทธิภาพต่ำ ความหลากหลายของลายมือเขียน และคุณภาพความชัดเจนของภาพที่ไม่ดีของเอกสารโบราณจากความเก่าของเอกสาร ส่งผลให้การรู้จำข้อความมีประสิทธิภาพที่ต่ำ   อีกแนวทางการพัฒนาคือการสืบค้นเอกสารด้วยระบบการค้นคืนข้อมูล (Information Retrieval System) โดยสำหรับงานเอกสารมีชื่อเรียกว่า   การค้นหาคำ (Word Spotting) หรือ อาจจะเรียกว่า การค้นหาคำหลัก (Keyword Spotting) ซึ่งหลักการนี้ไม่จำเป็นจะรู้จำทุกตัวอักษรอย่างถูกต้อง แต่จะใช้กระบวนการทางด้านการวิเคราะห์คุณสมบัติของภาพที่เหมือนกันระหว่างคำในเอกสารและคำที่สืบค้น (Fernández, 2015; Giotis et al., 2017)    โดยรูปแบบของการสืบค้นในการทำ Word Spotting แบ่งออกเป็นสองประเภท (Almazan et al., 2014) ได้แก่ ประเภทที่หนี่ง การค้นหาด้วยรูปภาพตัวอย่าง (Query by Example: QbE) และการค้นหาด้วยข้อความ (Query by String: QbS) อีกรูปแบบของการแบ่งประเภทด้วยหลักการเรียนรู้ ได้แก่ การเรียนรู้แบบมีผู้สอน (Supervised Learning) (Almazan et al., 2014; Sudholt & Fink, 2018) และ การเรียนรู้แบบไม่มีผู้สอน (Unsupervised Learning)   (Silberpfennig et al., 2015)

          จากที่กล่าวมาเป็นส่วนหนึ่งของปัญหาการวิเคราะห์และรู้จำในเอกสารโบราณ โดยสามารถจำแนกให้ครอบคลุมเพิ่มเติ่มได้ ดังนี้ การแยกส่วนประกอบของเอกสารโบราณ (Segmentation) (Almazán et al., 2014; Rusiñol et al., 2015) การจำแนกประเภทของเอกสาร (Classification) (He et al., 2016b, 2016a; Sidorov, 2018)  การรู้จำตัวอักษร OCR (Alom et al., 2018; Surinta et al., 2015) การรู้จำคำ (Bianne-Bernard et al., 2011; El-Yacoubi et al., 1999) และการค้นหาคำ (Giotis et al., 2017; Sudholt & Fink, 2018) ซึ่งงานวิจัยข้างต้นได้ประยุกต์ใช้เทคนิคทางด้านการวิเคราะห์และรู้จำภาพ (Image Analysis and Recognition)  ได้แก่ การหาคุณลักษณะและการหาคำอธิบายเด่น อาทิเช่น Histogram of Oriented Gradients (Surinta et al., 2015)  Scale Invariant Feature Transform (Surinta et al., 2015), Local Binary Pattern (Dey et al., 2016), Histogram of Oriented Gradients of Handwritten Stroke

 (Almazán et al., 2014)  และ k-Contour Fragments (Zhou et al., 2016) รวมทั้งและวิธีการเรียนรู้เครื่องจักร Support Vector Machine (Maas et al., 2016, Almazán et al., 2014) Bag of Words (Okafor et al., 2016) และ Convolution Neural Network (CNN) (Sudholt & Fink, 2018)

          ปัจจุบันการพัฒนาการเรียนรู้เชิงลึก (Deep Learning) ได้ถูกนำไปประยุกต์ใช้กับหลากหลายสาขาและได้รับการทดสอบประสิทธิภาพที่ให้ผลค่อนข้างสูง (LeCun et al., 2015) หนึ่งในวิธีการของการเรียนรู้เชิงลึก คือ CNN ที่ได้รับการยอมรับทางด้านการรู้จำภาพและคอมพิวเตอร์วิทัศน์ (Computer Vision) และนำมาประยุกต์ใช้หลากหลายด้าน โดยนับตั้งแต่งานวิจัย CNN  มีชื่อโมเดลว่า AlexNet (Krizhevsky et al., 2012)  หลังจากนั้นได้มีการพัฒนาโมเดล CNN อื่น ๆ ตามมา เช่น VGGNet (Liu & Deng, 2016) GoogLeNet (Szegedy et al., 2015)  ResNet (K. He et al., 2016) เป็นต้น และงานวิจัยทางด้านเอกสารโบราณได้นำการเรียนรู้เชิงลึก มาใช้ อาทิเช่น การรู้จำตัวอักษรด้วย Long Short Term Memory (LSTM) (Breuel et al., 2013; B. Shi et al., 2017; Yousefi et al., 2015) และ CNN Segmentation ด้วยวิธี Fully Convolutional Networks (FCN) (Wick & Puppe, 2018) และ Word Spotting ด้วย CNN (Sudholt & Fink, 2018) เป็นต้น โดยการนำวิธีการ CNN เข้ามาช่วยทำให้ได้ผลดีกว่าวิธีการในอดีตที่ผ่านมา 

          จากปัญหาที่กล่าวมา ข้อเสนองานวิจัยนี้จึงต้องการศีกษากระบวนการเรียนรู้เชิงลึกและนำมาประยุกต์กับงานเอกสารโบราณ เพื่อพัฒนาระบบการวิเคราะห์และรู้จำภาพในเอกสารโบราณ ที่สามารถเพิ่มประสิทธิภาพการรู้จำตัวอักษรและการค้นหา รวมทั้งการลดความผิดพลาดการรู้จำคำและข้อความในเอกสารให้น้อยลง นำไปสู่การพัฒนาระบบการสืบค้นเอกสารโบราณแบบจารึกในใบลานหรือลายมือเขียนในสมุดไทยโบราณได้สะดวกและมีประสิทธิภาพเพิ่มขึ้นต่อไป

วัตถุประสงค์ :

เพื่อพัฒนากระบวนการการเรียนรู้เชิงลึกสำหรับการวิเคราะห์และรู้จำรูปภาพเอกสารโบราณ ประกอบด้วยการพัฒนาระบบ ดังนี้

          1 เพิ่มประสิทธิภาพการรู้จำตัวอักษรลายมือเขียน ด้วยวิธีการเรียนรู้เชิงลึก

          2 เพิ่มประสิทธิภาพการค้นหาคำ จากเอกสารโบราณโดยเน้นวิธีค้นหาคำด้วยรูปภาพตัวอย่างด้วยวิธีการเรียนรู้เชิงลึก

          3 ออกแบบและพัฒนากระบวนการในการตัดบรรทัดและรู้จำคำจากเอกสารโบราณ โดยไม่ต้องตัดคำหรือตัวอักษร ด้วยวิธีการเรียนรู้เชิงลึก