โปรแกรมแปลภาษา ประมวณผล

24 ตุลาคม 2557, 02:53:39
ข่าว: กระทู้หายแจ้งได้ที่นี่ (อ่านรายละเอียด)

ผู้เขียน หัวข้อ: โปรแกรมแปลภาษา ประมวณผล  (อ่าน 1873 ครั้ง)

0 สมาชิก และ 1 บุคคลทั่วไป กำลังดูหัวข้อนี้

ออฟไลน์ ominouse

  • สมาชิกชั้นสูง
  • *
  • กระทู้: 832
โปรแกรมแปลภาษา ประมวณผล
« เมื่อ: 15 กันยายน 2553, 15:49:46 »
ในยุคของข้อมูลข่าวสาร โปรแกรมแปลภาษาถือ เป็นเครื่องมือสำคัญที่ทะลายกำแพงภาษา ทำให้การสื่อสารในภาษาที่แตกต่างดูง่ายขึ้น โปรแกรมแปลภาษามีกลไกในการทำงาน ยิ่งซับซ้อนจะยิ่งทำให้ข้อมูลที่ออกมาตรงตามความต้องการได้มากยิ่งขึ้น การคำนึงถึงความหมายของประโยค หลักไวยกรณ์ อารมณ์ระหว่างการสนทนา

 ในยุคสารสนเทศ (Information age) นี้ ข้อมูลข่าวารเป็นสิ่งจำเป็นที่เราสามารถค้นหา หรือเผยแพร่ได้โดยง่ายด้วยเทคโนโลยีที่ไร้พรมแดนคือ อินเทอร์เน็ต (Internet) จึงทำให้มนุษย์สามารถติดต่อกันได้ทั่วโลกไม่ว่าจะอยู่ที่ใด เมื่อเชื่อมต่อเครื่องคอมพิวเตอร์เข้ากับเครือข่ายอินเทอร์เน็ตได้ เราก็สามารถพูดคุย หรือส่งจดหมายอิเล็กทรอนิกส์ให้แก่บุคคลอื่นได้ด้วยตัวเอง โดยไม่ต้องมีหน่วยงาน เช่น ที่ทำการไปรษณีย์โทรเลขทำหน้าที่รับส่ง และไม่ต้องอาศัยบุรุษไปรษณีย์ในการนำส่งจดหมายอีกต่อไป

เมื่อเทคโนโลยีคอมพิวเตอร์เข้ามามีบทบาทสำคัญในการติดต่อสื่อสาร การพิมพ์เอกสาร การค้นหาข้อมูลข่าวสาร การเผยแพร่ข่าวสาร ฯลฯ ดังนั้น คนไทยจึงมุ่งหวังที่จะให้คอมพิวเตอร์สามารถทำงานรองรับการใช้งานภาษาไทย โดยรับข้อมูลเข้าและแสดงผลเป็นภาษาไทยได้ รวมทั้งเข้าใจและโต้ตอบเป็นภาษาไทยได้ ซึ่งจะเป็นประโยชน์ต่อคนไทยอย่างอเนกอนันต์ ทั้งในด้านวิชาการ ธุรกิจ และบันเทิง ด้วยความจำเป็นดังกล่าว นักวิชาการและนักวิจัยในประเทศไทยจึงต้องทำวิจัยและพัฒนาเทคโนโลยี เพื่อให้มีความเจริญทัดเทียมเทคโนโลยีต่างประเทศที่ก้าวหน้าไปอย่างมาก

 การประมวลผลภาษาไทยบนคอมพิวเตอร์
เทคโนโลยีที่เรา นำมาใช้ในการประมวลผลและการประยุกต์ใช้ภาษาไทยบนคอมพิวเตอร์ประกอบไปด้วย วิทยาการทางด้านวิศวกรรมคอมพิวเตอร์ (Computer Engineering) ผสมผสานกับเทคโนโลยีทางด้านการประมวลผลภาษาธรรมชาติ (Natural Language Processing) ซึ่งได้แก่ การประมวลผลอักขระ (Character processing) การประมวลผลคำ (Word processing) การประมวลผลข้อความ (Text processing) การประมวลผลภาพ (Image processing) รวมทั้งความรู้ทางภาษาศาสตร์ (Linguistics)

ผู้เชี่ยวชาญทั้งจากภาครัฐและภาคเอกชนมีความสนใจงานวิจัยและพัฒนาโปรแกรม การประมวลผลภาษาไทยบนคอมพิวเตอร์อย่างกว้างขวาง เพื่อให้ผู้ใช้คนไทยสามารถใช้งานคอมพิวเตอร์ด้วยภาษาไทยได้อย่างมี ประสิทธิภาพ ในที่นี้จะอธิบายโปรแกรมการประมวลผลบางโปรแกรม เพื่อเป็นความรู้พื้นฐานให้เข้าใจเรื่องการประยุกต์ใช้ภาษาไทยบนคอมพิวเตอร์ ดังต่อไปนี้

๑. โปรแกรมการเรียงลำดับคำไทย (Thai Sorting)
การ เรียงลำดับคำในพจนานุกรม การเรียงลำดับชื่อบุคคลในสมุดรายนามผู้ใช้โทรศัพท์ หรือการเรียงลำดับคำให้สามารถค้นหาได้โดยง่าย จำเป็นต้องมีการเรียงตามลำดับตัวอักษร และตามมาตรฐานการเรียงลำดับคำไทยที่ยึดถือตามพจนานุกรม ฉบับราชบัณฑิตยสถาน พ.ศ. ๒๕๒๕ ประโยชน์ของการเรียงลำดับคือ ช่วยให้การค้นหาทำได้ง่ายขึ้น ทั้งการค้นโดยคอมพิวเตอร์ และการค้นโดยผู้ใช้ ตัวอย่างที่เห็นได้อย่างชัดเจนคือ การค้นหาคำในพจนานุกรม หรือการค้นหาฐานข้อมูลชื่อต่าง ๆ เช่น ชื่อบุคคล ชื่อหน่วยงาน ชื่อแฟ้มเอกสาร เป็นต้น ถ้าได้จัดเรียงไว้ตามลำดับแล้ว ก็จะสามารถประหยัดเวลาในการค้นหาได้

 ๒. โปรแกรมการสืบค้นคำไทยตามเสียงอ่าน (Thai Soundex)
การ ค้นหาคำไทยที่มีเสียงพ้อง หรือคำที่สามารถสะกดได้หลายคำนั้น สามารถแก้ปัญหาได้โดยการค้นหาคำตามเสียงอ่าน ทั้งนี้ ตามธรรมชาติของผู้ใช้ภาษาโดยทั่วไปจะเคยชินเสียงอ่านของคำมากกว่าตัวสะกด นอกจากนั้น เสียง ๑ เสียงสามารถแทนคำได้มากกว่า ๑ คำ เช่น เสียง "ค่า" หมายความถึง ข้า ค่า หรือ ฆ่า ก็ได้ ชื่อเฉพาะทั้งหลายก็สามารถสะกดได้หลายแบบ เช่น เพชรรัตน์ (อ่านว่า เพ็ด - ชะ - รัด) อาจสะกดเป็น เพชรัตน์ เพ็ชรัตน์ เพ็ชรรัตน์ เพชรรัช เพชรรัชต์ เพชรรัฐ เพชรรัตต์ เพชรรัตติ์ เพชรรัศม์ ฯลฯ จึงได้มีการคิดวิธีค้นตามเสียงอ่านขึ้น เพื่ออำนวยความสะดวกต่อผู้ใช้ในสถานการณ์ที่ไม่สามารถสะกดคำได้อย่างถูกต้อง เช่น การค้นหาชื่อในฐานข้อมูลสำมะโนประชากร ในสมุดรายนามผู้ใช้โทรศัพท์ หรือในโปรแกรมตรวจคำผิด เป็นต้น

๓. โปรแกรมตัดคำภาษาไทย (Thai Word Segmentation)
ลักษณะ การเขียนภาษาไทยซึ่งเขียนติดต่อกันเป็นสายอักขระ โดยไม่มีเครื่องหมายวรรคตอนแสดงการแบ่งคำดังเช่นภาษาอังกฤษ เป็นอุปสรรคอย่างหนึ่งที่ต้องการการศึกษาทำวิจัยและพัฒนา เพื่อให้คอมพิวเตอร์สามารถคำนวณแบ่งสายอักขระไทยให้เป็นคำ ๆ ซึ่งจะส่งผลให้การทำงานของคอมพิวเตอร์ในการค้นหาคำใด ๆ เป็นไปอย่างถูกต้องและแม่นยำ รวมถึงการจัดขอบขวาในโปรแกรมประมวลผลคำด้วย เป็นต้น
ตัวอย่างเช่น ถ้ามีข้อความว่า "ฉันนั่งตากลมที่หน้าบ้าน" จะต้องทำให้คอมพิวเตอร์รูว่าเป็น " ฉัน นั่ง ตาก ลม ที่ หน้า บ้าน " ไม่ใช่ "ฉัน นั่ง ตา กลม ที่ หน้าบ้าน"

 ๔. โปรแกรมแปลภาษา (Machine Translation)
โปรแกรม แปลภาษาคือ เครื่องมือที่ใช้สำหรับแปลข้อความจำนวนมาก ๆ จากภาษาหนึ่งไปเป็นภาษาหนึ่ง โดยสามารถป้อนข้อมูลภาษาต้นทางเป็นข้อความ หรือเสียงพูดก็ได้ ผลที่ได้รับคือ จะได้ภาษาปลายทางเป็นข้อความ หรือเสียงพูดก็ได้เช่นกัน ซึ่งจะช่วยให้วงการการแปลสามารถแปลข้อความได้เป็นจำนวนมากและรวดเร็ว

การทำวิจัยและพัฒนาเครื่องแปลภาษาเป็นงานแขนงหนึ่งในศาสตร์แห่งการประมวล ผลภาษาธรรมชาติ เครื่องแปลภาษาเครื่องแรกถูกผลิตขึ้นประมาณปี ค.ศ. ๑๙๓๐ เป็นซอฟต์แวร์ที่พยายามแปลข้อความในรูปประโยค โดยพิจารณาเรื่องของวากยสัมพันธ์ รวมถึงอรรถศาสตร์ด้วย ไม่ใช่แปลเป็นคำๆ เท่านั้น การทำวิจัยและเครื่องแปลภาษา ในประเทศไทยเริ่มต้นในปี พ.ศ. ๒๕๒๔ โดยจุฬาลงกรณ์มหาวิทยาลัยและมหาวิทยาลัยเกรอนอบล์ ( Grenoble) แห่งประเทศฝรั่งเศส ได้ร่วมกันจัดทำโครงการวิจัยและแปลภาษาอังกฤษเป็นภาษาไทยด้วยคอมพิวเตอร์ ซึ่งเป็นโครงการของทบวงมหาวิทยาลัย (พ.ศ. ๒๕๒๔ - ๒๕๓๐) ต่อมาก็เกิดโครงการความร่วมมือในการพัฒนาระบบแปลหลากภาษาสำหรับภาษาในเอเชีย ได้แก่ ภาษาจีน ญี่ปุ่น มาเลเซีย อินโดนีเซีย และไทย ซึ่งเป็นโครงการของกระทรวงวิทยาศาสตร์ เทคโนโลยีและสิ่งแวดล้อม ซึ่งดำเนินการภายใต้ศูนย์เทคโนโลยีอิเล็กทรอนิกส์และคอมพิวเตอร์แห่งชาติ (พ.ศ. ๒๕๓๐ - ๒๕๓๗)

 ๕. โปรแกรมรู้จำอักขระไทยด้วยแสง หรือไทยโอซีอาร์ (Thai Optical Character Recognition)
โอ ซีอาร์เป็นคำย่อของภาษาอังกฤษว่า "Optical Character Recognition : OCR" แปลเป็นภาษาไทยได้ว่า "การรู้จักอักขระด้วยแสง" เป็นงานประยุกต์งานหนึ่งของสาขาวิทยาการคอมพิวเตอร์ ที่ได้รับความสนใจและพัฒนามานานกว่า ๗๐ ปีแล้ว โอซีอาร์เป็นการรู้จำรูปแบบตัวอักษร ซึ่งเป็นงานวิจัยในสาขาการรู้จำรูปแบบ (Pattern Recognition) เป็นเทคโนโลยีที่ส่งผลให้ระบบคอมพิวเตอร์สามารถระบุรูปแบบได้อย่างถูกต้อง เช่น สามารถจะบอกได้ว่า ภาพนั้นคือภาพอะไร ภาพตัวอักษรนั้นคือตัวอักษรอะไร หรือเสียงนั้นคือเสียงของคำสั่งอะไร เป็นต้น

นักวิจัยมีความสนใจในงานโอซีอาร์เป็นอย่างมาก เพราะเป็นงานที่เกี่ยวข้องกับเอกสาร การเก็บข้อมูลเหล่านี้ให้เป็นแฟ้มข้อความ (Text File) ไว้ในระบบคอมพิวเตอร์นั้น ต้องใช้บุคลากรในการจัดพิมพ์เอกสารนั้น ๆ โดยใช้โปรแกรมประมวลผลคำ ถึงแม้ว่าโปรแกรมประเภทนี้จะมีความสามารถและเป็นเครื่องมือที่ดี แต่ก็ยังต้องใช้บุคลากรจำนวนมากและใช้เวลานาน ถ้าโอซีอาร์ประสบผลสำเร็จ งานพิมพ์เอกสารต่าง ๆ เพื่อเก็บเป็นแฟ้มข้อความก็จะกลายเป็นหน้าที่ของระบบคอมพิวเตอร์ การประมวลผลของโอซีอาร์โดยทั่วไปจะเร็วกว่าการพิมพ์ของมนุษย์เฉลี่ยประมาณ ๕ เท่า และในบางระบบ การประมวลผลของโอซีอาร์จะมีความถูกต้องมากกว่าการพิมพ์ของมนุษย์อีกด้วย

 ตัวอย่างโปรแกรมเพื่อการประยุกต์ใช้ภาษาไทยบนคอมพิวเตอร์ที่ได้กล่าวมา แล้วข้างต้น ล้วนเป็นงานที่ได้รับการพัฒนาขึ้นโดยนักวิจัยไทยทั้งสิ้น อย่างไรก็ตาม งานวิจัยและพัฒนาในเรื่องนี้ยังต้องดำเนินต่อไป เพื่อประโยชน์สูงสุดในการประยุกต์ใช้ภาษาไทยบนคอมพิวเตอร์ เช่น การสั่งงานด้วยเสียงพูดโดยไม่ต้องใช้แป้นพิมพ์ การสนทนาโต้ตอบกับคอมพิวเตอร์ การสอบถามและการค้นหาแบบอัตโนมัติ ทั้งนี้ นักวิจัยไทยมีความมุ่งหวังว่าในอนาคต คนไทยจะสามารถใช้งานโปรแกรมเหล่านี้ได้ตามที่ตั้งปณิธานไว้

การแปลภาษาโดย โปรแกรม ภาษาจะต้องอาศัยโครงสร้างของประโยคจากภาษาหนึ่งไปยังภาษาหนึ่ง โดยยังคงความหมายของประโยคนั้นได้อย่างสมบูรณ์ที่สุด สำหรับโปรแกรมแปลภาษาถือว่ามีการพัฒนาที่เกือบเทือบเท่ากับการสนทนาของ มนุษย์จริงๆ

รวบรวมข้อมูลเกี่ยวกับ ธุรกิจหา Zeny บน Website
 ^-^ :) ;) :D ;D >:( :( :o ??? :P |-)[/

ออฟไลน์ ominouse

  • สมาชิกชั้นสูง
  • *
  • กระทู้: 832
Re: โปรแกรมแปลภาษา ประมวณผล
« ตอบกลับ #1 เมื่อ: 15 กันยายน 2553, 15:50:53 »
จริงๆใช้ google แล้วเสียพลังงานด้วยนะ
« แก้ไขครั้งสุดท้าย: 1 ตุลาคม 2553, 16:57:28 โดย ominouse »

รวบรวมข้อมูลเกี่ยวกับ ธุรกิจหา Zeny บน Website
 ^-^ :) ;) :D ;D >:( :( :o ??? :P |-)[/

ออฟไลน์ peacebannok

  • สมาชิกชั้นสูง
  • *
  • กระทู้: 2377
Re: โปรแกรมแปลภาษา ประมวณผล
« ตอบกลับ #2 เมื่อ: 15 กันยายน 2553, 15:52:03 »
การแปลภาษาโดย โปรแกรม ภาษาจะต้องอาศัยโครงสร้างของประโยคจากภาษาหนึ่งไปยังภาษาหนึ่ง โดยยังคงความหมายของประโยคนั้นได้อย่างสมบูรณ์ที่สุด สำหรับโปรแกรมแปลภาษาถือว่ามีการพัฒนาที่เกือบเทือบเท่ากับการสนทนาของ มนุษย์จริงๆ

แต่ถึงกระนั้นก็ยังไม่ถูกต้อง 100 %

แม้แต่กูเกิลก็ด้วย  :P :P


ออฟไลน์ 21Grams.

  • สมาชิกเต็มตัว
  • *
  • กระทู้: 424
Re: โปรแกรมแปลภาษา ประมวณผล
« ตอบกลับ #3 เมื่อ: 15 กันยายน 2553, 23:52:32 »
----------------------------------
=====================
-------   ขอบคุณครับ   ------------
=====================
---------------------------------