Open Miner Intelligence

4 Apr
2010

การทำเหมืองข้อความ (Text Mining)

Posted by: hanako In: Classification|Clustering|Data Mining|Text Mining


เนื่องจากมีหลายท่านได้สอบถามเกี่ยวกับการทำเหมืองข้อความหรือ Text Mining เข้ามาค่อนข้างมาก ดังนั้นวันนี้ www.open-miner.com ของเราจึงขอพูดคุยเกี่ยวกับเรื่องนี้กันค่ะ ปกติแล้วเรามักคลุกคลีกับงานเอกสารอิเล็คทรอนิกส์ตลอดเวลา ไม่ว่าจะเป็นเอกสารบทความที่มีการ post กันใน blog  ข่าวสารต่างๆ  เอกสารทางวิชาการ email จากทั้งผู้ที่ประสงค์และไม่พึงประสงค์ (พวก mail โฆษณา) หรือแม้แต่ข้อความที่มีการ post ตอบกระทู้ไปมา หรือ post ใน twitter facebook ซึ่งเป็น social network ที่กำลังมาแรง ณ ขณะนี้

การนำ Text Mining เข้ามาช่วยงานทางด้านเอกสาร สามารถแบ่งเป็นรูปแบบต่างๆ ได้แก่

  • Document Summarization ในบางครั้งเราอาจต้องการทราบเพียงข้อมูลที่เป็นสาระสำคัญของเอกสารเท่านั้น การนำเทคนิคนี้มาใช้ ก็เพื่อทำการลดรายละเอียดของข้อมูลที่ไม่จำเป็น เพื่อให้คงไว้เฉพาะส่วนที่เป็นสาระสำคัญซึ่งยังคงทำให้เอกสารนั้นมีความสมบูรณ์ในเชิงเนื้อหาเป็นต้น ตัวอย่างงานที่เห็นได้ชัดเจนคือ google นั่นเอง เคยสังเกตไหมคะว่า เมื่อเรา search ข้อมูล google จะแสดงบางส่วนของเนื้อหาของแต่ละผลลัพธ์ เพื่อให้เราเห็นภาพรวมของ website นั้นๆ ก่อนที่เราจะคลิกเข้าไปดู


  • Document Classification เป็นเทคนิคช่วยในจำแนกประเภทเอกสาร ทั้งนี้เราต้องทราบก่อนแล้วว่าต้องการจำแนกเอกสารออกเป็นกี่ประเภท (Class) ดังนั้นการใช้เทคนิคนี้ จำเป็นต้องทำการสอนระบบ (train model) ให้รู้จำรูปแบบของเอกสารในแตละ class ก่อน ถ้าเราเคยสังเกตตอนสมัคร e-mail ตาม free e-mail ต่างๆ นั้น จะมีหน้าต่างเงื่อนไขการใช้บริการ ถ้าเราอ่านเงื่อนไขทั้งหมดจะพบว่า 1 ในหลายๆ ข้อนั้น จะมีเงื่อนไขของการยินยอมให้ทางผู้ให้บริการ e-mail สามารถอ่านเนื้อหาภายในเมลล์ได้ ทั้งนี้ส่วนหนึ่งก็เพื่อใช้ในการกรอง พวก spam mail ออกจาก e-mail ปกตินั่นเอง อีกตัวอย่างหนึ่งของการทำเทคนิค Document Classification ไปใช้ คือใช้ในการจำแนกข้อมูลที่มีการ post อยู่ใน social network เพื่อใช้ในการวิเคราะห์หรือดูแนวโน้มในเรื่องต่างๆ ได้อีกด้วย


  • Document Clustering เป็นเทคนิคที่ช่วยในการจัดกลุ่มเอกสารทั่วๆ ไป ที่เราไม่ทราบว่าเป็นเอกสารประเภทใด โดยพิจารณาจากเนื้อหาของเอกสารที่คล้ายคลึงกันให้อยู่กลุ่มเดียวกัน ทั้งนี้จะเห็นว่า เราสามารถนำไปใช้ในงานด้าน search engine เพื่อทำการจัดกลุ่มข้อมูลที่มีอยู่มากมาย ออกเป็นกลุ่มย่อยๆ หรือ Categories เมื่อ user ระบุ key word หรือ คำค้น เข้ามา ระบบ search engine จะทำการค้นข้อมูลใน Category เป้าหมายก่อน เพื่อลดเวลาในการ search แทนที่จะต้องทำการค้นหาข้อมูลจากฐานข้อมูลทั้งก้อน


เนื่องจากข้อมูลเอกสารนั้น เป็นรูปแบบที่มีลักษณะไม่เป็นโครงสร้าง จึงยากต่อการนำไปใช้ในการวิเคราะห์โดยตรง ดังนั้นจำเป็นอย่างยิ่งที่จะต้องทำการแปลงให้อยู่ในรูปแบบที่เหมาะสมก่อน หากยังจำกันได้ ขั้นตอนการแปลงข้อมูล (Data Transformation) นั้นจะอยู่ในส่วนของ Data Preparation ในขั้นตอนของ CRISP-DM workflow ซึ่งเป็นส่วนที่ใช้เวลานานที่สุดถึง 80% ค่ะ สำหรับกระบวนการหรือขั้นตอนต่างๆ ในการทำ Text Mining นั้น ขอยกยอดไว้คราวหน้านะคะ รอติดตามกันอีกทีค่ะ


Reference
http://en.wikipedia.org/wiki/Text_mining


หมายเหตุ บทความนี้อยู่ภายใต้ลิขสิทธิ์ของเว็บไซด์ www.open-miner.com ผู้จัดทำอนุญาตให้นำไปเผยแพร่ได้ แต่กรุณาอ้างอิงแหล่งที่มาด้วยว่ามาจาก www.open-miner.com ค่ะ




เรื่องที่เกี่ยวข้อง

coded by nessus

1 Response to "การทำเหมืองข้อความ (Text Mining)"

1 | เทคนิคการจำแนกประเภทเอกสาร (Document Classification) | แหล่งรวบรวมความรู้ทางด้าน data mining

April 23rd, 2010 at 2:09 am

Avatar

[...] ของเราขอเสนอภาคต่อจากเรื่อง Text Mining ที่เขียนไว้เมื่อต้นเดือนค่ะ [...]

Like or Dislike: Thumb up 0 Thumb down 0

Comment Form

 

About

This is an example of a WordPress page, you could edit this to put information about yourself or your site so readers know where you are coming from.