2010
การทำเหมืองข้อความ (Text Mining)
Posted by: hanako In: Classification|Clustering|Data Mining|Text Mining
เนื่องจากมีหลายท่านได้สอบถามเกี่ยวกับการทำเหมืองข้อความหรือ Text Mining เข้ามาค่อนข้างมาก ดังนั้นวันนี้ www.open-miner.com ของเราจึงขอพูดคุยเกี่ยวกับเรื่องนี้กันค่ะ ปกติแล้วเรามักคลุกคลีกับงานเอกสารอิเล็คทรอนิกส์ตลอดเวลา ไม่ว่าจะเป็นเอกสารบทความที่มีการ post กันใน blog ข่าวสารต่างๆ เอกสารทางวิชาการ email จากทั้งผู้ที่ประสงค์และไม่พึงประสงค์ (พวก mail โฆษณา) หรือแม้แต่ข้อความที่มีการ post ตอบกระทู้ไปมา หรือ post ใน twitter facebook ซึ่งเป็น social network ที่กำลังมาแรง ณ ขณะนี้
การนำ Text Mining เข้ามาช่วยงานทางด้านเอกสาร สามารถแบ่งเป็นรูปแบบต่างๆ ได้แก่
- Document Summarization ในบางครั้งเราอาจต้องการทราบเพียงข้อมูลที่เป็นสาระสำคัญของเอกสารเท่านั้น การนำเทคนิคนี้มาใช้ ก็เพื่อทำการลดรายละเอียดของข้อมูลที่ไม่จำเป็น เพื่อให้คงไว้เฉพาะส่วนที่เป็นสาระสำคัญซึ่งยังคงทำให้เอกสารนั้นมีความสมบูรณ์ในเชิงเนื้อหาเป็นต้น ตัวอย่างงานที่เห็นได้ชัดเจนคือ google นั่นเอง เคยสังเกตไหมคะว่า เมื่อเรา search ข้อมูล google จะแสดงบางส่วนของเนื้อหาของแต่ละผลลัพธ์ เพื่อให้เราเห็นภาพรวมของ website นั้นๆ ก่อนที่เราจะคลิกเข้าไปดู
- Document Classification เป็นเทคนิคช่วยในจำแนกประเภทเอกสาร ทั้งนี้เราต้องทราบก่อนแล้วว่าต้องการจำแนกเอกสารออกเป็นกี่ประเภท (Class) ดังนั้นการใช้เทคนิคนี้ จำเป็นต้องทำการสอนระบบ (train model) ให้รู้จำรูปแบบของเอกสารในแตละ class ก่อน ถ้าเราเคยสังเกตตอนสมัคร e-mail ตาม free e-mail ต่างๆ นั้น จะมีหน้าต่างเงื่อนไขการใช้บริการ ถ้าเราอ่านเงื่อนไขทั้งหมดจะพบว่า 1 ในหลายๆ ข้อนั้น จะมีเงื่อนไขของการยินยอมให้ทางผู้ให้บริการ e-mail สามารถอ่านเนื้อหาภายในเมลล์ได้ ทั้งนี้ส่วนหนึ่งก็เพื่อใช้ในการกรอง พวก spam mail ออกจาก e-mail ปกตินั่นเอง อีกตัวอย่างหนึ่งของการทำเทคนิค Document Classification ไปใช้ คือใช้ในการจำแนกข้อมูลที่มีการ post อยู่ใน social network เพื่อใช้ในการวิเคราะห์หรือดูแนวโน้มในเรื่องต่างๆ ได้อีกด้วย
- Document Clustering เป็นเทคนิคที่ช่วยในการจัดกลุ่มเอกสารทั่วๆ ไป ที่เราไม่ทราบว่าเป็นเอกสารประเภทใด โดยพิจารณาจากเนื้อหาของเอกสารที่คล้ายคลึงกันให้อยู่กลุ่มเดียวกัน ทั้งนี้จะเห็นว่า เราสามารถนำไปใช้ในงานด้าน search engine เพื่อทำการจัดกลุ่มข้อมูลที่มีอยู่มากมาย ออกเป็นกลุ่มย่อยๆ หรือ Categories เมื่อ user ระบุ key word หรือ คำค้น เข้ามา ระบบ search engine จะทำการค้นข้อมูลใน Category เป้าหมายก่อน เพื่อลดเวลาในการ search แทนที่จะต้องทำการค้นหาข้อมูลจากฐานข้อมูลทั้งก้อน
เนื่องจากข้อมูลเอกสารนั้น เป็นรูปแบบที่มีลักษณะไม่เป็นโครงสร้าง จึงยากต่อการนำไปใช้ในการวิเคราะห์โดยตรง ดังนั้นจำเป็นอย่างยิ่งที่จะต้องทำการแปลงให้อยู่ในรูปแบบที่เหมาะสมก่อน หากยังจำกันได้ ขั้นตอนการแปลงข้อมูล (Data Transformation) นั้นจะอยู่ในส่วนของ Data Preparation ในขั้นตอนของ CRISP-DM workflow ซึ่งเป็นส่วนที่ใช้เวลานานที่สุดถึง 80% ค่ะ สำหรับกระบวนการหรือขั้นตอนต่างๆ ในการทำ Text Mining นั้น ขอยกยอดไว้คราวหน้านะคะ รอติดตามกันอีกทีค่ะ
Reference
http://en.wikipedia.org/wiki/Text_mining
หมายเหตุ บทความนี้อยู่ภายใต้ลิขสิทธิ์ของเว็บไซด์ www.open-miner.com ผู้จัดทำอนุญาตให้นำไปเผยแพร่ได้ แต่กรุณาอ้างอิงแหล่งที่มาด้วยว่ามาจาก www.open-miner.com ค่ะ
เรื่องที่เกี่ยวข้อง
- New !!! เปิดอบรมเชิงปฏิบัติการ Introduction to Data Mining (Workshop with WEKA) รุ่นที่ 4 (วันที่ 4 - 5 ก.ย. 2553)
- วิธีการเพิ่มจำนวนข้อมูล (Oversampling) ด้วย SMOTE ใน weka
- ผลการวิเคราะห์ด้วยเทคนิค Classification ใน Weka
- เทคนิคการจำแนกประเภทเอกสาร (Document Classification)
- ภาพบรรยากาศการอบรมหลักสูตร Data Mining with WEKA รุ่นที่ 11 จัดโดย www.open-miner.com
0
0