2010
เทคนิคการจำแนกประเภทเอกสาร (Document Classification)
Posted by: hanako In: Classification|Data Mining|Text Mining
หลังจากพักผ่อนยาวในช่วงเทศกาลสงกรานต์ ทาง www.open-miner.com ของเราขอเสนอภาคต่อจากเรื่อง Text Mining ที่เขียนไว้เมื่อต้นเดือนค่ะ โดยคราวนี้จะขอแนะนำวิธีการสร้าง โมเดล ในการจำแนกประเภทเอกสาร (Document Classification) เพื่อเป็นแนวทางสำหรับผู้ที่ต้องการศึกษาวิธีการสร้างโมเดลสำหรับงานประเภทนี้ค่ะ โดยขั้นตอนหลักๆ เรายึดจาก CRISP-DM ซึ่งมีอยู่ 6 ขั้นตอนดังนี้ค่ะ ขั้นที่ 1. เริ่มจากระบุปัญหาก่อนนะคะว่าต้องการจำแนกปะเภทเอกสารชนิดใด เช่นต้องการจำแนกเนื้อหาข่าวที่ได้จาก website ต่างๆ หรือต้องการจำแนกข้อความที่มีการ tweet กันไปมาใน social network อย่าง twitter เพื่อดูแนวโน้มว่าเรื่องที่คุยกันนั้น มี trend หรือแนวโน้มเป็นอย่างไร ขั้นที่ 2. ทำการกำหนดเลยค่ะว่า Class หรือคำตอบที่เราต้องการจากโมเดลคืออะไร ยกตัวอย่างการจำแนกประเภทเอกสารข่าวจากเว็บไซต์ ดังนั้น class ของเราอาจแบ่งได้เป็น class1 = ข่าวต่างประเทศ, class2 = ข่าวกีฬา, class3 = ข่าวบันเทิง, class4 = ข่าวอื่นๆ [...]