Open Miner Intelligence

Posts Tagged ‘การจำแนกประเภทเอกสาร

หลังจากพักผ่อนยาวในช่วงเทศกาลสงกรานต์ ทาง www.open-miner.com ของเราขอเสนอภาคต่อจากเรื่อง Text Mining ที่เขียนไว้เมื่อต้นเดือนค่ะ โดยคราวนี้จะขอแนะนำวิธีการสร้าง โมเดล ในการจำแนกประเภทเอกสาร (Document Classification) เพื่อเป็นแนวทางสำหรับผู้ที่ต้องการศึกษาวิธีการสร้างโมเดลสำหรับงานประเภทนี้ค่ะ โดยขั้นตอนหลักๆ เรายึดจาก CRISP-DM ซึ่งมีอยู่ 6 ขั้นตอนดังนี้ค่ะ ขั้นที่ 1. เริ่มจากระบุปัญหาก่อนนะคะว่าต้องการจำแนกปะเภทเอกสารชนิดใด เช่นต้องการจำแนกเนื้อหาข่าวที่ได้จาก website ต่างๆ หรือต้องการจำแนกข้อความที่มีการ tweet กันไปมาใน social network อย่าง twitter เพื่อดูแนวโน้มว่าเรื่องที่คุยกันนั้น มี trend หรือแนวโน้มเป็นอย่างไร ขั้นที่ 2. ทำการกำหนดเลยค่ะว่า Class หรือคำตอบที่เราต้องการจากโมเดลคืออะไร ยกตัวอย่างการจำแนกประเภทเอกสารข่าวจากเว็บไซต์ ดังนั้น class ของเราอาจแบ่งได้เป็น class1 = ข่าวต่างประเทศ, class2 = ข่าวกีฬา, class3 = ข่าวบันเทิง, class4 = ข่าวอื่นๆ [...]

เนื่องจากมีหลายท่านได้สอบถามเกี่ยวกับการทำเหมืองข้อความหรือ Text Mining เข้ามาค่อนข้างมาก ดังนั้นวันนี้ www.open-miner.com ของเราจึงขอพูดคุยเกี่ยวกับเรื่องนี้กันค่ะ ปกติแล้วเรามักคลุกคลีกับงานเอกสารอิเล็คทรอนิกส์ตลอดเวลา ไม่ว่าจะเป็นเอกสารบทความที่มีการ post กันใน blog  ข่าวสารต่างๆ  เอกสารทางวิชาการ email จากทั้งผู้ที่ประสงค์และไม่พึงประสงค์ (พวก mail โฆษณา) หรือแม้แต่ข้อความที่มีการ post ตอบกระทู้ไปมา หรือ post ใน twitter facebook ซึ่งเป็น social network ที่กำลังมาแรง ณ ขณะนี้ การนำ Text Mining เข้ามาช่วยงานทางด้านเอกสาร สามารถแบ่งเป็นรูปแบบต่างๆ ได้แก่ Document Summarization ในบางครั้งเราอาจต้องการทราบเพียงข้อมูลที่เป็นสาระสำคัญของเอกสารเท่านั้น การนำเทคนิคนี้มาใช้ ก็เพื่อทำการลดรายละเอียดของข้อมูลที่ไม่จำเป็น เพื่อให้คงไว้เฉพาะส่วนที่เป็นสาระสำคัญซึ่งยังคงทำให้เอกสารนั้นมีความสมบูรณ์ในเชิงเนื้อหาเป็นต้น ตัวอย่างงานที่เห็นได้ชัดเจนคือ google นั่นเอง เคยสังเกตไหมคะว่า เมื่อเรา search ข้อมูล google จะแสดงบางส่วนของเนื้อหาของแต่ละผลลัพธ์ เพื่อให้เราเห็นภาพรวมของ website [...]


Calendar

May 2012
M T W T F S S
« Apr    
 123456
78910111213
14151617181920
21222324252627
28293031  

Newsletter

ระบุข้อมูลเพื่อรับข่าวสารจาก www.open-miner.com


About

This is an example of a WordPress page, you could edit this to put information about yourself or your site so readers know where you are coming from.