ในโจทย์ปัญหา Classification นั้น หลายท่านคงเคยพบกับปัญหาข้อมูลไม่เท่ากันในแต่ละ class หรือที่เรียกว่า Imbalance data set แน่นอนว่าหากเราเอาข้อมูลที่มีปริมาณแตกต่างกันอย่างชัดเจนนั้น มาเรียนรู้ด้วยวิธีการจำแนกประเภท เราย่อมได้โมเดลที่รู้จำรูปแบบของข้อมูลที่มีปริมาณมากได้เป็นอย่างดี ทำอย่างไรดีถึงจะได้โมเดลที่เป็นกลาง ? วิธีการหนึ่งที่ช่วยแก้ปัญหา Imbalance data set ได้ คือการทำ Undersampling หรือบางทีก็เรียกว่า Down Sampling เป็นวิธีการลดจำนวนข้อมูลของ class ที่เป็นเสียงข้างมาก (majority class) ให้น้อยลงจนมีปริมาณพอๆ กับ class ที่เป็นเสียงข้างน้อย (minority class) อย่างมีหลักการ หรืออีกวิธีหนึ่งที่เป็นเหมือนกระจกเงา คือวิธีการที่เรียกว่า Oversampling หรืออีกชื่อหนึ่งคือ Up Sampling ซึ่งเป็นวิธีการในการเพิ่มจำนวนข้อมูลของ class ที่เป็น minority ให้มีปริมาณข้อมูลใกล้เคียงกับ class ที่เป็น majority นั่นเอง ในบทความนี้เราจะลองแก้ปัญหา Imbalance data set ด้วยวิธีการ [...]
DMW0201: อบรมเชิงปฏิบัติการ Introduction to Data Mining (Workshop with Weka) รุ่นที่ 4 ภาพรวมของหลักสูตร ในสภาพเศรษฐกิจที่กำลังฝืดเคืองอย่างเช่น ณ ปัจจุบัน ทำให้ธุรกิจต่างๆ ต้องหาวิธีการรักษาฐานลูกค้าของตนเองไว้อย่างเหนียวแน่น จึงเห็นได้ว่าสินค้าหลายชนิด มีการจัดโปรโมชันต่างๆ ออกมามากมาย ไม่ว่าจะเป็นการลด แลก แจก แถม เพื่อดึงลูกค้าจากบริษัทคู่แข่งมาเป็นลูกค้าของตนให้ได้ วิธีการดังกล่าวทำให้บริษัทได้ลูกค้าเพิ่มขึ้นจริง แต่อาจจะไม่ใช่ลูกค้าที่มีความจงรักภักดี (loyalty) พอต่อสินค้าหรือบริการของบริษัทที่จะกลับมาซื้อสินค้าเพิ่มเติม ลูกค้าเหล่านี้อาจจะซื้อเพียงเพราะว่าร้านนี้มีราคาถูกกว่าหรือให้ของแถมมากกว่า จึงอาจไม่ใช่วิธีการที่จะรักษาฐานของลูกค้าได้อย่างยั่งยืนนัก วิธีการหนึ่งที่จะช่วยรักษาฐานลูกค้าไว้ให้ได้อย่างมีประสิทธิภาพคือ การนำเสนอสินค้าและบริการให้ตรงกับความต้องการของลูกค้า ณ เวลาที่ต้องการ การจะทำเช่นนี้ได้บริษัทห้างร้านต่างๆ จะต้องมีความเข้าใจถึงพฤติกรรมการบริโภคสินค้าของลูกค้าว่าชอบหรือไม่ชอบสินค้าอะไร คงไม่ยากถ้าร้านค้านั้นเป็นร้านที่มีขนาดเล็กและเจ้าของร้านก็รู้จักกับลูกค้าทุกคนเป็นอย่างดี แต่ถ้าเป็นกิจการที่มีขนาดใหญ่การรู้จักลูกค้าทุกคนด้วยตัวเจ้าของกิจการเองคงเป็นไปไม่ได้นอกเสียจากมีเครื่องมือช่วย เช่นบัตรสมาชิก หรือ loyalty card ทำให้เมื่อไม่นานมานี้ห้างซูเปอร์สโตร์ (superstore) ขนาดใหญ่ต่างๆ ไม่ว่าจะเป็น Tesco Lotus, BigC, Carrefour, Central, The Mall [...]
เนื่องจากมีหลายท่านได้สอบถามเกี่ยวกับการทำเหมืองข้อความหรือ Text Mining เข้ามาค่อนข้างมาก ดังนั้นวันนี้ www.open-miner.com ของเราจึงขอพูดคุยเกี่ยวกับเรื่องนี้กันค่ะ ปกติแล้วเรามักคลุกคลีกับงานเอกสารอิเล็คทรอนิกส์ตลอดเวลา ไม่ว่าจะเป็นเอกสารบทความที่มีการ post กันใน blog ข่าวสารต่างๆ เอกสารทางวิชาการ email จากทั้งผู้ที่ประสงค์และไม่พึงประสงค์ (พวก mail โฆษณา) หรือแม้แต่ข้อความที่มีการ post ตอบกระทู้ไปมา หรือ post ใน twitter facebook ซึ่งเป็น social network ที่กำลังมาแรง ณ ขณะนี้ การนำ Text Mining เข้ามาช่วยงานทางด้านเอกสาร สามารถแบ่งเป็นรูปแบบต่างๆ ได้แก่ Document Summarization ในบางครั้งเราอาจต้องการทราบเพียงข้อมูลที่เป็นสาระสำคัญของเอกสารเท่านั้น การนำเทคนิคนี้มาใช้ ก็เพื่อทำการลดรายละเอียดของข้อมูลที่ไม่จำเป็น เพื่อให้คงไว้เฉพาะส่วนที่เป็นสาระสำคัญซึ่งยังคงทำให้เอกสารนั้นมีความสมบูรณ์ในเชิงเนื้อหาเป็นต้น ตัวอย่างงานที่เห็นได้ชัดเจนคือ google นั่นเอง เคยสังเกตไหมคะว่า เมื่อเรา search ข้อมูล google จะแสดงบางส่วนของเนื้อหาของแต่ละผลลัพธ์ เพื่อให้เราเห็นภาพรวมของ website [...]
หลายคนที่ใช้ Weka สำหรับทำการจำแนกประเภทข้อมูลหรือ classification เมื่อได้ผลลัพธ์แล้วอาจจะงงว่าแต่ละส่วนมันคืออะไร ผมขอสรุปๆ ส่วนที่สำคัญไว้ดังนี้ครับ === Run information === Scheme: weka.classifiers.trees.J48 -C 0.25 -M 2 Relation: weather Instances: 14 Attributes: 5 outlook temperature humidity windy play Test mode: 10-fold cross-validation ส่วนแรกคือส่วน Run Information นี้จะเป็นการสรุปว่า Scheme : ในการวิเคราะห์ผลครั้งนี้ใช้เทคนิคอะไรในการทำ classification Relation : ข้อมูลที่ใช้เป็น input มีชื่อว่าอะไร Instances : จำนวนแถวในข้อมูล Attributes : จำนวนคอลัมน์ในข้อมูล และชื่อของแต่ละแอตทริบิวต์ Test mode [...]