2011
วิธีการเพิ่มจำนวนข้อมูล (Oversampling) ด้วย SMOTE ใน weka
Posted by: admin In: Classification|Data Mining|Preprocess|Weka|Weka
ในโจทย์ปัญหา Classification นั้น หลายท่านคงเคยพบกับปัญหาข้อมูลไม่เท่ากันในแต่ละ class หรือที่เรียกว่า Imbalance data set แน่นอนว่าหากเราเอาข้อมูลที่มีปริมาณแตกต่างกันอย่างชัดเจนนั้น มาเรียนรู้ด้วยวิธีการจำแนกประเภท เราย่อมได้โมเดลที่รู้จำรูปแบบของข้อมูลที่มีปริมาณมากได้เป็นอย่างดี ทำอย่างไรดีถึงจะได้โมเดลที่เป็นกลาง ? วิธีการหนึ่งที่ช่วยแก้ปัญหา Imbalance data set ได้ คือการทำ Undersampling หรือบางทีก็เรียกว่า Down Sampling เป็นวิธีการลดจำนวนข้อมูลของ class ที่เป็นเสียงข้างมาก (majority class) ให้น้อยลงจนมีปริมาณพอๆ กับ class ที่เป็นเสียงข้างน้อย (minority class) อย่างมีหลักการ หรืออีกวิธีหนึ่งที่เป็นเหมือนกระจกเงา คือวิธีการที่เรียกว่า Oversampling หรืออีกชื่อหนึ่งคือ Up Sampling ซึ่งเป็นวิธีการในการเพิ่มจำนวนข้อมูลของ class ที่เป็น minority ให้มีปริมาณข้อมูลใกล้เคียงกับ class ที่เป็น majority นั่นเอง ในบทความนี้เราจะลองแก้ปัญหา Imbalance data set ด้วยวิธีการ [...]