Open Miner Intelligence

Posts Tagged ‘preprocess

ในโจทย์ปัญหา Classification นั้น หลายท่านคงเคยพบกับปัญหาข้อมูลไม่เท่ากันในแต่ละ class หรือที่เรียกว่า Imbalance data set แน่นอนว่าหากเราเอาข้อมูลที่มีปริมาณแตกต่างกันอย่างชัดเจนนั้น มาเรียนรู้ด้วยวิธีการจำแนกประเภท เราย่อมได้โมเดลที่รู้จำรูปแบบของข้อมูลที่มีปริมาณมากได้เป็นอย่างดี ทำอย่างไรดีถึงจะได้โมเดลที่เป็นกลาง ? วิธีการหนึ่งที่ช่วยแก้ปัญหา Imbalance data set ได้ คือการทำ Undersampling หรือบางทีก็เรียกว่า Down Sampling เป็นวิธีการลดจำนวนข้อมูลของ class ที่เป็นเสียงข้างมาก (majority class) ให้น้อยลงจนมีปริมาณพอๆ กับ class ที่เป็นเสียงข้างน้อย (minority class) อย่างมีหลักการ  หรืออีกวิธีหนึ่งที่เป็นเหมือนกระจกเงา คือวิธีการที่เรียกว่า Oversampling หรืออีกชื่อหนึ่งคือ Up Sampling ซึ่งเป็นวิธีการในการเพิ่มจำนวนข้อมูลของ class ที่เป็น minority ให้มีปริมาณข้อมูลใกล้เคียงกับ class ที่เป็น majority นั่นเอง   ในบทความนี้เราจะลองแก้ปัญหา Imbalance data set ด้วยวิธีการ [...]


Calendar

May 2012
M T W T F S S
« Apr    
 123456
78910111213
14151617181920
21222324252627
28293031  

Newsletter

ระบุข้อมูลเพื่อรับข่าวสารจาก www.open-miner.com


About

This is an example of a WordPress page, you could edit this to put information about yourself or your site so readers know where you are coming from.