Open Miner Intelligence

3 Nov
2009

มารู้จัก Data Mining กันเถอะ (Introduction to Data Mining)

Posted by: hanako In: Case Study|Data Mining

คงปฏิเสธไม่ได้ว่าในกิจกรรมของเราๆท่านๆ ทุกวันนี้ ล้วนแล้วแต่คลุกคลีกับ ดาต้าไมน์นิ่ง (data mining) โดยไม่รู้ตัว ไม่ว่าจะเป็นการบริโภคอาหาร การซื้อสินค้าในร้านสะดวกซื้อ การออกสินค้าโปรโมชันของห้างสรรพสินค้า โปรโมชันต่างๆ ของโทรศัพท์มือถือ รูปแบบการทำประกันชีวิต หรือแม้แต่การให้สินเชื่อต่างๆ หรือการออกบัตรเครดิตของธนาคาร ล้วนแล้วแต่ใช้สิ่งที่เรียกว่า ดาต้าไมน์นิ่ง ด้วยกันทั้งนั้น แล้วมันคืออะไรล่ะ

คำว่า ดาต้าไมน์นิ่ง (Data Mining) ในภาษาไทยนั้น เป็นที่รู้จักในหมู่เราชาวไอทีว่าคือการทำเหมืองข้อมูล สิ่งที่มาคู่กันกับ ดาต้าไมน์นิ่ง คงหลีกหนีไม่พ้นคำว่า ดาต้าแวร์เฮ้าส์ (Data Warehouse) ซึ่งก็คือโกดังเก็บข้อมูลดีๆ นี่เอง ให้ลองเปรียบคลังข้อมูลที่เรามีอยู่เป็นเหมืองขนาดใหญ่ที่มีแร่ธาตุสารพัด การทำเหมืองโดยทั่วไปเราคงอยากเจอแร่ดีๆ เช่น ทองคำ เงิน หรือ พลอย แต่ในการทำเหมืองข้อมูลสิ่งที่เราอยากได้คือองค์ความรู้ หรือรูปแบบความสัมพันธ์ที่น่าสนใจซึ่งซ่อนอยู่ภายในคลังข้อมูลขนาดใหญ่นั่นเอง เช่น พบรูปแบบการซื้อสินค้าของลูกค้าว่า ทุกครั้งที่มีการซื้อน้ำเปล่า จะมีการซื้อทิชชู ควบคู่กันเสมอ จากความสัมพันธ์ดังกล่าวทางร้านค้าอาจนำไปใช้ในการจัดทำโปรโมชันเพื่อส่งเสริมการขายเป็นต้น

 

ทำไมต้อง Data Mining…

ในสภาวะเศรษฐกิจปัจจุบันที่มีความผันผวนและมีการแข่งขันสูง การพยายามรักษาฐานลูกค้าเก่าและเพิ่มกลุ่มลูกค้าใหม่เป็นสิ่งที่ทุกธุรกิจขาดไม่ได้ กลยุทธ์ที่นิยมนำมาใช้คือการทำ CRM (Customer Relationship Management) เป็นวิธีการบริหารความสัมพันธ์ระหว่างองค์กรกับลูกค้า โดยเริ่มจากการเก็บข้อมูลประวัติลูกค้า ทั้งประวัติส่วนบุคคลและประวัติการซื้อสินค้า (transaction) จากนั้นทำการวิเคราะห์พฤติกรรมการบริโภคสินค้าของลูกค้า ทำการจัดกลุ่มและประเมินว่าลูกค้าแต่ละกลุ่มมีผลต่อกำไรมากน้อยเพียงใด พัฒนาคุณภาพสินค้าและบริการ มีการเสนอโปรโมชันสินค้าและบริการที่ตรงใจ เพื่อตอบโจทย์ของลูกค้าให้ตรงใจมากที่สุด โดยเทคนิคดาต้าไมน์นิ่งได้เข้ามามีบทบาทสำคัญสนับสนุนงานด้าน CRM โดยใช้ในการหาความสัมพันธ์การซื้อสินค้าของลูกค้า เพื่อนำไปวิเคราะห์และช่วยในงานด้านส่งเสริมการขาย ใช้ในการจำแนกลูกค้า หรือใช้ในการบอกแนวโน้มการเลิกใช้สินค้าของลูกค้าชั้นดีที่กำลังจะจากไป
ดังจะเห็นได้ว่าห้างสรรพสินค้าขนาดใหญ่ต่างๆ ไม่ว่าจะเป็น Tesco Lotus, BigC, Carrefour, Central, The Mall ต่างก็ออกบัตรสมาชิก (Club Card, BigCard, i-Wish Card, …) ให้กับลูกค้าเพื่อนำไปใช้เป็นส่วนลดในการซื้อสินค้าหรือได้รับเงินคืนในภายหลัง ข้อมูลเหล่านี้เองที่จะช่วยให้บริษัทสามารถติดตามพฤติกรรมการจับจ่ายสินค้าของลูกค้าแต่ละคนได้ เพื่อทำความเข้าใจว่าลูกค้าแต่ละรายชอบหรือไม่ชอบสินค้าชนิดใด เดินทางมาซื้อสินค้าที่สาขาใด ณ ช่วงเวลาใด และสามารถนำเสนอโปรโมชันให้ตรงใจกับลูกค้ามากที่สุดนั่นเอง
 
 



รูปที่1 บัตรสมาชิกของห้างสรรพสินค้า เพื่อใช้ในการติดตามพฤติกรรมการบริโภคสินค้าของลูกค้า

 

ตัวอย่างการประยุกต์ใช้ดาต้าไมน์นิ่งในกลุ่มธุรกิจอื่น ได้แก่

bullet2กลุ่มเทเลคอมและเน็ตเวิร์ค – โปรโมชันมือถือ หรือ internet ระบบตรวจจับการบุกรุกเครือข่าย
bullet2กลุ่มประกันชีวิต – แผนประกันชีวิตแบบต่างๆ
bullet2กลุ่มโรงพยาบาล – การออกแพ็คเก็ตตรวจสุขภาพ
bullet2กลุ่มการท่องเที่ยวและโรงแรม – Recommendation system สำหรับ web marketing
bullet2กลุ่มธุรกิจการเงิน ธนาคาร – ระบบสนับสนุนการตัดสินใจในการให้สินเชื่อ ระบบตรวจจับการทุจริตทางการเงิน
bullet2กลุ่มวิทยาศาสตร์ชีวภาพ – งานวิจัยทางด้าน Bioinformatics

 

ขั้นตอนการทำเหมืองข้อมูล มีอะไรบ้าง…

หลังจากทำความรู้จักกับดาต้าไมน์นิ่งกันแล้ว หลายคนคงรู้สึกสนใจศาสตร์การทำเหมืองข้อมูลนี้ขึ้นมาทันที ในการวิเคราะห์ข้อมูลด้วยเทคนิคดาต้าไมน์นิ่ง มีกระบวนการมาตรฐานที่เรียกว่า “Cross-Industry Standard Process for Data Mining” หรือเรียกย่อๆ ว่า “CRISP-DM” ซึ่งเกิดจากความร่วมมือระหว่าง บริษัท DaimlerChrysler บริษัท SPSS และบริษัท NCR

 
รูปที่2 กระบวนการ CRISP-DM
กระบวนการ CRISP-DM ประกอบด้วย 6 ขั้นตอน (ดังรูปที่ 2) ได้แก่



1. Business Understanding

เป็นขั้นตอนแรกสุดในกระบวนการ CRISP-DM ขั้นตอนนี้เป็นการทำความเข้าใจ ระบุปัญหาหรือโอกาสเชิงธุรกิจ จากนั้นทำการแปลงโจทย์ที่ได้ ให้อยู่ในรูปแบบที่เหมาะสมต่อการนำมาวิเคราะห์ข้อมูลทางดาต้าไมน์นิ่ง

2. Data Understanding

ข้อมูลเป็นปัจจัยที่สำคัญที่สุดที่ขาดไม่ได้ในการทำดาต้าไมน์นิ่ง ในขั้นตอนนี้เป็นการรวบรวมข้อมูลที่เกี่ยวข้อง เพื่อใช้ในการวิเคราะห์ด้วยเทคนิคดาต้าไมน์นิ่ง ในการรวบรวมข้อมูลนั้นควรพิจารณาด้วยว่าเป็นข้อมูลที่ได้มาจากแหล่งข้อมูลที่ถูกต้องน่าเชื่อถือ ข้อมูลที่ได้มีปริมาณมากพอหรือยัง และเป็นข้อมูลที่เหมาะสม มีรายละเอียดเพียงพอต่อการนำไปใช้ในการวิเคราะห์

3. Data Preparation

ขั้นตอนการเตรียมข้อมูลเป็นขั้นตอนที่ใช้เวลานานที่สุด เนื่องจากโมเดลที่ได้จากการทำดาต้าไมน์นิ่งจะให้ผลลัพทธ์ที่ถูกต้องหรือไม่นั้น ขึ้นอยู่กับคุณภาพของข้อมูลที่ใช้ กล่าวคือถ้าข้อมูลที่ใช้นั้นไม่ถูกต้อง มีผิดพลาด ย่อมสะท้อนถึงผลลัพธ์ที่ได้ ซึ่งอาจทำให้ตีความผลลัพธ์ได้คลาดเคลื่อนเช่นกัน โดยการเตรียมข้อมูลนั้น สามารถแบ่งออกได้เป็น 3 ขั้นตอนย่อยคือ

bullet2ทำการคัดเลือกข้อมูล (Data Selection) เราควรกำหนดเป้าหมายก่อนว่าเราจะทำการวิเคราะห์อะไร แล้วจึงเลือกใช้เฉพาะข้อมูลที่เกี่ยวข้องกับสิ่งที่เราจะทำการวิเคราะห์

bullet2การกลั่นกรองข้อมูล (Data Cleaning) ในบางกรณีอาจพบข้อมูลที่ไม่ถูกต้อง อันเนื่องมาจากปัญหาในระหว่างการจัดเก็บข้อมูล เช่นการกรอกข้อมูลไม่ครบบ้าง กรอกข้อมูลซ้ำซ้อนบ้าง ในขั้นตอนนี้เราจะทำการกรองข้อมูลที่ไม่ถูกต้องหรือซ้ำซ้อนออก หรืออาจทำการซ่อมข้อมูลที่ขาดหายไปด้วยวิธีการบางอย่าง เช่นการพิจารณาจากค่าเฉลี่ยของข้อมูลส่วนใหญ่เป็นต้น

bullet2การแปลงรูปข้อมูล (Data Transformation) เป็นขั้นตอนการเตรียมข้อมูลให้อยู่ในรูปแบบที่พร้อมนำไปใช้ในการวิเคราะห์ตามอัลกอริทึมของดาต้าไมน์นิ่งที่เลือกใช้

4. Modeling

เป็นขั้นตอนการวิเคราะห์ข้อมูลด้วยเทคนิคดาต้าไมน์นิ่ง ได้แก่การสร้างตัวทำนาย (prediction model) ในบางครั้งพบว่ามีการนำเทคนิคดาต้าไมน์นิ่งหลายเทคนิคมาใช้ในการวิเคราะห์ข้อมูล เพื่อให้ได้ผลลัพธ์ที่ดีที่สุด ดังนั้นเมื่อทำขั้นตอนนี้แล้ว อาจมีการย้อนกลับไปที่ขั้นตอน data preparation เพื่อแปลงข้อมูลบางส่วนให้เหมาะสมกับแต่ละเทคนิคด้วย นอกจากนี้ยังมีการประเมินโมเดลวิเคราะห์ข้อมูลที่ได้ ในรูปแบบความถูกต้องของโมเดล เพื่อเป็นตัวบ่งชี้ความน่าเชื่อถือของโมเดลที่ได้ สำหรับรายละเอียดเทคนิคดาต้าไมน์นิ่งแต่ละเทคนิคและวิธีการประเมินผลโมเดล จะนำเสนอในบทความถัดไปค่ะ

5. Evaluation

การประเมินหรือวัดประสิทธิภาพของโมเดลวิเคราะห์ข้อมูลในขั้นตอนก่อนหน้านั้น เป็นเพียงการวัดความน่าเชื่อถือของโมเดลเท่านั้น ในขั้นตอนนี้เป็นการประเมินประสิทธิภาพของผลลัพธ์จากโมเดลวิเคราะห์ข้อมูลว่าครอบคลุมและสามารถตอบโจทย์ทางธุรกิจที่ตั้งไว้ในขั้นตอนแรกหรือไม่ ในกรณีที่มีการสร้างโมเดลวิเคราะห์ข้อมูลหลายโมเดล ในขั้นตอนนี้จะทำการประเมินแต่ละโมเดลด้วยว่ามีส่วนดีส่วนด้อยอย่างไร และควรเลือกใช้โมเดลใด การทำงานในส่วนนี้ต้องอาศัยทักษะในการวิเคราะห์ข้อมูลและธุรกิจ เพื่อช่วยให้การวิเคราะห์ทำได้สะดวกและรวดเร็วขึ้น จึงมีการใช้เครื่องมือทางด้านกราฟฟิก เช่นการแสดงผลการวิเคราะห์ด้วยกราฟ รายงานรูปแบบต่างๆ หรือ Dashboard เป็นต้น

6. Deployment

ผลลัพทธ์หรือองค์ความรู้ที่ได้จากการวิเคราะห์ข้อมูลด้วยเทคนิคดาต้าไมน์นิ่งจะไม่มีประโยชน์เลย ถ้าไม่ถูกนำไปใช้งานจริง ตัวอย่างเช่น การนำองค์ความรู้ที่ได้ไปใช้ในการจัดโปรโมชันส่งเสริมการขายสินค้า ใช้ในการทำนายแนวโน้มการทุจริตในระบบการเงินของธนาคาร หรือตรวจจับความผิดปกติในการซื้อขายหุ้นในตลาดหลักทรัพย์เป็นต้น

 

แหล่งข้อมูลอ้างอิง

bullet2หนังสือ CRISP-DM 1.0 Step-by-step data mining guide – Pete Chapman et al.

bullet2เอกสารคำสอนวิชา 214554 คลังข้อมูลและการทำเหมืองข้อมูล Data Warehouse and Data Mining – ผศ.ดร. กฤษณะ ไวยมัย ภาควิชาคอมพิวเตอร์ มหาวิทยาลัยเกษตรศาสตร์

 

หมายเหตุ บทความนี้อยู่ภายใต้ลิขสิทธิ์ของเว็บไซต์ www.open-miner.com ทางผู้จัดทำอนุญาตให้นำไปเผยแพร่ได้ แต่กรุณาอ้างอิงแหล่งที่มาด้วยว่ามาจาก www.open-miner.com ค่ะ




เรื่องที่เกี่ยวข้อง

coded by nessus

4 Responses to "มารู้จัก Data Mining กันเถอะ (Introduction to Data Mining)"

1 | Conference ICDDM 10 ที่ประเทศฟิลิปินส์ | Open Miner Intelligence

November 10th, 2009 at 11:45 am

Avatar

[...] (database) และการทำเหมืองข้อมูล (data mining) [...]

Like or Dislike: Thumb up 0 Thumb down 0

4 | nursing homes

November 8th, 2010 at 8:06 am

Avatar

Pretty nice post. I just stumbled upon your blog and wanted to say that I have really enjoyed browsing your blog posts. In any case I’ll be subscribing to your feed and I hope you write again soon!

Like or Dislike: Thumb up 0 Thumb down 0

Comment Form

 

About

This is an example of a WordPress page, you could edit this to put information about yourself or your site so readers know where you are coming from.