Open Miner Intelligence

24 Nov
2009

ผลการวิเคราะห์ด้วยเทคนิค Classification ใน Weka

Posted by: sitake In: Classification|Data Mining|Weka

หลายคนที่ใช้ Weka สำหรับทำการจำแนกประเภทข้อมูลหรือ classification เมื่อได้ผลลัพธ์แล้วอาจจะงงว่าแต่ละส่วนมันคืออะไร ผมขอสรุปๆ ส่วนที่สำคัญไว้ดังนี้ครับ

=== Run information ===

Scheme:       weka.classifiers.trees.J48 -C 0.25 -M 2
Relation:     weather
Instances:    14
Attributes:   5
outlook
temperature
humidity
windy
play
Test mode:    10-fold cross-validation

ส่วนแรกคือส่วน Run Information นี้จะเป็นการสรุปว่า

  • Scheme : ในการวิเคราะห์ผลครั้งนี้ใช้เทคนิคอะไรในการทำ classification
  • Relation : ข้อมูลที่ใช้เป็น input มีชื่อว่าอะไร
     
  • Instances : จำนวนแถวในข้อมูล
  • Attributes : จำนวนคอลัมน์ในข้อมูล และชื่อของแต่ละแอตทริบิวต์
  • Test mode : การทดสอบประสิทธิภาพของโมเดลที่ได้จากการทำ classification
=== Classifier model (full training set) ===




J48 pruned tree
——————

outlook = sunny
|   humidity <= 75: yes (2.0)
|   humidity > 75: no (3.0)
outlook = overcast: yes (4.0)
outlook = rainy
|   windy = TRUE: no (2.0)
|   windy = FALSE: yes (3.0)

Number of Leaves  :     5

Size of the tree :     8

Time taken to build model: 0.01 seconds

ส่วนที่ 2 คือ ส่วนของโมเดลที่สร้างได้ซึ่งจะแตกต่างกันออกไปตามเทคนิคที่เลือกใช้งาน ในตัวอย่างนี้ใช้เทคนิคการทำ classification
ด้วยวิธี j48 ซึ่งเป็น decision tree แบบหนึ่ง ผลที่แสดงในส่วนนี้จึงเป็นลักษณะของ tree แต่เขียนให้อยู่ในรูปของ text
ซึ่งจาก decision tree นี้เราอาจจะสามารถแปลงให้เป็นกฏที่เป็นโมเดลได้ เช่น ถ้าค่า outlook = sunny และ humidity <= 75 แล้วจะตอบว่า play = yes เป็นต้น

=== Stratified cross-validation ===
=== Summary ===

Correctly Classified Instances           9               64.2857 % 
Incorrectly Classified Instances         5               35.7143 %

ส่วนที่ 3 คือส่วนที่วัดประสิทธิภาพของโมเดลในการ classify ที่สร้างขึ้นมาได้ ซึ่งมีค่าที่สำคัญๆ อยู่ 2 ค่า คื

  • Correctly Classified Instances
    ส่วนนี้บอกว่าจากข้อมูลที่มี 14 instance นั้น มีการทำนายข้อมูลถูกต้อง 9 instance(row) หรือคิดเป็น 64.2857% ของข้อมูลทั้งหมด
  • Incorrectly Classified Instances
    ส่วนนี้บอกว่าจากข้อมูลที่มี 14 instance นั้น มีการทำนายข้อมูลไม่ถูกต้อง 5 instance(row) หรือคิดเป็น 35.7143% ของข้อมูลทั้งหมด
=== Confusion Matrix ===




a b   <– classified as
7 2 | a = yes
3 2 | b = no

ส่วนที่ 4 คือ ส่วนของ confusion matrix ซึ่งเป็นส่วนที่ทำให้เราเห็นรายละเอียดของผลการทำนายของข้อมูลแต่ละคลาสได้ดีขึ้น

  • ค่าในคอลัมน์ คือ ค่าที่ได้จากการทำนายด้วยเทคนิค j48
  • ค่าในถวจะเป็นส่วนของค่าที่เป็นคำตอบของคลาสนั้นจริงๆ

จากตารางนี้เราจะเห็นว่า ข้อมูลที่จริงๆ แล้วมีค่า play=yes และโมเดลของเราทำนายถูกว่ามีค่า play=yes นั้นมีจำนวนทั้งหมด 7 instance ข้อมูลเหล่านี้ คือ ข้อมูลที่โมเดลทำนายถูกเช่น ข้อมูลใน instance ที่มีค่า play=yes
แต่ถ้าจริงๆ แล้วข้อมูลมีค่า play=yes แต่โมเดลการทำนายของเราดันไปตอบว่าค่า play=no นั้นมีจำนวน 2 instance นั้นคือข้อมูลที่โมเดลทำนายผิดสำหรับคลาสที่ตอบว่า play=yes นั่นเอง


หมายเหตุ บทความนี้อยู่ภายใต้ลิขสิทธิ์ของเว็บไซด์ www.open-miner.com ผู้จัดทำอนุญาตให้นำไปเผยแพร่ได้ แต่กรุณาอ้างอิงแหล่งที่มาด้วยว่ามาจาก www.open-miner.com ครับ





เรื่องที่เกี่ยวข้อง

coded by nessus

2 Responses to "ผลการวิเคราะห์ด้วยเทคนิค Classification ใน Weka"

1 | Open Miner Intelligence » Blog Archive » ซอฟต์แวร์สำหรับการทำ data mining ที่น่าสนใจมาก!!!

December 16th, 2009 at 12:13 pm

Avatar

[...] ผลการวิเคราะห์ด้วยเทคนิค Classification ใน Weka [...]

Like or Dislike: Thumb up 0 Thumb down 0

2 | Open Miner Intelligence » Blog Archive » การเชื่อมต่อฐานข้อมูล MySQL กับ Weka

March 12th, 2010 at 10:05 pm

Avatar

[...] ผลการวิเคราะห์ด้วยเทคนิค Classification ใน Weka [...]

Like or Dislike: Thumb up 0 Thumb down 0

Comment Form

 

About

This is an example of a WordPress page, you could edit this to put information about yourself or your site so readers know where you are coming from.