Rain in Australia
อ้างอิง DataSet จาก https://www.kaggle.com/jsphyg/weather-dataset-rattle-package
จากตัวอย่างข้อมูลมีทั้ง 24 Attributes จำนวน 142,193 แถว
เป็นการ Classification ที่ต้องการทำนายว่าในวันพรุ่งนี้จะมีฝนตกหรือไม่ของประเทศออสเตรเลีย
Exploration ทำการอ่านไฟล์ข้อมูล CSV ที่เป็น DataSet เข้ามาในโปรแกรม Rapid Miner เพื่อดูว่ามี Missing Value หรือไม่
จากข้อมูลมี 24 Attributes จำนวน 142,193 แถว และมี Target ของคำตอบที่ไม่ balance กัน คำตอบ No = 77.6 % และคำตอบ Yes = 22.4 % เมื่อนำเข้าข้อมูลเพื่อทดสอบตามกระบวนการทดสอบโมเดลมีความเป็นไปได้ที่จะได้คำตอบ = No เพราะมีเปอร์เซ็นต์ที่มากกว่าคำตอบที่เป็น Yes อาจทำให้ผลการทดลองคาดเคลื่อนได้
ปัญหาที่พบ คือ DataSet มี Missing Value อยู่ทั้ง 20 Attributes และมี Imbalance Data ในส่วนที่เป็น Result Target
Data Preprocessing : Replace missing value by Average & Undersampling
ทำการ Undersampling เพื่อปรับ Result Target ของคำตอบให้มีค่าเท่ากัน
ผลจากการปรับ Undersampling ทำให้ Result Target ของคำตอบมีค่าเท่ากัน
จากสร้าง model มา 4 แบบคือ Decision Tree, Random Forest, Gradient Booted Trees และ Deep Learning ซึ่งได้นำมาสร้างเป็น model เพื่อทดสอบและวัดประสิทธิภาพข้อมูล
เป็นตารางผลการรัน model ของทั้ง 4 model ที่ใช้ในการทดลองนี้
จากการทดสอบ model ที่เลือกมาเพื่อวัดประสิทธิภาพตามข้อมูลที่ได้ทำ Data Exploration และ Data Preprocessing ได้เลือกมาแค่ 4 model ซึ่งให้ผลใกล้เคียงกัน
สุดท้ายนี้หากมีข้อผิดพลาดประการใดต้องขออภัยมา ณ ที่นี้ด้วยครับ
ปล1 ทำเอาไว้กันลืมและไม่ได้ทำการ แสดงการใช้งาน Operator ต่างของตัว RapidMiner
ปล2 การทดลองนี้ใช้โปรแกรม RapidMiner Studio