Rain in Australia

Wanchai Kodmechai

3 min readJul 8, 2019

อ้างอิง DataSet จาก https://www.kaggle.com/jsphyg/weather-dataset-rattle-package

จากตัวอย่างข้อมูลมีทั้ง 24 Attributes จำนวน 142,193 แถว

เป็นการ Classification ที่ต้องการทำนายว่าในวันพรุ่งนี้จะมีฝนตกหรือไม่ของประเทศออสเตรเลีย

Exploration ทำการอ่านไฟล์ข้อมูล CSV ที่เป็น DataSet เข้ามาในโปรแกรม Rapid Miner เพื่อดูว่ามี Missing Value หรือไม่

จากข้อมูลมี 24 Attributes จำนวน 142,193 แถว และมี Target ของคำตอบที่ไม่ balance กัน คำตอบ No = 77.6 % และคำตอบ Yes = 22.4 % เมื่อนำเข้าข้อมูลเพื่อทดสอบตามกระบวนการทดสอบโมเดลมีความเป็นไปได้ที่จะได้คำตอบ = No เพราะมีเปอร์เซ็นต์ที่มากกว่าคำตอบที่เป็น Yes อาจทำให้ผลการทดลองคาดเคลื่อนได้

ปัญหาที่พบ คือ DataSet มี Missing Value อยู่ทั้ง 20 Attributes และมี Imbalance Data ในส่วนที่เป็น Result Target

Data Preprocessing : Replace missing value by Average & Undersampling

ทำการ Undersampling เพื่อปรับ Result Target ของคำตอบให้มีค่าเท่ากัน

ผลจากการปรับ Undersampling ทำให้ Result Target ของคำตอบมีค่าเท่ากัน

จากสร้าง model มา 4 แบบคือ Decision Tree, Random Forest, Gradient Booted Trees และ Deep Learning ซึ่งได้นำมาสร้างเป็น model เพื่อทดสอบและวัดประสิทธิภาพข้อมูล