Rain in Australia

Wanchai Kodmechai
3 min readJul 8, 2019

--

อ้างอิง DataSet จาก https://www.kaggle.com/jsphyg/weather-dataset-rattle-package

จากตัวอย่างข้อมูลมีทั้ง 24 Attributes จำนวน 142,193 แถว

เป็นการ Classification ที่ต้องการทำนายว่าในวันพรุ่งนี้จะมีฝนตกหรือไม่ของประเทศออสเตรเลีย

Exploration ทำการอ่านไฟล์ข้อมูล CSV ที่เป็น DataSet เข้ามาในโปรแกรม Rapid Miner เพื่อดูว่ามี Missing Value หรือไม่

จากข้อมูลมี 24 Attributes จำนวน 142,193 แถว และมี Target ของคำตอบที่ไม่ balance กัน คำตอบ No = 77.6 % และคำตอบ Yes = 22.4 % เมื่อนำเข้าข้อมูลเพื่อทดสอบตามกระบวนการทดสอบโมเดลมีความเป็นไปได้ที่จะได้คำตอบ = No เพราะมีเปอร์เซ็นต์ที่มากกว่าคำตอบที่เป็น Yes อาจทำให้ผลการทดลองคาดเคลื่อนได้

ปัญหาที่พบ คือ DataSet มี Missing Value อยู่ทั้ง 20 Attributes และมี Imbalance Data ในส่วนที่เป็น Result Target

Data Preprocessing : Replace missing value by Average & Undersampling

ทำการ Undersampling เพื่อปรับ Result Target ของคำตอบให้มีค่าเท่ากัน

ผลจากการปรับ Undersampling ทำให้ Result Target ของคำตอบมีค่าเท่ากัน

จากสร้าง model มา 4 แบบคือ Decision Tree, Random Forest, Gradient Booted Trees และ Deep Learning ซึ่งได้นำมาสร้างเป็น model เพื่อทดสอบและวัดประสิทธิภาพข้อมูล

เป็นตารางผลการรัน model ของทั้ง 4 model ที่ใช้ในการทดลองนี้

จากการทดสอบ model ที่เลือกมาเพื่อวัดประสิทธิภาพตามข้อมูลที่ได้ทำ Data Exploration และ Data Preprocessing ได้เลือกมาแค่ 4 model ซึ่งให้ผลใกล้เคียงกัน

สุดท้ายนี้หากมีข้อผิดพลาดประการใดต้องขออภัยมา ณ ที่นี้ด้วยครับ

ปล1 ทำเอาไว้กันลืมและไม่ได้ทำการ แสดงการใช้งาน Operator ต่างของตัว RapidMiner

ปล2 การทดลองนี้ใช้โปรแกรม RapidMiner Studio

--

--

Wanchai Kodmechai

Senior Software Engineer (Team Lead) , AI Enthusias , Running , Read a Book