สรุปการฝึกอบรมหลักสูตร Data Scientist Essentials (ตอนที่ 4) : การสร้างโมเดลใช้เทคนิค Unsupervised and Supervised Machine Learning

Datascientist

การสร้างโมเดลมี 2 หัวข้อหลักๆ ถ้าข้อมูลแบบไม่มี target จะใช้เทคนิคแบบไม่มีผู้สอน (Unsupervised Machine Learning) ซึ่งในหัวข้อนี้อธิบายเกี่ยวกับ Clustering : K-means และถ้ามี target จะใช้เทคนิคแบบมีผู้สอน (Supervised Machine Learning) สนใจอ่านรายละเอียดต่อ

1. เทคนิคแบบไม่มีผู้สอน (Unsupervised Machine Learning)

1.1 Clustering

– K-means

หากต้องการจัดกลุ่มลูกค้าตามกลุ่มพฤติกรรมที่เหมือนกันอัตโนมัติ
อาจารย์แนะนำวิธีการของ K-means ซึ่งไม่ได้สนใจจุดเริ่มต้น แต่เปลี่ยนจุดเริ่มต้นและเลือกเอง โปรแกรมจะทำการ run model หลายรอบและเลือกค่าที่ดีที่สุดให้ เมื่อได้ตัวเลข K-means แล้ว วิธีการเลือกกลุ่มที่เหมาะสม คือ จะต้องนำค่าผลรวมของค่าเฉลี่ยของแต่ละจุดในกลุ่ม (WCSSE) ไป plot เป็นกราฟ และหาจุดหักศอกที่มากที่สุด หากมีจุดหักศอกหลายจุดให้เลือกทางขวามือก่อนเสมอ (เพราะจำนวนกลุ่มมากกว่ามีโอกาสรวมกลุ่มกันได้)

จากนั้นทำการแสดงผลและแปลผลข้อมูลด้วย Visualize – Radar chart

2. เทคนิคแบบมีผู้สอน (Supervised Machine Learning)

2.1 Predictive analytics for categorical values (Classification)

การสร้างโมเดลแบบที่จะต้องมีข้อมูล target เพื่อทำนายข้อมูลที่เข้ามาใหม่ เช่น ต้องการทำนายลูกค้าว่าลูกค้านี้เป็นลูกค้าที่ดี หรือไม่ดี จะต้องมีการระบุข้อมูลตัวอย่างไว้ว่าลูกค้าแบบไหนเป็นลูกค้าที่ดี และแบบไหนเป็นลูกค้าไม่ดี และต้องมีการแบ่งข้อมูลที่ใช้สำหรับสร้างโมเดล และทดสอบโมเดล จากนั้นจะต้องทำการประเมินโมเดลว่าโมเดลที่สร้างขึ้นมามีประสิทธิภาพหรือไม่

Model evaluation and selection

การประเมินโมเดล และเลือกโมเดลที่เหมาะสมที่จะนำไปใช้งาน พิจารณาจาก Confusion matrix

Confusion matrix

สิ่งที่ประเมินว่าโมเดลที่สร้างมีประสิทธิภาพหรือไม่ พิจารณาจาก ค่า F1-Score ซึ่งพิจารณาจากทั้งค่า Precision กับ Recall ค่า F1-Score สูง แสดงว่าโมเดลมีประสิทธิภาพ จากนั้นทำการประเมินประสิทธิผลโดยการคำนวณหา Expected Value เลือกค่าที่น้อยที่สุดจึงดี

– Predictive analytics Classification Model
อาจารย์แนะนำเพิ่มอีก 3 เทคนิค ประกอบด้วย Logistic Regression Decision Tree และ Neural network ซึ่งทุกครั้งที่ทำการสร้างโมเดล จำเป็นต้องทดลองทำโมเดลขึ้นมา และทำการประเมินโมเดลที่สร้างจาก confusion matrix และเลือกโมเดลที่เหมาะสมดังที่กล่าวไปแล้วข้างต้น

Logistic classification
Decision trees
Neural networks
Neural networks : Multi Layer Perceptron

2.2 Predictive analytics for continuous values

Machine learning models เพื่อพยากรณ์ค่าที่เป็นตัวเลข มีหลายเทคนิค ดังนี้
– Linear regression
– Polynomial regression
– Neural network
หลังจากนี้ อาจารย์สอนตาม Lab พร้อมแนะนำโดยใช้ weka, python และ spark เพื่อให้ทราบวิธีการในการสร้างโมเดลจากหลากหลาย software เพื่อให้เห็นภาพขั้นตอนการวิเคราะห์ข้อมูลอย่างชัดเจน
process for create model

กรณีมี Outlier และไม่ได้ทำการปรับปรุงข้อมูลที่ผิดปกติก่อน อาจมีผลทำให้โมเดลไม่สามารถนำไปใช้งานได้จริง ค่าเฉลี่ยที่ได้จะมีค่าสูงกว่าปกติด้วย 

วิทยากร ดร.ไพรสันต์ ผดุงเวียง
บริษัท อาร์ แอนด์ ดี บีไอ จำกัด
เรียบเรียงโดย นุชนาฏ รงรอง
www.rdbi.co.th
#Consultants
#Data Scientist
#Big Data Analytics