Bangkok,Thailand.
02-0022752
info@rdbi.co.th

Data Scientist Essentials : Big Data Analytics Module C

ชื่อหลักสูตร : Data Scientist Essentials : Big-Data-C

จำนวนวันที่อบรม : 5 วัน

จุดประสงค์หลักสูตร

  • เข้าใจหลักการทำงานและพฤติกรรมของตัวแบบการเรียนรู้ของเครื่อง (Machine leaning model) ทั้งแบบมีผู้สอนและไม่มีผู้สอน
  • สามารถเลือกใช้ตัวแบบการเรียนรู้ของเครื่องให้เหมาะสมกับงานได้
  • สามารถเลือกใช้เครื่องมือที่เหมาะสมกับข้อมูลที่จะวิเคราะห์ได้ (ข้อมูลทั่วไป และ Big data)
  • สามารถเตรียมข้อมูลให้เหมาะสมสำหรับการฝึกการเรียนรู้ของเครื่องได้
  • สามารถตรวจหาจำนวนกลุ่มที่เหมาะสมและจัดกลุ่มลูกค้าตามพฤติกรรมที่เหมือนกันในแต่ละกลุ่มอย่างอัตโนมัติได้
  • สามารถนำข้อมูลหลายรูปแบบมาช่วยสร้างตัวแบบเพื่อใช้ในการทำนายได้
  • สามารถนำข้อมูลจากการใช้งานของผู้ใช้อื่นที่คล้ายกันมาช่วยแนะนำผู้ใช้งานได้

ข้อมูลที่ใช้เป็นกรณีศึกษา

  • ข้อมูลการทำธุรกรรมของลูกค้าธนาคาร
  • ข้อมูลทางสำมโนประชากรของลูกค้า
  • ข้อมูลประวัติการเข้าใช้เว็บของลูกค้า
  • ข้อมูลผู้ถือบัตรเครดิต
  • ข้อมูลจริงจากแหล่งอื่นที่เกี่ยวข้องกับเรื่องที่อบรม เช่น
    • ข้อมูลราคาหุ้นเพื่อใช้เป็นตัวอย่างการทำนายค่าแบบต่อเนื่อง
    • ข้อมูลผู้ใช้ที่รีวิวสินค้าบนอินเทอร์เน็ตสำหรับใช้เป็นตัวอย่างในการวิเคราะห์อารมณ์จากข้อความได้
    • ข้อมูลการย้ายค่ายของบริษัทเทเลคอมมาใช้เป็นตัวอย่างเพื่อสร้างโมเดลทำนายการย้ายค่าย
    • ข้อมูลจากความชื่นชอบภาพยนตร์มาใช้เป็นตัวอย่างสำหรับระบบแนะนำ
    • ข้อมูลภาพถ่ายเพื่อเป็นตัวอย่าง deep leaning เป็นต้น

หมายเหตุ

  • ข้อมูลของลูกค้าเป็นข้อมูลจำลองเสมือนจริงไม่สามารถระบุตัวตนผู้ใช้ได้
  • เครื่องมือที่ใช้ในการวิเคราะห์ใช้ทั้งสองแบบคือเครื่องมือสำหรับข้อมูลทั่วไปและเครื่องมือสำหรับ Big data โดยเฉพาะ

หลักสูตรนี้เหมาะสำหรับ

ทีมงานด้าน Data Analytics (ผู้เข้าอบรมต้องผ่านการอบรมหลักสูตร Big Data Module B มาแล้ว)

Course Outline

    Day 1 / 5  
Time Title
09.00 – 10.30 น. Introduction to Data Science and Machine Learning

– Application of Machine Learning Techniques

–  Machine Learning in the Big Data era

–  Understanding Supervised and Unsupervised Learning Techniques

10.30 – 10.45 น. Break
10.45 – 12.00 น. Spark Machine Learning

–  Introduction Spark MLlib

–  Introduction to Spark ML Pipeline

–  Machine Learning using Spark ML Pipeline

12.00 – 13.00 น. Lunch
13.00 – 14.30 น. Data Preprocessing

– Standardizing data

–  Principal component analysis (PCA)

–  Big Data Visualization and Tools

14.30 – 14.45 น. Break
14.45 – 16.30 น. LAB: Customer data preprocessing and visualization on small and Big data
    Day 2 / 5  
Time Title
09.00 – 10.30 น. Descriptive analytics

–  Similarity and Distance

–  Data segmentation (Clustering)

–  Clustering model learning and model selection

–  Results interpretation

10.30 – 10.45 น. Break
10.45 – 12.00 น. LAB: Customer segmentation based on their activities
12.00 – 13.00 น. Lunch
13.00 – 14.30 น. –  Anomaly/Outlier detection on multiple attributes

LAB: Customer anomaly detection and visualization

14.30 – 14.45 น. Break
14.45 – 16.30 น. LAB: Customer anomaly detection and visualization (cont.)
    Day 3 / 5  
Time Title
09.00 – 10.30 น. Predictive analytics

– Machine learning models for predicting categorical  values

    – Naïve Bayes

    – Logistic regression

    – Support Vector Machine

    – Decision tree

    – Neural network

10.30 – 10.45 น. Break
10.45 – 12.00 น. – Model evaluation and selection

     – Plain Accuracy and Its Problems

     – The Confusion Matrix

     – Problems with Unbalanced Classes

     – Problems with Unequal Costs and Benefits

12.00 – 13.00 น. Lunch
13.00 – 14.30 น. LAB: Credit risk modeling
14.30 – 14.45 น. Break
14.45 – 16.30 น. LAB: Customer churn prediction based on historical data
    Day 4 / 5  
Time Title
09.00 – 10.30 น. Sentiment analysis on text data

– Text representation

     – Bag of Words

     – Binary representation

     – Term Frequency

     – TFIDF

     – N-gram Sequences

– Advance topics

       – Word to vector concept

       – Topic Models concept

10.30 – 10.45 น. Break
10.45 – 12.00 น. LAB: Machine leaning model for sentiment analysis using customer reviews data
12.00 – 13.00 น. Lunch
13.00 – 14.30 น. Predictive analytics

– Machine learning models for predicting continuous values

– Linear regression

– Polynomial regression

– Neural network

– Effect of outlier data

– Model evaluation and selection

14.30 – 14.45 น.

Break
14.45 – 16.30 น. LAB: Predict continuous values on small dataset and big dataset (Stock prediction use case)

LAB: Machine learning model for missing values replacement

    Day 5 / 5  
Time Title
09.00 – 10.30 น. Recommender system

– Association rules

     – Basic Setting

     – Metrics

     – Post processing and application

– Collaborative filtering for recommender system

     – User-based recommendation

     – Item-based recommendation

     – Model-based recommender system on big data

10.30 – 10.45 น. Break
10.45 – 12.00 น. LAB: Recommendation from customer transactions (Available data: Bank product, Web access log, Customer purchasing history)

LAB: Model-based recommender system based on customer rating

12.00 – 13.00 น. Lunch
13.00 – 14.30 น. Introduction to deep learning

– Deep learning model and application

14.30 – 14.45 น. Break
14.45 – 16.30 น. Introduction to deep learning (cont.)

– Deep learning model and application

หมายเหตุ

  • กำหนดการอาจมีการปรับเปลี่ยนตามความเหมาะสม
  • ทุกขั้นตอนที่ฝึกปฏิบัติจะมีตัวอย่างประกอบ พร้อมมีวิทยากรให้คำแนะนำตลอดการสัมมนาเชิงปฏิบัติการ

รายละเอียดเพิ่มเติม : ติดต่อสอบถามได้ที่ sales@rdbi.co.th หรือโทร. 064-798-4192