สรุปการฝึกอบรมหลักสูตร Data Scientist Essentials (ตอนที่ 6) : Sentiment analysis on text data

Datascientist

แนะนำวิธีการจัดการข้อมูลที่เป็น text การเตรียมข้อมูลสำหรับสร้างโมเดล การแปลงข้อมูล Text ให้เป็นตัวเลขในตาราง สนใจอ่านรายละเอียดต่อ

1. วิธีการจัดการข้อมูลที่เป็น text

Data มีหลายประเภท ได้แก่
– Structured data: ข้อมูลที่อยู่ใน Database
– Semi-Structured data: XML, JSON, CSV and some NoSQL databases
– Unstructured data: Text, Photographs, video, Audio

วิธีการจัดการข้อมูลที่เป็น text มีความยุ่งยากในแง่ของการเตรียมข้อมูล Data Preprocessing เพราะมีความหลากหลายทั้งในแง่ของคำผิด คำถูก การตีความหรือทำความเข้าใจคำนั้นๆ ว่าเป็นบวกหรือลบ การมีข้อความจำนวนมากในเอกสาร และบางครั้งมีหลายไฟล์ถือเป็น 1 เอกสาร 

การเตรียมข้อมูลสำหรับสร้างโมเดล การแปลงข้อมูล Text ให้เป็นตัวเลขในตาราง มีหลากหลายวิธีการดังนี้

Bag of Words เป็นวิธีการแยกคำ และนับคำที่เกิดขึ้นในประโยค

  • Binary representation ใส่ 1 ถ้ามีคำนั้นๆ ถ้าไม่มีใส่ 0
  • Term Frequency (TF)  นับคำที่เกิดขึ้น และใส่ตามจำนวนคำที่เกิดในเอกสาร บางครั้งไม่สามารถหาคำที่เกิดขึ้นในเอกสารได้ ทำให้มีข้อมูnooลเป็น 0 อยู่จำนวนมาก
  • Inverse Document Frequency (IDF) นับจำนวนคำที่เกิดขึ้นของเอกสารทั้งหมดที่สนใจ
  • Term Frequency-Inverse Document Frequency (TF-IDF) ใช้ 2 วิธีการ TF และ IDF
Term Frequency-Inverse Document Frequency (TF-IDF)

หากใช้วิธีการแยกคำ (Bag of Words) แล้ว อาจจะเกิดปัญหาเรื่องการตีความได้ ดังนั้นจึงมีวิธีการ N-gram Sequences มาช่วยแก้ปัญหาได้

  • N-gram Sequences เป็นการนับจำนวนคำ และเพิ่มจำนวนคำที่สนใจมีทั้งแบบคำเดียว 2 คำ และ 3 คำ

การเพิ่ม feature set เข้าไป จะต้องเพิ่มวิธีการเลือก feature เพื่อลดจำนวน feature ให้น้อยลงเลือกเฉพาะ feature ที่สำคัญ และจะต้องใช้หน่วยความจำกับพื้นที่ในการประมวลผลมากขึ้น

วิทยากร ดร.ไพรสันต์ ผดุงเวียง
บริษัท อาร์ แอนด์ ดี บีไอ จำกัด
เรียบเรียงโดย นุชนาฏ รงรอง
www.rdbi.co.th
#Consultants
#Data Scientist
#Big Data Analytics
#text analysis
#วิธีการจัดการ text data