Bài toán phân loại trạng thái cảm xúc khuôn mặt thuộc lớp các bài toán khai phá dữ liệu từ ảnh và video. Đầu vào của bài toán là tập dữ liệu ảnh, ảnh chứa các khuôn mặt hoặc dữ liệu dạng video. Bài toán phân loại trạng thái cảm xúc khuôn mặt sẽ phân loại trạng thái khuôn mặt thành các loại như: vui vẻ, hạnh phúc, ngạc nhiên, sợ hãi, ghê tởm, tức giận (xem hình 1).  Đây là bài toán có thể áp dụng trong một số lĩnh vực như giáo dục thông minh (phân tích trạng thái cảm xúc của học sinh khi nghe giảng,…), cung cấp dịch vụ/sản phẩm cho khách hàng, y tế thông minh, phân tích hành vi (kết hợp với các bài toán như nhận dạng cử chỉ, lời nói,…) hay tương tác người máy.\

 

Hình 1. Ví dụ về trạng thái các khuôn mặt trong ITI data set

Để giải quyết bài toán phân loại hay đếm trạng thái cảm xúc khuôn mặt theo từng loại chúng ta cần thục hiện các bước như sau:

  • Tiền xử lý dữ liệu: đưa ảnh khuôn mặt về dạng chuẩn; nếu đầu vào là ảnh chứa khuôn mặt hoặc video thì cần có công đoạn phát hiện và trích rút đặc trưng khuôn mặt.
  • Phân loại khuôn mặt: có thể dùng các kỹ thuật học có giám sát (Deep learning, SVM, Decision Tree, Random Forest, Bayes,…), học bán giám sát (Semi-supervised learning), hoặc học không giám sát (K-Means, DBSCAN,…).
  • Tương tác người sử dụng: Cho phép người sử dụng có các phản hồi sau đó hệ thống sẽ tích hợp các phản hồi nhằm làm tăng chất lượng của hệ thống.
  • Biểu diễn và mô phỏng kết quả

Một số vấn đề cần nghiên cứu:

  • Vấn đề trích rút đặc trưng, thu nhận ảnh: Kết quả của hệ thống phân loại thường bị ảnh hưởng bởi chất lượng của dữ liệu. Đối với dữ liệu ảnh thì việc trích rút các đặc trưng mang yếu tố quyết định, tuy nhiên ảnh lại thường bị nhiễu bởi nhiều yếu tố như độ sáng, góc nghiêng, phương tiện thu nhận,… Vì vậy công đoạn này đòi hỏi phải có nhiều sự thử nghiệm khác nhau để lựa chọn được các đặc trưng phù hợp.
  • Vấn đề lựa chọn kỹ thuật học máy: Rất nhiều kỹ thuật học máy đang được nghiên cứu và phát triển, tuy nhiên để lựa chọn phương pháp phù hợp cho từng bài toán không phải đơn giản, thậm chí với mỗi kỹ thuật, vấn đề làm sao lựa chọn bộ tham số phù hợp trên một bộ dữ liệu cũng là việc làm mất nhiều thời gian. Nghiên cứu có thể tập trung ở đây gồm phát triển/cải tiến các kỹ thuật học máy mới hoặc xây dựng các phương pháp lai với các kỹ thuật khác nhằm làm tăng hiệu quả của các kỹ thuật học máy.
  • Vấn đề tích hợp các phản hồi: Trong quá trình sử dụng hệ thống có có những phiên hỏi đáp với người dùng nhằm tìm kiếm thêm các gợi ý và sau đó sẽ tích hợp các phản hồi vào trong quá trình phân loại nhằm cho kết quả tốt hơn.
  • Vấn đề tốc độ: Rất nhiều bài toán cần xử lý với dữ liệu lớn, vấn đề áp dụng các kỹ thuật của big data cũng cần được nghiên cứu.
  • Tích hợp với các thiết bị vật lý: hệ thống có thể tích hợp với các thiết bị như camera, webcam để thực hiện phân tích online, tích hợp trên các ứng dụng di động khác như một thành phần của hệ thống, hoặc xây dựng các hệ thống kết hợp cả phần cứng và phần mềm trong các thiết bị chuyên biệt.

 

Phòng CSDL&HTTT-Viện CNTT – ĐHQGHN, Email liên hệ vuvietvu@vnu.edu.vn (Vũ Việt Vũ).