Chiều ngày 26/06/2025, tại Viện Công nghệ Thông tin – Đại học Quốc gia Hà Nội, đã diễn ra buổi seminar khoa học với chủ đề về “Công nghệ Trí tuệ nhân tạo tạo sinh (Generative AI) trong sinh ảnh khuôn mặt và chú thích ảnh”. Đây là chuỗi seminar định kỳ hàng tháng do Viện Công nghệ Thông tin tổ chức nhằm trao đổi các kết quả mới nhất về các công nghệ hiện đại trong Trí tuệ nhân tạo (AI), Thiết kế vi mạch và bán dẫn, An toàn thông tin, và nhiều chủ đề khác. Buổi seminar tháng 6/2025 có các chủ đề quan trọng về ứng dụng sinh ảnh trong giám sát đa camera và công nghệ sinh chú thích ảnh.

Buổi seminar được chủ trì bởi PGS.TS. Lê Hoàng Sơn, Phó Viện trưởng Viện Công nghệ Thông tin cùng với sự tham gia của đông đảo các cán bộ, nghiên cứu viên và nghiên cứu sinh. Các báo cáo viên đều là các thực tập sinh trúng tuyển theo chương trình hỗ trợ nghiên cứu từ Viện Công nghệ Thông tin, làm việc tại trung tâm nghiên cứu tiên tiến quốc tế về Trí tuệ nhân tạo ứng dụng (AIRC) để nghiên cứu các công nghệ mới và triển khai phát triển sản phẩm theo các hướng nghiên cứu trọng tâm của Viện hiện nay.

Mở đầu chương trình, báo cáo viên Nguyễn Phú Lộc, thực tập sinh tại Viện Công nghệ Thông tin – Đại học Quốc gia Hà Nội, đã trình bày báo cáo với tiêu đề: “Data Augmentation for Facial Image Generation“. Bài trình bày tập trung vào việc tăng cường dữ liệu trong sinh ảnh khuôn mặt, hướng đến mục tiêu nâng cao hiệu quả nhận diện khuôn mặt trong bối cảnh dữ liệu đầu vào hạn chế và môi trường triển khai có tài nguyên tính toán thấp, tiêu biểu như các hệ thống giám sát bằng camera tại Việt Nam. Trọng tâm của nghiên cứu là mô hình sinh ảnh khuôn mặt đa góc nhìn, bắt đầu từ việc trích xuất các điểm mốc khuôn mặt từ ảnh đầu vào. Các điểm mốc này sau đó được đưa vào Pose Manifold Learner – một thành phần cốt lõi trong việc học và biểu diễn không gian tư thế khuôn mặt. Nhiều kỹ thuật học manifold như PCA, LLE, t-SNE và Autoencoder đang được triển khai để đánh giá hiệu quả. Từ các điểm mốc tư thế được ngoại suy, mô hình Continuous Pose Extrapolation GAN (CPE-GAN) sẽ tổng hợp các ảnh khuôn mặt mới tương ứng với tư thế mong muốn.

Bài trình bày cũng điểm qua các nghiên cứu liên quan trong lĩnh vực sinh ảnh đa góc nhìn, bao gồm các mô hình phức tạp sinh ảnh từ ảnh đơn, hoặc kết hợp nhiều ảnh đầu vào. Đặc biệt phân tích sâu về hai hướng tiếp cận nổi bật là “Few-Shot Adversarial Learning of Realistic Neural Talking Head Models”, sử dụng mô hình huấn luyện đa giai đoạn gồm Embedder, Generator và Discriminator; tiếp cận “Disentangled Representation Learning GAN”, với kiến trúc tách biệt yếu tố danh tính và tư thế thông qua mạng Encoder–Decoder Generator. Đây là các kiến trúc nổi bật được sử dụng hiện nay trong công nghệ AI tạo sinh.

Tiếp nối chương trình, báo cáo viên Ngô Đức Tâm trình bày nghiên cứu với tiêu đề: “Multimodal Image Captioning based on Graph Neural Networks” nhằm giới thiệu mô hình MMGAT-GNN, một khung học sâu kết hợp giữa mạng nơ-ron đồ thị (Graph Neural Networks – GNN) và cơ chế chú ý nâng cao, nhằm giải quyết các thách thức trong hệ thống tạo chú thích ảnh đa phương thức. Mục tiêu là cải thiện khả năng tổng quát hóa, hạn chế hiện tượng “hallucination” – khi mô hình tạo ra nội dung không có thật – và tăng tính mạch lạc ngữ nghĩa của chú thích sinh ra. Mô hình được xây dựng theo ba giai đoạn chính:

  1. Trích xuất đặc trưng và xây dựng đồ thị, nơi các thông tin thị giác và ngữ nghĩa được mã hóa thành cấu trúc đồ thị;
  2. Ghép nối đồ thị đa phương thức, nhằm tích hợp thông tin toàn diện giữa các modal;
  3. Giải mã và tạo câu, sử dụng các chiến lược attention khác biệt để tạo ra mô tả hình ảnh chính xác và giàu ngữ nghĩa.

Buổi seminar đã thu hút sự quan tâm và tham dự của đông đảo giảng viên, nhà nghiên cứu và sinh viên đến từ nhiều đơn vị trong và ngoài Đại học Quốc gia Hà Nội. Trong bối cảnh công nghệ phát triển mạnh mẽ, Trí tuệ nhân tạo tạo sinh (Generative AI – GenAI) đang nổi lên như một lĩnh vực đột phá, cho phép tạo ra dữ liệu mới dựa trên những tri thức đã học từ dữ liệu gốc. GenAI không chỉ thay đổi cách con người tương tác với công nghệ mà còn mở ra nhiều ứng dụng tiềm năng trong các lĩnh vực như xử lý ngôn ngữ tự nhiên, tạo ảnh và âm thanh, mô phỏng cấu trúc sinh học, cũng như hỗ trợ chẩn đoán trong y học hiện đại.

Buổi seminar đã có nhiều thảo luận sôi nổi từ những người tham dự về cơ hội hợp tác nghiên cứu và triển khai công nghệ AI tạo sinh trong các miền ứng dụng (y tế, môi trường, giáo dục..) giữa Viện Công nghệ Thông tin và các đối tác trong và ngoài nước.