Luận án tiến sĩ: Nghiên cứu, phát triển một số kỹ thuật tóm tắt văn bản báo mạng Tiếng Việt
Toàn văn luận án tiến sĩ của NCS Lê Ngọc Thắng
Tóm tắt luận án tiến sĩ của NCS Lê Ngọc Thắng
Thông tin LATS:
- Họ và tên nghiên cứu sinh: Lê Ngọc Thắng
2. Giới tính: Nam
3. Ngày sinh: 07/12/1980
4. Nơi sinh: Nam Định
5. Quyết định công nhận nghiên cứu sinh số: 17/QĐ-CNTT, ngày 18 tháng 01 năm 2017 của Viện trưởng Viện Công nghệ Thông tin.
6. Các thay đổi trong quá trình đào tạo:
- Quyết định số 55/QĐ-VCNTT ngày 31/12/2019 về việc gia hạn thời gian học tập cho các nghiên cứu sinh.
- Quyết định số 2/QĐ-CNTT ngày 14/01/2022 về việc cho thôi học đối với Nghiên cứu sinh.
7. Tên đề tài luận án: Nghiên cứu, phát triển một số kỹ thuật tóm tắt văn bản báo mạng Tiếng Việt
8. Chuyên ngành: Quản lý Hệ thống thông tin
9. Mã số: 9480205.01QTD
10. Cán bộ hướng dẫn khoa học:
- Phó Giáo sư, Tiến sĩ. Phạm Bảo Sơn.
- Tiến sĩ. Lê Quang Minh.
11. Tóm tắt các kết quả mới của luận án:
Luận án đã nghiên cứu các phương pháp tóm tắt văn bản và tóm tắt văn bản tiếng Việt, trên cơ sở đó, đã đề xuất và có những kết quả mới so với các nhiên cứu trước đây như sau:
- Đã đề xuất phương pháp tính độ tương đồng câu trong văn bản báo mạng điện tử tiếng Việt; xây dựng 02 kho ngữ liệu phục vụ bài toán tóm tắt văn bản báo mạng điện tử tiếng Việt VNNEWS.100.2018 và VNNEWS.500.2024.
- Đã nghiên cứu, thử nghiệm phương pháp tóm tắt văn bản báo mạng điện tử tiếng Việt dựa trên đồ thị với 02 giải thuật học không giám sát (TextRank và LexRank). Kết quả cho thấy với thuật toán LexRank, sử dụng phương pháp tính độ tương đồng câu được đề xuất cho văn bản báo mạng điện tử có hiệu quả cao hơn 2%.
- Đã nghiên cứu mô hình BERT, đề xuất phương pháp tóm tắt văn bản báo mạng điện tử tiếng Việt dựa trên mô hình BERT, có bổ sung các tri thức có sẵn trong văn bản. Kết quả cho thấy mô hình bổ sung tri thức có hiệu quả cao hơn 2,5% so với mô hình không bổ sung tri thức.
12. Khả năng ứng dụng trong thực tiễn:
Luận án này nghiên cứu một số phương pháp tóm tắt văn bản báo mạng điện tử tiếng Việt, có thể ứng dụng vào thực tiễn để xây dựng các phần mềm tóm tắt văn bản báo mạng điện tử tiếng Việt phục vụ công tác quản lý nhà nước về thông tin và truyền thông.
13. Những hướng nghiên cứu tiếp theo:
- Mở rộng tập đặc trưng của văn bản báo mạng điện tử tiếng Việt.
- Xây dựng kho ngữ liệu văn bản báo mạng điện tử tiếng việt đủ lớn cho mô hình BERT, bao gồm đầy đủ các đặc trưng riêng có của thể loại văn bản này.
- Nghiên cứu, khai thác tri thức có sẵn trong văn bản báo mạng điện tử để nâng cao hiệu suất, độ chính xác trong bài toán tóm tắt trích rút câu sử dụng mô hình học sẵn.
14. Các công trình đã công bố có liên quan đến luận án:
[CT1] Thắng, L., & Minh, L. (2018). Một số đặc trưng trong tóm tắt văn bản báo mạng điện tử tiếng Việt. In Kỷ yếu Hội nghị Khoa học công nghệ quốc gia lần thứ XI về Nghiên cứu cơ bản và ứng dụng công nghệ thông tin (FAIR), 2018, (pp. 330 – 335).
[CT2] Thắng, L., Minh, L. and Sơn, P. (2020). Tóm tắt báo mạng điện tử tiếng Việt sử dụng TextRank. In Kỷ yếu Hội nghị Khoa học công nghệ quốc gia lần thứ XIII về Nghiên cứu cơ bản và ứng dụng công nghệ thông tin (FAIR), 2020, (pp. 623 – 627).
[CT3] Le Ngoc Thang, Le Quang Minh (2023), Vietnamese online newspapers summarization using LexRank, Cборник научных трудов по материалам Международной научно-практической конференции 28 декабря 2023г.: Белгород, ISSN 2713-1513.
[CT4] Thang Le Ngoc, Minh Le Quang (2024), “Vietnamese Online Newspaper summarization using Pre-trained model”, Актуальные исследования: МЕЖДУНАРОДНЫЙ НАУЧНЫЙ ЖУРНАЛ (CURRENT RESEARCH: INTERNATIONAL SCIENTIFIC JOURNAL). №2 (184), 09 – 16, 2024, ISSN 2713-1513.
[CT5] Ngoc-Thang Le, Minh-Tien Nguyen, Nhat-Minh Do, Chi-Thanh Nguyen and Quang-Minh Le. (2024) A method to utilize prior knowledge for extractive summarization based on pre-trained language models. Vietnam Journal of Science and Technology.