TRÍCH YẾU LUẬN ÁN TIẾN SĨ
Tên tác giả: Lê Ngọc Thắng
Tên luận án: Nghiên cứu, phát triển kỹ thuật tóm tắt văn bản tiếng Việt phục vụ công tác thu thập, xử lý thông tin lan truyền trên mạng internet.
Ngành khoa học của luận án: Công nghệ thông tin
Chuyên ngành: Quản lý Hệ thống thông tin Mã số: 9480205.01QTD
Tên đơn vị đào tạo Sau đại học: Viện Công nghệ Thông tin – Đại học Quốc gia Hà Nội.
- Mục đích và đối tượng nghiên cứu của luận án
Mục đích của luận án là nghiên cứu các đặc trưng quan trọng của văn bản báo mạng điện tử tiếng Việt cho bài toán tóm tắt đơn văn bản tiếng Việt. Qua đó đề xuất hai phương pháp tóm tắt văn bản báo mạng điện tử tiếng Việt: Một là, phương pháp tóm tắt văn bản báo mạng điện tử tiếng Việt dựa trên đồ thị và bộ hệ số đặc trưng văn bản; Hai là, phương pháp tóm tắt văn bản báo mạng điện tử tiếng Việt sử dụng mô hình huấn luận trước (pre-trained model).
Đối tượng nghiên cứu là văn bản báo mạng điện tử tiếng Việt.
- Các phương pháp nghiên cứu đã sử dụng
Phương pháp nghiên cứu của luận án kết hợp nghiên cứu lý thuyết với nghiên cứu thực nghiệm.
Về lý thuyết: Nghiên cứu tổng quan về bài toán tóm tắt văn bản, các công trình khoa học trong và ngoài nước liên quan đến bài toán tóm tắt văn bản. Phân tích hạn chế của các kỹ thuật đã có từ đó cải tiến, nâng cao hiệu suất của các kỹ thuật này.
Về thực nghiệm: Thu thập dữ liệu xây dựng kho ngữ liệu văn bản báo mạng điện tử tiếng Việt để phục vụ đánh giá các thuật toán tóm tắt văn bản tiếng Việt. Cài đặt các thuật toán, chương trình để so sánh, đánh giá các kỹ thuật đề xuất trên cơ sở các phương pháp đánh giá đã được cộng đồng nghiên cứu trên thế giới chấp thuận.
- Các kết quả chính và kết luận
3.1. Các kết quả chính
- Đề xuất phương pháp tính độ tương đồng câu trong văn bản báo mạng điện tử tiếng Việt dựa trên đặc trưng của thể loại văn bản này; đề xuất phương pháp tóm tắt văn bản báo mạng điện tử tiếng Việt dựa trên đồ thị sử dụng độ tương đồng câu theo đặc trưng của thể loại văn bản này.
- Đề xuất phương pháp tóm tắt văn bản báo mạng điện tử tiếng Việt dựa trên mô hình huấn luyện trước, có bổ sung tri thức có sẵn trong văn bản.
3.2. Kết luận
Tóm tắt văn bản là một trong lĩnh vực quan trọng của xử lý ngôn ngữ tự nhiên. Trong đó, bài toán tóm tắt văn bản tiếng Việt, có ý nghĩa quan trọng trong việt nâng cao hiệu quả khai thác, xử lý thông tin từ các kho ngữ liệu, tài liệu văn bản tiếng Việt, nâng cao hiệu suất tìm kiếm, tổng hợp thông tin. Đối với lĩnh vực quản lý nhà nước về thông tin và truyền thông, việc quản lý thông tin, dư luận, báo mạng trên Internet đóng vai trò rất quan trọng. Mục tiêu của luận án này nghiên cứu một số phương pháp tóm tắt văn bản báo mạng điện tử tiếng Việt, có thể ứng dụng vào thực tiễn để xây dựng các phần mềm tóm tắt văn bản báo mạng điện tử tiếng Việt phục vụ công quản lý thông tin và truyền thông.
Luận án đã nghiên cứu các phương pháp tóm tắt văn bản và tóm tắt văn bản tiếng Việt, nghiên cứu các đặc trưng của văn bản báo mạng điện tử tiếng Việt và qua đó đề xuất phương pháp tính độ tương đồng câu trong văn bản báo mạng điện tư tiếng Việt; xây dựng kho ngữ liệu phục vụ bài toán tóm tắt văn bản báo mạng điện tử tiếng Việt.
Luận án đã đề xuất phương pháp tóm tắt văn bản báo mạng điện tử tiếng Việt dựa trên đồ thị sử dụng độ tương đồng câu theo đặc trưng của thể loại văn bản này và cải tiến vào 2 thuật toán TextRank, LexRank.
Luận án đã đề xuất phương pháp tóm tắt văn bản báo mạng điện tử tiếng Việt dựa trên mô hình huấn luyện trước, có bổ sung tri thức có sẵn trong văn bản. Các kết quả này được công bố trên những công trình khoa học của tác giả.
Chi tiết xem thêm tại đây.