Ngày 15/12/2024, Khoa Công nghệ thông tin – Học viện Nông nghiệp Việt Nam tổ chức họp Hội đồng đánh giá, nghiệm thu đề tài sinh viên nghiên cứu khoa học (SVNCKH) năm 2024: “Nghiên cứu các kỹ thuật xây dựng máy tìm kiếm – Search engine” của nhóm sinh viên lớp Trí tuệ nhân tạo (TTNT) khoa CNTT thực hiện: Tạ Việt Đức (K66TTNTA), Nguyễn Tùng Dương (K66TTNTA), Dương Văn Duy (K65TTNTA).
Hội đồng nghiệm thu đề tài gồm 5 thành viên, TS. Vũ Thị Thu Giang là Chủ tịch Hội đồng.
Tại buổi báo cáo, thay mặt nhóm nghiên cứu, sinh viên Tạ Việt Đức đã trình bày báo cáo tóm tắt kết quả nghiên cứu của đề tài.
|
|
Sinh viên Tạ Việt Đức trình bày báo cáo |
Trong môi trường Internet hiện nay, lượng thông tin trên cá trang web là rất lớn và được phân tán khắp nơi trên thế giới. Các thông tin này được lưu trữ trong nhiều dạng tài liệu khác nhau: hình ảnh, âm thanh, video, file pdf,... cho nên việc xây dựng các search engine cũng rất phức tạp. Các search engine thường được phát triển theo một số chỉ tiêu nhất định nào đó như chỉ tiêu về thời gian, chỉ tiêu về tìm kiếm: tìm kiếm theo toán tử boolean, tìm kiếm theo chủ đề,... Trong khuôn khổ nghiên cứu của đề tài, nhóm sinh viên thực hiện đã tập trung tìm hiểu về lý thuyết phân tích và nghiên cứu cấu trúc chung của một số search engine và trình bày một số kỹ thuật, thuật toán để xây dựng nên một search engine nhằm mục đích đảm bảo cho hệ thống tìm kiếm với các mô hình thông dụng hiện nay thông qua việc phân tích và cài đặt thử nghiệm thuật toán trên một máy đơn.
Nhóm tác giả đã tiến hành nghiên cứu cứu lý thuyết về Search Engine để hiểu rõ hơn về cơ sở của các thuật toán và kỹ thuật cơ bản trong việc xây dựng một công cụ tìm kiếm hiệu quả. Cụ thể, nhóm đã nghiên cứu các thành phần chính trong công cụ tìm kiếm và cách chúng tương tác với nhau, gồm: Thuật toán PageRank; Quy trình thu thập dữ liệu (Web Crawling); Lập chỉ mục (Indexing); Xử lý truy vấn và xếp hạng kết quả; Xử lý ngôn ngữ tự nhiên (NLP). Từ quá trình nghiên cứu lý thuyết, nhóm sinh viên nghiên cứu đã bước đầu xây dựng được bộ máy tìm kiếm có các khả năng: tìm kiếm hiệu quả, nhanh chóng thu thập và trả về các kết quả phù hợp với các truy vấn của người dùng, giúp tiết kiệm thời gian và công sức trong việc tìm kiếm thông tin; Tối ưu hóa kết quả tìm kiếm, đảm bảo các kết quả hiển thị là những thông tin chất lượng. Nhóm cũng đã đưa ra một số hạn chế của trong quá trình tìm kiếm: Một số trang web có nội dung không chính xác ảnh hưởng đến hệ thống các từ khoá; Cơ sở dữ liệu còn hạn chế; Giao diện của search engine còn thô sơ; Người dùng khi tìm kiếm cần phải nhập đúng chính tả câu từ cần tìm; Chưa có hệ thống gợi ý tìm kiếm cho người dùng. Các hạn chế này sẽ được nhóm sinh viên tiếp tục nghiên cứu sâu hơn để khắc phục.
Mô hình tìm kiếm thử nghiệm của nhóm sinh viên hiện đã hoạt động đúng như kỳ vọng ban đầu, có khả năng trả về kết quả phù hợp với các truy vấn của người dùng. Tuy nhiên, trong quá trình phát triển, vẫn còn nhiều vấn đề cần cải tiến và điều chỉnh. Đặc biệt, các thuật toán xếp hạng, thu thập dữ liệu, và xử lý truy vấn cần tiếp tục được tối ưu để nâng cao hiệu quả tìm kiếm và giảm thiểu thời gian phản hồi.
Kết quả nghiên cứu chi tiết của đề tài đã được công bố tại website của khoa CNTT: https://fita.vnua.edu.vn/baosc-ao-tong-ket-de-tai-svnckh-2024-nghien-cuu-cac-ky-thuat-xay-dung-may-tim-kiem-search-engine/
Trên cơ sở tổng hợp các ý kiến nhận xét của thành viên Hội đồng nghiệm thu, TS. Vũ Thị Thu Giang – Chủ tịch Hội đồng nhất trí nghiệm thu đề tài và đánh giá đạt loại khá
Khoa Công nghệ thông tin