Nghiên cứu thuật toán học sâu mạng noron tích chập và ứng dụng trong nhận dạng hình ảnh ong mật mang phấn

Cập nhật lúc 18:06, Thứ sáu, 29/09/2023 (GMT+7)

Kích cỡ font chữ

Trong những năm gần đây, lĩnh vực Thị giác máy tính (Computer Vision) đã có những tiến bộ vượt bậc. Đặc biệt, với sự ra đời và phát triển các phương pháp Học sâu (Deep learning) đã giúp Thị giác máy tính gặt hái được những thành tựu đáng kể. Mạng nơron tích chập (CNN - Convolutional Neural Network) là một trong những phương pháp học sâu được đề xuất để nhận dạng hình ảnh và đã đem lại kết quả khả quan trong một số ứng dụng cụ thể như: nhận dạng ong mang phấn hoa từ; chẩn đoán bệnh ung thư phổi; xác định nhiễm sắc thể trong tế bào ung thư máu; nhận dạng hình ảnh khuôn mặt bị che khuất; phân loại hình ảnh mô bệnh học để phát hiện sớm các bệnh ung thư,... Vì vậy, ThS. Lê Thị Minh Thùy – Bộ môn Công nghệ phần mềm cùng một số giảng viên khoa Công nghệ thông tin đã tập trung vào nghiên cứu thuật toán học sâu mạng noron tích chập và ứng dụng vào nhận dạng hình ảnh ong mật mang phấn nhằm giúp người nuôi ong có thể dễ dàng nhận diện, theo dõi, giám sát sức khỏe của đàn ong đồng thời theo dõi năng suất lấy mật một cách hiệu quả. Kết quả ứng dụng là sản phẩm của đề tài cấp Học viện 2022: “Nghiên cứu thuật toán học sâu mạng noron tích chập và ứng dụng trong nhận dạng hình ảnh ong mật mang phấn” do ThS. Lê Thị Minh Thùy làm chủ nhiệm.

Trong thực tế, các kiến trúc CNN đã được áp dụng rộng rãi cho bài toán nhận biết ong mật mang phấn hoa, một số kiến trúc đạt độ chính xác lên tới khoảng 99%. Một số mô hình học chuyển giao theo đó các kiến trúc CNN khác nhau như VGG16, VGG19, Resnet50 và Resnet101, v.v. được huấn luyện trước và một số mô hình phân loại SVM dựa trên các tính năng được trích xuất từ các kiến trúc CNN. Tuy nhiên, việc sử dụng các mô hình này đòi hỏi chi phí đáng kể do kiến trúc phức tạp của chúng. Để khắc phục vấn đề này và hướng tới sự đơn giản và hiệu quả trong sử dụng, nhóm nghiên cứu đã nghĩ đến việc sử dụng một mô hình CNN cơ bản. Ý tưởng này có thể được xác minh bằng cách điều tra các cấu trúc CNN cơ bản với các siêu tham số khác nhau. Cụ thể, sử dụng phương pháp Grid search, nhóm nghiên cứu đã tìm ra một kiến trúc tối ưu cho mô hình CNN trong việc phân loại ảnh ong mật mang phấn hoa và không mang phấn hoa. Kiến trúc đề xuất bao gồm:

· 4 lớp tích chập được trang bị chức năng kích hoạt ReLU (Rectified Linear Unit),

· 5 lớp gộp Max-Pooling và

· 1 lớp làm phẳng Flatten, 1 lớp Dense với hàm kích hoạt ReLU, và 1 lớp Dense với hàm kích hoạt Sigmoid.

Ngoài ra, trong nghiên cứu này, chúng tôi sử dụng một số kỹ thuật tăng cường dữ liệu như thay đổi tỷ lệ ảnh, xoay ngẫu nhiên, dịch chuyển (ngang và dọc), cắt, thu phóng ngẫu nhiên, lật ngẫu nhiên và lấp đầy gần nhất. Các kỹ thuật này làm phong phú dữ liệu bằng cách tạo ra các biến thể khác nhau từ các ảnh gốc sẽ được sử dụng trong các giai đoạn khác nhau của quá trình huấn luyện mô hình, do đó cải thiện hiệu suất của mô hình phân loại. Hình 23 biểu diễn hình ảnh trực quan của một số ảnh thu được sau khi áp dụng các kỹ thuật tăng cường dữ liệu cho một ảnh ong mật.

Kiến trúc của mô hình đề xuất được minh họa trong Hình 1,2. Mỗi đầu vào là một ảnh RGB kích thước 224 × 224 chứa ảnh của một con ong mật riêng lẻ. Sau khi đi qua các lớp tích chập và các lớp tổng hợp tối đa để trích xuất các tính năng quan trọng, nó sẽ được cung cấp cho các lớp kết nối đầy đủ. Một ngưỡng xác định trước được sử dụng để phân loại xem ảnh ong mật có phải là ong mật mang phấn hoa hay không.

Hình 1: Một ví dụ về tăng cường dữ liệu

Hình 2: Kiến trúc CNN được đề xuất

Trong nghiên cứu này, hai sơ đồ phân tách bộ dữ liệu Phấn hoa đã được xem xét. Theo sơ đồ đầu tiên, giống như trong một số nghiên cứu trước đây, chúng tôi chia ngẫu nhiên tập dữ liệu Pollen đã chỉnh sửa thành ba tập con, tức là tập huấn luyện (training set), tập xác nhận (validating set) và tập kiểm thử (testing set) theo tỷ lệ 6:1:3. Theo đó, 60% số mẫu tương ứng với 428 ảnh (trong đó bao gồm 221 ảnh ong mật mang phấn hoa và 207 ảnh ong mật không mang phấn hoa) là để huấn luyện mô hình, 10% mẫu tương ứng với 70 ảnh (trong đó bao gồm 36 ảnh ong mật mang phấn hoa và 34 ảnh ong mật không mang phấn hoa) là để xác nhận mô hình, trong khi 60% mẫu còn lại tương ứng với 216 ảnh (bao gồm 110 ảnh ong mật mang phấn hoa và 106 ảnh ong mật không mang phấn hoa) là để kiểm thử mô hình. Ngoài ra, để điều tra tác động của việc phân vùng dữ liệu thành các tập huấn luyện, xác nhận và kiểm thử đối với hiệu suất của mô hình, chúng tôi thiết kế sơ đồ thứ hai trong đó tập dữ liệu Pollen được chia thành ba tập con theo tỷ lệ 5:1:4, cụ thể là ít mẫu hơn để huấn luyện và nhiều mẫu hơn để kiểm thử so với sơ đồ đầu tiên.

Trong nghiên cứu này, chúng tôi đã đề xuất một mô hình mạng nơron tích chập mới để phân loại ảnh ong mật mang phấn hoa và không mang phấn hoa. Thay vì sử dụng các mô hình CNN phức tạp và được huấn luyện trước, chúng tôi thiết kế một kiến trúc CNN cơ bản với một vài lớp, dẫn đến một mô hình nhẹ hơn và cũng hiệu quả hơn. Chúng tôi cũng đã sửa một số mẫu bị gán nhãn sai từ bộ dữ liệu được sử dụng rộng rãi trong tài liệu. Hiệu suất của mô hình CNN được đề xuất đã được nghiên cứu và so sánh với các mô hình khác dựa trên tập dữ liệu đã chỉnh sửa này. Các kết quả thu được đã chỉ ra rằng phương pháp của chúng tôi dẫn đến hiệu suất tốt nhất về cả độ chính xác và thời gian thực hiện. Đặc biệt, nó có thể xác định chính xác 100% tất cả các ảnh ong mật mang phấn hoa và không mang phấn hoa từ bộ dữ liệu trong thời gian ngắn nhất. Kiểm tra độ chính xác của kiến trúc CNN được đề xuất trên các bộ dữ liệu khác để xác minh hiệu suất của nó sẽ là mối quan tâm của chúng tôi cho công việc trong tương lai.

Một số hình ảnh thể hiện kết quả của nghiên cứu ứng dụng

Hình 3: Đường cong độ chính xác huấn luyện và xác nhận

Hình 4: Đường cong độ tổn thất huấn luyện và xác nhận

Khoa Công nghệ thông tin