Luận án Tra cứu ảnh dựa vào nội dung với học biểu diễn và giảm chiều dữ liệu

  • Người chia sẻ : vtlong
  • Số trang : 115 trang
  • Lượt xem : 9
  • Lượt tải : 500

Các file đính kèm theo tài liệu này

  • luan_an_tra_cuu_anh_dua_vao_noi_dung_voi_hoc_bieu_dien_va_gi.pdf
  • Tất cả luận văn được sưu tầm từ nhiều nguồn, chúng tôi không chịu trách nhiệm bản quyền nếu bạn sử dụng vào mục đích thương mại

NHẬP MÃ XÁC NHẬN ĐỂ TẢI LUẬN VĂN NÀY

Nếu bạn thấy thông báo hết nhiệm vụ vui lòng tải lại trang

Bạn đang xem trước 20 trang tài liệu Luận án Tra cứu ảnh dựa vào nội dung với học biểu diễn và giảm chiều dữ liệu, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD LUẬN VĂN ở trên

Trong những năm gần đây, với sự xuất hiện của công nghiệp 4.0, các thiết bị di
động thông minh và sự phát triển nhanh chóng của mạng xã hội, việc xử lý và lưu trữ
ảnh số đã trở nên phổ biến hơn bao giờ hết. Ảnh số đã trở thành một thành phần không
thể thiếu trong các lĩnh vực hoạt động của cuộc sống như y học, kiến trúc, thời trang,
giáo dục và phòng chống tội phạm. Do đó, việc tra cứu nhanh chóng và chính xác một
bức ảnh yêu thích trong một cơ sở dữ liệu (CSDL) ảnh số lớn và đa dạng là một nhiệm
vụ hết sức khó khăn, đầy thách thức trong lĩnh vực thị giác máy tính hiện nay.
Trong tra cứu ảnh, có hai phương pháp thường được sử dụng như: Tra cứu ảnh
dựa vào văn bản (TBIR – Text-Based Image Retrieval) và Tra cứu ảnh dựa vào nội
dung (CBIR – Content-Based Image Retrieval) [1]. Phương pháp TBIR có ưu điểm
là đơn giản, nhanh chóng và hiệu quả, tuy nhiên nó cũng có nhược điểm là yêu cầu
độ nhân công lớn cho việc chú thích thủ công và độ chính xác của các ảnh được chú
thích thủ công có thể bị ảnh hưởng bởi sự chủ quan trong nhận thức của người dùng
[1]. Do đó, phương pháp CBIR đã ra đời và được giới thiệu vào đầu những năm 1990
để khắc phục những hạn chế này.
Trong lĩnh vực thị giác máy tính, CBIR đang là một trong những hướng được
nghiên cứu rất tích cực hiện nay. Mục tiêu của CBIR là tìm kiếm các ảnh dựa trên
việc phân tích các nội dung trực quan của chúng. Vì vậy, biểu diễn ảnh là mấu chốt
quan trọng của CBIR [2].
CBIR là phương pháp tìm kiếm ảnh trong CSDL dựa trên nội dung trực quan
của ảnh truy vấn [3]. Tuy nhiên, phương pháp này gặp phải vấn đề “khoảng trống ngữ
nghĩa” giữa các đặc trưng mức thấp mô tả ảnh và các khái niệm mức cao được con
người nhận biết [4], do đó có thể dẫn đến các ảnh không liên quan được trả về. Để
khắc phục điều này, nhiều phương pháp đã được đề xuất để chuyển đổi các khái niệm
mức cao trong ảnh sang các đặc trưng mức thấp. Các đặc trưng này được phân loại
thành các đặc trưng toàn cục (bao gồm màu sắc, hình dạng, kết cấu và thông tin không
gian) và các đặc trưng cục bộ tùy thuộc vào phương pháp trích rút đặc trưng [4]. Biểu
diễn của các đặc trưng này là nền tảng cho CBIR. Chúng có ưu điểm là nhanh hơn
trong việc tính toán độ tương tự và trích rút đặc trưng [5]. Mặt khác, chúng không
phân biệt được giữa nền và đối tượng trong ảnh (các phần ảnh khác nhau).