Tìm các model để đánh giá khả năng “có thể trả lời” của một cặp ảnh - câu hỏi trước khi đưa vào VLM

https://arxiv.org/pdf/2411.00394
1. Bài toán được định dạng dưới dạng phân loại (classification) với các tùy chọn là:
  1. “Leave it unchanged” (không cần điều chỉnh),
  2. Các hướng: “Left”, “Right”, “Up”, “Down” (cho trường hợp cần điều chỉnh),
  3. Và “None of the other options” (trường hợp câu hỏi không thể trả lời được dù điều chỉnh).
2. Hạn chế của nghiên cứu:
  1. Bài báo tập trung vào việc chỉ dẫn hướng di chuyển máy ảnh, nhưng trong thực tế có nhiều yếu tố khác có thể cần điều chỉnh như góc quay, phóng to/thu nhỏ, điều chỉnh ánh sáng, …
  2. Việc đưa bài toán về dạng phân loại đơn giản có thể chưa thể hiện hết được độ phức tạp của các tình huống thực tế, chẳng hạn như trường hợp cần kết hợp nhiều hướng hoặc cần biết mức độ điều chỉnh (magnitude).
3. Hướng nghiên cứu tiếp theo:
  1. Mở rộng phương pháp tạo dữ liệu huấn luyện để bao gồm các tham số bổ sung (ví dụ: độ lớn của việc di chuyển, điều chỉnh phóng đại,…).
  2. Nghiên cứu các chiến lược huấn luyện tiên tiến, có thể sử dụng các phương pháp học trực tuyến (online learning) để mô hình tự động điều chỉnh khi gặp dữ liệu mới.
  3. Áp dụng vào các ứng dụng hỗ trợ người khiếm thị và các hệ thống tự động khác, nơi mà việc nhận biết và điều chỉnh thông tin thị giác là cực kỳ quan trọng.
https://arxiv.org/pdf/2003.12511

4.1. Thuật Toán Phân Loại Ảnh Unrecognizable

Kiến trúc: Sử dụng ResNet-152 để trích xuất đặc trưng hình ảnh, sau đó áp dụng một lớp global pooling và hai lớp fully connected, với lớp cuối cùng là một neuron sử dụng hàm kích hoạt sigmoid để dự đoán xác suất ảnh có thể nhận diện hay không.
Quá trình huấn luyện:
- Dữ liệu được chia thành 52.5% huấn luyện, 37.5% validation và 10% test.
- So sánh với các baseline như: dự đoán ngẫu nhiên, SIFT + SVM, HOG + SVM.
Kết quả: Thuật toán dựa trên ResNet đạt được giá trị recall cao (75.1%) và f1 score 71.2%, cho thấy khả năng nhận diện ảnh kém chất lượng tốt hơn so với các baseline.

4.2. Nhận Diện Câu Hỏi Unanswerable

Mô hình mở rộng từ Up-Down VQA:
- Sử dụng các đặc trưng hình ảnh từ cả mức lưới (grid-level) và cấp đối tượng (object-level), cùng với mã hóa câu hỏi qua GRU.
- Áp dụng cơ chế attention (top-down và bottom-up) để kết hợp đặc trưng và đưa ra dự đoán về “answerability” và “recognizability” của ảnh.
Phương pháp kích hoạt:
- Một cách sử dụng softmax để phân loại thành ba lớp độc lập: answerable, unrecognizable, và insufficient content.
- Một cách khác sử dụng hai hàm sigmoid độc lập để dự đoán answerability và recognizability.
Code for Image Quality Assessment: ‣

https://arxiv.org/pdf/1802.08218
1. Mục 5.2 Visual Question Answerability