1. https://arxiv.org/pdf/2411.00394
    1. Bài toán được định dạng dưới dạng phân loại (classification) với các tùy chọn là:
      1. “Leave it unchanged” (không cần điều chỉnh),
      2. Các hướng: “Left”, “Right”, “Up”, “Down” (cho trường hợp cần điều chỉnh),
      3. Và “None of the other options” (trường hợp câu hỏi không thể trả lời được dù điều chỉnh).
    2. Hạn chế của nghiên cứu:
      1. Bài báo tập trung vào việc chỉ dẫn hướng di chuyển máy ảnh, nhưng trong thực tế có nhiều yếu tố khác có thể cần điều chỉnh như góc quay, phóng to/thu nhỏ, điều chỉnh ánh sáng, …
      2. Việc đưa bài toán về dạng phân loại đơn giản có thể chưa thể hiện hết được độ phức tạp của các tình huống thực tế, chẳng hạn như trường hợp cần kết hợp nhiều hướng hoặc cần biết mức độ điều chỉnh (magnitude).
    3. Hướng nghiên cứu tiếp theo:
      1. Mở rộng phương pháp tạo dữ liệu huấn luyện để bao gồm các tham số bổ sung (ví dụ: độ lớn của việc di chuyển, điều chỉnh phóng đại,…).
      2. Nghiên cứu các chiến lược huấn luyện tiên tiến, có thể sử dụng các phương pháp học trực tuyến (online learning) để mô hình tự động điều chỉnh khi gặp dữ liệu mới.
      3. Áp dụng vào các ứng dụng hỗ trợ người khiếm thị và các hệ thống tự động khác, nơi mà việc nhận biết và điều chỉnh thông tin thị giác là cực kỳ quan trọng.
  2. https://arxiv.org/pdf/2003.12511

4.1. Thuật Toán Phân Loại Ảnh Unrecognizable

4.2. Nhận Diện Câu Hỏi Unanswerable

  1. https://arxiv.org/pdf/1802.08218
    1. Mục 5.2 Visual Question Answerability