1. Khảo sát các mô hình trong bài toán Visual Question Answering (VQA)
  2. Tìm các mô hình để đánh giá khả năng “có thể trả lời” của một cặp ảnh - câu hỏi trước khi đưa cặp này vào Vision Language Model
  3. Nghiên cứu độ đo để đánh giá các mô hình của bài toán VQA