- Khảo sát các mô hình trong bài toán Visual Question Answering (VQA)
- Tìm các mô hình để đánh giá khả năng “có thể trả lời” của một cặp ảnh - câu hỏi trước khi đưa cặp này vào Vision Language Model
- Nghiên cứu độ đo để đánh giá các mô hình của bài toán VQA