🖼️ Vision-GPT Image Captioning

Architecture: GPT-2 (124M) + ViT-B/16 + Cross-Attention
Training: Flickr8k dataset (8k images)

Upload an image and generate a descriptive caption using Vision-GPT (GPT-2 + ViT + Cross-Attention trained on Flickr8k)

Upload Image

Generated Caption

Help improve the model! Enter the correct caption and we'll calculate similarity.

What should the correct caption be?

Similarity Visualization