Question 1

What is the Visual Storytelling Dataset (VIST) dataset?

Accepted Answer

Dataset contains 81,743 unique photos in 20,211 sequences, aligned to descriptive and story language. VIST is previously known as "SIND", the Sequential Image Narrative Dataset (SIND).

Question 2

Is Visual Storytelling Dataset (VIST) a benchmark?

Accepted Answer

Visual Storytelling Dataset (VIST) is a dataset for training or evaluation; it isn't tracked as a standard LLM benchmark in our catalog.

Question 3

Where can I download Visual Storytelling Dataset (VIST)?

Accepted Answer

Visual Storytelling Dataset (VIST) is available at its source: http://visionandlanguage.net/VIST/index.html.

Visual Storytelling Dataset (VIST)

About Visual Storytelling Dataset (VIST)

Details

Related Multi-Modal Learning datasets

FAQ