玩酷网

达摩院开源了一个从在线教学视频中提取的多模态数据集，也可以说是一个视觉-语言预训

2025-01-11 11:19:31 蚁工厂科技

达摩院开源了一个从在线教学视频中提取的多模态数据集，也可以说是一个视觉-语言预训练的语料库。

huggingface.co/datasets/DAMO-NLP-SG/multimodal_textbook

该数据集包含650万张图片和8亿文本，这些数据是从2.2万小时的在线教学视频中提取的，涵盖了数学、物理、化学等多个基础学科。

阅读：0 点赞：0