在人工智能领域,有许多著名的免费数据集,涵盖了计算机视觉、自然语言处理、语音识别、推荐系统等多个方向。
计算机视觉(Computer Vision)图像分类
MNIST内容:手写数字(0-9)的灰度图像,28x28像素。用途:图像分类入门数据集。下载:Tensorflow等深度学习框架自带CIFAR-10 / CIFAR-100内容:10类或100类彩色图像,32x32像素。用途:图像分类和模型基准测试。下载:https://www.cs.toronto.edu/~kriz/cifar.htmlImageNet内容:超过1400万张标注图像,涵盖2万多个类别。用途:大规模图像分类和目标检测。下载:https://www.image-net.org/目标检测与分割
COCO (Common Objects in Context)内容:超过20万张标注图像,80个物体类别,支持目标检测、分割和字幕生成。用途:目标检测、实例分割。下载:https://cocodataset.org/PASCAL VOC内容:20个类别的图像,支持分类、检测和分割任务。用途:目标检测和语义分割。下载:http://host.robots.ox.ac.uk/pascal/VOC/人脸识别
LFW (Labeled Faces in the Wild)内容:超过1.3万张人脸图像,用于人脸验证和识别。用途:人脸识别基准测试。自然语言处理(Natural Language Processing, NLP)文本分类
IMDB Movie Reviews内容:5万条电影评论,标注为正面或负面。用途:情感分析。下载:https://ai.stanford.edu/~amaas/data/sentiment/AG News内容:12万条新闻文章,分为4个类别(世界、体育、商业、科技)。用途:文本分类。下载:https://www.kaggle.com/datasets/amananandrai/ag-news-classification-dataset机器翻译
WMT (Workshop on Machine Translation)内容:多语言平行语料库,支持多种语言对(如英-法、英-德)。用途:机器翻译任务。下载:https://www.statmt.org/wmt22/OPUS内容:多领域多语言的平行语料库。用途:机器翻译和多语言 NLP。下载:https://opus.nlpl.eu/问答系统
SQuAD (Stanford Question Answering Dataset)内容:10万条问答对,基于维基百科文章。用途:问答系统训练与评估。下载:https://rajpurkar.github.io/SQuAD-explorer/语音识别(Speech Recognition)LibriSpeech内容:1000小时的英语语音数据,带有转录文本。用途:语音识别和语音合成。下载:https://www.openslr.org/12/强化学习(Reinforcement Learning)OpenAI Gym内容:多种强化学习环境(如Atari游戏、机器人控制)。用途:强化学习算法测试。下载:https://www.gymlibrary.dev/其他领域UCI Machine Learning Repository内容:涵盖多种任务的小型数据集(分类、回归、聚类等)。用途:机器学习算法测试。下载:https://archive.ics.uci.edu/Kaggle Datasets内容:用户上传的各种领域数据集。用途:数据科学竞赛和实验。下载:https://www.kaggle.com/datasets