人工智能领域一些有名或常用的免费数据集

喜欢花科技君 2025-03-08 02:22:07

在人工智能领域,有许多著名的免费数据集,涵盖了计算机视觉、自然语言处理、语音识别、推荐系统等多个方向。

计算机视觉(Computer Vision)

图像分类

MNIST内容:手写数字(0-9)的灰度图像,28x28像素。用途:图像分类入门数据集。下载:Tensorflow等深度学习框架自带CIFAR-10 / CIFAR-100内容:10类或100类彩色图像,32x32像素。用途:图像分类和模型基准测试。下载:https://www.cs.toronto.edu/~kriz/cifar.htmlImageNet内容:超过1400万张标注图像,涵盖2万多个类别。用途:大规模图像分类和目标检测。下载:https://www.image-net.org/

目标检测与分割

COCO (Common Objects in Context)内容:超过20万张标注图像,80个物体类别,支持目标检测、分割和字幕生成。用途:目标检测、实例分割。下载:https://cocodataset.org/PASCAL VOC内容:20个类别的图像,支持分类、检测和分割任务。用途:目标检测和语义分割。下载:http://host.robots.ox.ac.uk/pascal/VOC/

人脸识别

LFW (Labeled Faces in the Wild)内容:超过1.3万张人脸图像,用于人脸验证和识别。用途:人脸识别基准测试。自然语言处理(Natural Language Processing, NLP)

文本分类

IMDB Movie Reviews内容:5万条电影评论,标注为正面或负面。用途:情感分析。下载:https://ai.stanford.edu/~amaas/data/sentiment/AG News内容:12万条新闻文章,分为4个类别(世界、体育、商业、科技)。用途:文本分类。下载:https://www.kaggle.com/datasets/amananandrai/ag-news-classification-dataset

机器翻译

WMT (Workshop on Machine Translation)内容:多语言平行语料库,支持多种语言对(如英-法、英-德)。用途:机器翻译任务。下载:https://www.statmt.org/wmt22/OPUS内容:多领域多语言的平行语料库。用途:机器翻译和多语言 NLP。下载:https://opus.nlpl.eu/

问答系统

SQuAD (Stanford Question Answering Dataset)内容:10万条问答对,基于维基百科文章。用途:问答系统训练与评估。下载:https://rajpurkar.github.io/SQuAD-explorer/语音识别(Speech Recognition)LibriSpeech内容:1000小时的英语语音数据,带有转录文本。用途:语音识别和语音合成。下载:https://www.openslr.org/12/强化学习(Reinforcement Learning)OpenAI Gym内容:多种强化学习环境(如Atari游戏、机器人控制)。用途:强化学习算法测试。下载:https://www.gymlibrary.dev/其他领域UCI Machine Learning Repository内容:涵盖多种任务的小型数据集(分类、回归、聚类等)。用途:机器学习算法测试。下载:https://archive.ics.uci.edu/Kaggle Datasets内容:用户上传的各种领域数据集。用途:数据科学竞赛和实验。下载:https://www.kaggle.com/datasets

0 阅读:0

喜欢花科技君

简介:感谢大家的关注