微软发布的一个处理多种视觉任务的模型:Florence-2

智能工具箱子 2024-09-02 01:26:00

Florence-2已经发布了很长时间了,但是这个模型很厉害,几乎能够处理任何视觉任务,包括但图像描述、目标检测、定位和分割、OCR等,并且能够根据文本提示生成结果。

为了训练Florence-2,研究团队创建了FLD-5B数据集,这是一个包含超过 50 亿个视觉标注和 1.26 亿张图片的大规模数据集,使用了自动化的图像标注和模型优化的迭代策略。

模型一直未在GitHub上开源,但是在HuggingFace上可以下载模型,也有很多的demo可以体验。

体验地址:https://huggingface.co/spaces/gokaygokay/Florence-2项目介绍:https://huggingface.co/papers/2311.06242

0 阅读:0

智能工具箱子

简介:感谢大家的关注