Florence-2已经发布了很长时间了,但是这个模型很厉害,几乎能够处理任何视觉任务,包括但图像描述、目标检测、定位和分割、OCR等,并且能够根据文本提示生成结果。
为了训练Florence-2,研究团队创建了FLD-5B数据集,这是一个包含超过 50 亿个视觉标注和 1.26 亿张图片的大规模数据集,使用了自动化的图像标注和模型优化的迭代策略。
模型一直未在GitHub上开源,但是在HuggingFace上可以下载模型,也有很多的demo可以体验。
体验地址:https://huggingface.co/spaces/gokaygokay/Florence-2项目介绍:https://huggingface.co/papers/2311.06242