玩酷网

微软刚在huggingface发布了一个通用屏幕解析工具OmniParser h

微软刚在huggingface发布了一个通用屏幕解析工具OmniParser

huggingface.co/microsoft/OmniParser

OmniParser 能够将用户界面(UI)截图转换为结构化格式,以提升基于大型语言模型(LLM)的UI代理。该工具包含两个训练数据集:一个是可交互图标检测数据集,另一个是图标描述数据集。此外,还提供了YOLOv8和BLIP-2模型的微调版本。