Google Research发布ScreenAI,一种基于PaLI架构并融合pix2struct灵活分块策略的5B参数视觉语言模型,专为理解用户界面与信息图表设计。通过自监督预训练和屏幕标注任务,ScreenAI在WebSRC、MoTIF、ChartQA等多项基准测试中达到或超越同规模模型的最优性能,同时发布了三个新数据集。
关键要点
- ScreenAI采用PaLI多模态编码器与自回归解码器架构,并结合pix2struct的灵活分块策略,保持输入图像原始宽高比。
- 模型通过屏幕标注任务自动生成UI元素(类型、位置、描述)的文本标注,并利用LLM大规模生成问答、导航和摘要训练数据。
- 在仅5B参数下,ScreenAI在WebSRC、MoTIF上取得最优成绩,并在ChartQA、DocVQA、InfographicVQA上超越同尺寸模型。
- Google同步开源了Screen Annotation、ScreenQA Short和Complex ScreenQA三个新数据集,用于评估布局理解和问答能力。
ScreenAI将UI与信息图表理解统一为单一视觉语言模型,有望降低多模态人机交互的技术门槛,为自动化界面测试、无障碍访问和数据分析工具提供新基础能力。