ScreenAI

[EN] Google推出ScreenAI:端到端视觉语言模型,统一理解UI界面与信息图表

Google Research发布ScreenAI,一种基于PaLI架构并融合pix2struct灵活分块策略的5B参数视觉语言模型,专为理解用户界面与信息图表设计。通过自监督预训练和屏幕标注任务,ScreenAI在WebSRC、MoTIF、ChartQA等多项基准测试中达到或超越同规模模型的最优性能,同时发布了三个新数据集。

Google AI Blog 06:39 AI 辅助 人工智能 多模态模型 人机交互