谷歌的AI工具可让用户使用自然语言指令触发移动应用操作

发布时间:2020-07-13 17:22:24 【来源:

谷歌正在研究如何使用AI将自然语言说明植根于智能手机应用程序操作。在2020年计算语言学协会(ACL)会议接受的一项研究中,该公司的研究人员提出了语料库来训练模型,以减轻需要通过应用进行操纵的需求,这可能对视力障碍者有用。

当协调工作并完成涉及一系列动作的任务时(例如,按照制作生日蛋糕的食谱),人们会相互提供指示。考虑到这一点,研究人员着手为可以帮助进行类似交互的AI代理建立基准。给定一组指令,这些代理将理想地预测一系列应用程序动作以及在应用程序从一个屏幕过渡到另一个屏幕时生成的屏幕和交互元素。

研究人员在论文中描述了一个两步解决方案,包括一个动作短语提取步骤和一个接地步骤。动作短语提取使用Transformer模型从多步骤指令中识别操作,对象和参数描述。(模型中的“区域关注”模块允许它整体上处理指令中的一组相邻单词,以对描述进行解码。)接地将提取的操作和对象描述与屏幕上的UI对象进行匹配,再次使用一种Transformer模型,但可以在上下文中表示UI对象并为其基础对象描述。

合著者创建了三个新的数据集来训练和评估他们的动作短语提取和基础模型:

第一个包含187条多步骤英文说明,用于操作Pixel手机及其相应的操作屏幕序列。

第二个包含来自网络的英文“操作方法”说明以及描述每个动作的带注释短语。

第三个包含295,000个单步命令,这些命令用于UI动作,这些动作来自公共Android UI语料库的25,000个移动UI屏幕上的178,000个UI对象。

他们报告说,关注区域的变压器在预测与地面真实情况完全匹配的跨度序列时可达到85.56%的准确度。同时,在将语言指令端到端映射到更具挑战性的任务时,短语提取器和基础模型一起获得89.21%的局部准确度和70.59%的完全准确度,以匹配地面真实动作序列。

研究人员断言,数据集,模型和结果(所有这些数据集,模型和结果都可以从GitHub上的开放源代码获得)为解决将自然语言指令扎根于移动UI动作这一具有挑战性的问题迈出了重要的第一步。

“这项研究以及总体上的语言基础,是将多阶段指令转换为图形用户界面上的动作的重要一步。成功地将任务自动化应用于UI域有潜力显着提高可访问性,其中语言界面可以帮助视力障碍的人使用看得到的界面执行任务。”“当人们在手头的任务所困扰的情况下无法轻松访问设备时,这对于情况损害也很重要。”

现代和起亚今年前10个月出口逾9万辆电动汽车 同比增长71.3%
中芯国际称产能接近满载 14nm量产良率已达业界量产水准
OPPO和vivo申请绿厂蓝厂商标 引发网友关注
华为申请“HICAR SMART COCKPIT”等商标 国际分类为“科学仪器”
NASA为登月任务组装火箭 预计在2024年将第一位女性送上月球
特斯拉申请召回美国9136辆Model X及401辆Model Y
OPPO Reno5 Pro入网工信部:双曲面屏设计 矩阵式相机模组
特斯拉在欧洲涨价,下一批Model S在德国贵了4万

[ 最新资讯 ]

始祖鸟之家双面派对,设计师系列惊艳亮相

  11月24日,被誉为户外爱马仕的始祖鸟(ARC’TERYX)全新概念店——始祖鸟之家在全国顶级商圈北京国贸开业了。现场门店实拍图片   ...

曝小米显示器34寸本月最后一单出货后将暂停供应 因三星无屏供应原因

  本月初,视讯堂消息称小米的 34 寸带鱼屏显示器型号,之后可能无法再保持 1999 元的价格进行销售。今天,视讯堂发布最新消息,称小 ...

微星Stealth 15M超轻游戏本纯净白即将上架 屏幕为15.6英寸

  根据微星笔记本官方的消息,微星 Stealth 15M (纯净白)即将上架预约,这款笔记本是首款采用 11 代低压酷睿 + RTX 2060 配置的 ...

EG7今天宣布收购《机甲战士5》开发商Piranha Games 增加其游戏公司种类

  Enad Global 7(EG7)今天(11 27)宣布收购《机甲战士5》开发商Piranha Games,增加了其游戏公司的种类。  EG7已同意以2410万美元的 ...

华米将推出GTS 2 mini手表:将于12月1日发布 外观更轻薄更精致

  根据华米创始人黄汪的消息,华米将推出 GTS 2 mini 手表,外观更轻薄更精致。    根据华米微博的消息, GTS 2 mini 手表将 ...

冬季必看的小黑裤穿搭指南|九牧王男裤专家

  伴随着秋冬而来的除了购物欲还有穿搭热情,但如果你正苦于衣服少、缺乏穿搭灵感,那么,一条百搭、舒适的九牧王小黑裤,或许可以帮到你,只 ...