在开车的明显扫描交通灯、停车位和饭馆,在一堆硬币中寻觅特定数量的零钱,在杂货店购买一系列物品……
在核算机视觉范畴,这些广泛地存在于人类日常日子中的行为,被称为混合视觉寻食。
它是一种结合了视觉查找和决议方案拟定的使命,参与者需求在多个不同的方针类型中,寻觅所需的资源。
有必要指出的是,这些方针的价值和普遍性可能会不一样,而且,方针实例的切当数量一般也是不知道的。
关于以上问题,眼球运动能够给我们供给一个共同的视角,洞悉决议方案中触及的感知、认知和评价进程。
依据此,新加坡南洋理工大学 Mengmi Zhang 助理教授和团队,提出一种名为视觉寻食器(VF,Visual Forager)的核算模型。
这是一个依据 Transformer 的架构,经过强化学习练习,能够高效地履行混合视觉寻食,以习惯方针普遍性和价值的不同组合。
不同于以往依靠人类数据来进行监督练习的视觉查找模型,VF 没有在人类数据上进行练习,却能够近似仿照人类的寻食行为和成见。
明显,VF 这一关于眼球运动的核算模型,能给很多范畴带来相应的革新潜力。
在人机交互范畴,能够终究靠猜测用户的注意力,并依据自己需求定制界面,以增强自习惯体系。
在医学确诊和训练范畴,能够仿制专家的注视形式,辅导新手从业者并改善自动化确诊东西。
Mengmi Zhang 表明:“该模型仿照类人决议方案的才能,使其有别于传统的核算机视觉体系。”
也就是说,VF 不只触及辨认目标,还触及了解这些目标怎么样影响后续的举动和决议方案。
经过整合上下文信息和使命优先级,VF 仿照了人类的成见和战略,为耗费分配注意力和做出决议方案供给了杰出的见地。
能够看出,这种范式改变,弥合了感知与认知之间的距离,为考虑和行为更像人类的AI体系铺平了路途,彻底改变了需求视觉辨认以外的范畴。
在该研讨的基础上,下一步研讨人员方案将混合视觉寻食的研讨,扩展至受控试验环境中的简略影响之外。