南洋理工提出眼球运动核算模型能够近似仿照人类寻食行为和成见

作者: 欧宝彩票-猪料发布时间： 2025-01-10 23:35:03

在开车的明显扫描交通灯、停车位和饭馆，在一堆硬币中寻觅特定数量的零钱，在杂货店购买一系列物品……

在核算机视觉范畴，这些广泛地存在于人类日常日子中的行为，被称为混合视觉寻食。

它是一种结合了视觉查找和决议方案拟定的使命，参与者需求在多个不同的方针类型中，寻觅所需的资源。

有必要指出的是，这些方针的价值和普遍性可能会不一样，而且，方针实例的切当数量一般也是不知道的。

关于以上问题，眼球运动能够给我们供给一个共同的视角，洞悉决议方案中触及的感知、认知和评价进程。

依据此，新加坡南洋理工大学 Mengmi Zhang 助理教授和团队，提出一种名为视觉寻食器（VF，Visual Forager）的核算模型。

这是一个依据 Transformer 的架构，经过强化学习练习，能够高效地履行混合视觉寻食，以习惯方针普遍性和价值的不同组合。

不同于以往依靠人类数据来进行监督练习的视觉查找模型，VF 没有在人类数据上进行练习，却能够近似仿照人类的寻食行为和成见。

明显，VF 这一关于眼球运动的核算模型，能给很多范畴带来相应的革新潜力。

在人机交互范畴，能够终究靠猜测用户的注意力，并依据自己需求定制界面，以增强自习惯体系。

在医学确诊和训练范畴，能够仿制专家的注视形式，辅导新手从业者并改善自动化确诊东西。

Mengmi Zhang 表明：“该模型仿照类人决议方案的才能，使其有别于传统的核算机视觉体系。”

也就是说，VF 不只触及辨认目标，还触及了解这些目标怎么样影响后续的举动和决议方案。

经过整合上下文信息和使命优先级，VF 仿照了人类的成见和战略，为耗费分配注意力和做出决议方案供给了杰出的见地。

能够看出，这种范式改变，弥合了感知与认知之间的距离，为考虑和行为更像人类的AI体系铺平了路途，彻底改变了需求视觉辨认以外的范畴。

在该研讨的基础上，下一步研讨人员方案将混合视觉寻食的研讨，扩展至受控试验环境中的简略影响之外。

上一篇:玉米又疯了！屠龙刀再次重现玉米江湖！2024年12月4日行情