虽然《变形金刚》已经开始在很多视觉任务中大显身手,但是还有一个问题。
也就是说,在处理大图像时很难计算。
例如,当面对一个1080p的图时,其60%以上的计算都花在创建和应用注意力矩阵上。
主要是因为自我关注头数是令牌的平方,令牌数与图的大小成二次关系。
那我能做什么。
好消息是—
现在Meta想出了一个多焦点的操作方法,可以比标准注意力整整快197倍!
而且在提高计算速度的同时,不会牺牲精度,有时甚至可以提高1—2分的精度。
这是怎么回事。
这种方法叫九头蛇注意力,主要是针对视觉转换者。
九头蛇注意力的想法源于线性注意力中一个有点矛盾的点:
使用标准的多头自关注,在模型中增加更多的头可以保持计算量不变。
但是在线性注意中改变操作顺序后,增加更多的头部实际上会降低层的计算成本。
具体来说:
当标准的自我注意头是令牌数的平方时),通过使用可分解核,我们重新排列操作顺序,使得注意头的数量成为特征d的平方。
然后用九头蛇绝招最大化注意力头数H,使H=D,最后可以化为时空上的O简化运算。
其中九头蛇绝招的基础如下图所示:
前者在Hgt96.后者在Hlt3,内存不足。
当他们在模型中加入更多的头部时,Softmax注意力模型的准确性似乎崩溃了,而多头线性注意力仍然可以保持一致,于是就有了上面的操作。
速度快了197倍,精度还可以更高。
我们来看看九头蛇关注交出的成绩单。
如你所见,九头蛇的注意力比标准注意力快197倍。
伴随着图像大小的增加,显著增加了模型的翻牌数,创建和应用注意矩阵的计算量仅为0.02%。
或者用Hydra Attention替换某个特定的注意力层,也可以在ImageNet上提高模型1%的准确率或者保持与基线相同。
当然,最多可以更换8层。
该成果已入选ECCV 2022研讨会。
其中,有3名中国人,分别是:
傅成阳毕业于清华大学,在北卡罗来纳大学教堂山分校获得硕士和博士学位,现在是元计算机视觉的研究科学家。
戴,毕业于北京大学学士学位和普林斯顿大学博士学位,曾就职于Meta公司。
张培昭,本硕,毕业于中山大学,美国得克萨斯州Aamp博士,m大学,在Meta工作了五年。
论文地址:
涉及