Transformer无疑是促进自然语言处理领域繁荣的最大功臣,也是GPT-4等大规模语言模型的基础架构。
不过相比语言模型动辄成千上万亿的参数量,计算机视觉领域吃到Transformer的红利就没那么多了,目前最大的视觉Transformer模型ViT-e的参数量还只有40亿参数。
最近谷歌发布了一篇论文,研究人员提出了一种能够高效且稳定训练大规模Vision Transformers(ViT)模型的方法,成功将ViT的参数量提升到220亿。
(资料图)
论文链接:https://arxiv.org/abs/2302.05442
为了实现模型的扩展,ViT-22B结合了其他语言模型(如PaLM模型)的思路,使用 QK 归一化改进了训练稳定性,提出了一种 异步并行线性操作(asynchronous parallel linear operations) 的新方法提升训练效率,并且能够在硬件效率更高的Cloud TPU上进行训练。
在对ViT-22B模型进行实验以评估下游任务性能时,ViT-22B也表现出类似大规模语言模型的能力,即随着模型规模的扩大,性能也在不断提升。
ViT-22B 还可以应用于PaLM-e中,与语言模型结合后的大模型可以显著提升机器人任务的技术水平。
研究人员还进一步观察到规模带来的其他优势,包括更好地平衡公平性和性能,在形状/纹理偏见方面与 人类视觉感知的一致性 ,以及更好的稳健性。
模型架构
ViT-22B 是一个基于Transformer架构的模型,和原版ViT架构相比,研究人员主要做了三处修改以提升训练效率和训练稳定性。
并行层(parallel layers)
ViT-22B并行执行注意力块和MLP块,而在原版Transformer中为顺序执行。
PaLM模型的训练也采用了这种方法,可以将大模型的训练速度提高15%,并且性能没有下降。
query/key (QK) normalization
在扩展ViT的过程中,研究人员在80亿参数量的模型中观察到,在训练几千步之后训练损失开始发散(divergence),主要是由于注意力logits的数值过大引起的不稳定性,导致零熵的注意力权重(几乎one-hot)。
为了解决这个问题,研究人员在点乘注意力计算之前对Query和Key使用LayerNorm
在80亿参数模型上的实验结果如下图所示,归一化可以缓解发散问题。
删除QKV投影和LayerNorms上的偏置项
和PaLM模型一样,ViT-22B从QKV投影中删除了偏置项,并且在所有LayerNorms中都没有偏置项(bias)和centering,使得硬件利用率提高了3%,并且质量没有下降。
不过与PaLM不同的是,ViT-22B对(内部和外部)MLP稠密连接层使用了偏置项,可以观察到质量得到了改善,并且速度也没有下降。
ViT-22B的编码器模块中,嵌入层,包括抽取patches、线性投影和额外的位置嵌入都与原始ViT中使用的相同,并且使用多头注意力pooling来聚合每个头中的per-token表征。
ViT-22B的patch尺寸为14×14,图像的分辨率为224×224(通过inception crop和随机水平翻转进行预处理)。
异步并联线性运算(asynchronous parallel linear operations)
大规模的模型还需要分片(sharding),即将模型参数分布在不同的计算设备中,除此之外,研究人员还把激活(acctivations,输入的中间表征)也进行分片。
因为输入和矩阵本身都是分布在各种设备上的,即使是像矩阵乘法这样简单的操作也需要特别小心。
研究人员开发了一种称为异步并行线性运算的方法,可以在矩阵乘法单元(在TPU 中占据绝大多数计算能力的单元)中计算时,同时对设备之间的激活和权值进行通信。
异步方法最小化了等待传入通信的时间,从而提高了设备效率。
异步并行线性运算的目标是计算矩阵乘法 y = Ax,但矩阵 A 和激活 x 都分布在不同的设备上,需要通过跨设备的重叠通信和计算来实现这一点。矩阵 A 在设备之间进行列分片(column-shard),每个矩阵包含一个连续的切片,每个块表示为 Aij,更多细节请看原始论文。
实验结果
为了说明ViT-22B学习到的表征非常丰富,研究人员使用LiT-tuning训练一个文本模型来生成一些表征用来对齐文本和图像。
下面是用Parti 和 Imagen 生成的分布外(out-of-distribution)图像得到的实验结果,可以看到ViT-22B的zero-shot图像分类泛化能力非常强,仅从web上爬取的自然图像就能识别出没见过的物体和场景。
论文中还讨论了ViT-22B在视频分类、深度估计和语义分割任务上的效果。
与人类目标识别对齐
为了验证 ViT-22B 分类决策与人类分类决策的一致性,研究人员对 ViT-22B 进行了微调,对分布外(OOD)数据集的不同分辨率进行了微调,其中人类比较数据可通过model-vs-human toolbox获得。
该工具箱主要衡量三个关键指标: 模型如何处理失真(准确性) ?人和模型的精度(精度差)有什么不同?人和模型的错误模式(错误一致性)有多相似?
形状偏差评估(值越大代表更多的形状偏差)。许多视觉模型具有低形状/高纹理偏差,而在 ImageNet 上进行微调的 ViT-22B具有迄今为止在 ML 模型中记录的最高形状偏差,更接近于人类形状偏见
实验结果显示,虽然并非所有的微调解决方案都表现得很好,但 ViT-22B 变体在所有三个指标上都达到了新高。
此外,ViT-22B 模型在视觉模型中也有最高的形状偏差记录。这意味着他们主要使用目标的形状,而不是目标的纹理来进行分类决策,策略结果类似于人类的感知(其形状偏差为96%)。
标准模型(例如,ResNet-50有20-30% 的形状偏差)通常根据纹理来分类,而高形状偏差的模型则倾向于关注形状(下图识别为猫),尽管人类和模型的感知之间仍然存在许多差异,但是 ViT-22B 显示出与人类视觉对象识别更多的相似性。
猫 还是大象? 车还是钟? 鸟还是自行车? 具有某个物体的形状和另一个不同物体纹理的图像,可用于测量形状/纹理偏差
分布外(out-of-distribution)性能
测量 OOD 数据集的性能有助于评估模型泛化性。
在这个实验中,研究人员构建了从 JFT 到 ImageNet 的标签映射,以及从 ImageNet 到不同的分布外数据集(如 ObjectNet)的标签映射。
对这些数据进行预训练后的结果如下图所示,然后在 ImageNet 上对模型进行完全微调。
可以观察到缩放 Vision Transformers 可以提高 OOD 性能: 即使 ImageNet 的精度达到饱和,也可以看到 ObjectNet 上从 ViT-e 换成 ViT-22B 模型可以显著提升性能。
线性探测Linear Probe
线性探测是一种将单个线性层置于冻结模型之上的技术,与完全微调相比,这种方法的训练成本更低,设置起来也更容易。
在 ImageNet 上训练的线性探测结果,在 ImageNet-Real,ImageNet-v2,ObjectNet,ImageNet-R 和 ImageNet-A 数据集上评估,提供高分辨率微调 ViT-e/14作为参考
从结果中可以观察到,ViT-22B 的线性探测性能接近于使用高分辨率图像对较小模型进行全面微调的最先进水平,其中具有较高分辨率的训练通常要昂贵得多,但可以在许多任务上取得更好的结果。
蒸馏
利用蒸馏法,可以将较大模型的知识转化为较小模型的知识,可以提升成本更高、运行速度更慢的大模型的运行效率。
从实验结果中可以发现,ViT-22B 的知识可以迁移到更小的模型,如 ViT-B/16和 ViT-L/16,并在同等模型尺寸下在ImageNet上刷新了性能记录。
公平性与偏见
机器学习模型容易受到意想不到的不公平偏见的影响,例如找到错误的相关性或者在各个子群体之间存在性能差距,研究人员发现,扩大模型规模有助于缓解这些问题。
首先,规模是一个有前景的权衡方式,即使模型经过训练后再进行后处理,将其人口平等(demographic parity)水平控制在规定的、可容忍的水平之下,性能也会随着规模的增加而提高。
上图: 去偏前 CelebA 中每个子组的精度。下图: y 轴显示了在这个例子中突出显示的两个特定亚组(女性和男性)的表现的绝对差异。与较小的 ViT 模型相比,ViT-22B 在性能的差距很小。
更重要的是,这不仅适用于以准确性衡量性能的情况,而且适用于其他度量,例如校准,即对模型估计概率的真实性的统计测量,所有子群的分类随着规模的增大而趋于改善,并且ViT-22B 降低了各子群之间的性能差距。
结论
研究人员提出了一个目前最大的视觉Transformer模型 ViT-22B,包含220亿参数。
通过对原始模型架构进行微小但关键的修改后,实现了更高的硬件利用率和训练稳定性,从而得到了一个在几个基准测试上提高了模型的上限性能。
使用冻结模型生成嵌入,只需要在顶部训练几层,即可获得很好的性能,并且评估结果进一步表明,与现有模型相比,ViT-22B 在形状和纹理偏差方面显示出与人类视知觉更多的相似性,并且在公平性和稳健性方面提供了优势。
Transformer无疑是促进自然语言处理领域繁荣的最大功臣,也是GPT-4...
南阳市汉画馆免费吗?参观门票:免费,凭身份证等有效证件领取门票,...
当地时间2023年4月6日,俄罗斯莫斯科,俄罗斯总统普京(左)和白俄...
由吉林省博物院主办,松花江美术馆、新兴园吉林史话博物馆、今月轩...
我的钢铁网数据显示,6日成交量为13 40万吨。宏观方面,中国物流与...
出品|搜狐科技编辑|季松卿4月6日下午,小米与徕卡共同宣布,双方...
奥迪众所周知是豪车SUV的代表品牌,在中大型SUV领域,想必大家都听...
解答:1、与聚丙烯或聚乙烯醇复合的粘胶纤维具有毛感和膨松感,适用...
1菠萝蜜的籽具有一定的营养价值。2菠萝蜜的籽富含蛋白质、脂肪、碳...
「核心要点」低调一年多的滴滴发布新规,虽是对过去安全事故的一种...
地方专项和高考专项、国家专项一起被称作“高考三大专项计划”,是...
1、肾炎可以吃的消炎药主要有以下几种:1。2、青霉素类抗生素,主要...
天眼查App显示,近日,中林数科有限公司成立,法定代表人为陈奕名,...
长城网·冀云客户端讯(记者 师语彤 通讯员 李冰)4月6日,中
据gamesradar消息,《堕落之主》对于减少玩家的“挫败感”很上心。...
交通运输部:3月城市轨道交通客运量环比增长16 6%金十期货4月6日讯...
每经AI快讯,有投资者在投资者互动平台提问:请问马来西亚rpet产能...
毛利下滑、库存承压!五大维度解读四大国产运动品牌2022年财报
中药枕头有哪些保健功用,比较受关注,让咱们一起看看吧!有许...
1、提交身体条件证明是提交身体的检查证明,即县级或者部队团级以上...
我从S3看比赛,一直喜欢小狗的风格,MLXG也是我喜欢的肉食性打野,...
3月30日至4月2日,由中国农技推广协会主办的第六届中国富硒农业发展...
【本文来自《相当一部分人脑子里根本没有娱乐也是生产力,以及数据...
历史数据显示该基金近1个月下跌1 83%,近3个月上涨6 82%,近6个月...
美腾科技2022年报显示,公司主营收入4 89亿元,同比上升27 57%;...
不负清明好春光——“我们的节日·清明”海南区特别推出(七)
智通财经APP讯,北大医药(000788)(000788 SZ)公告,公司参加了国家...
3月31日,在河北蠡县留史镇朱佐小学《娃娃戏台》的戏曲课堂上,戏曲...
浓眉:我没有打背靠背了今天打了42分钟明天打不打会电话讨论,明天,...
1、新城区灞桥区西安市第八十九中学(省市两级)