ai讲师人工智能讲师计算机视觉老师叶梓:计算机视觉领域的自监督学习模型——MAE-13
接上一篇P28P30实验效果-ViT模型的影响n性能惊艳:ImageNet-1K最高87.8%。与当前SOTA自监督预训练方法相比,对于 ViT-B 的表现结果都很接近。对于 ViT-L不同方法的结果就存在很大差距,这表明更大模型的挑战是减少过度拟合。n再看最后一列,仅使用ImageNet-1K数据时,ViT-Huge模型的最高精确度为87.8%,这明显超过了所有在ImageNet-21K 预训练
·
接上一篇
P28P30
实验效果-ViT模型的影响
n性能惊艳:ImageNet-1K最高87.8%。与当前SOTA自监督预训练方法相比,对于 ViT-B 的表现结果都很接近。对于 ViT-L不同方法的结果就存在很大差距,这表明更大模型的挑战是减少过度拟合。
n再看最后一列,仅使用ImageNet-1K数据时,ViT-Huge模型的最高精确度为87.8%,这明显超过了所有在ImageNet-21K 预训练的ViT变种模型。

实验效果-参数改变
n改变各种参数后的对比实验

实验效果-Mask方式的影响
nHere each output is from an MAE trained with the specified masking strategy.
nLeft: random sampling (our default).
nMiddle: block-wise sampling that removes large random blocks.
nRight: grid-wise sampling that keeps one of every four patches.
以上为叶梓老师上课讲义,供有基础的朋友或者同行使用,未完,下一篇继续……
更多推荐
所有评论(0)