跳转至

ViT

132 个字 预计阅读时间 1 分钟

核心思想:图像化整为零,切分为 patch, 每一个 patch 作为一个 token

架构

image-20260311153052702

分为以下 5 个步骤 - 图片切分为16x16的patch - patch转化为embedding - 位置embedding与tokensembedding相加 - 输入到TRM模型 - CLS输出做分类任务

为什么第三步要引入 CLS 符号

带疑问 但是不引入CLS也不会影响效果,可以通过修改学习率来提高效果,但是在学习率相同的情况下,引入CLS的效果会更好