ViT¶
约 132 个字 预计阅读时间 1 分钟
核心思想:图像化整为零,切分为 patch, 每一个 patch 作为一个 token
架构 ¶

分为以下 5 个步骤 - 图片切分为16x16的patch - patch转化为embedding - 位置embedding与tokensembedding相加 - 输入到TRM模型 - CLS输出做分类任务
为什么第三步要引入 CLS 符号
带疑问 但是不引入CLS也不会影响效果,可以通过修改学习率来提高效果,但是在学习率相同的情况下,引入CLS的效果会更好