Transformer笔记2 —— VIT

整体架构分析

将图片分割成若干块，再展开为一个向量

对于图像分类任务，可以加一个0向量，最后一层该向量的输出作全连接即可

想要获得大的感受野（全局的信息）就必须堆叠很多层卷积！

这问题就来了，不断卷积+池化的操作感觉有点麻烦还不一定好

transformer根本不需要堆叠，直接就可以获得全局信息（缺点：比较吃数据）

对于图像分类任务，编码有用，但是怎么编码影响不大

VIT中只针对pathch进行建模，忽略了其中更小的细节

外部transformer处理序列。（一模一样）

内部transformer:

重组成多个超像素（4个像素点）
把重组的序列继续做transformer
内部transformer重组成新的向量：
- 新向量再通过全连接改变输出特征大小
- 内部组合后的向量与patch编码大小相同
- 最后与原始输入pathch向量进行相加