来源：计算机科学与技术学院

72周年校庆系列学术报告：视觉表征模型结构设计—从局部全局特征耦合的Conformer到全预训练模型iTPN

来源：华东师范大学计算机科学与技术学院发布时间：2023-10-16浏览次数：10

报告题目：视觉表征模型结构设计—从局部全局特征耦合的Conformer到全预训练模型iTPN

报告人：叶齐祥教授（中国科学院大学）

主持人：孙仕亮教授，赵静副研究员

报告时间：2023年10月21日（星期六）09:40-10:20

报告地点：腾讯会议，会议号：830 424 730

报告摘要：

分析了局部卷积运算与全局注意力运算的互补性及辩证关系，将局部特征与全局特征耦合形成Conformer网络结构，小规模模型可以显著增强视觉表征能力，提升表征模型的性能下限。探讨了局部卷积运算造成的Mask Image Modeling （MIM）自监督学习信息泄露问题，提出了Token Merging操作，突破卷积或局部运算的局部约束，形成高效分层Transformer 表征(HiViT)与全预训练的Transformer 金字塔网络（iTPN）。在ImageNet分类任务上，不依赖于额外数据，iTPN-Base, iTPN-Large, iTPN-Huge 分别达到了88.0%，89.2%, 89.7%的Top-1分类精度。系列研究从模型结构设计角度将视觉目标检测、分割等任务性能提升到了一个新高度。同时介绍了视觉模型结构设计的未来思路及其与自然语言语言模型的融合探索。代码链接：github.com/pengzhiliang/Conformer与github.com/sunsmarterjie/iTPN。

报告人简介：

叶齐祥，中国科学院大学特聘教授、国家杰出青年科学基金获得者、卢嘉锡青年人才奖获得者、CVPR、NeurIPS 、ICLR2023 Area Chairs、IEEE TCSVT、TITS编委、机器学习与感知(LAMP)中关村开放实验室主任。曾在美国马里兰大学先进计算机技术研究所（UMIACS）任访问助理教授、大学信息技术研究所(IID)访问学者。主要进行信息表征学习与高性能目标感知方法研究。出版专著2本，IEEE CVPR, ICCV, NeurIPS, ECCV等国际会议与TPAMI, TNNLS, TIP等国际期刊发表论文100余篇，Google引用11000+次；授权国家发明专利30余项；承担了国家自然科学基金重点项目、华为、军委科技委创新特区项目、中国火箭运载技术研究院军品采购课题。曾获中国电子学会自然科学一等奖，指导多名博士生获中科院院长奖、博士后创新人才计划、中科院百篇优秀博士论文。