Talk预告 港大在读博士谢恩泽南大在读博士王文海: Transformer

  最近几年卷积神经网络(ConvNets) 在视觉领域取得了巨大的成功,并且在几乎所有视觉任务上成为了一个通用的主干网络,但是如何进一步提高视觉任务的特征提取能力始终是一个open problem。

  Transformer作为一个特征提取网络,最近两年在自然语言处理(NLP)领域取得了巨大的成功,最近有些工作开始尝试将Transformer从NLP领域引入视觉领域。其中最经典的工作应该是google的Vision Transformer(ViT)。ViT使用纯Transformer结构在图像分类上取得了不错的结果www.xg1f.com.cn但是它并不太适合大部分CV任务,如检测分割等。如何将ViT推广到检测分割上有很多新的问题和挑战。

  其中第一部分主要介绍如何设计一个适用于物体检测和语义分割基于Transformer的主干网络,第二部分主要分享如何设计一个基于Transformer的语义分割模型,并讨论该模型和基于CNN的语义分割模型的不同之处。

  在Talk界面下的【交流区】参与互动!留下你的打call和问题,和更多小伙伴们共同讨论,被讲者直接翻牌解答!

  谢恩泽, 香港大学计算机系二年级博士,导师为罗平教授,研究方向为自监督学习,物体检测分割等。目前在NVIDIA实习并研究自动驾驶中的3D感知问题。以第一作者在TPAMI/CVPR/ECCV/AAAI等顶级期刊和会议上发表过多篇论文,代表作Polar Mask被选为CVPR 2020十大最具影响力论文。曾在国际竞赛Google OpenImages 2019和ICDAR 2019中取得冠军。Google scholar citation 680+。

  王文海,南京大学博士生。近期的研究方向包含物体检测、实例分割、文字检测和识别等。曾在TPAMI/NeurIPS/CVPR/ICCV/ECCV等顶级期刊和会议上发表过10余篇论文。在NAIC 2021和ICDAR 2019等学术竞赛上取得冠军。目前Google Scholar引用量为1000+。

  TechBeat(隶属于将门创投,是一个荟聚全球华人AI精英的成长社区。

  期待这里可以成为你学习AI前沿知识的高地,分享自己最新工作的沃土,在AI进阶之路上的升级打怪的根据地!