报告题目:繁而不同,大道至简——视觉Transformer大模型及其应用
报告时间:2023年12月21日上午10:00
报告地点:美高梅4688集团amB404会议室
报告人:张敬
报告人国籍:中国
报告人单位:悉尼大学
报告人简介:张敬博士,2015年毕业于中国科学技术大学自动化系,目前在悉尼大学计算机系从事博士后研究,主要从事计算机视觉与深度学习等人工智能领域的相关科学研究工作,在 CCF A类国际会议/期刊以及IEEE 汇刊等国际著名期刊已发表学术论文90余篇,谷歌学术引用6000余次。长期担任著名国际学术期刊和会议审稿人、程序委员会委员、高级程序委员会委员及领域主席。2023年晋升为美国电气和电子工程师协会(IEEE)高级会员。研究成果在相关比赛或者公开数据集多次名列前茅,例如Cityscapes语义分割数据集第一名、KITTI道路分割数据集第一名、COCO人体估计姿态数据集第一名、ImageNet Real图像分类测试集第一名。所提出的ViTAE Transformer系列模型受到广泛关注,该模型可广泛应用于图像分类、目标检测、语义分割、视频实例分割、图像抠图、目标跟踪、文字检测和识别、遥感图像分析等多个领域,取得了非常有竞争力的结果,相关GitHub仓库关注量超过5000。
报告摘要:研究社区已经认识到大数据中蕴含着海量的知识,如何有效获取和利用这些知识是实现更强人工智能的关键。近年来提出的一种新型神经网络架构——Transformer,因其具有的很强的模型表征能力和可扩展性,使得更大的模型往往能更好地从数据中提取和利用知识,并取得更好的性能。本次报告将以我们在Transformer领域的研究工作ViTAE为例,从多个维度展示Vision Transformer“繁而不同“的特点。ViTAE已被应用于多个计算机视觉任务并取得了显著进展,包括图像识别、物体检测、语义分割、图像抠图、姿态估计、场景文字理解和遥感影像分析等。我们将以人体姿态估计、文本检测与识别、光流估计三个典型的计算机视觉任务为例,介绍我们在该领域的最新研究成果,重点阐述“大道至简”的思想在计算机视觉问题建模中的价值,以及大模型“繁而不同”所带来的改变。