2024年7月18日,中国图象图形学学会(CSIG)第七期优博论坛于中山大学顺利举办。本次论坛由中国图象图形学学会主办,中山大学计算机学院、CSIG广州会员中心、CSIG成像探测与感知专委会、CSIG青工委、CSIG优博俱乐部承办,中山大学胡建芳副教授和吴岸聪副教授共同组织?;嵋槲私倜д呒把斡?。图象图形学领域的杰出学者与CSIG优博论文奖获得者分享了前沿研究与技术应用,并探讨导师如何培养优秀博士及学生如何成长为优秀博士。
图 1 会议信息
出席本次论坛的嘉宾包括:中国科学院自动化研究所徐常胜研究员、清华大学丁贵广教授、北京大学马思伟教授、西安电子科技大学董伟生教授、武汉大学许永超教授、山东大学贲晛烨教授、中山大学胡建芳副教授、上海交通大学闵雄阔副教授、中国电信人工智能研究院赵健研究员、大连理工大学张平平副教授等。
图 2 中国图象图形学学会副理事长赖?;徒淌谥麓?/span>
中山大学计算机学院院长、中国图象图形学学会副理事长赖?;徒淌诤椭泄枷笸夹窝аЩ嵊挪┚憷植柯种抵飨沓淌诜直鹞蠡嵯咨先惹榈闹麓?,对莅临会议的各位专家、老师和同学们表示诚挚的欢迎。希望大家积极参加优博论坛和中国图象图形学学会举办的各项活动,分享最新的研究成果和前沿思想,推动中国图象图形学领域的发展,激发创新灵感与实践动力。
图 3 CSIG第七期优博论坛参会合影
图 4 徐常胜研究员作报告
中国科学院自动化研究所的徐常胜研究员作了《视频理解中的关系学习研究》的报告。目前,海量的互联网视频数据数量巨大且结构复杂,给视频内容理解带来了前所未有的挑战。讲者从不同角度介绍了多种视频分析中的关系学习方法。在局部表观建模方面,通过引入相对性策略,有效应对了单目标跟踪表观变化带来的挑战。在时空结构关系建模方面,利用孪生网络来构建视频中的物体时空结构关系,使模型能更好地自适应特征变化,实现鲁棒的目标定位。在基于知识图谱的关系学习方面,面对大规模数据集和无标注样本的问题,提出了一种利用知识图谱的动态图卷积网络模型,构建视频内容与外部知识之间的动态演化关系。在跨模态用户兴趣建模方面,通过循环神经网络和多组件损失函数进行鲁棒推荐。这一研究为个性化服务提供了更准确的依据,有效地考虑了用户的动态兴趣变化。最后,讲者总结了视频理解关系学习的研究进展与构建适用于不同场景和任务的统一分析框架。
清华大学丁贵广教授作了《模型推理优化技术研究》的报告。报告首先探讨了模型结构设计与学习方法在人工智能发展中发挥的关键作用。为了解决端侧资源受限及要求高的问题,对模型结构优化、压缩加速和高效微调等方面的研究显得尤为重要。然后,讲者分享了在模型结构优化领域的系列研究,包括面向端侧的模型设计、压缩加速方法以及在Transformer架构上的创新应用。特别是围绕非对称网络与重参数化思想的引入,在提升模型推理效率的同时保证了训练阶段的精度表现。最后,讲者强调了模型结构设计和学习训练方法是人工智能技术发展的两条核心主线。
图 5 马思伟教授作报告
北京大学马思伟教授作了《智能视频编码模型与方法》的报告。报告聚焦于传统视频编码技术的局限、新兴智能编码方法的研究进展以及未来发展趋势。随着人工智能的应用,视频的用途已从单纯的人类观看扩展到机器学习和数据分析领域。这要求我们探索更多面向机器处理和分析的编码方式。传统编码效率的提升空间有限,智能编码通过利用AI工具、模型优化和生成技术,为视频编码带来了新的发展。当前研究采用深度神经网络替代传统的变换预测???,或构建全端到端的神经网络系统,以此提高压缩效率,并探索在特定应用场景下(如人脸、人体视频)性能超过现有标准的技术。通过使用AI模型来生成图像和视频内容,实现显著的数据量减少。最后,讲者深入讨论了智能视频编码技术面临的技术挑战以及未来发展的可能路径。
图 6 董伟生教授作报告
西安电子科技大学董伟生教授作了《低质图像恢复与识别》的报告。首先,讲者强调了深度学习方法对图像处理能力的强大提升,特别是在概率建模与先验知识整合方面。通过融合概率估计理论,提出了利用深度神经网络进行图像先验学习的新型框架,旨在更准确地预测和重建图像。为了提高模型在复杂场景下的表现,引入了先验不确定性方法。在视频去模糊方面,引入了后验概率最大框架,通过整合相邻帧的信息约束,在提高去模糊性能的同时保持了较低的计算复杂度。针对未知模糊核的问题,提出了一种基于生成式先验的学习方法来估计图像中的运动模糊情况,通过仿真大量模糊模式作为先验信息,估计每个像素点的模糊度。最后讨论了stable diffusion在图像超分辨率和识别中的应用。通过引入基于先验的加权损失,提高了重建图像的保真度,还减少了生成假纹理的问题。报告介绍的研究工作将深度学习技术与经典图像处理理论相结合,展现了在低质图像恢复与识别领域的创新应用。
图 7 许永超教授作报告
武汉大学许永超教授作了《目标定位和计数中的点标注偏移问题研究》的报告。讲者首先探讨了在目标定位和计数任务中对点进行准确标记所遇到的一系列挑战,比如在计数行人等应用场景下,存在的人为标注不一致性问题。为了解决这个问题,讲者提出了基于密度图的间接学习方法和直接回归定位点位置的方法。报告还讨论了在半监督学习环境下的人工标注问题。针对这一挑战,讲者提出了使用历史标注分布来估算每个点的真实位置。最后,讲者总结了提出的算法并与听众讨论了多模态大模型在目标定位与计数中的应用。
图 8 参观国家超级计算广州中心
国家超级计算广州中心岳萍老师带领优博论坛嘉宾参观国家超级计算广州中心,详细介绍了超算中心在高新产业中的应用,如气象、基因组学研究与应用、药物设计等,并在“天河二号”机房中合影留念。
图 9 贲晛烨教授作报告
山东大学贲晛烨教授作了《微表情检测与识别:读脸读心》的报告。报告聚焦于“微表情”,即短暂、幅度小且不易察觉的表情变化,它能揭示人们的真实情绪,在司法、心理咨询及教育等领域有多方面的应用。报告详细介绍了微表情检测与识别的理论基础、算法研究和实验结果,包括基于时空域特征、频域变换以及深度学习方法等方法。报告还讨论了在数据量不足的情况下如何利用已有的大规模宏表情数据库来增强微表情的识别性能。未来的研究方向及挑战包括隐私?;ぁ⒗弥诎绞嚼┐笫萘恳蕴岣呶⒈砬槭菁闹柿?、多任务学习以及深度学习方法中对可解释性和可信度的关注等。
图 10 胡建芳副教授作报告
中山大学胡建芳副教授作了《跨模态视频-文本内容定位》的报告。报告主要介绍了几个视频文本内容理解任务的研究进展。针对视频文本检索问题,讲者介绍了一种基于动态交互双流网络的解决方案,旨在精确地匹配文本描述和视频中相应的内容,通过同时考虑视觉元素与文本信息间的静态对应关系以及动态信息的相互作用,实现了在时间和空间维度上的高效定位。方法被成功应用于ACM Multimedia竞赛中荣获冠军。针对长段落视频内容定位问题,提出了一种多层次语义对齐网络模型,能够有效整合单词、句子和段落不同层次的语义信息与视频间的关联。通过在编码和解码过程中引入跨层交互机制,该模型能够在处理复杂长文本描述时,提供更为精准且连贯的结果。面对标注成本高昂的问题,引入了一种基于时间顺序和数据生成的半监督与弱监督学习框架。通过孪生网络结构,利用已知的时间序列信息以及生成伪视频的数据进行训练。最后,在开放式视频问答领域中,讲者展示了其构建的基于增知识蒸馏框架的解决方案。通过专家模型和学生模型之间的排序关系传递,有效处理了标签缺失的问题。
图 11 闵雄阔副教授作报告
上海交通大学闵雄阔副教授作了《视听联合体验质量评价》的报告,深入探讨了视觉、听觉等多感观在多媒体系统中的联合应用。首先,在跨模态注意力预测方面,讲者介绍了关于视觉与听觉的协同作用在注意力预测中的应用。通过大量眼动实验收集数据,并构建出一个融合视听信息的注意力预测模型,该模型能够更准确地识别在视觉和听觉引导下,人们关注的不同视频内容区域。在音视频联合质量评价方面,针对多媒体通信系统中,声音和画面共同形成的体验如何量化的问题,构建了一个基于后期融合的音视频联合质量评价模型。该模型将现有图像质量评估算法应用于音频领域,通过引入听觉信号的多维转换及可视化分析,提供了比单一模态更为全面的质量评估方法。在无参考音视评价框架方面,面向用户生成内容音视频的数据特性,提出了一个新的统一框架来处理全参考和无参考情况下音视频质量的评估问题。这一框架不仅兼容了传统标准下的评价指标,并创新性地引入了自然信号统计方法以适应音频数据特性。在多媒体体验的质量优化方面,讲者分享了一个通过融合音频信息来增强视频恢复效果的研究。该工作结合人脸表情、嘴唇动作等视觉特征与声音辅助进行多帧对齐和重建,显著提升了视频质量,并表现了听觉模态数据在特定场景下的应用潜力。
图 12 赵健研究员作报告
中国电信人工智能研究院赵健研究员作了《无约束感知理解:从视觉垂域建模到多模态统一与多任务协同》的报告。讲者首先分享了他在无约束条件下实现低空安全威胁预警、无人机跟踪和公共安全管理方面的工作亮点。他提出了双流知识迁移多模融合实例及目标跟踪方法,并构建了一个新的多模融合无人机跟踪数据集。接着,讲者聚焦于人脸识别中的面部特征感知和身份识别挑战。通过一种归一化学习要素解耦的方法,显著提升了无约束条件下的人脸识别精度,并已成功应用于多项实际任务中。此外,面对人群拥挤的场景下精细化的目标解析问题,提出了局部全局信息关联的因果嵌套像素级目标解析方法,改进了推理速度和解析精确度。最后,讲者指出在单模态视觉感知基础上拓展到多模态融合、从垂域专用智能转向跨域通用智能是未来研究的重要方向。
图 13 张平平副教授作报告
大连理工大学张平平副教授作了《基于多模态感知的全天候行人重识别》的报告。讲者首先介绍了行人重识别任务在智能安防、自动驾驶、智慧零售等多个领域的广泛应用。然后,讲者重点阐述了其团队在多模态行人重识别领域的研究进展。通过融合可见光、红外以及其他可能互补的信息源(如文字、语音等),可以实现全天候的行人识别,并显著提升模型在遮挡、低分辨率、暗光等复杂条件下的鲁棒性与泛化能力。在模态融合优化方面,通过改进ViT架构,探索了多模态数据之间的交互机制,将不同模态的token进行交换,从而增强了模型在缺失模态情况下的信息整合能力。为了进一步挖掘图像中的信息,引入了一种融合空域和频域特征的选择策略。在数据集规模较小的情况下,利用预训练模型(如CLIP)的优势进行了跨模态信息的高效整合,探索了提示协同学习方法的有效性。最后,讲者强调了多模态行人重识别问题仍未解决,未来在技术和应用上仍具有很大的探索空间。
图 14 Panel讨论环节
Panel讨论环节由中山大学胡建芳副教授主持。参与Panel的嘉宾北京大学马思伟教授、西安电子科技大学董伟生教授、上海交通大学马超教授和中国电信人工智能研究院赵健研究员,共同从导师和学生两个角度探讨了优秀博士的培养和发展问题。嘉宾们首先就“在有限资源下,作为导师应如何帮助学生选择研究方向”这一问题进行了讨论。他们强调了结合个人兴趣与实验室优势的重要性,并提出了一种“双向奔赴”的理念:即学生与导师都需要有意愿并且积极寻求发展。同时,与企业的合作和利用校内或企业提供的计算资源也是应对资源限制的实用策略。在面对困难和瓶颈时,“鼓励和支持”是嘉宾们一致提到的关键要素。他们建议学生要建立正确的心态,相信自己能够克服挑战,并主动探索自我驱动力。此外,保持张弛有度的生活节奏、培养兴趣爱好也被认为有助于缓解压力与提升个人能力。对于如何成长为优秀的博士,嘉宾们分享了各自的观点。除了传统的学术成就(如发表高质量论文)外,更重要的是发展解决问题的能力、独立研究的毅力和对科研的热情。在职业规划方面,他们提醒学生要根据自己的长期目标来选择发展路径,并强调适应不同行业要求的重要性。
在优博论坛的最后,论坛主席胡建芳副教授与CSIG优博俱乐部轮值主席马超教授对本次论坛进行总结,并对出席本期论坛的各位老师和同学们表示感谢。
Copyright ? 2025 中国图象图形学学会 京公网安备 11010802035643号 京ICP备12009057号-1
地址:北京市海淀区中关村东路95号 邮编:100190