CS301 - 大模型与图像生成
Large Pre-Trained Models and Images/Video Generation
3学分
12课时
4周
授课老师:
赵二可
授课时间:
2023.10.21 - 11.11
每周六早上 9:00 - 12:00
关键词:
基于大模型的图像生成,Visual Transformer, GPT, GAN, 对抗神经网络, Wasserstein GAN

课程内容:
我们将会探讨大模型下的Visual Transformer基于成熟的图像生成方式GAN在图像生成中的应用. Visual Transformer 是一种基于自注意力机制的深度学习模型,它在图像处理和分析中取得了显著的突破。课程将涵盖以下核心内容:首先,介绍自注意力机制的原理和背景知识,解释其在 Transformer 模型中的作用和优势。然后,深入探讨 Visual Transformer 模型的架构和工作原理,包括注意力机制的设计和图像特征的编码。接下来,课程将讨论 Visual Transformer 在图像分类、目标检测、图像生成等任务中的应用案例,并探索其在这些任务中的性能和效果。最后,课程将涉及 Visual Transformer 的改进和扩展,以及与其他视觉模型的对比和融合。通过该课程,学生将深入了解 Visual Transformer 技术的原理、应用和相关研究进展,为他们在计算机视觉领域的研究和应用奠定坚实的基础。
GAN 是一类强大的生成模型,通过博弈的方式让生成器和判别器相互竞争,从而提高生成模型的质量和多样性。在课程中,我们将学习 GAN 的基本原理和工作机制,并了解不同类型的 GAN 架构和损失函数。我们将重点关注图像生成领域,学习如何使用 GAN 生成逼真的静态图片和动态视频。其中一个具体的应用是图像矫正。通过训练一个 GAN 模型,我们可以将输入的图像进行矫正,调整其姿态、光照或其他属性,使其更加符合期望的标准。这对于图像编辑、人脸识别等领域都具有重要意义。我们将学习如何构建用于图像矫正的 GAN 模型,并通过实践项目来应用所学的知识。我们还将深入研究 GAN 的训练技巧和调优策略,以提高生成模型的性能和稳定性。通过这门课程,你将掌握 GAN 的核心概念和应用技巧,具备使用 GAN 进行图像生成和矫正的能力。希望你能在课程中获得丰富的实践经验,并将所学的知识应用于实际场景中。