avatar
李相越
我的个人博客,记录我的学习和生活。

教育经历

本科:中国矿业大学 (211) ,计算机科学与技术专业 (计算机科学与技术学院), 2020.09 - 2024.06

  • 荣誉奖项: 2024-2025学年国家奖学金,2023-2024及2024-2025学年苏州大学一等奖学金。

研究生:苏州大学 (211) ,软件工程专业 (计算机科学与技术学院), 2024.09 - 至今

  • 荣誉奖项: 2020-2021学年校一等奖学金,2021-2022及2022-2023学年校二等奖学金。

专业技能

  • 研究方向: 研究生方向为缺陷样本的可控生成与分割。熟悉计算机视觉生成和分割的相关内容。对于图像生成,掌握扩散模型 (Diffusion Models) 的基础理论,熟悉其发展进程及 DiT、Flow Matching 等前沿理论与技术。深入研究并熟悉 Stable Diffusion、Flux 等开源图像生成模型的技术细节与代码实现;掌握相关开源模型的微调及可控生成技术(如 IP-adapter、ControlNet),能够实现给定参考图像生成语义相近的图像。
  • 算法与编程能力: 具备优秀的逻辑思维与扎实的算法基础。获得 CCF-CSP 软件能力认证 285分,PAT 甲级计算机程序设计考试 84分;获第十四届蓝桥杯全国软件和信息技术专业人才大赛(江苏赛区)C/C++ 程序设计大学 A组 二等奖。

研究生主要工作

项目一:基于掩码对齐的缺陷图像生成与分割

  • 论文发表: Free Lunch of Image-mask Alignment for Anomaly Image Generation and Segmentation(被 2025 年 CCF A 类会议 IJCAI 录用,录用率 19.3%)。
  • 主要研究内容:
    • 可控缺陷生成: 利用 LoRA 为 Stable Diffusion 添加图像控制,实现类似 ControlNet 的效果,通过掩码 (mask) 精准控制生成对应的缺陷图像。
    • 对齐损失优化: 针对生成图像偏离 mask 位置的 Drift 问题,将 mask 与图像进行同步加噪去噪处理。通过将预测的 mask noise 与 image noise 的差异作为对齐损失,显著增强了对 mask 条件的控制力。
    • 下游任务提升: 为赋能下游缺陷分割任务,将预训练的生成模型融入分割模型的训练过程中并增加生成反馈损失,使下游分割性能大幅提升 5.03%

项目二:融合缺陷检索与条件控制缺陷生成

  • 论文发表: AnomalyAgent: Unified Anomaly Retrieval and Synthesis Before Manufacturing(被 2026 年 CCF A 类会议 CVPR Findings 录用,录用率 36.1%)。
  • 主要研究内容:
    • 痛点解决: 针对传统生成方法仅能针对特定对象生成已知异常,无法为投产前的新产品预测未见缺陷的问题,提出基于历史大数据的融合检索与生成方案。
    • 跨模态精准检索: 利用大语言模型 (LLM) 和经对比学习微调的异常感知 CLIP 模型进行跨模态检索,从庞大的历史图库中高效提取目标产品潜在的参考异常图像。
    • 条件引导合成: 生成模型以检索到的异常图像作为先验条件,引导扩散模型在正常物体上高质量地合成带有相应缺陷的预测图像。