来源:软件工程学院

11月9日学术报告:刘艺(南洋理工大学)

来源:华东师范大学软件工程学院发布时间:2023-11-06浏览次数:14

报告题目: 基于提示词工程的大模型安全

报告时间:2023年11月9日15:00

报告地点:理科楼b1002

主持人:赵涌鑫


报告摘要:

随着大模型在各种领域如医疗、金融、娱乐和教育的广泛应用,其带来的安全挑战也逐渐浮现。大模型虽然为我们带来了很多便利,但与此同时,与其相关的安全隐患也开始备受工业界与学术界的关注。在本次报告中,我们将深入探讨了大语言模型中出现的一种新型且危险的攻击方法——提示词注入攻击。这种攻击利用特定的提示词来诱导模型产生非预期的输出。除此之外,我们还详细研究了大模型越狱问题,这是一个关于如何逃避模型原有对齐限制的技术挑战。报告将分享大模型越狱提示词的最新实证研究进展,并深入讨论如何运用自动化工具来加速和完善这种攻击方式。


报告人简介:

刘艺,南洋理工大学计算机科学与工程学院博士研究生,师从国际软件工程领域知名专家刘杨教授。主要研究方向为大模型安全,软件测试等。他的研究主要集中在大模型安全和软件测试,相关工作发表在USENIX、S&P、NDSS、ICSE、ASE等顶级国际会议上。在大模型安全上,他较早完成了越狱提示词的实证研究,并设计自动化越狱提示词生成方法;同时,在提示词注入方面,较早实现了对于集成大语言模型商业应用的攻击,并设计自动化提示词注入攻击工具。在软件测试中,他主导设计的RESTful API自主测试工具,获得华为云十大优秀技术合作项目奖,并已落地华为公司内部多个产品线应用,华为云对外商用邀测。