11月15—16日,“人工智能安全:识别风险与寻求解决”专题学术研讨会在京召开。与会专家围绕人工智能安全风险识别、技术防御与治理路径等内容展开深入研讨,为我国提升人工智能安全治理能力、构建具有中国特色的人工智能治理体系提供了多维解决方案。
随着数智技术的快速发展,人工智能博弈引发全球性挑战,成为大国战略竞争的关键领域。中国人民大学国际关系学院教授保建云表示,少数巨头主导的“智能垄断”凭借大模型、算法与数据的控制形成全球寡头格局。这种垄断抑制了创新与知识自由流动,并因算法中的价值偏见加剧社会歧视,放大不公,其失控可能引发非传统安全风险与文明危机。针对这一难题,中国应致力于推动建立更加公平、安全、包容的全球AI治理秩序。
面对大模型在鲁棒性、隐私和公平等方面的安全挑战,中国科学院计算技术研究所研究员陈薇认为,需从算法机理层面寻求根本解。一方面,深入理解深度学习的内在机理,为增强模型内在稳定性奠定理论基础;另一方面,应将人类可理解的因果结构嵌入模型,通过识别和解耦因果变量,使模型在分布变化和对抗攻击下进行更鲁棒、可信的推理。
围绕大模型可能主动发展出的欺骗性行为,北京大学人工智能研究院研究员杨耀东提出,要通过模型自监控的约束强化学习框架,在推理中实时监测和抑制欺骗性意图。“随着模型能力的演进,欺骗性对齐可能带来更严峻的挑战,因此亟须更具可扩展性与内在一致性的对齐范式。”他说。
大模型复杂度提升带来了安全与对齐方面的挑战,会上,专家学者从多维度探讨了人工智能安全治理思路,为未来构建协同治理新范式提供了有益借鉴。
中国人民大学高瓴人工智能学院副教授王希廷从大模型的神经元概念和可解释性入手,提出安全与非安全输入在模型中间层表征中的线性可分特性,揭示了大模型中潜在的安全漏洞。通过引入价值观罗盘框架,将模型行为映射到人类基本价值观上,使得大模型具备更强的识别和适应能力。中国科学院信息工程研究所研究员曹亚男进一步将大语言模型水印技术作为核心溯源手段,分为白盒水印与黑盒检测两条路径。白盒水印通过在模型训练或推理阶段嵌入不易察觉的信号来标记生成内容,并持续优化以平衡水印强度、文本质量与抗攻击鲁棒性。黑盒检测则面对模型输出日益“拟人化”的难题,发展出基于统计保证的低误报检测框架和仿DNA突变修复的新范式,以提升在复杂场景下的检测精度。
针对当前社交平台舆情呈现多源、图文音混合的异构特征,首都经济贸易大学管理工程学院副教授付东普提出“先融合、再建模”的治理思路。该方法通过将多源异构数据统一为语义一致的信息,并在此基础上构建舆情传播模型,有效提取并融合舆情内在特征,构建的模型能够较好地拟合现实传播规律。中国人民大学信息学院副教授张文平则提出一种融合多目标检测方法的识别模型框架,可高效、精准地识别多场景图片中的篡改对象。
中国人民大学人工智能治理研究院院长刘玮表示,应进一步加强跨学科、跨领域的协同研究,推动技术防御与制度治理深度融合,为全球人工智能治理持续贡献中国智慧与中国方案。
会议由中国人民大学人工智能治理研究院主办。