新经济导刊|大语言模型的安全风险与应对措施
从目前的大语言模型发展来看,国外成熟的大语言模型产品共有OpenAI、FaceBook、LLaMa、DeepMind四个分支,其发展多是由商业性机构驱动的。同时,国内大语言模型领域也已经呈现蓬勃发展态势,包括华为、百度、商汤科技、科大讯飞、知乎、阿里巴巴在内的企业和清华大学、复旦大学、中国人民大学在内的高校,在大语言模型的典型模型研发上取得了一定的开创性成果。
《新经济导刊》2023年第9-10期刊发清华大学长聘教授、清华计算机系基础模型中心副主任黄民烈的署名文章《大语言模型的安全风险与应对措施》(本文根据作者在“天津论坛2023分论坛·人工智能和科技创新范式变革”上所作的演讲整理)。文章认为,大语言模型已经趋于智能化,甚至在部分研究领域中已经出现高于人类平均智力水平的强人工智能。但全球许多专家对其安全性已产生忧虑,如何合理运用与妥善治理大语言模型是当下亟须解决的关键问题。
第一,大语言模型的安全风险问题。与早期的简单匹配型智能程序相比,生成式AI更接近真正的“智能”。但这也给人类社会带来了众多挑战,例如AI的误导、有害建议、伦理和社会道德问题、隐私泄露以及潜在的滥用等几类典型问题。因此,构建更为可信的AI系统成为研究的关键。当然,人工智能的安全问题并不仅仅局限于这些。例如,AI在某些角色扮演中可能会出错,它们在面对指令攻击时表现出脆弱的一面,简单的关键词过滤并不能有效地防御网络入侵。评估大型AI模型的安全性也是一大难题,特别是在学习与评估协同互馈的机制下,大型模型是否能通过“作弊”行为规避监管。
第二,大语言模型安全风险的应对措施。使用专门的评估模型来评价其他大模型,这种形式类似于以特定AI来担任AI领域的“裁判”。同时,专门的评估模型能确保模型具备高阶的安全性,即使面对指令攻击也能有所防备而不出现错误。与大语言模型安全问题相关的另一个重要议题是监管的时机。从目前的趋势看,我国对AI研发的监管是相对宽松的,这方面的实践主要呈现为“边发展边治理”的模式。为实现这一目标,我们需要构建标准模型,开发特定的数据集,并确立基本的安全标准。
不可否认,AI在许多专业领域都表现得十分出色,这可能会对传统的研究范式和学科体系产生冲击。但在某些特定的专业研究领域,AI的能力仍然有很大提升空间,同时也伴随着一些特殊的安全问题产生。总的来说,人工智能的安全和监管是一个复杂而又重要的议题,需要科技界、政府和社会的合作与共同努力来解决。(整理/常昌盛)