AI时代如何构建数据安全生态
来源:中国贸易报
近日,一名美国众议院议员提出的一项《生成式人工智能版权披露法案》,要求企业在推出人工智能系统之前要告知政府,同时还要列出用于构建或更改该系统训练数据集的所有受版权保护的作品。这项法案如被通过,将推动美国人工智能公司在模型训练数据的使用上更加透明。
无独有偶,欧洲议会在一个多月前投票通过并批准的《人工智能法案》中,也明确要求对用于训练、测试和验证人工智能工具的数据进行适当的数据治理。
“近年来,各国纷纷出台了涉及人工智能的立法和政策,大多数国家在制定相关法规时都采取了谨慎的态度,避免过度限制人工智能的发展,以免阻碍创新和进步,这彰显了国际社会对数据安全治理的重视。”香港科技大学首席副校长、英国皇家工程院院士郭毅可在日前举行的2024中关村论坛数据安全治理与发展论坛上表示。
随着AI技术,尤其是生成式人工智能(AIGC)的快速发展,其在性能优化的同时也放大了数据安全风险,可能引发的价值偏见、隐私泄露、虚假信息等问题引起了大众的担忧。“比如你要将GPT用于诊断疾病,我们很多时候是不放心的。”硅谷人工智能研究院院长皮埃罗·斯加鲁菲说。
在清华大学计算机科学与技术系教授、人工智能研究院基础模型研究中心副主任黄民烈看来,AIGC的出现,使得现在的数据安全治理与过去相比有很大的不同。他表示,AIGC能通过训练去组合、生成一些在过去的语料库中根本没有出现过的新内容,这些内容可能是有害的。
“在AIGC时代,我们在数据安全层面,面临的是不断组合和创造新的数据安全风险的问题。彻底解决这种风险,需要算法和工具的支撑,而不是靠人,或者靠一些静态的方法去做相对固定的检测。”黄民烈说,可以去研究一些有针对性的对抗和攻击方法,比如事先让算法发现模型的漏洞和风险;也可以利用算法追踪模型存在的风险,再有针对性地解决。
如今,除了类似ChatGPT的通用大模型,专注某一垂直领域的行业大模型也层出不穷。奇安信集团副总裁刘前伟长期关注行业大模型的数据安全治理问题,他观察到,很多行业大模型厂商都有一个普遍的担心:模型预训练的语料会不会被其他人窃取?
刘前伟说,行业大模型在做预训练时,被“喂”的数据大多是行业知识,“这些语料可能是不同企业最有竞争力的一些数据。”如果存在漏洞,可能导致这些核心的数据资产被泄露出去,这是我们过去没有特别关注的一点。”他表示。
同时,作为通用大模型的使用者,很多人都会问一个问题:当我去问大模型问题时,会不会造成商业机密、个人信息的泄露。刘前伟在论坛上也提出了上述疑问。
对于如何解决上述问题,刘前伟也同意黄民烈的观点。“如果靠过去的技术去解决现在的问题是很难的,今天只能通过‘用AI对抗AI’的方式,才能解决内容安全的问题。”他说。
论坛期间,不少专家在讨论中提到了一个词——可信AI,该词的核心就是AI大模型的安全问题。“我们必须认识到数据安全是永远的命题,一定要‘安全可信’。”中国工程院院士沈昌祥在论坛上表示,要用主动免疫可信计算筑牢人工智能安全防线。
在沈昌祥看来,数据安全治理需要做到全程管控,实现六个“不”:首先让进攻者“进不去”,进去后“拿不到”数据,即使进攻者拿到数据也白拿,因为数据被加密“看不懂”,并且系统带有自动免疫功能,让进攻者“改不了”数据。同时,需要保证设备“瘫不了”,能在发现故障后及时采取措施确保稳定运行,最后是确保攻击行为可追溯“赖不掉”。
“达到这六个‘不’的效果,才能使得数据安全治理达到有效的目标。”沈昌祥介绍,经过30多年的发展,我国已经构建了比较完整的新型产业空间。他表示,目前,中国已经具备可信计算功能的国产CPU,嵌入式可信芯片及可信根,具备可信计算3.0技术的设备。
“数据安全治理是人工智能和数字转型时代一个至关重要且不断演进的议题。”郭毅可表示,人工智能时代,需要在保护数据隐私和敏感信息的同时,建立国际机构框架和法规来规范数据安全。
近年来,包括英国的《支持创新的人工智能监管规则》、欧盟的《人工智能法案》在内,多个国家和地区陆续出台了相关的政策和法律,规范人工智能的发展,其中有不少内容与数据安全治理有关。
2023年8月15日,全球第一部关于生成式人工智能治理的专门法律规范《生成式人工智能服务管理暂行办法》在我国正式施行。中国互联网协会研究中心副主任吴沈括认为,这一规范着眼生成式人工智能服务语境下的数据治理,引入了多项专门规范,对于构建面向AI时代的数据治理新生态具有重要的制度指引意义。(朱彩云)