提升数据安全，让人工智能更可信

kavin 安全防护 2023-01-23 930浏览 0

京东探索研究院院长陶大程曾经做过一个实验：在道路交通牌上贴一个小广告，结果无人驾驶系统进行了误判，“由于缺乏可解释性，也限制了人工智能更广泛的应用和赋能”。

提升数据安全，让人工智能更可信

这是“双面”人工智能的一个切面：一方面，运用机器学习等人工智能技术，能够实现数据的识别保护、数据安全溯源等功能，提升了数据安全的防护能力;但另一方面，人工智能也会带来新的安全问题，如过度采集数据，甚至产生算法歧视、“数据投毒”等。

新技术安全问题再受热议，如何让人工智能更可信?近日在上海举行的世界人工智能大会上，众多专家学者不约而同地关注到这个问题，指出人工智能在数据和网络安全中不可忽视的一面。

新型安全问题不容忽视

尽管我国已经跻身于世界人工智能的第一方阵，但是在人工智能发展与安全方面，依然面临严峻的考验。

全国政协社会和法制委员会副主任陈智敏指出，数字信息的过度采集和非法使用，可能侵犯公民的权利和隐私;算法的偏好可能加剧社会的偏见或歧视，威胁公平正义。

信息被窃取、盗卖，则可能引发更严重的刑事犯罪。他列举了一组数据：当前我国电信诈骗案件处在高发期，在一些地方已经占了所有刑事案件的一半以上，超过传统的盗窃案件。

“机器深度学习难以理解人性的道德，比如说，无人驾驶汽车紧急避险等智能决策可能威胁特定人群的生命。”他说。

算力、算法、数据，是人工智能三要素，人工智能也引起了新型数据安全的问题。国家工业信息安全发展研究中心副主任何小龙指出，人工智能的算法对数据具有较强的依赖性，可能会带来“数据投毒”等类似新型的数据安全挑战。

所谓数据投毒，指的是在训练数据其中加入了伪装数据或者恶意样本，破坏数据完整性，造成算法模型结果的错误。“比如说原来微软的聊天机器人Tay就发布过歧视性和攻击性言论而被关闭，主要原因就是在对话数据集里面被恶意增加了不当的数据。”何小龙说。

其次是样本偏差问题。基于基础数据集多样性和代表性不足，会导致人工智能的算法隐藏特定性的社会价值倾向或偏见，输出不公平结果。

越来越多的开源框架也引发了新的风险，“比如在一项目针对主流开源架构的安全测试，我们在短短时间内发现了24个安全问题，其中包括2个严重危险漏洞和8个高危漏洞。”何小龙说。

“事实上，人工智能应用当中带来了很多风险，包括自身的算力、算法带来的脆弱性，也包括人工智能在应用中的鲁棒性(异常和危险情况下系统生存的能力)、可解释性、公平性问题。这些新技术在和原有业务相结合时，可能会给原业务或者系统带来巨大的系统性风险。”上海市委网信办总工程师杨海军说。

如何为人工智能“定责”

“当人类把思考、控制甚至决策外包给了算法，人工智能首先要做的事情就是如何证明自己是值得信赖的。”中国信通院云计算与大数据研究所所长何宝宏说，值得信任的人工智能已成为全球的共识。

那么，什么样的人工智能才是可信的?不同的机构对此有不同的理解，根据IEEE(电气与电子工程师协会)提出“透明性”，以正确的方式使用技术，以人为本明确责任、造福人类;欧盟则提出鲁棒性、安全性、人类的监督和干预、明确责任等等。2017年底，何积丰院士在香山科学会议上在国内首次提出了“可信人工智能”概念。

目前，世界各国不约而同地广泛关注可信人工智能。陶大程介绍，它汇聚成了四个主要的性能，从四个方面度量这个可信，一是稳定性，即人工智能系统在抵抗恶意攻击或者是环境噪声并且做出正确决策的能力;二是可解释性，就是人工智能系统做决策的过程中，需要用人能够理解的方式解释是怎么做这些事情的;三是隐私保护，即人工智能系统不会把个人的隐私信息或者群体的隐私信息对外泄露;四是公平性，就是系统需要公平公正，正确对待所有的用户，无论是针对大众用户还是小众用户，男人还是女人。

而针对自动驾驶事故这一复杂事件，也可以按照这个逻辑不断拆解：系统出现问题，需要知道为什么，谁来承担责任，并以怎样的方式承担等等，都需要有明确的指标，度量可信人工智能。

上海交通大学约翰·霍普克罗夫特计算机科学中心副教授张拳石就介绍，如果自动驾驶汽车发生撞人事件，首先在确定责任之前，要先知道系统的真实原因，可能20%的原因为了避让另外两个人，还有10%的原因可能涉及时间检测算法模块的失误，界定清楚了内在的机理原因，再给法官判断。

蚂蚁集团副总裁、首席AI科学家漆远谈到，人工智能的公平性表现在多个地方，比如一个很重要的社会问题事关普惠性，即技术的包容性、服务平等性。他举了一个例子：验证码本来是为了提升安全，但它本身会导致视障人群不能使用，于是支付宝开发空中手势;用人工智能技术进行旧物分类回收，能够识别哪一类旧衣服哪一类回收得多，给用户更多的能量进行蚂蚁种树，蚂蚁集团也承诺将在2030年实现净零排放。