"数据'中毒'让AI自我堕落
在这个拥挤的数据火车站,监控摄像头全天候工作,中毒I自对站台上的堕落乘客流量、列车轨道状况以及环境卫生进行全面实时跟踪和记录,数据所有信息都会传送到中央人工智能(AI)系统进行处理分析。中毒I自这个智能系统的堕落任务就是保证安全的列车服务运行,并准确及时地发出出车指示。数据一旦有人企图干扰正常运转,中毒I自比如发射一束红色光线模仿列车尾部灯光,堕落那么摄像头可能会误以为轨道上有真正的数据车辆活动;久而久之,AI就会形成习惯性将这些假象当作真实的中毒I自预警信息,并频繁错误地标示“轨道占用”或警告调度员准备采取措施。堕落这样一来,数据不仅影响了正常的中毒I自列车运营秩序,还可能因为处理信号上的堕落差错导致事故发生,危及乘客安全。
澳大利亚《对话》杂志近日刊载文章称,这正是数据“中毒”的一个典型例证。AI在学习的过程中如果输入了错误或者误导性信息的话可能会导致认知系统逐渐形成并执行出与预期相反的行为。这种情形并不只是针对传统黑客入侵的单一情况,而是在AI在交通、医疗等众多领域被普及的当下正在引起人们越来越大的关注。
AI 的 “ 毒害 ” 布局可能带来的潜在危机
举例来说,在一个火车站的例子里,假定有一个人技术娴熟且想同时制造混乱并收集情报,他连续30天故意使用红色激光照射摄像头,以此干扰公共交通运行。如果监控没有被发现或察觉异常情况,该行为会慢慢侵蚀系统,为植入后门、数据窃取甚至间谍活动创造条件,虽在物理设施中出现较少此类现象,但在在线环境中,尤其是依赖社交媒体和网页内容训练的大语言模型这类系统中,这类技术应用已成为了严重的问题。
著名的“投毒”数据于2016年曝光,当时,作为聊天机器人的微软Tay上线不足数小时,便遭到恶意用户的攻击,后者利用该机会在X(当时的Twitter平台)上灌输了不当言论,并很快模仿发布,不到24小时内就导致Tay被迫下线并公开道歉。
根据《新科学家》杂志报道,2024年,互联网出现了一个标志性的事件,即AI爬虫首次超越人类用户访问量,并以OpenAI的人工智能助手ChatGPT-User的形式占据全球6%网页浏览总量的份额,这表明它是ChatGPT在没有人工干预下实现的一项新功能。与此同时,Anthropic公司的ClaudeBot长期持续大规模抓取网络内容,其流量占到总页面量13%,这使得它成为访问互联网内容的主要来源之一,尤其是在需要即时信息时替用户进行网页浏览。
大量互联网内容正被AI模型不断捕获和消化用于持续训练,一旦有人故意投放有害的数据比如篡改的版权材料伪造的消息报道那么这些大规模收集爬虫就可能把它们引入到系统造成知识产权侵犯虚假信息散布乃至在敏感领域引发安全风险。
版权大战中的反击方式
随着人工智能自动写作和检索系统的发展,在大范围的网络爬虫抓取中,许多原创作者开始担心其作品未经许可被使用的情况。为了解决这个问题,创作者采取了一系列法律和技术手段来保护自身著作权,如《纽约时报》就已起诉OpenAI,指责该公司通过训练模型对其报道进行重新学习和利用,侵犯了版权。
面对旷日持久的版权拉锯战,一些创作者转向技术“自卫”。美国芝加哥大学团队研发了两款工具,名为Glaze和Nightshade。前者可在艺术作品中加入微小像素级干扰让AI模型误以为一幅水彩画是油画;后者更为激进,能在看似正常的猫的图片中植入隐蔽特征使模型学会“猫=狗”这样的错误对应,从而保护原创风格不被复制。
这种抵抗策略一时之间颇为流行。Nightshade发布一年内便赢得了数百万用户的青睐,在线下载量超过了千万次。与此同时,基础设施公司Cloudflare推出了“AI迷宫”,以制造大量的无意义虚假网页的方式阻止搜索引擎抓取和解析它们,这使得人工智能爬虫被困在了假数据的无限循环中消耗算力及时间。可以说,对于某些领域而言,“数据投毒”的策略已由反击手段转变为了版权与利益争夺中的防御性武器。
去中心化是人工智能保护伞
这种形势使创作者面临风险。如果他们的数据被用于大量制造虚假信息,那么这一做法的后果可能超过版权纠纷。
面对隐蔽的威胁,研究人员正探索新的防御手段。佛罗里达国际大学Solid实验室的科研团队正在用去中心化技术来对付数据投毒攻击。其中一种方法是联邦学习。与传统集中式训练不同的是,联邦学习允许模型在分布式设备或机构本地学习,并只汇总参数而非原始数据。这种方法大大降低了单点中毒的风险,因为某个设备的“坏数据”不会立即污染整个模型。
然而,若在汇总环节遭到攻击损害依然存在。为克服此问题,区块链被引入AI防御体系。由于其具备时间戳与不可篡改特性使得模型更新过程易于追溯。一旦发现异常数据便能立即追根溯源并定位投毒源头,同时多个区块链网络亦可相互提醒识别出可疑模式时,立刻向其他系统发出警示。
任何倚靠现实世界数据所建设的AI系统都有可能会遭到操纵。科研人员与开发者已运用联邦学习与区块链等防御机制来建构更加稳固、安全的AI系统,一旦遇有欺诈事件,该系统能够发出警示,并促使管理员迅速干预,以防潜在风险发生。
在繁忙的火车站中,在各个方向的监控摄像头下,车站状况、旅客流量、轨道利用情况……这些都由中央人工智能系统(AI)实时传送到其系统的大脑里进行计算分析与决策。这个系统的任务就是对列车调度提供参考建议,让它们按照预定的时间准确安全到达车站的目的地。但一旦有不法分子故意干扰监控摄像头捕捉的信息,比如向轨道中发射一束红色光模拟火车尾灯的状态,系统会将其当作真实信号来看待,反复发出“轨道占用”的错误提示。这种干扰长期存在后,不仅可能导致列车调度的混乱和事故发生的风险加大,对安全运营构成严重威胁。
日前澳大利亚《对话》杂志称这是“数据污染”的典型例子。AI训练过程一旦输入了错误或误导性数据,就会逐渐形成偏差判断,导致偏离预期的预测。这种现象与传统黑客入侵不同,并不会直接破坏系统,而是让机器学会了不良操作方式。在交通、医疗以及媒体等各个领域AI的普及正使得这一问题日益受到关注和重视。
AI“中毒”的现实风险
假设在火车站的案例中,一个技术娴熟的黑客利用激光干扰摄像头以破坏公共运输系统的安全并搜集情报。如果这种攻击持续30天未被发现,其对系统可能的负面影响将会逐渐积累。由于物理基础设施的数据投毒非常少见,而线上系统尤其依赖社交媒体和网页内容训练的大语言模型,这些系统中存在的此类攻击风险已经相当显著。
在2016年有一个著名的数据案例,微软开发的对话AI泰,在上线仅仅数小时后就被滥用的Twitter用户灌输给错误信息,并被用来快速仿拟和转发大量内容,仅仅两个小时后就被紧急下架了。
据英国《新科学家》杂志报道,在2024年,AI爬虫首次超过了人类用户的互联网行为。OpenAI的ChatGPT-User凭借其强大的信息搜索能力在全球占据了6%的网络流量;而Anthropic的ClaudeBot长期大量抓取网站内容,占据13%的网络访问量。
互联网上大量内容正在被AI算法不断汲取,以供持续训练。若有人故意投送毒饵如篡改过的版权资料或伪造的新闻报道,这些海量爬虫有可能把这些侵入了模型中,产生版权侵权、假新闻扩散的风险,甚至在关键领域带来安全风险。
版权争议中的反侵权攻势
随着人工智能的广泛采集,许多创作者开始担心他们精心创作的内容会被未经过允许使用,对此,创作者们通过法律和技术手段来保护他们的作品不被盗用,比如《纽约时报》起诉过OpenAI,指控该公司将其报道的新闻内容用来训练模型,侵犯了版权。
面对旷日持久的版权拉锯战,在某些情况下创作者转向技术寻求防御手段。芝加哥大学团队就开发了一系列工具来防止人工智能模仿艺术作品。名为Glaze的技术能够加入微小干扰使AI认为一幅水彩画为油画。而Nightshade则更为激进,它可以将猫图像植入隐蔽特征从而教模型错误的认知让其学习“猫=狗”。艺术家们通过这种方式保护了原创作品的风格免于被复制。
这种回击方法在一众创作者群体内部很受欢迎。夜shade刚发布不到一年便以百万级别的下载量傲视群雄。与此同时,基础设施公司Cloudflare也在市场上推出了自家的“AI迷宫”项目,这个项目利用制造海量毫无意义的假网页的方法,把人工智能爬虫困在虚假数据形成的无休止循环里消耗其运算能力和时间资源。我们可以肯定的是:这种大数据投毒方式从一种反击手段已转变成为版权与利益争夺中的防御手段和利器了。
去中心化已成为保护人工智能的安全屏障
当前的形势让创作者处于不利的地位。创作者对于数据有“产权”的保护,但这可能导致情况变得十分微妙和复杂。在极端的情况下,创作者的数据也可能受到侵袭,而这可能导致无法弥补的信息滥用,给市场带来毁灭性的打击,而这种情况远超版权争端造成的损害程度。
研究人员正在探索新的防御手段以应对隐蔽的数据投毒威胁,在位于美国佛罗里达国际大学Solid实验室,他们使用了去中心化的联邦学习技术。与传统的集中式训练模式不同,该技术允许模型在分布式设备或机构内部进行自学习,只汇总参数而非原始数据。这种方法减少了单个点被污染的风险,因为某一设备的“坏数据”不会立刻影响到整个模型。
然而如果在数据汇总阶段受到攻击损害仍然可能产生。为此另一种工具——基于区块链技术的AI防护体系也被引入了其中。通过区块链的时间戳和不可篡改特性模型更新过程可以追溯。一旦发现异常数据就可追踪到源头从而定位投毒者;同时多个基于区块链技术的网络能够互相告知当一个系统检测到了可疑行为时便立即提醒另外的系统。
依赖于现实世界数据的AI系统都可能出现被操纵的可能性。为提高其防护力和抵抗性,在使用联邦学习和区块链等防御工具方面,研究人员及开发人员正共同打造具有韧性可追踪性更强的新一代AI系统。一旦发现受骗情形,系统就能向管理员报警并提供预警,以防潜在风险损害扩大。