首页 实时讯息

AI大模型“爆发”须防范数据法律风险

时间: 2025-03-11 07:00:00

在科技飞速发展的当下,AI大模型无疑是最耀眼的创新成果之一。它广泛应用于智能客服、智能写作、自动驾驶、医疗影像诊断等众多领域,深度融入人们的生活与工作,为社会带来了前所未有的便利与效益。

然而,繁荣背后潜藏危机,AI大模型在训练和应用过程中,面临着一系列复杂的数据法律风险。这些风险不仅关乎个人隐私、企业核心利益,更对社会的安全稳定和长远发展构成威胁。深入剖析并妥善应对这些风险,已成为推动AI大模型技术长远发展的关键所在。

一、AI大模型训练环节的数据法律风险

AI大模型训练需要海量数据的支撑,数据来源广泛,涵盖公开数据集、网络爬取数据、用户生成内容等多个渠道。但这种多元的数据来源,也为AI大模型带来了侵权风险、数据偏差风险以及信息泄露等法律风险。

AI大模型训练所依赖的数据量极为庞大,其中包含了大量受著作权保护的作品。在获取和使用这些数据时,开发者稍有疏忽,就可能陷入著作权侵权的困境。近年来,相关法律纠纷不断涌现。《纽约时报》起诉OpenAI公司,指控其非法复制数百万篇文章用于ChatGPT大模型训练,索赔金额高达数十亿美元;三位美国作者对Anthropic PBC发起诉讼,称其未经授权使用大量书籍训练Claude大模型;2023年美国作家协会起诉Meta非法使用书籍数据。这些案例充分表明,大模型训练中的著作权侵权问题已不容忽视。

与此同时,大模型预训练数据中往往包含大量个人信息,未经用户同意收集和使用其数据,也会违反个人信息保护相关规则。但是依据《个人信息保护法》,处理个人信息有着严格规范。大模型开发者获取海量个人信息数据用于训练的成本极高,几乎不可能获得每位信息主体的同意。在当前大模型的技术环境下,对于已公开的个人信息“合理范围”的界定也极为模糊。以ChatGPT为例,其采用“机器学习即服务”(MLaaS)的运营模式,用户输入的数据信息会被开发者获取,也意味着用户的个人信息时刻处于风险之中。

训练数据质量直接决定了AI大模型的性能和输出结果,低质量的数据可能导致模型产生错误的预测和决策,甚至可能引发严重的安全事故。数据偏差风险主要体现在价值性偏差、时效性偏差和真实性偏差三个方面。若训练数据中存在歧视、暴力、情色等不良内容,大模型学习后输出的信息也可能带有价值偏差。GPT类大模型训练时常用超大规模无人工标注数据,虽然扩大了训练数据规模,但这些数据质量参差不齐,包含大量价值偏差内容。尽管开发者尝试通过微调、基于人类反馈的强化学习等技术手段来减少此类风险,但是由于大模型机器学习过程存在技术黑箱特性,这些方法难以彻底避免价值性偏差信息的输出。

同时,各类AI大模型的训练数据存在时效滞后问题,无法及时融入最新数据。这决定了大模型无法像搜索引擎那样即时获取最新的信息。比如ChatGPT刚推出时,其基于的GPT-3.5预训练数据截至2021年12月,这就造成答案可能滞后或不准确。即便部分模型提供联网检索功能,也未能从根本上解决训练数据时效性偏差的问题。

此外,AI大模型训练数据不够,会导致输出的信息与真实情况不符,也就是所谓的“幻觉”现象,例如利用一些AI大模型搜集法律案例,结果输出一些并不存在的司法案例。特别是由于存在错误数据信息注入、偏见强化、恶意内容嵌入等问题,可能导致模型生成误导性内容,也会带来难以估量的社会风险。例如,科大讯飞AI学习机就曾因内容审核不严格,导致不当内容被用于数据训练,引发舆情事件致使市值蒸发百亿元。

AI大模型训练过程涉及大量敏感数据,如个人隐私数据、商业机密数据等,一旦这些数据在训练过程中泄露,将给个人和企业带来巨大损失。数据泄露风险主要来源于数据存储和传输过程中的安全漏洞,以及数据访问和使用的权限管理不当。用户使用时输入的数据可能被用于模型升级迭代,若这些数据包含商业秘密或个人隐私,无疑增加了用户数据泄露的风险。例如,2023年韩国三星电子员工因违规使用ChatGPT,导致半导体机密资料外泄,给企业造成了严重的经济损失。此外,对GPT-2的研究发现,能够通过技术手段抽取其预训练时的训练数据,还可通过特定提示词诱导大模型输出其他用户输入的外部数据。

二、AI大模型应用场景中的数据风险类型

在AI大模型的实际应用过程中,同样存在着多种数据风险。这些风险不仅影响用户体验,还可能对社会秩序和公共利益造成损害。从知识产权角度看,AI生成的图像或文本可能未经授权使用了他人的作品或形象,就构成侵权。例如,一些AI绘画作品可能因借鉴了他人的创作元素而引发著作权纠纷。AI生成内容若涉及对他人肖像权、名誉权的侵害,同样会引发人格权法律纠纷。此外,AI生成的内容还可能包含虚假信息、误导性内容或有害内容,这些内容可能对社会秩序和公共利益造成损害,扰乱正常的社会舆论环境。

AI大模型还存在被恶意利用的风险。其中,模型越狱(Jailbreaking)是较为突出的问题。模型越狱主要是用户利用一些巧妙设计的指令,逃避AI大模型预先设置的安全防护规则,让模型生成不符合伦理道德、违法内容。一些用户可能利用模型越狱技术获取模型的敏感信息(如训练数据、模型参数等),或者是让模型生成有害内容(如恶意软件代码、煽动性言论等)。基于此,耶鲁大学计算机科学教授阿明·卡巴西指出,“大模型驱动的机器人在现实世界中的越狱威胁将达到全新的高度”。不法分子如果绕过AI大模型的安全防护,操控机器人执行破坏性的任务,比如控制自动驾驶汽车撞向行人,或是将机器狗引导到敏感地点实施爆炸任务,这将严重威胁人类社会的安全稳定。

随着AI大模型的广泛应用,大模型的网络安全日益重要。2025年1月,DeepSeek连续遭遇HailBot和RapperBot僵尸网络的TB级DDoS攻击,导致大模型服务多次中断,给用户带来极大不便。AI在数据授权方面,企业未对数据进行合法授权的二次使用,可能构成不正当竞争行为。因此,AI大模型的数据使用不合规,不仅影响AI模型的性能,还可能涉及数据提供者、模型开发者和使用者之间的复杂法律责任问题。此外,在数据跨境传输方面,AIGC服务提供者将数据传输至境外时,若不符合相关规定,会触发数据出境合规义务要求。

三、应对AI大模型数据法律风险的策略

面对AI大模型数据法律风险,必须积极采取有效策略加以应对。通过完善法律规制体系、运用技术手段以及强化保障措施等多方面努力,为AI大模型的健康发展保驾护航。

第一,需要完善AI大模型数据法律规则体系。在著作权方面,可考虑将使用作品类数据进行AI大模型预训练设定为著作权的合理使用方式之一,但要平衡好著作权人与开发者的利益。允许著作权人明确表示不同意作品用于AI大模型预训练,同时通过征收著作权补偿金成立公益性基金会,激励文化艺术创作。

在个人信息保护方面,调整《个人信息保护法》相关规定。对于普通个人信息,设定“默示同意”规则,只要信息主体未特别声明,默认同意其普通个人信息被用于大模型预训练;对于敏感个人信息,坚持“明示同意”规则。笔者建议,可将AI大模型开发者处理已公开个人信息的“合理范围”,界定在不侵害信息主体人格权的底线之上。可以通过设定具体法律责任,督促大模型开发者防范数据偏差风险。对于AI大模型输出价值偏差信息的情况,明确开发者应承担的行政法律责任,避免民事法律责任约束不足和刑事法律责任过重的问题。对于AI大模型数据泄露风险,明确开发者在数据安全保护方面的义务和责任,对违规行为进行严厉处罚。

第二,需要运用多种技术手段,构建AI大模型安全防护闭环,提升数据安全性和准确性。在AI大模型训练过程中,为了保持模型性能,有必要根据训练进度自动调整数据保护强度,既不让隐私泄露又能保持模型准确性。通过同态加密技术让AI在加密数据上进行计算,可以确保数据在计算过程中的安全性,并且在不影响数据分析准确性的前提下,可以向查询结果添加噪声,或者是采用分布式协作让万千台设备合作完成大模型训练,以全面提升AI大模型的数据保护能级。

在AI大模型应用过程中,可以通过多模态交叉验证、知识图谱、混合防御等技术,加强数据验证和污染检测,不断优化模型数据防护系统。具体技术上,多模态交叉验证系统就像给AI配备了“火眼金睛”,能同时核对文字、图片、视频之间的关联性,清除生成结果中的虚假描述。知识图谱系统则相当于内置的“核查员”,每秒能比对数百万条信息,确保AI不会生成出自相矛盾的内容。混合防御更是让AI大模型在具体应用场景中拥有“自我净化”能力,采用“基线对抗训练+实时动态防护”的混合防御模式,可延长大模型在真实复杂应用场景中的安全生命周期。

第三,应强化数据安全保障措施,建立数据监测和预警机制。为防范AI大模型可能出现的越狱风险、侵权风险,需要将AI技术与伦理和行为建模深入结合,在模型设计和开发阶段,应采用先进的安全技术和算法,提高AI大模型的安全性;在AI大模型部署和应用阶段,应进行严格的安全测试和评估,持续进化融合确保适应不同场景的需求,找到数据保护和模型性能之间最佳的平衡点。

同时,应建立健全AI大模型安全管理制度,对企业员工展开数据合规培训,提高员工的数据安全意识和合规操作技能。在AI大模型数据采集、存储、使用、共享等各个环节,通过解析模型内部推导过程,实时监控数据的使用和传输情况,及时发现和处理数据安全隐患,确保AI大模型服务的稳定运行。

总而言之,AI大模型是科技迭代更新的重要推动者,应用场景已经扩展到金融、医疗、制造等多个领域,但也伴随着诸多数据法律风险,以及还可能引发就业、人机矛盾等社会问题。为确保AI大模型的可持续发展,我们必须高度重视这些法律风险,多举措完善AI大模型的数据风险规制机制,进一步实现智能化科技创新与社会公共利益的动态平衡。

(作者孙伯龙为杭州师范大学副教授、财税法研究中心主任,译有泽维尔·奥伯森所著《对机器人征税:如何使数字经济适应AI?》)

来源:孙伯龙

猜你喜欢

网站内容来自网络,如有侵权请联系我们,立即删除!
Copyright © 屯百科 琼ICP备2023011085号-1