AI系统开发的数据保护指南之二

1、定义数据处理目的
原则数据处理的目的是通过使用个人数据所追求的目标。此目标必须是确定的,即在项目定义时就已建立。它还必须是明确的,即众所周知且易于理解。最后,它必须是合法的,即与组织的任务相符合。

数据不得以与此初始目的不兼容的方式进一步处理:目的原则限制了数据处理负责人将来使用或重新使用这些数据的方式。

确定确定的、明确的和合法的目标尤为重要,因为它影响GDPR其他原则的应用,特别是:

-透明度原则:数据处理的目标必须告知相关人员,以便他们能够了解收集其数据的原因,并理解将如何使用这些数据;

– 最小化原则:所选数据必须适当、相关,并限制在对处理目标所必需的范围内;

– 数据保留期限限制原则:数据只能保留有限期,根据收集数据的目的来定义。

如何在开发阶段确定数据处理目的

1. 当用途在开发阶段就已确定时:

这种情况涉及为特定用途而开发的AI系统,在部署阶段。这排除了在开发阶段未定义用途的AI系统(见下一部分)。

当AI系统为单一用途开发时,认为开发阶段的目的直接与部署阶段追求的目的相关。因此,如果部署阶段的目的本身是确定的、明确的和合法的,开发阶段的目的也将是如此。

在这种情况下,这两个阶段仍然涉及需要分别分析其是否符合GDPR义务的不同处理(特别是在确定合法性基础、通知人员、最小化收集数据、定义数据保留期限等方面)。

【示例】一个组织希望建立一个包含运行中火车车厢照片的数据库 – 即有人员在场 – 以训练一个算法,目的是测量车站站台上火车的拥挤度和频率。根据已确定的用途,可以认为开发阶段的目的已经确定、明确且合法。

在某些情况下,AI系统可能在开发阶段就为多个定义的用途而开发。在这种情况下,开发这样的AI系统可能追求与已识别的用途相对应的多个目的(实际上,如果所有的目的都是确定的、明确的和合法的,数据处理可以同时追求多个目的)。

2. 如何为通用人工智能系统的发展定义处理目的

这涉及在开发阶段未明确其在部署阶段的用途的人工智能系统。这里指的是通用人工智能系统和基础模型,它们可以用于广泛的应用,而在开发阶段可能难以定义一个足够明确和具体的目的。

【示例】一个组织可能会建立一个用于训练图像分类模型的数据库,并将该数据库公开访问,而在开发模型时并未计划特定的用途。

这个模型可以根据相关许可证(可能需要通过转移学习或迁移学习技术进行调整)以及有关图像的权利和知识产权的规定,由第三方自由重用,用于开发计算机视觉系统。人工智能系统的目的可能是多样的:例如,通过增强现实系统检测人物以测量火车站台的拥挤度,或在产品质量控制中检测图像中的缺陷。

【示例】一个组织可能会建立一个用于训练语言模型的数据库,以识别文本的语言风格。该模型可用于多种任务,如撰写和校对文章、信件、演讲稿,或法语学习等。

如果在开发阶段的目的足够精确,即可认为是确定的、明确的和合法的,即当它同时满足:

– 明确开发的“系统类型”,例如,大型语言模型、计算机视觉系统或生成图像、视频或声音的AI系统。系统类型必须以足够清晰和可理解的方式呈现给相关人员,考虑到它们的技术复杂性和该领域的快速发展。

– 明确技术上可预见的功能和能力,这意味着数据控制者需要在开发阶段合理预见的能力列表。

这些标准允许考虑处理负责人在开发人工智能系统时无法定义其所有未来应用的事实,同时确保尊重目的原则。

【示例】明确、确定的目的的例子:

– 开发一个大型语言模型(LLM),能够回答问题,根据上下文生成文本(电子邮件、信件、报告,包括计算机代码)、进行翻译、摘要和文本校正、文本分类、情感分析等;

– 开发一个能够识别说话者、其语言、年龄、性别等的语音识别模型;

– 开发一个能够检测不同对象的计算机视觉模型,如车辆(汽车、卡车、摩托车等)、行人、城市家具(垃圾桶、公共长椅、自行车停车棚等)或道路交通标志(红绿灯、路标等)。

相反,仅指明想要设计的人工智能系统的类型,而不指明技术上可预见的功能和能力,就不能认为目的足够明确。

【示例】不被认为是明确和确定的目的的例子:

– 开发一个生成性人工智能模型(未定义可预见的能力);

– 开发和改进一个人工智能系统(未定义模型类型和可预见的能力);

– 开发一个能够识别一个人年龄的模型(未定义“类型”)。

注意事项:通用人工智能系统开发负责人应提醒系统用户,他们有义务尽可能明确地定义部署的目的,并确保其合规性。这种合规性将特别取决于考虑与此目的相关的特定风险。某些风险应在开发阶段就预见到:CNIL建议在开发阶段考虑已知或合理可预见的部署案例的风险,即使系统用户是另一个数据控制者。如果适用,给第三方用户的许可证应允许相关人员了解这些风险的范围。

良好实践:对于通用人工智能系统,处理的透明度尤为重要。因此,除了遵守上述义务外,CNIL建议作为良好实践:

– 目的中说明最可预见的风险能力:数据控制者应提前识别人工智能系统在运营阶段最可预见的风险能力。这可能是被根据目前正在采纳的人工智能法规提案,被确定为“高风险”的人工智能系统的情况。

– 目的中说明按设计排除的功能:系统能力描述可以包括系统设计选择,导致限制其功能,如一个LLM仅处理短文本。

– 目的中尽可能指定人工智能系统的使用条件:数据控制者可以指定人工智能系统的使用条件,包括解决方案的已知用例或使用方式(开源模型的传播、商业化、作为SaaS提供等)。数据控制者还可以提供人工智能系统的运营用例或目的的示例(例如,对于能够检测和量化车辆流量的计算机视觉系统进行交通管制)。

Role
 确定参与者的法律地位
确定包含个人数据的训练数据集中组织的法律地位根据GDPR,它们可能是数据控制者、共同控制者或数据处理者。

在人工智能系统的开发中,可能有多个参与者以不同程度参与个人数据处理。主要包括:

-人工智能系统提供商,他们开发或委托开发一个系统,并以自己的名义或品牌将其投放市场或投入使用,无论是有偿还是免费。

-这些系统的进口商、分销商和用户(被视为部署人工智能系统的主体)。

根据GDPR,每个处理活动涉及的参与者的法律地位应当个案分析。

数据控制者

原则

数据控制者是确定处理目的和方式的个人或法人,即决定“为什么”和“如何”使用个人数据。

处理的基本方式与处理的目的和范围密切相关,如收集和使用哪些个人数据、用于处理的硬件和软件工具及其安全性、处理期限、收件人类别和相关人员类别。

实践

某些指标可以帮助个案分析以确定谁是数据控制者。

如果一个提供商主动开发一个人工智能系统,并根据自己的选择为其建立训练数据集,则他可能被视为数据控制者。

同样,如果一个提供商通过足够明确的书面指示委托建立这样一个数据集(见下文数据处理者的角色),也是如此。

请注意,在某些情况下,一个提供商可能会委托一个已经作为数据控制者(根据自己的目的)建立了数据集的服务提供商。然后,需要确定提供商负责的处理活动,例如为了自己的账户重新使用已经建立的数据集。

【示例】

– 一个视频平台希望开发一个人工智能推荐系统。为此,它重新利用了一个最初为提供服务而收集的关于其用户的数据集。

该视频平台构成其训练数据集以训练其人工智能推荐系统的控制者,因为它决定了目的(训练人工智能推荐系统)和处理的方式(即为了另一个目的而收集的数据集)。

– 提供一个会话代理的提供商,该代理根据公开可访问的互联网数据训练其语言模型(“大型语言模型”或LLM)。

由于它决定了目的(提供会话代理)和处理的方式(选择公开可访问的个人数据),因此该提供商是该处理活动的数据控制者。

– 一个提供商基于预训练模型和个人数据开发了一个人工智能系统。他打算用自己的数据重新训练或调整(微调或转移学习)这个模型。在这种情况下,只要他追求自己的目的,并且自己决定基处理方式,该提供商就将被视为处理活动的数据控制者。

重新使用由另一个组织收集的数据

当提供商用另一个组织收集的数据训练其人工智能系统时,需要区分:

-数据发布者:将个人数据或个人数据集提供给第三方用于重新使用的个人或法人,无论是公共还是私人。

-数据的重新使用者:为第三方处理这些数据或数据集以供自己使用的个人或法人,无论是公共还是私人。

原则上,数据发布者和数据的重新使用者负责不同的处理,因为每个人都确定自己处理的目的和方式。

数据发布者原则上负责分发的处理活动,而重新使用数据的人工智能系统提供商则负责重新使用的处理活动。数据发布者原则上不负责其数据的重新使用处理。然而,他可以为分发的数据设定使用条件,以限制重新使用或设定某些条款。

【示例】

一个行政机构公开并免费重新使用房地产数据。一家公司希望重新使用这些数据来建立一个训练数据库,以开发一个人工智能系统,该系统旨在预测特定区域内某些房地产的发展。只要这两种处理是独立的,发布者和重新使用者就分别负责各自的处理活动。

共同控制者

原则

当两个或多个数据控制者共同确定处理的目的和方式时,他们是共同控制者。

当多个参与者影响处理目的和方式的确定时,这种地位可能更加微妙。参与者需要确定他们是否为了自己的不同目的处理数据,还是为了一个共同的目标。

实践

当一个人工智能系统的训练数据集由多个数据控制者共同提供,以共同定义的目标时,这些人可以被视为共同控制者。

【示例】

– 一些大学医疗中心正在开发一个用于医学图像分析的人工智能系统,并选择使用相同的联合学习协议。该协议允许他们利用他们最初作为不同控制者的数据来源,但不相互成为数据的接收者。

– 由一个市镇机构、一个提供自动图像处理软件的公司和一个提供视频设备公司组成的财团正在实施一项试验,旨在安装增强型摄像头以记录和分析在市镇内行驶的车辆的流量和行为。

数据处理者

原则

数据处理者是代表数据控制者处理数据的个人或法人,在提供服务或履行合同的框架内。

实践

人工智能系统提供商的地位需要个案评估。

当人工智能系统提供商为其客户开发人工智能系统作为服务的一部分时,他可能是数据处理者。另一方面,客户确定处理的目的和方式,因此他是数据控制者。

在其他配置中,人工智能系统提供商可能是他设计用于销售的系统的数据控制者。

人工智能系统提供商可能会要求服务提供商根据他的指示收集和处理数据(例如,收集公开可访问的互联网数据,重新使用在线提供的特定数据库等)。在这种情况下,后者被视为数据处理者。对于作为数据控制者的人工智能系统提供商来说,确保其数据处理者遵守GDPR并限制数据处理在其指示范围内至关重要,特别是通过签订数据处理协议。

legal basis
确定合法性基础
原则任何组织希望建立一个包含个人数据的训练数据集,并使用它来训练模型,都必须确保数据处理是有合法性基础的。

确定合法基础

数据控制者应当确定合法基础,并根据数据收集或再利用的方式进行一些额外的检查。

有几种方法可以建立一个用于训练目的的数据库:

-数据直接从个人收集;

-数据从互联网上的开放来源收集,用于此目的;

-数据最初是由数据处理控制者自己(例如,在向其用户提供服务的框架内)或另一个数据处理控制者出于另一个目的收集的。这需要采取额外的预防措施。

定义合法基础

作为所有处理的一部分,数据库的建立和用于训练模型或开发AI系统包含个人数据的操作只能在符合GDPR规定的“合法基础”之一时可以实施。

具体来说,合法基础是赋予组织处理个人数据的权利基础。因此,选择这种合法基础是确保处理合规性的第一步。根据选择的合法基础,组织的责任和个人的权利可能会有所不同。

用于训练算法的最相关的合法基础在下面详细说明。

实践

合法基础的确定必须根据情况和处理类型灵活进行。为了建立用于训练AI系统的训练数据库,可以考虑以下合法基础:

1. 基于同意的合法基础

有效的同意必须同时满足四个条件:自由、具体、知情和明确。数据控制者必须能够证明此合法基础的有效性,确保GDPR明确定义的每项条件都得到满足。

【示例】一个组织希望拍摄或拍摄志愿者的照片,以建立一个图像数据库,用于训练一个检测特定手势的系统。它可以基于同意来进行处理。

当建立用于训练模型的数据集时,组织应确保已收到同意。

除了透明度义务外,同意还必须伴随着在同意之前向他们传达的一定数量的信息,以便他们能够充分了解情况并知道如何撤回同意。

同意应针对特定目的。

自由同意意味着,原则上,确保个人能够以颗粒化的方式给予同意,当追求的不同目的时。例如,人们在企业活动上使用他们的形象,用于沟通目的,并不意味着他们同意将数据重新用于建立训练数据库或改进AI系统。在这种情况下,必须收集两个单独的同意(例如,通过两个复选框)。

自由同意还必须在个人和数据处理控制者之间存在权力不平衡的情况下进行一定程度的警惕,特别是如果后者是公共当局或雇主。为了开发AI系统,一家公司希望使用其员工的数据。他们的同意只能在特殊情况下有效收集,即当他们能够拒绝同意而不必担心或遭受负面后果时。作为数据控制者,公司必须始终确保向员工介绍该机制的信息既不具有诱导性也不具有强制性。它必须通知员工可以随时选择不再参与其数据收集,而不会对他们产生后果。

在某些情况下,显然无法获得有效的同意。这通常是当数据控制者收集在线可访问的数据或重新使用开放数据库时,特别是由于缺乏与相关个人的联系和难以识别他们。在这些情况下,数据控制者必须使用更合适的其他合法基础。

如果数据处理控制者无法保证行使撤回同意的权利,例如由于识别相关个人的技术障碍,建议他依赖其他合法基础。

2. 基于合法利益的合法基础

控制者的合法利益可以在满足以下条件的情况下被考虑:

– 控制者追求的合法利益。例如,组织开发一个模型以商业化AI系统或通过发布开发的工具(代码、模型、实验协议等)和研究结果来促进科学知识的发展的利益。

– 处理数据的必要性。例如,为了建立一个包含个人图像的训练数据库,以便开发一个姿势检测系统,当匿名或合成数据不够时,可以被视为对组织的利益是必要的。

– 不侵犯相关个人的利益和权利,考虑到他们对这种处理的合理期望。权利和利益的权衡取决于所考虑处理的具体特征,特别是为确保在这些利益之间尽可能平衡并限制处理对相关个人的影响而实施的保障措施。

通常,建立一个用于训练合法使用的模型的数据库可以被视为合法。然而,需要个案分析,以确定使用个人数据是否不会对相关个人的隐私造成不成比例的损害,即使数据不是名义上的。为确保其处理是成比例的,数据处理控制者可以采取诸如数据匿名化、确保没有敏感数据、定义选择标准以限制收集仅对处理必要和相关的数据等措施。

【示例】

– 一家公司希望开发一个能够根据可能涉及他们的在线可访问数据预测一个人的心理学档案的AI系统。其开发这样一个系统的商业利益,与相关个人的利益、权利和自由相比,很可能是不够的。将需要寻找其他合法基础或放弃该项目。

– 一个组织通过收集用户在论坛、博客和网站上公开发布并自由访问的评论来建立一个训练数据库。这种处理的目的是设计一个AI系统,用于评估和预测广大公众对艺术作品的欣赏。在这种情况下,其开发和可能商业化一个AI系统的利益可以被视为合法。收集艺术作品的欣赏评论可以被视为对模型开发的必要,特别是考虑到训练所需的数据量。应注意,基于合法利益的合法基础允许相关个人反对其数据的处理(由于其特定情况)。

3. 基于公共利益的合法基础

基于“公共利益”的合法基础的可能性意味着:

– 处理所涉及的任务必须由适用于数据控制者的法律依据规定;

– 使用数据必须能够具体且适当地执行这项任务。

【示例】

法国公共语言研究实验室的研究人员希望分析在线语言使用的演变。为此,他们从不同社交媒体上公开发布的评论中建立一个训练数据库(很快匿名化),以训练一个自动检测和分析某些表达或拼写形式出现的模型。

由于数据控制者是一个公共研究实验室,研究人员可以在这种情况下基于公共利益对数据处理进行合法化。这种合法基础通常可以用于公共或私人研究实验室进行的数据处理,其数据处理对于他们的研究活动是必要的。

数字平台监管专家网络(PEReN)被授权在某些条件下重新使用某些平台公开可访问的数据,特别是为了设计旨在监管在线平台运营商的技术工具,根据2021年10月25日第2021-1382号法律第36条和2022年4月21日第2022-603号法令。

4. 基于合同的合法基础

合同的合法基础可以用于建立AI系统训练数据库,条件是:

– 控制者和相关个人之间已经签订了有效的合同;

– 处理客观上对于履行合同义务是必要的。

– 为此目的签订的合同必须遵守适用的其他规则,例如劳动法或知识产权法。

【示例】

文本处理软件的出版商提供一项自动生成和定制信件的服务,用户通过合同订阅此服务,为此,它收集了使用该服务的用户的数据。在这种情况下,个性化服务的数据处理可以被认为是执行合同的必要条件。

相反,如果在线社交网络的运营商在其一般使用条款中声明,它打算重新使用其用户的数据(由这些用户提供、观察或由运营商推断),以开发和改进对用户有用的新产品和服务功能,那么它就不能依赖合同的合法基础,因为这种处理并不是提供其在线社交网络服务所客观必要的(欧洲法院,2023年7月4日,Meta Platforms Inc.等诉Bundeskartellamt,C-252/21)。

5. 敏感数据:除非有例外,否则禁止处理

敏感数据是GDPR第9条定义的一类特殊个人数据。例如,可能揭示相关个人所谓的种族或民族起源的数据,或者用于唯一识别个人身份的生物识别数据,如面部。

GDPR禁止处理这些数据,除非在第9.2条中列举的例外情况。这些例外情况包括:

– 相关个人明确同意(积极的、明确的和最好是书面的同意,必须是自由的、具体的和知情的);

– 涉及明显由相关个人公开的个人数据的处理;

注:在确定数据是否明显公开时,EDPB在其关于社交媒体用户定位的指南中提供了要考虑的因素列表:社交媒体平台的默认设置、平台的性质、相关页面的可访问性、信息的公开可见性、个人是否自己发布了数据,或者数据是由第三方发布的或推断出来的。

重要的是要检查个人是否明确并积极希望基于知情的设置,使其个人数据对公众或更有限的选定人群可访问(欧洲法院,2023年7月4日,C-252/21)。

-为了重要的欧盟利益或一个成员国的利益而进行的处理;

– 基于欧盟法律或一个成员国法律的科学研究目的所必需的处理。

在使用涉及处理大量数据的工具时,应特别注意敏感数据的收集。数据控制者必须实施所有措施,以自动排除收集不相关的敏感数据,特别是通过应用过滤器来排除收集某些类别的数据或排除本质上包含敏感数据的网站。

如果尽管采取了措施,组织仍然偶然和残余地处理它没有寻求收集的敏感数据,这并不被视为非法。欧洲法院在回顾搜索引擎运营商的责任时指出,这种禁止适用于其责任、能力和可能性的范围内(欧洲法院,大法庭,2019年9月24日,C-136/17)。然而,如果组织意识到它正在处理敏感数据,它必须尽快并自动从数据库中删除。

注意事项:

一份关于治理偏见的文件将很快发布。它将阐明在训练数据库中处理敏感数据的可能性,以便检测和纠正偏见。

CNIL目前正在进行有关健康领域人工智能的工作,这将在随后的出版物中介绍。

数据控制者在部署阶段可能需要依赖于“履行法定义务”的合法基础,因为使用人工智能系统有时可以帮助数据控制者履行法律义务(条件是证明要求处理个人数据),但在支持其开发方面则更难使用。实际上,为了使用这种合法基础,数据处理控制者必须证明其处理对于响应其受到的特定法律义务是必要的。所依据的文本至少必须定义处理的目的,并可以更精确地界定它(特别是通过处理的数据类型、限制目的或要遵守的其他条件)。法律义务越精确,就越容易证明要求其处理个人数据。然而,法律义务通常不够精确,无法预见人工智能系统的发展,因此通常需要依赖其他合法基础来开发这类系统。

【示例】

在保险领域,精算研究依赖于数学、概率和统计建模,类似于人工智能系统,其目标是帮助识别、定性和量化与保险合同相关的风险(以及相关金额)。

然而,保险组织的一般偿付能力义务不够精确,不能认为开发这类系统是尊重它们的必然。

因此,合法利益似乎成为最相关的合法基础。

原创文章,作者:guozi,如若转载,请注明出处:https://www.sudun.com/ask/90534.html

(0)
guozi的头像guozi
上一篇 2024年6月5日 下午4:46
下一篇 2024年6月5日 下午5:44

相关推荐

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注