【原】杜帥 | 生成式人工智能數(shù)據(jù)風(fēng)險(xiǎn)關(guān)注清單

新用戶(hù)82908zIt 2023-09-01 發(fā)布于上海

展開(kāi)全文

一,、引言

二、數(shù)據(jù)合規(guī)要點(diǎn)

（一）基本合規(guī)要點(diǎn)

（二）數(shù)據(jù)來(lái)源合規(guī)

（三）數(shù)據(jù)處理合規(guī)

（四）數(shù)據(jù)傳輸合規(guī)

（五）數(shù)據(jù)生成合規(guī)

三,、結(jié)語(yǔ)

四,、啟示

摘要

文本旨在結(jié)合《辦法》以及對(duì)本領(lǐng)域已有法律法規(guī)、司法實(shí)踐的解讀協(xié)助涉足AIGC領(lǐng)域及其應(yīng)用研究的企業(yè)厘清生成式人工智能可能涉足的數(shù)據(jù)風(fēng)險(xiǎn)要點(diǎn),，并給出合規(guī)方向的建議,。

一、

引言

自生成式人工智能的代表作ChatGPT問(wèn)世以來(lái),，各國(guó)都對(duì)生成式人工智能的合規(guī)問(wèn)題尤其是數(shù)據(jù)合規(guī)問(wèn)題高度關(guān)注,。意大利^[1]、德國(guó)^[2]、西班牙,、法國(guó),、加拿大等數(shù)據(jù)保護(hù)機(jī)構(gòu)紛紛對(duì)ChatGPT涉及數(shù)據(jù)泄露、用戶(hù)隱私,、數(shù)據(jù)安全等問(wèn)題進(jìn)行調(diào)查,。我國(guó)網(wǎng)信辦等機(jī)關(guān)反應(yīng)迅速發(fā)布了關(guān)于生成式人工智能服務(wù)的管理辦法的征求意見(jiàn)稿^[3]，并于2023年7月發(fā)布了《生成式人工智能服務(wù)管理暫行辦法》^[4]（以下簡(jiǎn)稱(chēng)為“辦法”）,。

本所律師在《辦法》公布之際接受了諸多企業(yè)界朋友的咨詢(xún),，涉及到的問(wèn)題不僅僅局限于《辦法》規(guī)制的范疇。因此,，文本旨在結(jié)合《辦法》以及對(duì)本領(lǐng)域已有法律法規(guī),、司法實(shí)踐的解讀協(xié)助涉足AIGC領(lǐng)域及其應(yīng)用研究的企業(yè)厘清生成式人工智能可能涉足的數(shù)據(jù)風(fēng)險(xiǎn)要點(diǎn)，并給出合規(guī)方向的建議,。

二,、

數(shù)據(jù)合規(guī)要點(diǎn)

（一）基本合規(guī)要點(diǎn)

以ChatGPT為例，其對(duì)涉及數(shù)據(jù)問(wèn)題進(jìn)行了整改^[5],，整改方向涉及：

（1）能否建立公平無(wú)歧視的規(guī)則,，即收集了哪些數(shù)據(jù)以及處理數(shù)據(jù)方法是否公開(kāi)透明；

（2）數(shù)據(jù)準(zhǔn)確性,；

（3）數(shù)據(jù)處理的合法性，即是獲得用戶(hù)同意,、合法,、在必要限度；

（4）兒童數(shù)據(jù)保護(hù)和未成年人保護(hù),；

（5）知情要求,，類(lèi)似于國(guó)內(nèi)個(gè)保法的要求，給予用戶(hù)對(duì)某些數(shù)據(jù)搜集或處理行為的明確拒絕權(quán),。

我們注意到這些方向也是我國(guó)數(shù)據(jù)合規(guī)的三駕馬車(chē)尤其是《個(gè)人信息保護(hù)法》重點(diǎn)關(guān)注的,。AIGC領(lǐng)域企業(yè)可以在應(yīng)用產(chǎn)品的用戶(hù)協(xié)議/服務(wù)條款、隱私政策條款,、彈窗提示,、未成年人信息的驗(yàn)證和雙重授權(quán)方面體現(xiàn)上述要點(diǎn)，這些數(shù)據(jù)合規(guī)的基本要點(diǎn)本文不再贅述,，而是基于AIGC自身的特點(diǎn),，從數(shù)據(jù)全流程角度梳理其他需要關(guān)注的風(fēng)險(xiǎn)點(diǎn)如下。

（二）數(shù)據(jù)來(lái)源合規(guī)

1. 數(shù)據(jù)爬取

AIGC的訓(xùn)練數(shù)據(jù)來(lái)源中涉及合規(guī)風(fēng)險(xiǎn)的主要是爬取數(shù)據(jù),。今年4月筆神作文就發(fā)布聲明稱(chēng),，學(xué)而思通過(guò)“爬蟲(chóng)”技術(shù)非法訪問(wèn)、緩存其APP服務(wù)器數(shù)據(jù)多達(dá)258萬(wàn)次^[6],。爬取行為是否合規(guī)往往需基于具體的場(chǎng)景或用途判斷,，本所律師基于司法實(shí)踐梳理了如下幾個(gè)原則供參考：

第一,，爬蟲(chóng)不應(yīng)突破網(wǎng)站經(jīng)營(yíng)者技術(shù)手段，突破技術(shù)手段爬取有非常高的可能性被認(rèn)定為侵害了經(jīng)營(yíng)者的數(shù)據(jù)財(cái)產(chǎn)權(quán)益,；

第二,，盡量不違反robots協(xié)議聲明，包括自然語(yǔ)義的聲明以及明確被列入黑名單的爬蟲(chóng),；

第三,，避免大量、高頻或在網(wǎng)站高峰運(yùn)營(yíng)時(shí)段的爬取,，防止爬取破壞網(wǎng)站正常運(yùn)營(yíng),；

第四，使用數(shù)據(jù)的方式不應(yīng)替代經(jīng)營(yíng)者自有的運(yùn)營(yíng)方向,，避免被認(rèn)定為不正當(dāng)競(jìng)爭(zhēng),；

第五，避免爬取個(gè)人信息,，如果爬取數(shù)據(jù)涉及個(gè)人信息會(huì)觸發(fā)嚴(yán)格的個(gè)人信息保護(hù)條款,。

2. 數(shù)據(jù)清洗

AIGC的訓(xùn)練數(shù)據(jù)或者微調(diào)數(shù)據(jù)都可能會(huì)面臨存在，違法,、違規(guī)或者個(gè)人信息的內(nèi)容,，對(duì)這些信息的剔除和個(gè)人信息的去識(shí)別化是必要環(huán)節(jié)，防止后續(xù)生成數(shù)據(jù)環(huán)節(jié)出現(xiàn)更嚴(yán)重的問(wèn)題,，原則可以見(jiàn)《辦法》第四條^[7]（一）-（四）項(xiàng)的規(guī)定,，這與互聯(lián)網(wǎng)出版方面的保護(hù)原則是一致的。

3. 垂直領(lǐng)域侵犯商業(yè)秘密問(wèn)題

在涉及到垂直領(lǐng)域的AIGC應(yīng)用層面,，往往需要采用企業(yè)已有的工作成果,，例如會(huì)議紀(jì)要、項(xiàng)目報(bào)告,、文件,、規(guī)范等作為訓(xùn)練數(shù)據(jù)。垂直領(lǐng)域一家公司的訓(xùn)練數(shù)據(jù)和模型往往可以用于其他公司,，這種行為極有可能造成競(jìng)爭(zhēng)公司之間的商業(yè)秘密披露行為,，甚至導(dǎo)致刑事風(fēng)險(xiǎn)。在這種情形下,，深耕AIGC應(yīng)用服務(wù)的公司應(yīng)與服務(wù)企業(yè)進(jìn)行清晰的風(fēng)險(xiǎn)提示,，對(duì)此類(lèi)數(shù)據(jù)的獲取、存儲(chǔ),、使用界定清晰的條款,。

4. 開(kāi)源數(shù)據(jù)集的使用

如果采用開(kāi)源數(shù)據(jù)集訓(xùn)練大模型，需要對(duì)開(kāi)源許可證的要求進(jìn)行審查，例如BSD 3-Clause License,，apache-2.0,，CC By NC 4.0，審慎關(guān)注對(duì)未來(lái)產(chǎn)品的應(yīng)用價(jià)值產(chǎn)生影響,。

（三）數(shù)據(jù)處理合規(guī)

1. 數(shù)據(jù)標(biāo)注

數(shù)據(jù)標(biāo)注的原則見(jiàn)《辦法》第八條^[8],，可以總結(jié)為四個(gè)層面：

第一，標(biāo)注的規(guī)范性,，即應(yīng)識(shí)別不良信息,，調(diào)整不良信息的權(quán)重；

第二,，標(biāo)注規(guī)則應(yīng)當(dāng)明確,，并且是具有可操作性，未了避免未來(lái)監(jiān)管,，該規(guī)則應(yīng)當(dāng)可以經(jīng)受算法合規(guī)的考察,；

第三，應(yīng)對(duì)標(biāo)注情況進(jìn)行質(zhì)量評(píng)估和抽樣驗(yàn)證,；

第四,，對(duì)標(biāo)注人員的要求，應(yīng)當(dāng)備存名單并進(jìn)行培訓(xùn),。

2. 訓(xùn)練模型中的復(fù)制行為是否構(gòu)成著作權(quán)法上的合理使用

這個(gè)問(wèn)題在著作權(quán)實(shí)踐中仍有爭(zhēng)議,。為了推進(jìn)AIGC的發(fā)展，歐盟,、英國(guó),、美國(guó)、日本等國(guó)家傾向于將人工智能進(jìn)行的文本與數(shù)據(jù)挖掘在一定條件下認(rèn)定為有合理使用,。

結(jié)合我國(guó)關(guān)于合理使用的司法實(shí)踐，使得訓(xùn)練模型中的復(fù)制行為符合合理使用的規(guī)定,，可以采用的思路有：

第一,，數(shù)據(jù)集非全部地、完整地使用第三方作品,；

第二,，考慮轉(zhuǎn)換性使用，大模型訓(xùn)練中對(duì)這些作品的使用是為了明確其元素之間的關(guān)系,，而非直接發(fā)布作品,；

第三，生成內(nèi)容不應(yīng)實(shí)質(zhì)性替代該訓(xùn)練數(shù)據(jù)原本的市場(chǎng),；

第四,，用于訓(xùn)練的作品沒(méi)有明確地禁止此類(lèi)使用的版權(quán)聲明。

（四）數(shù)據(jù)傳輸合規(guī)

1. 數(shù)據(jù)共享

AIGC開(kāi)發(fā)和應(yīng)用過(guò)程中不可避免會(huì)遇到數(shù)據(jù)共享的問(wèn)題，包括（1）第三方服務(wù)商的共享,，例如數(shù)據(jù)標(biāo)注公司,；（2）數(shù)據(jù)交易共享，通過(guò)API獲取訓(xùn)練數(shù)據(jù),；（3）最為常見(jiàn)的是與關(guān)聯(lián)方共享數(shù)據(jù),，公司布局不同的實(shí)體進(jìn)行客戶(hù)端APP的運(yùn)營(yíng)、應(yīng)用的開(kāi)發(fā),、數(shù)據(jù)庫(kù)構(gòu)建等,。

無(wú)論是何種共享，都應(yīng)當(dāng)對(duì)傳輸目的,、接收數(shù)據(jù)的范圍,、在數(shù)據(jù)共享中各方的角色和權(quán)責(zé)做出明確的協(xié)議約定，同時(shí)使得數(shù)據(jù)主體充分知情并獲得明確的授權(quán),。

2. 數(shù)據(jù)出境

從事AIGC應(yīng)用服務(wù)的公司常因?yàn)楸阌谡{(diào)用國(guó)外大模型或者便于服務(wù)國(guó)外客戶(hù)將運(yùn)營(yíng)主體和云服務(wù)商設(shè)置在境外,。在提供國(guó)內(nèi)用戶(hù)服務(wù)時(shí)，很可能遇到數(shù)據(jù)出境問(wèn)題,。這就要求此類(lèi)公司重點(diǎn)關(guān)注其服務(wù)的垂直企業(yè)的領(lǐng)域和功能,，判斷是否涉及重要數(shù)據(jù)，以及處理個(gè)人信息數(shù)據(jù)數(shù)量,，落入數(shù)據(jù)出境監(jiān)管的規(guī)定的,，及時(shí)申報(bào)、備案,。確有必要的,，可以考慮重新規(guī)劃運(yùn)營(yíng)實(shí)體和數(shù)據(jù)處理實(shí)體的境內(nèi)布局，開(kāi)展與國(guó)內(nèi)大模型的合作,，控制數(shù)據(jù)出境的合規(guī)成本,。

值得注意的是，在存在國(guó)內(nèi)外關(guān)聯(lián)實(shí)體的情況下,，因人工智能相關(guān)技術(shù)屬于限制出口的類(lèi)目,，還需要注意技術(shù)出口管制的問(wèn)題。

（五）數(shù)據(jù)生成合規(guī)

1. 生成內(nèi)容的審核

《互聯(lián)網(wǎng)信息服務(wù)深度合成管理規(guī)定》（以下簡(jiǎn)稱(chēng)“深度合成規(guī)定”）第10條要求“采取技術(shù)或者人工方式對(duì)深度合成服務(wù)使用者的輸入數(shù)據(jù)和合成結(jié)果進(jìn)行審核”給生成內(nèi)容的審核提供了思路即自動(dòng)審核+人工審核+第三方審核的方式,。審核中應(yīng)當(dāng)“建立識(shí)別違法和不良信息的特征庫(kù),，完善入庫(kù)標(biāo)準(zhǔn)、規(guī)則和程序,，記錄并留存相關(guān)網(wǎng)絡(luò)日志”,，即審核的規(guī)則和結(jié)果是可回溯的。

2. 著作權(quán)侵權(quán)

生成內(nèi)容侵犯第三方著作權(quán)問(wèn)題為AIGC的推廣帶來(lái)巨大的挑戰(zhàn),。Open AI在美國(guó)已經(jīng)面臨程序提起的關(guān)于侵犯其代碼版權(quán)的指控^[9],?？紤]到海量的訓(xùn)練數(shù)據(jù)以及大模型本身的特性，AIGC領(lǐng)域從業(yè)者很那從整體上進(jìn)行此類(lèi)問(wèn)題的風(fēng)控,，只能在盡量爭(zhēng)取數(shù)據(jù)來(lái)源被認(rèn)定為合理使用的基礎(chǔ)上,，發(fā)布明確的侵權(quán)投訴渠道，建立快捷,、有效的停止侵權(quán)機(jī)制,，控制個(gè)案風(fēng)險(xiǎn)。

3. AI生成個(gè)人聲音,、面部構(gòu)成的人格權(quán)侵權(quán)

根據(jù)《民法典》肖像,、聲音權(quán)益的規(guī)定，大火的AI孫燕姿,、AI明星換臉等應(yīng)用的大部分商業(yè)模式是極有可能構(gòu)成對(duì)人格權(quán)侵犯的,。權(quán)利人出于市場(chǎng)拓展的目的未進(jìn)行維權(quán)處理，但本領(lǐng)域企業(yè)若以此作為經(jīng)營(yíng)方向還是應(yīng)該獲得明確的授權(quán),。

三,、

結(jié)語(yǔ)

本文從風(fēng)險(xiǎn)清單的方式梳理了AIGC領(lǐng)域企業(yè)在數(shù)據(jù)方面的主要風(fēng)險(xiǎn)點(diǎn)并提出合規(guī)思路，具體的合規(guī)建議還應(yīng)基于服務(wù)場(chǎng)景進(jìn)一步判斷,。由于篇幅所限,，本文對(duì)于AIGC算法備案、安全評(píng)估以及提到的技術(shù)出口管制,、模型參數(shù)開(kāi)源等與數(shù)據(jù)有緊密聯(lián)系的問(wèn)題未做論述,。事實(shí)上這些問(wèn)題也應(yīng)列入本領(lǐng)域企業(yè)的風(fēng)險(xiǎn)關(guān)注清單，審慎處理,。

注釋?zhuān)ㄉ舷禄瑒?dòng)閱覽）

【1】https://www./news/technology-65139406

【2】https://www./tech/chatgpt-ban-germany-ai-privacy-b2314487.html

【3】2023年4月11日,，國(guó)家互聯(lián)網(wǎng)信息辦公室關(guān)于《生成式人工智能服務(wù)管理辦法（征求意見(jiàn)稿）》公開(kāi)征求意見(jiàn)的通知，原文見(jiàn)http://www./2023-04/11/c_1682854275475410.htm

【4】https://www.gov.cn/zhengce/zhengceku/202307/content_6891752.htm

【5】AIGC研發(fā)及應(yīng)用數(shù)據(jù)隱私合規(guī)義務(wù)識(shí)別——以意大利監(jiān)管ChatGPT為切入點(diǎn)

【6】http://news.sohu.com/a/685613982_362225

【7】第四條提供和使用生成式人工智能服務(wù),，應(yīng)當(dāng)遵守法律,、行政法規(guī)，尊重社會(huì)公德和倫理道德,，遵守以下規(guī)定：

（一）堅(jiān)持社會(huì)主義核心價(jià)值觀,，不得生成煽動(dòng)顛覆國(guó)家政權(quán)、推翻社會(huì)主義制度,，危害國(guó)家安全和利益、損害國(guó)家形象,，煽動(dòng)分裂國(guó)家,、破壞國(guó)家統(tǒng)一和社會(huì)穩(wěn)定，宣揚(yáng)恐怖主義,、極端主義,，宣揚(yáng)民族仇恨,、民族歧視，暴力,、淫穢色情,，以及虛假有害信息等法律、行政法規(guī)禁止的內(nèi)容,；

（二）在算法設(shè)計(jì),、訓(xùn)練數(shù)據(jù)選擇、模型生成和優(yōu)化,、提供服務(wù)等過(guò)程中,，采取有效措施防止產(chǎn)生民族、信仰,、國(guó)別,、地域、性別,、年齡,、職業(yè)、健康等歧視,；

（三）尊重知識(shí)產(chǎn)權(quán),、商業(yè)道德，保守商業(yè)秘密,，不得利用算法,、數(shù)據(jù)、平臺(tái)等優(yōu)勢(shì),，實(shí)施壟斷和不正當(dāng)競(jìng)爭(zhēng)行為,；

（四）尊重他人合法權(quán)益，不得危害他人身心健康,，不得侵害他人肖像權(quán),、名譽(yù)權(quán)、榮譽(yù)權(quán),、隱私權(quán)和個(gè)人信息權(quán)益,；

（五）基于服務(wù)類(lèi)型特點(diǎn)，采取有效措施,，提升生成式人工智能服務(wù)的透明度,，提高生成內(nèi)容的準(zhǔn)確性和可靠性。

【8】第八條在生成式人工智能技術(shù)研發(fā)過(guò)程中進(jìn)行數(shù)據(jù)標(biāo)注的,，提供者應(yīng)當(dāng)制定符合本辦法要求的清晰,、具體、可操作的標(biāo)注規(guī)則,；開(kāi)展數(shù)據(jù)標(biāo)注質(zhì)量評(píng)估,，抽樣核驗(yàn)標(biāo)注內(nèi)容的準(zhǔn)確性,；對(duì)標(biāo)注人員進(jìn)行必要培訓(xùn)，提升尊法守法意識(shí),，監(jiān)督指導(dǎo)標(biāo)注人員規(guī)范開(kāi)展標(biāo)注工作,。

【9】https://www./2022/11/8/23446821/microsoft-openai-github-copilot-class-action-lawsuit-ai-copyright-violation-training-data

作者簡(jiǎn)介

杜帥，北京金誠(chéng)同達(dá)律師事務(wù)所合伙人

專(zhuān)業(yè)領(lǐng)域：知識(shí)產(chǎn)權(quán),、技術(shù)交易,、技術(shù)秘密

杜帥律師擁有技術(shù)和法律雙重背景，多年專(zhuān)注于為高端制造,、半導(dǎo)體,、通信、人工智能,、媒體娛樂(lè)等領(lǐng)域的客戶(hù)提供法律服務(wù),。杜帥律師擅長(zhǎng)處理與互聯(lián)網(wǎng)商業(yè)模式、商業(yè)秘密,、數(shù)據(jù),、跨境技術(shù)交易等相關(guān)的法律問(wèn)題，執(zhí)業(yè)期間代理多起涉及技術(shù)秘密,、計(jì)算機(jī)軟件,、專(zhuān)利、互聯(lián)網(wǎng)領(lǐng)域不正當(dāng)競(jìng)爭(zhēng)等在行業(yè)內(nèi)有影響力的復(fù)雜糾紛,。杜帥律師還具備在企業(yè)從事法務(wù)的經(jīng)歷,，熟悉企業(yè)合規(guī)、技術(shù)布局與運(yùn)營(yíng),、供應(yīng)鏈風(fēng)險(xiǎn)管控等方面的專(zhuān)業(yè)技能,，能夠?yàn)榭蛻?hù)提供全方位的法律服務(wù)。

聯(lián)系方式：

[email protected]

作者：杜帥

編輯：Sharon