日韩高清在线日韩大片观看网址,xxxx国产黄片,国产精品久久一区二区三区,国产精品污,一级一级女人18毛片,在线亚洲+欧美+日本专区,久久久国产亚洲精品

大模型訓(xùn)練數(shù)據(jù)合規(guī)探究
2025-07-02 16:48 來源:法人雜志 作者:馬軍 買爾旦·買買提

大模型訓(xùn)練數(shù)據(jù)合規(guī)探究

圖片

隨著《生成式人工智能服務(wù)管理暫行辦法》(以下簡稱“暫行辦法”)、《網(wǎng)絡(luò)安全技術(shù) 生成式人工智能預(yù)訓(xùn)練和優(yōu)化訓(xùn)練數(shù)據(jù)安全規(guī)范》(GB/T 45652-2025,以下簡稱“安全規(guī)范”)等監(jiān)管法規(guī)的出臺,企業(yè)在數(shù)據(jù)采集、處理和使用各環(huán)節(jié)都面臨著嚴格的合規(guī)考驗。本文將分析不同來源訓(xùn)練數(shù)據(jù)的法律風險,并提出相應(yīng)的建議。

訓(xùn)練數(shù)據(jù)的不同來源

訓(xùn)練數(shù)據(jù)的來源一般包括自采數(shù)據(jù)、自有數(shù)據(jù)、商業(yè)授權(quán)數(shù)據(jù)和開源數(shù)據(jù)集。大模型訓(xùn)練數(shù)據(jù)的獲取途徑中,部分企業(yè)通過爬蟲等技術(shù)手段從互聯(lián)網(wǎng)公開渠道獲取訓(xùn)練數(shù)據(jù),但此類方式可能面臨多重法律風險。

▲CFP

首先,技術(shù)層面上,由于眾多網(wǎng)站通過“反爬蟲安排”措施(包括robots協(xié)議、探嗅訪問者信息軟件等)限制數(shù)據(jù)訪問和采集,企業(yè)若繞過或違反前述技術(shù)限制,不僅可能構(gòu)成侵犯著作權(quán)、不正當競爭等民事侵權(quán)行為,嚴重情形還可能被追究非法侵入計算機信息系統(tǒng)罪、破壞計算機信息系統(tǒng)罪、非法獲取計算機信息系統(tǒng)數(shù)據(jù)罪等刑事責任。

其次,個人信息保護方面,未經(jīng)授權(quán)爬取或過度收集個人信息的行為可能違反《中華人民共和國網(wǎng)絡(luò)安全法》《中華人民共和國個人信息保護法》(以下簡稱“個人信息保護法”)等,導(dǎo)致企業(yè)及其負責人面臨處罰。處罰包括責令改正、警告、罰款,甚至被責令停業(yè)整頓、吊銷營業(yè)執(zhí)照,相關(guān)責任人還可能被禁止擔任企業(yè)高管及個人信息保護負責人。

再次,對于他人享有著作權(quán)的作品(如文本、圖像和網(wǎng)站布局等),若在保護期限內(nèi)(自然人作品為作者終生后50年,法人作品為首次發(fā)表后50年)未經(jīng)授權(quán)使用,則構(gòu)成侵權(quán),企業(yè)將面臨相關(guān)的知識產(chǎn)權(quán)訴訟風險。

實踐中,有些企業(yè)依賴自有數(shù)據(jù)豐富應(yīng)用場景,將企業(yè)經(jīng)營過程積累的用戶數(shù)據(jù)和業(yè)務(wù)數(shù)據(jù)用于模型訓(xùn)練,但在使用過程存在顯著的法律風險。當企業(yè)將包含技術(shù)信息、經(jīng)營信息等商業(yè)秘密的內(nèi)部數(shù)據(jù)用于模型訓(xùn)練時,存在通過模型輸出泄露商業(yè)秘密的重大風險。尤其在公開服務(wù)場景下,其他用戶通過精心設(shè)計的提示詞可能誘導(dǎo)模型泄露訓(xùn)練數(shù)據(jù)的敏感信息,導(dǎo)致企業(yè)商業(yè)秘密被非法獲取和使用。

對于員工個人信息的使用,若企業(yè)未經(jīng)員工明確同意即將內(nèi)部人事檔案、績效考核、健康檔案等員工個人信息用于模型訓(xùn)練,或超出必要范圍使用員工個人信息,不僅違反個人信息保護法的相關(guān)規(guī)定,還可能損害勞動關(guān)系穩(wěn)定,引發(fā)勞動爭議。此外,企業(yè)在日常經(jīng)營中收集的用戶數(shù)據(jù),如消費記錄、行為偏好、聯(lián)系方式等,若未在用戶協(xié)議中明確約定將相關(guān)數(shù)據(jù)用于模型訓(xùn)練,或未獲得用戶單獨授權(quán)同意便將數(shù)據(jù)用于訓(xùn)練目的,則可能因超出用戶授權(quán)范圍而承擔相應(yīng)的法律責任。嚴重時還可能面臨用戶集體訴訟,造成重大經(jīng)濟損失和聲譽損害。

向第三方數(shù)據(jù)供應(yīng)商購買商業(yè)授權(quán)訓(xùn)練數(shù)據(jù)場景中,企業(yè)常面臨因盡職調(diào)查不足而產(chǎn)生的法律風險。在供應(yīng)商主體資質(zhì)方面,若未對數(shù)據(jù)供應(yīng)商的經(jīng)營范圍、業(yè)務(wù)資質(zhì)、數(shù)據(jù)來源等進行全面審查,可能導(dǎo)致從無合法數(shù)據(jù)處理資質(zhì)的供應(yīng)商處獲取數(shù)據(jù),或獲取來源不明的數(shù)據(jù),進而承擔數(shù)據(jù)來源不合法的連帶責任。在合同權(quán)責劃分方面,若未在數(shù)據(jù)購買合同中明確約定數(shù)據(jù)的所有權(quán)、使用權(quán)范圍、數(shù)據(jù)質(zhì)量標準、安全保護措施、侵權(quán)責任承擔等核心條款,一旦發(fā)生數(shù)據(jù)泄露、質(zhì)量問題或權(quán)屬爭議,企業(yè)可能因合同約定不明而無法向供應(yīng)商追責或主張賠償。

數(shù)據(jù)流轉(zhuǎn)環(huán)節(jié)中,若未要求供應(yīng)商提供數(shù)據(jù)的完整授權(quán)鏈條證明,或者未核實供應(yīng)商是否就個人信息的收集、使用取得了數(shù)據(jù)主體的授權(quán)同意,則可能面臨侵犯個人信息權(quán)益的法律風險。

數(shù)據(jù)安全保護方面,若未在合同中明確要求供應(yīng)商對敏感數(shù)據(jù)進行脫敏處理,或者未約定數(shù)據(jù)傳輸、存儲的具體安全標準,可能因數(shù)據(jù)泄露等數(shù)據(jù)安全事故而承擔相關(guān)法律責任。

很多企業(yè)為了節(jié)約成本,會選擇使用開源數(shù)據(jù)集進行模型訓(xùn)練,但其面臨著因違反開源許可協(xié)議而產(chǎn)生的法律風險。目前,主流的開源數(shù)據(jù)集通常采用不同類型的開源許可協(xié)議。每種協(xié)議對數(shù)據(jù)的使用范圍、條件和限制都有特定要求,若違反相關(guān)規(guī)定,可能引發(fā)侵權(quán)糾紛。其中,較為常見的開源許可協(xié)議包括:CC(Creative Commons)系列協(xié)議,如CC BY要求在使用數(shù)據(jù)時必須注明原作者,CC BY-SA則額外要求使用者必須以相同方式共享,CC BY-NC禁止將數(shù)據(jù)用于商業(yè)用途;MIT許可證雖然較為寬松,允許商業(yè)使用且對再分發(fā)無限制,但仍要求在產(chǎn)品中包含版權(quán)聲明和許可證聲明;Apache許可證在允許商業(yè)使用的同時,還要求用戶在進行修改時保留原有的版權(quán)說明,并對所作修改進行聲明;GPL(GNU通用公共許可證)則更為嚴格,要求任何基于GPL協(xié)議的衍生作品必須同樣采用GPL協(xié)議,意味著使用GPL數(shù)據(jù)訓(xùn)練的模型可能需要開源。

此外,由于開源數(shù)據(jù)集大多來源于境外,其中包含大量與我國法律法規(guī)、價值觀念不相符的內(nèi)容。如果企業(yè)未經(jīng)過充分的內(nèi)容審核和安全評估,將其用于模型訓(xùn)練,可能導(dǎo)致模型輸出違法違規(guī)內(nèi)容,面臨受監(jiān)管處罰風險。

訓(xùn)練數(shù)據(jù)的合規(guī)建議

企業(yè)通過爬蟲等技術(shù)手段進行數(shù)據(jù)采集時,應(yīng)建立完善的數(shù)據(jù)來源記錄制度。根據(jù)安全規(guī)范的要求,對采集的互聯(lián)網(wǎng)網(wǎng)站數(shù)據(jù)需記錄其統(tǒng)一資源定位符,確保不同類型數(shù)據(jù)具備多個不同來源,保障數(shù)據(jù)來源的多樣性與可追溯性。筆者認為,企業(yè)應(yīng)建立嚴格的分級管控機制,對擬采集的數(shù)據(jù)來源進行事前評估,若某一來源的語料內(nèi)容含違法不良信息超過5%,則應(yīng)放棄采集該來源語料。

在數(shù)據(jù)預(yù)處理和使用環(huán)節(jié),企業(yè)應(yīng)為所采集的數(shù)據(jù)樣本添加包含數(shù)據(jù)來源網(wǎng)頁統(tǒng)一資源定位符在內(nèi)的元數(shù)據(jù)信息,通過不少于10000個關(guān)鍵詞的關(guān)鍵詞庫以及覆蓋全部29種安全風險的分類模型進行安全風險識別。對于經(jīng)識別存在安全風險的數(shù)據(jù)樣本應(yīng)予以徹底過濾,包含個人信息的數(shù)據(jù)需嚴格遵守個人信息保護法的規(guī)定,確保取得相關(guān)個人的同意,涉及敏感個人信息的數(shù)據(jù)更應(yīng)取得個人的單獨同意,存在知識產(chǎn)權(quán)侵權(quán)問題的數(shù)據(jù)不得用于模型訓(xùn)練。

企業(yè)使用自身積累的數(shù)據(jù)進行模型訓(xùn)練時,應(yīng)當格外注意商業(yè)秘密保護、個人信息保護和數(shù)據(jù)使用授權(quán)等方面的合規(guī)要求。根據(jù)安全規(guī)范的規(guī)定,企業(yè)應(yīng)對內(nèi)部業(yè)務(wù)數(shù)據(jù)進行嚴格的分類分級管理,采取身份鑒別、訪問控制、加密、備份等技術(shù)措施進行安全防護,并建立完整的數(shù)據(jù)處理活動記錄機制。企業(yè)應(yīng)建立知識產(chǎn)權(quán)負責人制度,對包含商業(yè)秘密的內(nèi)部數(shù)據(jù)進行充分的安全風險評估,確保相關(guān)商業(yè)秘密不會通過模型輸出被泄露。

個人信息保護和用戶數(shù)據(jù)使用方面,對于員工人事檔案、績效考核、健康檔案等個人信息的使用,應(yīng)嚴格遵循個人信息保護法規(guī)定,取得員工明確同意,涉及敏感信息時需獲得單獨同意。針對用戶消費記錄、行為偏好等數(shù)據(jù),應(yīng)在用戶服務(wù)協(xié)議中明確約定用于模型訓(xùn)練的目的、方式和范圍,并告知知識產(chǎn)權(quán)相關(guān)風險,同時建立數(shù)據(jù)安全事件應(yīng)急響應(yīng)機制,確保及時有效處置安全事件。

向第三方數(shù)據(jù)供應(yīng)商購買訓(xùn)練數(shù)據(jù)時,企業(yè)應(yīng)建立供應(yīng)商管理體系和數(shù)據(jù)質(zhì)量控制機制。根據(jù)安全規(guī)范的要求,交易合同應(yīng)確保具備法律效力,并對供應(yīng)商數(shù)據(jù)進行嚴格審核。企業(yè)應(yīng)重點核實供應(yīng)商的數(shù)據(jù)處理資質(zhì)和安全保護機制,要求提供數(shù)據(jù)來源的完整授權(quán)鏈條證明,無法提供語料來源、質(zhì)量、安全承諾及證明材料的供應(yīng)商不應(yīng)采用。

合同權(quán)責和數(shù)據(jù)安全管控方面,應(yīng)明確約定數(shù)據(jù)的所有權(quán)、使用權(quán)范圍、質(zhì)量標準及安全措施,明確知識產(chǎn)權(quán)風險和個人信息保護的責任劃分。供應(yīng)商應(yīng)對數(shù)據(jù)權(quán)屬作出無瑕疵保證,并對個人信息進行脫敏處理。企業(yè)應(yīng)通過關(guān)鍵詞庫、分類模型等技術(shù)識別安全風險,重點關(guān)注違法不良信息和知識產(chǎn)權(quán)侵權(quán)問題,保存完整的數(shù)據(jù)處理記錄,確??勺匪?、可審計。

使用開源數(shù)據(jù)集進行模型訓(xùn)練時,企業(yè)應(yīng)當建立完善的開源數(shù)據(jù)集合規(guī)管理制度。根據(jù)安全規(guī)范第5.1條的要求,企業(yè)在使用開源語料時,應(yīng)具備該語料來源的開源許可協(xié)議或相關(guān)授權(quán)文件,并對其中所涉及的主要知識產(chǎn)權(quán)侵權(quán)風險進行識別,特別是對于包含文學(xué)、藝術(shù)、科學(xué)作品的數(shù)據(jù),應(yīng)重點識別其中的著作權(quán)侵權(quán)問題。

開源協(xié)議管理方面,企業(yè)應(yīng)充分了解并遵守不同開源許可協(xié)議的具體要求,如CC協(xié)議族中CC BY要求注明原作者,而GPL協(xié)議則要求衍生作品必須采用相同協(xié)議,意味著企業(yè)如果使用GPL許可的代碼進行開發(fā),最終產(chǎn)品及其源代碼都必須以GPL方式開源,企業(yè)如遵循其開源要求很可能導(dǎo)致商業(yè)機密泄露或引發(fā)法律風險。因此,在選用時需要特別謹慎。

數(shù)據(jù)安全評估方面,鑒于開源數(shù)據(jù)集多來源于境外,其中可能包含與我國法律法規(guī)和價值觀念不相符的內(nèi)容,企業(yè)應(yīng)建立嚴格的數(shù)據(jù)內(nèi)容審核機制,采用關(guān)鍵詞庫、分類模型和人工抽檢等多重方式對數(shù)據(jù)進行安全風險識別。對于違反社會主義核心價值觀、包含歧視性內(nèi)容、涉及商業(yè)違法違規(guī)或侵犯他人合法權(quán)益等內(nèi)容,應(yīng)予以及時識別和過濾。

實際應(yīng)用中,企業(yè)還應(yīng)建立開源數(shù)據(jù)使用臺賬,記錄數(shù)據(jù)來源、開源協(xié)議類型、使用范圍等信息,并定期對開源數(shù)據(jù)的使用情況進行合規(guī)審計。此外,企業(yè)宜建立開源社區(qū)監(jiān)測機制,及時跟蹤和評估開源數(shù)據(jù)的更新變化情況,確保持續(xù)符合相關(guān)法律法規(guī)要求。

訓(xùn)練數(shù)據(jù)處理的合規(guī)重點

實踐中,訓(xùn)練數(shù)據(jù)處理的通用合規(guī)重點包括以下幾個方面:數(shù)據(jù)安全防護措施;應(yīng)急響應(yīng)機制建設(shè);數(shù)據(jù)處理活動的審計與追溯要求。

大模型訓(xùn)練數(shù)據(jù)的安全防護體系中,根據(jù)安全規(guī)范的要求,企業(yè)應(yīng)構(gòu)建從數(shù)據(jù)分類分級到技術(shù)防護措施的全方位防護機制。

數(shù)據(jù)分類分級管理方面,企業(yè)應(yīng)基于數(shù)據(jù)的敏感程度、重要性和潛在影響建立科學(xué)的分級標準,對預(yù)訓(xùn)練和優(yōu)化訓(xùn)練數(shù)據(jù)進行系統(tǒng)化分類,并針對不同級別的數(shù)據(jù)制定差異化的管理策略和防護要求,從而實現(xiàn)數(shù)據(jù)安全防護資源的合理配置。

技術(shù)防護措施層面,企業(yè)應(yīng)構(gòu)建多層次的安全防護體系,通過身份鑒別確保只有經(jīng)過授權(quán)的人員才能訪問訓(xùn)練數(shù)據(jù)。通過訪問控制機制對不同角色人員的數(shù)據(jù)訪問權(quán)限進行精細化管理,采用加密技術(shù)對數(shù)據(jù)的存儲和傳輸進行安全保護,并通過數(shù)據(jù)備份確保在發(fā)生安全事件時能夠及時恢復(fù)數(shù)據(jù)。同時,企業(yè)還應(yīng)建立安全監(jiān)測預(yù)警機制,采用漏洞掃描、入侵檢測等技術(shù)手段對訓(xùn)練數(shù)據(jù)的安全狀況進行持續(xù)性監(jiān)測,及時發(fā)現(xiàn)數(shù)據(jù)安全缺陷并采取相應(yīng)的防護措施。

人員管理方面,企業(yè)應(yīng)建立數(shù)據(jù)安全管理團隊,明確相關(guān)人員的職責分工,并定期開展數(shù)據(jù)安全意識教育和技能培訓(xùn)。對于直接接觸訓(xùn)練數(shù)據(jù)的人員,應(yīng)實施嚴格的準入管理和行為監(jiān)控,確保相關(guān)人員具備必要的數(shù)據(jù)安全意識和操作技能。

根據(jù)安全規(guī)范的要求,企業(yè)應(yīng)構(gòu)建針對預(yù)訓(xùn)練和優(yōu)化訓(xùn)練數(shù)據(jù)的專項應(yīng)急響應(yīng)機制。在組織架構(gòu)方面,應(yīng)設(shè)立應(yīng)急響應(yīng)小組并明確職責分工,包括應(yīng)急決策、事件處置、技術(shù)支持、信息通報等角色;在預(yù)案制定方面,應(yīng)針對數(shù)據(jù)泄露、數(shù)據(jù)竊取、數(shù)據(jù)投毒等不同類型的安全風險制定詳細的處置流程和應(yīng)對措施,確保事件發(fā)生時能夠快速響應(yīng)、有效處置;在演練評估方面,應(yīng)定期組織應(yīng)急演練并對演練效果進行評估,持續(xù)優(yōu)化應(yīng)急響應(yīng)機制,確保在發(fā)生數(shù)據(jù)安全事件時能夠及時恢復(fù)業(yè)務(wù)運營。

根據(jù)安全規(guī)范和暫行辦法以及《生成式人工智能服務(wù)安全基本要求》的規(guī)定,企業(yè)應(yīng)對訓(xùn)練數(shù)據(jù)處理活動建立完整的審計追溯體系。在數(shù)據(jù)采集環(huán)節(jié),應(yīng)記錄數(shù)據(jù)來源及其統(tǒng)一資源定位符、采集時間、采集方式等基礎(chǔ)信息;在數(shù)據(jù)預(yù)處理環(huán)節(jié),應(yīng)記錄數(shù)據(jù)清洗規(guī)則、標注人員信息、標注規(guī)則、人工標注數(shù)據(jù)的規(guī)模和類型等內(nèi)容;在數(shù)據(jù)使用環(huán)節(jié),應(yīng)記錄數(shù)據(jù)的訪問、調(diào)用和處理等操作信息。特別是對于標注活動,應(yīng)記錄標注任務(wù)規(guī)則、標注工具使用方法、標注內(nèi)容質(zhì)量核驗方法等信息,確保數(shù)據(jù)處理活動的每個關(guān)鍵節(jié)點均可追溯、可還原。【作者:馬軍,系寧人律師事務(wù)所主任;買爾旦·買買提,系寧人律師事務(wù)所律師助理


編輯:范學(xué)偉