摘要:人工智能在我國已經形成信息內容管理與科技、產業(yè)發(fā)展兩種不同立法定位。用信息內容管理定位人工智能,相當于將新質生產力納入上層建筑管理,難免產生各種錯配現象。為了體現人工智能法非對稱性特點,需要將人工智能作為前沿科技和新質生產力來定位,在明確安全與發(fā)展基本原則的基礎上,通過不同部門法的立改廢釋實現法治范式變革。既要清理、廢止不利于人工智能發(fā)展的規(guī)定與做法,又要確立有利于推動人工智能安全與發(fā)展的觀念、規(guī)范與制度。我國人工智能立法需要保持靈活性,小步快跑,避免“一刀切”立法造成難以挽回的負面影響。
關鍵詞:人工智能立法;人工智能法;范式變革;非對稱性
一、引言——互聯(lián)網治理的兩種定位
我國全功能接入國際互聯(lián)網三十年,互聯(lián)網治理在不同時期形成兩種不同的定位。
最初,互聯(lián)網以其科技特點被我國接納,實現與國際互聯(lián)網連接。同時,從863計劃開始,我國就從全球信息化發(fā)展大勢認識到信息產業(yè)的重要性,從科技、產業(yè)發(fā)展來定位互聯(lián)網,推動網絡科技與信息產業(yè)在我國的高速發(fā)展。我國接入國際互聯(lián)網以后的近二十年時間里,負責我國互聯(lián)網治理的一直是科技或者產業(yè)管理機構。
2009年,隨著智能手機開始在我國銷售,我國逐步進入以“兩微一端”為標志的移動互聯(lián)網時代,互聯(lián)網媒體化特征突顯。面對生產關系與上層建筑的深刻變革,習近平總書記指出,“網絡和信息安全牽涉到國家安全和社會穩(wěn)定,是我們面臨的新的綜合性挑戰(zhàn)”。2013年黨的十八屆三中全會以后,負責我國互聯(lián)網治理的主要是意識形態(tài)管理機構,信息內容管理成為基本定位。經過十多年努力,網絡綜合治理體系不斷建立健全,“網絡生態(tài)持續(xù)向好,意識形態(tài)領域形勢發(fā)生全局性、根本性轉變”。
我國互聯(lián)網治理所經歷的兩個歷史階段與兩種不同定位,完整地投射到我國人工智能治理與立法之上,留下鮮明的歷史印記。
二、人工智能立法的兩種不同定位
新一代人工智能的快速發(fā)展,尤其是2022年底橫空出世的ChatGPT,使如何定位人工智能及其立法成為無法回避的重大時代問題。受我國互聯(lián)網治理體制的影響,實踐中快速形成兩種不同的立法定位。
(一)科技、產業(yè)發(fā)展定位及立法部署
2017年,作為世界上最早制定人工智能發(fā)展戰(zhàn)略規(guī)劃的國家之一,我國發(fā)布《新一代人工智能發(fā)展規(guī)劃》(以下簡稱《發(fā)展規(guī)劃》),從加快建設創(chuàng)新型國家和世界科技強國的角度進行系統(tǒng)部署,明確科技引領、系統(tǒng)布局、市場主導、開源開放四項原則,要求以提升新一代人工智能科技創(chuàng)新能力為主攻方向,發(fā)展智能經濟,建設智能社會,維護國家安全。在部署推動人工智能科技與產業(yè)發(fā)展的同時,《發(fā)展規(guī)劃》對人工智能作為顛覆性技術可能帶來改變就業(yè)結構、沖擊法律與社會倫理、侵犯個人隱私、挑戰(zhàn)國際關系準則等問題有非常深刻的認識,明確人工智能法律法規(guī)、倫理規(guī)范和政策體系的“三步走”建設目標,列舉了需要具體立法的領域。
《發(fā)展規(guī)劃》發(fā)布之后,科技部、工信部、國家發(fā)改委、公安部、中科院、國家標準委等相繼制定推動人工智能發(fā)展、防范人工智能風險的各種政策與規(guī)范性文件,如《促進新一代人工智能產業(yè)發(fā)展三年行動計劃(2018—2020年)》《人形機器人創(chuàng)新發(fā)展指導意見》《國家車聯(lián)網產業(yè)標準體系建設指南(智能網聯(lián)汽車)》《科技倫理審查辦法(試行)》等。上海、深圳制定了促進人工智能產業(yè)發(fā)展的地方性法規(guī),浙江、廣東、北京、成都、杭州等多地制定了促進人工智能研究與產業(yè)發(fā)展的政策性文件。國務院2023年、2024年連續(xù)兩年將人工智能法草案列入年度立法計劃。十三屆、十四屆全國人大常委會立法規(guī)劃均將人工智能立法列入其中。
推動科技、產業(yè)發(fā)展定位的人工智能立法活動,體現出發(fā)展優(yōu)先,以改革創(chuàng)新促發(fā)展,有效防范和化解風險的立法思路,也是當前各國對人工智能立法定位的共同做法。不過,由于新一代人工智能(《發(fā)展規(guī)劃》稱之為“自主智能”)仍然屬于新生事物,沒有現成經驗可資借鑒,這類立法活動仍然處于萌芽和探索階段。黨的二十屆三中全會決定要求,“完善推動新一代信息技術、人工智能等戰(zhàn)略性產業(yè)發(fā)展政策和治理體系”,為人工智能立法和治理體系完善明確了方向。
(二)信息內容管理定位及立法
新一代人工智能尤其是ChatGPT所具備的內容生成能力,使得從互聯(lián)網信息內容管理角度來界定和規(guī)范人工智能成為另一種立法思路。在ChatGPT推出之后不到一年,我國互聯(lián)網治理主管部門迅速出臺《生成式人工智能服務管理暫行辦法》(以下簡稱為《暫行辦法》),被學者稱為世界上第一個生成式人工智能法律規(guī)范。迄今為止,尚未有任何其他主要國家從這個角度來定位和規(guī)范人工智能。通過與《中華人民共和國網絡安全法》《中華人民共和國個人信息保護法》和《生成式人工智能服務安全基本要求》(以下簡稱《安全基本要求》)等法律和規(guī)范性文件銜接,《暫行辦法》對我國人工智能的管理部門、執(zhí)法主體、法律依據、執(zhí)法程序、法律責任等予以明確,突出體現了生成內容全覆蓋、生成過程全流程管理兩大特點。
按照《暫行辦法》第2條,利用生成式人工智能技術向我國境內公眾提供生成文本、圖片、音頻、視頻等內容的服務均屬于其適用范圍。2023年4月發(fā)布的《暫行辦法(征求意見稿)》第6條規(guī)定,利用生成式人工智能產品向公眾提供服務前,應當向國家網信部門申報安全評估,并履行算法備案和變更、注銷備案手續(xù)。這一規(guī)定體現了將生成式人工智能服務提供者作為信息內容生產者管理的基本思路。這一條經修改后成為《暫行辦法》第17條,并加上一個申報安全評估和備案的前提條件——“具有輿論屬性或者社會動員能力”。但是,第17條恰恰說明不具備前提條件的人工智能服務仍然在該規(guī)章適用范圍內,只是不需要申報安全評估和備案。由于輿論屬性或者社會動員能力的標準與范圍均具有一定的模糊性,目前大模型備案實踐中,是否需要備案,需要與主管部門咨詢溝通,面向公眾的大模型均可能被認為具有輿論屬性或者社會動員能力。
我國對于互聯(lián)網信息內容有成熟的管理經驗,《暫行辦法》將預訓練、優(yōu)化訓練等訓練數據處理活動納入管理范圍,構筑事前、事中、事后全流程管理的整套制度,包括法治與其他手段并用、部門分工負責、分類分級監(jiān)管、社會共治、嚴格平臺責任、注重未成年人保護、強化安全評估與備案、違法內容處置、加強對境外服務的管理、嚴格法律責任追究等。盡管《暫行辦法》囿于立法權限只能要求大模型安全評估和算法備案,但《安全基本要求》通過嚴格的規(guī)定,實際上使安全評估成為事實上的事前審批。并且,《安全基本要求》將管理環(huán)節(jié)從應用向研發(fā)延伸,比以往的全流程管理鏈條更長。比如,面向特定語料來源進行采集之前與之后,應當對該來源語料進行安全評估或核驗,語料內容中含違法不良信息超過5%的,不應采集該來源語料或使用該語料進行訓練;如需基于第三方基礎模型提供服務,應使用已經主管部門備案的基礎模型等。
科技、產業(yè)發(fā)展定位的現行規(guī)定主要是鼓勵類、促進類柔性政策文件,高層級立法尚未啟動。相比之下,《暫行辦法》已經形成從法律、規(guī)章到技術文件一整套較為完備的規(guī)范體系,對相關主體更有現實意義和影響力。
三、信息內容管理定位的問題分析
(一)信息內容管理定位的由來
ChatGPT出現前后,國外出現的幾起深度偽造名人的網絡事件,引發(fā)各界高度關注?!稌盒修k法(征求意見稿)》發(fā)布前后,法學界較為密集地發(fā)表了一批討論信息內容與意識形態(tài)安全方面的研究論文,這些論文的關注重點與之前對人工智能生成內容的研究有明顯的差異。
有學者擔心,“由于大模型具有的重大影響及其本身難以克服的局限性,可能會給信息內容治理帶來顯著風險”。有學者憂慮,“以ChatGPT為代表的生成式人工智能基于西方價值觀和思維導向建立,其回答也通常迎合西方立場和喜好,可能導致意識形態(tài)滲透”。有學者認為,人工智能生成內容的主要風險“很大程度上來源于生成式人工智能被用于‘深度偽造’的能力”。有學者強調,“生成式人工智能可以通過其強大的算力合成假文章、生成假新聞等制造各種事實性錯誤,此外,不法人員會通過利用深度合成技術生成的虛假信息,來實施侮辱誹謗、造謠傳謠、侵犯個人隱私甚至是通過深度合成技術仿冒他人實施詐騙等行為,嚴重擾亂網絡傳播秩序和社會秩序,這些因人工智能生成內容導致的濫用風險給當前的網絡治理工作帶來了極大的困難”。有學者斷言,“ChatGPT等生成式人工智能在掌握先進技術基礎上誘發(fā)了一系列輻射廣泛、滲透全面、不易掌控的意識形態(tài)風險”。
對于類似研究結論,已經有學者指出,有關風險的研究與預測“大多還是停留于猜想和假設階段,尚未實際發(fā)生,關于這些風險的發(fā)生概率同樣未有定論”。其實,如果將我國對境外大模型的管理制度納入考慮,很多悲觀預測基本是出于想象。在大是大非問題上,國內大模型服務提供者不可能有半點疏忽。然而,學術界的這種擔心,一定程度反映著全社會面對陌生事物的共同焦慮和不安,也直接催生了信息內容管理定位的形成。
(二)信息內容管理定位的問題分析
大模型的核心技術機制,在于通過從語料中學習到的規(guī)律(在數學上就是概率)來生成文字,“本質上,機器學習系統(tǒng)就是進行觀察和預測的程序”。這樣,就可能會生成符合規(guī)律(可能性)但不符合現實的內容,也就是這個領域常說的幻覺(Hallucination),而幻覺只能降低不能完全消除。加上受限于發(fā)展階段、語料的數量與質量等各方面條件的限制,大模型發(fā)展之初生成內容的準確性、可靠性不可能盡善盡美,“一本正經地胡說八道”現象不可避免。
在我國,信息內容安全有比較明確的共識和邊界,核心是意識形態(tài)安全,集中體現為《網絡信息內容生態(tài)治理規(guī)定》所界定的20類“違法不良”信息。上海交通大學清源研究院生成式人工智能研究組2023年曾經評估國內八家國產大模型在生成內容真實性方面的表現,發(fā)現國產大模型在回答問題時存在捏造事實和過度迎合用戶的現象。例如,虛構不存在的法律條款來回答用戶的法律咨詢,編造疾病的治療方案來回復患者。有學者測評發(fā)現“ChatGPT更容易出現中文的常識性和知識性錯誤”,“ChatGPT可能編造虛假信息,并且其輸出通常是真實信息與虛假信息的混合”。不過,仔細分析類似測評報告可以發(fā)現,測評中發(fā)現的這些問題絕大部分并不屬于違法不良信息,而是技術能力不成熟導致的回答不正確現象。隨著技術的成熟,技術本身就能夠很大程度上解決這些問題。將大模型存在的準確性、可靠性問題全都歸為信息內容風險,明顯存在對風險程度的夸大。
由于網絡信息來源的多樣性,包括各種網絡百科在內的網絡信息,都是不同用戶提供的。傳統(tǒng)搜索引擎搜索出來的結果,并不能保證每條信息的準確性和可靠性,網絡用戶必須結合其他信息來源、生活常識等做出判斷與選擇。即使官方發(fā)布的信息,也只是“信息”,而并不是一定事實。對于大模型的準確性與可靠性,服務提供者有強烈的內在激勵去不斷完善,以形成自己的核心競爭力。人工智能預訓練語言模型的發(fā)展呈指數型增強,參數規(guī)模的增長也呈現這種規(guī)律。雙指數型增長意味著改進的速度非???,“開始的時候增長速度很慢,幾乎不被覺察,但是一旦超越曲線的拐點,它便以爆炸性的速度增長”。將對信息內容管理的特定要求延伸適用于所有生成內容,不但存在以偏概全的前提缺陷,也會抑制或者阻斷服務提供者的內在激勵。人工智能需要盡可能擴大語料來源和規(guī)模,在不斷的訓練中提高準確性和可靠性。《安全基本要求》適用于所有生成內容,生成過程全流程管理,會導致合法合規(guī)訓練數據不全面甚至枯竭,更加遠離提高準確性和可靠性的目標。在國際地緣政治格局發(fā)生巨大變化的背景下,這些只適用于國內大模型的管理措施,還會拉大國內外人工智能發(fā)展的差距。
信息內容管理完全不同于科技經濟管理,將人工智能生成內容全部納入信息內容管理,會進一步加劇近年來網絡安全與信息化領域推薦性標準強制化、技術文件效力法律化、備案成為事實上的許可、法律救濟途徑收窄、不同管理措施疊加等一系列問題,影響營商環(huán)境和市場主體信心。由于人工智能科技創(chuàng)新的特點,由管理部門事前審批并不合適。管理重心全部聚焦于信息內容管理,還會使人工智能產生的大量新型風險游離于決策視野之外。因此,完善人工智能治理體系,必須按照黨的二十屆三中全會決定“完善生成式人工智能發(fā)展和管理機制”的要求,嚴格界定信息內容管理的領域,實現信息內容管理與科技經濟管理的分離,以實現治理機制的精準化、科學化。
(三)生成式人工智能為違法不良信息治理帶來前所未有的機會
如前所述,進入自媒體時代之后,人人都是“總編輯”,內容生產從傳統(tǒng)的PGC(Professional-Generated Content,專業(yè)生產內容)向UGC(User-Generated Content,用戶生產內容)轉變,通過作為雙邊市場的平臺進行傳播。由于用戶數量巨大,違法不良信息難以追溯,即使追溯到也很難問責。正是在這種背景下,我國設立網信部門并以平臺主體責任為中心全面構建網絡綜合治理體系。然而,由于平臺主體責任屬于第三方責任,在流量經濟的誘惑下,平臺難免會以技術能力不足等各種理由打“擦邊球”。
生成式人工智能的出現,使內容生產再次發(fā)生根本性變化,從UGC向AIGC(Artificial Intelligence Generated Content,人工智能生成內容)轉變。由數量有限的大模型生成內容,某些特征更類似于重新回歸到PGC時代,大模型成為“下一代網絡入口”和“超級媒介”。大模型向使用者提供服務,不具有雙邊市場特征,不能再打“擦邊球”。由于需要巨大的投入與技術能力支撐,基礎大模型的數量會非常少,垂直應用大模型的數量會多一些。無論如何,相比于海量的自媒體用戶,大模型服務提供者的數量有限,執(zhí)法部門完全有能力監(jiān)管這些主體并發(fā)現違法行為。并且,與小范圍編造、傳播違法不良信息難以被追究違法責任的自媒體用戶相比,大模型生成違法不良信息一旦被追溯到會面臨嚴重的違法后果,被追究直接責任而不是第三方責任。這樣,大模型服務提供者會內生防范違法不良信息的強大動力,主動呵護大模型。即使大模型因為技術不成熟或者使用者的惡意誘導、攻擊生成一些違法內容,受眾只是終端使用者。終端使用者如果將生成內容加以傳播,不但會受到現行網絡綜合治理體系的約束,還會自我暴露其惡意誘導、攻擊行為。內容生產的這些根本性變化,為實現黨的二十屆三中全會決定提出的“推進新聞宣傳和網絡輿論一體化管理”提供了有利的外部條件。
從美國和歐盟的經驗來看,新的管理方式主要是兩種,一種是要求大模型對其生成內容加標識(水?。?,另一種是引入對抗式的“紅隊”機制。對大模型生成的圖片、音頻、視頻、文本等添加標識,尊重大模型使用者和其他網絡用戶的知情權,使其知曉生成或者再次傳播的生成內容屬于合成信息而非事實本身,由此使生成內容帶上“自凈”功能。添加標識有助于執(zhí)法部門對各種生成內容溯源并問責,維護市場秩序與社會秩序。對于大模型服務提供者而言,添加標識能提升生成內容的辨識度和市場影響力,并不完全是負擔,也會有相應的收益。
2023年,美國總統(tǒng)拜登發(fā)布14110號人工智能行政命令,強調“本屆政府會幫助開發(fā)有效的標識和內容溯源機制,以便美國人民能夠判斷內容什么時候是由人工智能生成的,什么時候不是。這些措施會奠定極其重要的基礎,既解決人工智能帶來的風險又不過分降低其好處”。歐盟在制定人工智能法過程中認識到,“各種人工智能系統(tǒng)會產生大量的合成內容,使人類越來越難以與人類生成的和真實的內容區(qū)分開來。這些系統(tǒng)的廣泛可用性和不斷增強的能力對信息生態(tài)系統(tǒng)的完整性和信任產生重大影響,增加錯誤信息和大規(guī)模操縱、欺詐、假冒和消費者欺騙的新風險”。為此,歐盟《人工智能法》第52條1a款規(guī)定,“生成合成類音頻、圖片、視頻或者文本內容的人工智能系統(tǒng)(包括通用人工智能系統(tǒng))提供者,應保證人工智能系統(tǒng)的輸出以機器可讀的格式進行標識并可發(fā)現為人工生成或控制”。第52條第3款規(guī)定,“生成或者控制面向公眾發(fā)布、關涉公共利益事務文本的人工智能系統(tǒng)部署者應披露其文本為人工生成或控制”。另外,對于高風險的人工智能系統(tǒng),歐盟《人工智能法》第49條還詳細規(guī)定了對系統(tǒng)添加評估合格標識的要求。對生成內容添加標識,發(fā)揮其自凈、溯源與激勵等多重功能,是自媒體時代無法想象的治理機制。
“紅隊”機制類似于信息與網絡安全領域的“白帽子黑客”,通過第三方機構或者執(zhí)法部門的對抗式檢測,驗證大模型是否存在安全漏洞或者違法違規(guī)行為。不同于一般的行政監(jiān)督檢查,紅隊機制的目的在于改善大模型安全性能,增強對社會的透明度,消除公眾顧慮,構建共治體系。因此,這一機制會廣泛調動盡可能多的產業(yè)力量從社會視角加入到安全治理,構建開放而非封閉的治理體系,共同防范各種已知或者未知科技風險。美國總統(tǒng)行政命令的解釋是,“人工智能‘紅隊’機制通常由專門的‘紅隊’采用對抗方式執(zhí)行,以發(fā)現人工智能系統(tǒng)諸如有害或者歧視性產出、不可預測或者不理想的系統(tǒng)行為、局限或者與系統(tǒng)濫用有關的潛在風險等漏洞與弱點”。歐盟《人工智能法》附件IXa第二條第4款也規(guī)定“紅隊”對抗測試(red-teaming test)方式。對大模型進行持續(xù)的對抗式檢測,這也是自媒體時代無法想象的治理機制。
按照政府監(jiān)管理論和成功監(jiān)管實踐,不同監(jiān)管手段之間存在很強的替代效應,監(jiān)管手段并不是同時采用越多越好,更不宜將不同監(jiān)管手段都疊加到一起使用。將可相互替代的監(jiān)管手段疊加到一起使用,不但不能增加合力,反而可能會相互抵消。標識機制本質上屬于以信息公開透明替代事前審批的現代監(jiān)管手段,其作用機理是通過標識對服務提供者形成信息制約與社會共治機制,以替代政府機關的事前許可。最為典型的標識機制在一些國家的食品安全領域尤其是轉基因食品領域較多采用。由于各界對食品健康短期及長期影響等問題存在爭議,并不適宜采用事前許可機制,而是強制要求企業(yè)添加標識,提供重要信息,由消費者自己做出選擇,出現食品安全問題后通過諸如追究大額損害賠償責任等事后機制形成威懾。同樣的道理,有些國家考慮到消費者認知水平、市場發(fā)育程度、執(zhí)法資源與能力等因素,會在食品領域采用事前許可而不是標識機制。不能獲得事前許可一概不得進入市場,相當于由政府機關代替消費者把關。
我國最近幾年一直在引入和推行深度合成內容的標識機制?!痘ヂ?lián)網信息服務深度合成管理規(guī)定》第16條要求深度合成服務提供者對使用其服務“生成或者編輯的信息內容”,應當采取技術措施添加不影響用戶使用的標識。在推進這項工作的過程中,業(yè)界反映文本因為原始信息量太小加載標識有困難,對音頻、圖片、視頻加載標識的積極性也不高。作為妥協(xié),《暫行辦法》第12條規(guī)定,提供者應當對“圖片、視頻等”生成內容進行標識,等于放松了對文本和音頻的要求。這樣的妥協(xié)不但使兩個規(guī)章的表述與適用范圍不一致,也折射出業(yè)界對于標識工作的積極性不夠。
業(yè)界積極性不夠,客觀上是因為添加標識在技術上有一定的難度,會增加企業(yè)的成本。不過,在《暫行辦法》《安全基本要求》確立的生成過程全流程管理制度之下,即使業(yè)界投入大量資源開發(fā)、采用標識機制,仍然不能豁免諸如備案、語料安全等各種硬性義務。這樣,業(yè)界對于標識機制必然缺乏主動性,只是被動完成規(guī)定動作,甚至找各種難以執(zhí)行的理由。管理部門疊床架屋的要求,尤其會對新進入者、初創(chuàng)企業(yè)產生難以承受的合規(guī)負擔。另一方面,造成管理部門層層疊加管理手段這樣的局面,也有少數企業(yè)合規(guī)意識不強的原因,迫使管理部門不斷加碼。最后,業(yè)界越不愿意主動采取合規(guī)措施,管理部門就會越偏向采用更為嚴格、全面的管理手段;管理部門越采用更為嚴格、全面的管理手段,業(yè)界就越沒有激勵采取主動合規(guī)措施。要跳出這種惡性循環(huán),就要遵循激勵相容的行政管理基本原理,區(qū)分事前、事中與事后機制并處理好相互之間的關系,體現事后機制優(yōu)先、信息披露等柔性機制優(yōu)先等基本原則,使標識機制成為全流程管理的有效替代。如果服務提供者能夠采用標識機制,就不需要疊加其他的硬性管理制度。
可見,用信息內容管理定位和規(guī)范人工智能,將互聯(lián)網治理經驗平移到人工智能領域,相當于將新質生產力納入上層建筑管理,必然產生各種錯配現象。在生產力與生產關系、經濟基礎與上層建筑二元劃分的框架下,人工智能只能納入科技、產業(yè)發(fā)展的新質生產力范疇進行定位,以推動科技創(chuàng)新和產業(yè)創(chuàng)新深度融合。有必要更加重視互聯(lián)網治理與人工智能治理的差異,在區(qū)分信息內容管理與科技經濟管理的基礎上,按照黨的二十屆三中全會決定“健全因地制宜發(fā)展新質生產力體制機制”的要求,推進人工智能治理體系改革與法治建設。正如有學者指出的,“人工智能的立法基礎和路徑,應當深入到科技法及其迭代發(fā)展的語境之中加以認識”。
四、人工智能立法的科學定位
新一代人工智能通常劃分為預訓練和投入應用兩個階段,以便高效開發(fā)和部署大模型。在預訓練階段,大模型需要在大量數據上進行訓練讓模型學會生成或預測數據的一般性特征。在投入應用階段,預訓練好的模型被進一步調整或微調,用于各種生成任務,如文本生成、圖像生成、音樂創(chuàng)作、數據增強等。
(一)預訓練階段的問題及法律定位
預訓練階段,核心是數據。OpenAI公司預訓練大語言模型GPT-3,引入3000億單詞的訓練語料,相當于互聯(lián)網上所有英語文字的總和。利用互聯(lián)網海量的訓練數據,必然引發(fā)與數據權益人(最為典型的是版權人、個人信息主體)的各種權益沖突。如果訓練數據都必須獲得作品著作權人許可、向其支付報酬、指明作者姓名或者作品名稱,或者,如果涉及個人信息的必須征得信息主體的同意甚至單獨同意,即使大型企業(yè)也很難做到,遑論初創(chuàng)企業(yè)。因此,需要從法律上為大模型訓練數據提供依據,否則整個人工智能產業(yè)發(fā)展無從談起。但是,也不能無視版權人、個人數據主體等合法權益人的權利保護需求。為此,必須在原則可用前提之下,為數據權益人留出技術可行情形下必要的例外排除機制,形成“原則可用、例外排除”的運行結構。從理論上分析,數據具有公共產品所具有的非獨占性、非排他性特點,從公開渠道爬取、使用、學習數據,一般并不構成對其他主體數據權益的侵犯。同時,對海量已公開個人信息的大批量處理,通常不會產生識別特定個人的風險。
美國在大模型研發(fā)與應用方面處于全球領先地位,除經濟、技術實力以外,其版權法律制度對于合理使用、互操作的支持,政府機關公共檔案自由使用制度,政府數據開放制度等,客觀上都有利于訓練數據的高效使用。美國學者清楚地意識到,如果美國法院不支持有利于機器學習的合理使用制度,創(chuàng)新就會轉移到其他國家或者完全停止??梢灶A見,國際競爭會加快制度演進與擴散趨勢。當然,美國需要為“例外排除”提供法律依據,尤其需要保護個人信息權利。歐盟為營造有利于創(chuàng)新的法律環(huán)境,2019年修改版權指令,第3條、第4條既為科學研究目的進行的文本與數據挖掘規(guī)定版權保護例外或限制,也為著作權所有者明確保留提供通道,正在朝“原則可用、例外排除”方向發(fā)展。歐盟《人工智能法》鑒于條款12c明確排除該法適用于投入部署或服務之前的研發(fā)、測試等活動,并明確將算法改進當做持續(xù)“學習”的過程,不構成人工智能系統(tǒng)的重大改變,不需要再履行合規(guī)評估手續(xù),目的也是為推動大模型發(fā)展。不過,歐盟《一般數據保護條例》對已公開個人數據的處理要求非常嚴格,不利于訓練數據的有效使用。
我國《著作權法》缺乏對大規(guī)模訓練數據原則可用的明確授權,也缺乏政府數據開放和互操作的規(guī)定。在影響非常廣泛的“新浪微博訴脈脈不正當競爭糾紛案”中,法院采用的三重授權原則會進一步抑制訓練數據的有效爬取與利用?!栋踩疽蟆穼φZ料范圍的限制,更會實質性限縮預訓練數據的范圍。從比較視角來看,不論是原則可用還是例外排除,我國都有很多現實問題需要解決,明顯滯后于美國、歐盟的制度建設。
(二)投入應用階段的問題及法律定位
投入應用階段,面臨三個層面的法律問題。首先,必須回答人工智能生成物應如何定性,是否應享有權利保護,如果受保護誰是權利人,造成侵害如何劃分責任等一系列基礎問題。對這些基礎問題的回答,會直接決定人工智能治理與立法的不同路徑。其次,自主智能的出現,必然對歧視、隱私、安全、就業(yè)、教育、社會保障、法律程序、國際關系等各方面產生深刻的連鎖影響,“具有廣泛的社會溢出效應,在政治、經濟、社會等各個領域都會帶來深刻變革”。如何應對這些分散的溢出問題,需要全社會的廣泛討論。最后,自主智能的出現,預示著更為強大的通用人工智能不再遙遠。遠超人類智能的通用人工智能一旦出現,究竟會對人類文明帶來哪些方面的重大風險,都是必須未雨綢繆的問題。國際上討論人工智能的風險與挑戰(zhàn),包括2023年3月美國麻省理工學院生命科學研究所發(fā)起的暫停大模型研發(fā)六個月的簽名運動等,多集中在最后這個層面。
自主智能投入應用帶來的問題,充分反映前沿科技的復雜性和高度不確定性。從1956年國際社會開始采用人工智能概念開始,如何定義它就一直存有分歧。(智能體)機器人同樣也很難定義,有學者認為有具身支持的才是機器人,但是,諸如ChatGPT這樣的智能體并不需要具身支撐,只是對話工具。因此,耶魯大學法學院波爾金教授專門解釋,“當我談到機器人時,我不僅會包括機器人——與環(huán)境相互作用的實物——還包括智能體與機器學習算法”。
自主智能的投入應用,會使人工智能的透明度與可解釋性成為必須回答的問題。問題在于,“更復雜的模型可以提供更好的性能,但往往比更簡單的模型如決策樹更不容易解釋”。人工智能領域一篇非常有影響力的文章專門討論了深度學習模型的不透明性,即它們如何將學習到的信息分散存儲,而不是以易于理解的方式集中存儲,就是創(chuàng)建這些網絡的研究人員也難以完全理解它們的內部工作機制;深度學習之外的其他人工智能方法可能更易于人類理解,但在處理復雜數據方面又不那么有效。
總體而言,預訓練階段的問題認識相對已經比較明確,各國措施正在趨同化,而投入應用階段三個層面的問題認識分歧都非常大。比如,對于人工智能生成物是否應該享有版權保護這一基礎問題,我國知識產權法學界有截然不同的觀點。第一種觀點認為機器不是法律保護的主體,因而不能將其生成物認定為著作權客體;第二種觀點主張應當以生成內容本身的獨創(chuàng)性來判斷其是否構成作品,創(chuàng)作者身份不應是作品受保護的構成條件;還有各種折中觀點或解決方案。國際上也一直有類似的爭論與解決方案討論。在我國,贊同第二種觀點的學者更多,較為普遍地認為“人工智能生成內容的可版權性標準應該從作者身份轉向獨創(chuàng)性”,并賦予其版權保護。
理論上的分歧,必然會映射到法律實踐中。我國司法實踐中,對于人工智能生成物的可版權性問題,就出現過不同的判決。在菲林律師事務所訴百度公司著作權侵權案中,法院判決認為自然人創(chuàng)造完成應是著作權作品的必要條件。在騰訊公司訴盈訊公司侵害著作權及不正當競爭案中,法院判決認定涉案文章是由原告組織的主創(chuàng)團隊利用人工智能軟件Dreamwriter完成。在李某訴劉某侵害信息網絡傳播權案中(該案也被稱為中國首例人工智能生成圖片著作權糾紛案),法院認定原告對人工智能生成圖片進行一定的智力投入,包括設計人物的呈現方式、選擇提示詞、安排提示詞的順序等,具備“智力成果”的要件。知識產權法學者吳漢東教授梳理我國司法實踐后得出結論,“可以認為,中國法院對人工智能生成作品采取了有條件保護的司法原則”。
美國版權法并未明確規(guī)定版權作者只能是自然人,后來由負責版權登記的美國版權局將版權作者限定為自然人,并因此不對人工智能生成物進行版權登記。至于美國國會、法院,均尚未有機會對人工智能生成物是否享有版權以及版權歸誰所有做出決定。不過,根據美國聯(lián)邦最高法院過往堅持版權作者必須是自然人的立場,可以推知其不會支持人工智能生成物的可版權性,這與我國法院有條件保護的司法原則正好相反。中美兩國分別代表兩種不同的認識和解決方案,其他大部分國家,對這個問題的關注又有所不同。比如,英國過去大量的研究一直樂觀地認為其《1988年版權、設計和專利法》第9(3)節(jié)完全可以解決計算機生成作品的版權問題,結果發(fā)現新一代人工智能發(fā)展以后研究不夠。2020年之前,除中美兩國之外,“全球范圍內,各國對于人工智能生成作品是否給予版權保護以及如何保護,幾乎沒有任何共識”。
然而,在人工智能技術快速發(fā)展的背景下,法治與治理機制久拖不決或者長期模糊不清會直接產生各種負面影響,因此,人工智能基礎問題正在快速形成共識與公共政策選擇。2020年,美國專利和商標局、歐盟專利局和英國高等法院均在具體案件中否決人工智能系統(tǒng)作為發(fā)明者的專利申請,否定人工智能生成物的可專利性。從中可以看到,將人工智能生成物歸入公有領域,不享有任何版權或者專利權保護,正在迅速成為普遍的發(fā)展趨勢,基礎問題正在快速形成共識。曾經的中美兩國立場差別,正在成為中國與美國、歐盟(以及其他國家)之間的路徑差別。并且,美國、歐盟的實踐取向已經比較明確,而我國理論與實務界的認識分歧依然非常大。
知識產權領域人工智能生成物的非權利化安排,與其說是知識產權領域的技術問題,不如說是人工智能與人類關系的基本原則問題。人工智能的最大挑戰(zhàn)在于其“涌現”或者“生成”能力,可以創(chuàng)造新知識。目前,在圖像分類、視覺推理和英語理解等方面,人工智能已經超越人類也會逐步在其他領域實現對人類的超越。隨著人類歷史上科技第一次從純粹的工具變?yōu)楠毩?chuàng)造的主體(智能體),必然會出現越來越多智能體自主決策而非輔助決策的領域。美國聯(lián)邦行政機關在執(zhí)法領域已經大量采用機器學習技術。哈佛大學法學家桑斯坦教授承認,算法在提高決策的準確性和一致性方面較人類具有顯著優(yōu)勢,盡管在設計和應用算法時需要仔細考慮可能帶來的歧視問題。更多學者也已經接受算法比人類決定更為可靠的觀點。
既然智能體能夠自主決策,比人類更聰明,必然會追問的是,是否應該賦予其法律主體地位。斯坦福大學法律學者將機器人作為法律主體研究,全面設計機器人危害行為的救濟體系,甚至提出“機器人死刑”這樣的責任機制。有學者斷言,“我們可能即將創(chuàng)造一個新的法律主體范疇,介于人與客體之間。我相信法律必須為這一類別騰出空間”。我國也有學者認為,“確認智能機器人的法律主體性地位是對機器人立法要解決的首要和關鍵問題”。
然而,智能體不具有法律主體資格,仍然是各國共同堅持的基本原則,也是大部分專家的立場。在人與智能體的關系中,以人為中心是不證自明的真理。美國哈佛大學Berkman中心的研究團隊歷時兩年多,對包括聯(lián)合國、經合組織、美國、歐盟、中國、法國、德國、日本、微軟、騰訊等在內的國際組織、國家、企業(yè)、社會組織制定的36份人工智能“原則”文件進行分析后,總結出八項基本原則。其中兩項分別是“由人類控制技術”以及“提升人類價值”,占比均為69%,包括規(guī)定“人工智能系統(tǒng)只能是工具的法律地位”,“如果機構不能再控制人工智能系統(tǒng)時有義務銷毀它”。因此,無論智能體多么聰明,法律的根本問題仍然是“當機器人和智能體創(chuàng)造利益或造成傷害時,如何在人類之間分配權利和義務”。歐盟官方研究報告曾經提出“電子人”概念,但認為在當前的法律框架下機器人的責任應由其設計者、制造商、操作者或所有者承擔,而不是讓機器人承擔。智能體不具備法律主體地位,其生成物當然不具有權利化屬性,這是以人為中心的必然要求。
(三)我國人工智能立法的基本定位
上述分析表明:(1)無論是理論研究還是制度建設,我國都面臨不少現實問題。在人工智能加速發(fā)展、國際競爭更為激烈的背景下,我國人工智能立法需要盡快提上議事日程,厘清人工智能發(fā)展的基礎問題,凝聚共識,明確權利義務關系,任何拖延或者無所作為都會錯失時機。同時,由于人工智能仍然處于發(fā)展過程之中,溢出問題與終極問題仍然沒有形成共識,具有很大的不確定性;即使形成共識的基礎問題領域,通常橫跨不同法律部門,需要根據問題不同分別設計相應的法律制度與實施機制。因此,我國人工智能立法需要保持靈活性、小步快跑,避免“一刀切”立法造成難以挽回的負面影響。當前,各國正在推動的人工智能相關立法活動,普遍都以解決具體問題為目標,而不是制定統(tǒng)一的人工智能法。如同我國不可能制定一部網絡法一攬子解決網絡相關法律問題一樣,我國不可能制定一部一攬子解決版權、個人信息保護、政府數據開放、侵權責任分配、互操作、就業(yè)體系調整等橫跨眾多不同法律部門的人工智能法。(2)需要從人工智能作為前沿科技和新質生產力來定位和把握立法,在全面梳理不同層次挑戰(zhàn)與風險的基礎上,尊重科技本身規(guī)律,充分發(fā)揮法治、技術與物理架構、科技倫理、技術標準、行業(yè)自律、市場競爭、國際合作等多種治理機制的作用,進行整體制度設計與回應,發(fā)揮制度合力,避免定位偏差與認識錯誤導致的頭痛醫(yī)頭、腳痛醫(yī)腳現象。(3)就實現路徑而言,可由全國人大常委會就人工智能安全與發(fā)展涉及的重大原則問題先制定一份法律問題的決定,明確基本原則與方向,然后通過不同部門法的立改廢釋分別推進。既要清理、廢止不利于人工智能發(fā)展的規(guī)定與做法,澄清模糊認識,又要確立有利于推動人工智能安全與發(fā)展的觀念、規(guī)范與制度??梢姡斯ぶ悄芊ㄊ恰爱a業(yè)促進法與風險治理法的協(xié)調”,需要多方參與,不是立法部門一家能夠完成的任務,更不可能一步到位。
2024年通過世界上第一部也是至今唯一一部《人工智能法》,被我國一些學者作為需要制定人工智能法的例證并提出不同版本的專家建議稿。其實,歐盟的做法不具有普適性,很難借鑒。歐盟作為高度一體化的區(qū)域性經濟政治組織,其立法帶有法典編纂功能或者“一攬子解決”功能?!度斯ぶ悄芊ā返娜Q為《人工智能與修正歐盟某些立法的法》,有大量與歐盟其他立法以及成員國國內法相互銜接的規(guī)定,第七章第75條到第82條更是對歐盟其他相關立法的具體修正規(guī)定。包括我國在內,一般的國家立法既不需要也不可能具備這樣的法典編纂功能。
如果分析立法背后的邏輯可以發(fā)現,歐盟《人工智能法》聚焦于從產品責任角度防范高風險人工智能系統(tǒng)可能造成的損害,絕大部分內容均屬于產品安全與責任法的范疇,以解決“現行歐盟(產品)安全立法適用于產品而不適用于服務,并原則上不適用于基于人工智能技術的服務”“歐盟產品責任立法只規(guī)定生產者責任,將供應鏈上其他主體的責任交由成員國責任規(guī)則調整”等問題。歐盟形式上是統(tǒng)一立法,但調整范圍有限,并不覆蓋人工智能安全與發(fā)展的很多領域,包括前述的人工智能生成物的可版權性、可專利性等基礎問題以及溢出問題。有論者因此指出,“關鍵在于《人工智能法》是否真的帶來產品法的力量和優(yōu)點,以擴大歐盟對智能組件產品的不斷改進實踐,還是該法律僅僅成為旨在事后攻擊少數精英參與者的門面立法”。相比之下,美國14110號行政命令采用的是典型的確立基本原則后全面推進的方式,對超過50個聯(lián)邦機構布置100多項落實行政命令的具體任務,在廣度、深度與影響力方面都要強很多。2024年5月,美國參議院跨黨派人工智能工作組發(fā)布路線圖,延續(xù)采用分散立法推進人工智能安全與發(fā)展的思路。
為避免統(tǒng)一立法阻礙人工智能發(fā)展,代表歐盟十四個成員國的官方文件明確提出,“我們應該轉向軟法解決方案,如自我監(jiān)管、自愿標識和其他自愿做法,以及健全的標準化程序,作為對現有立法的補充,以確保滿足基本的安全和保障標準??紤]到我們正面臨快速發(fā)展的技術,軟法可以讓我們從技術中學習并識別與之相關的潛在挑戰(zhàn)”。德國政府的立場是,“聯(lián)邦政府正在倡導并努力建立一個適當的監(jiān)管框架,在此框架內擴大并在必要時進一步發(fā)展現有的高質量基礎設施,以在適當時反映人工智能的具體問題”??梢钥吹剑煌跉W盟個人數據保護立法前后世界各國相繼跟進立法所產生的“布魯塞爾效應”,歐盟《人工智能法》出臺后,在歐盟內部至今也沒有跟進立法。日本經濟產業(yè)省組織的專家組經研究后得出結論,“目前,對人工智能系統(tǒng)具有法律約束力的一般立法被認為是不必要的”。
幾年前,英國上議院人工智能特設委員會經過廣泛聽取各方面意見后就得出結論,“在這個階段,針對人工智能的全面立法是不合適的。我們認為,現有的行業(yè)監(jiān)管機構最適合考慮可能需要的后續(xù)立法對其行業(yè)的影響”。印度的思路與英國大致相同,除確立統(tǒng)一的數據保護法律制度以外,更多發(fā)揮領域法律的作用。在信息化立法方面一直走在各國前列的韓國2019年12月發(fā)布《國家人工智能戰(zhàn)略》,2020年12月發(fā)布《改善人工智能法律、系統(tǒng)與監(jiān)管路線圖》,2023年5月公布《數字權利法案》,一直采用的是分散推進立法的方式。新加坡目前也沒有任何特定的人工智能立法計劃。目前,除歐盟以外,世界上尚無任何主要國家已經制定或者打算制定統(tǒng)一的人工智能法。
五、推動我國人工智能法的范式變革
面對人工智能全面性、顛覆性挑戰(zhàn),法律制度必須進行徹底改革與重構。然而,多主體分別推進法治變革的最大問題在于,如果缺乏明確認識和有效統(tǒng)籌,極有可能出現實踐中已經有所體現的難以形成合力甚至相互沖突的結果。因此,必須首先明確“怎樣在具體規(guī)則中凸顯人工智能的規(guī)范特質”,然后才有可能推動立法系統(tǒng)變革。
回顧人類法律發(fā)展歷史,隨著公司的出現,1855年,英國制定《有限責任法》,規(guī)定公司股東對于公司債務只在其投資范圍內承擔有限責任,奠定現代企業(yè)制度和市場經濟的基礎,成為現代法治的標志。隨著平臺的出現,1996年,美國《通信規(guī)范法》第230條確立避風港規(guī)則,奠定平臺經濟發(fā)展的基礎,被公認為互聯(lián)網時代最為重要的法律規(guī)則和網絡法治的代名詞。智能體的出現,必然推動人工智能法走上歷史舞臺。哪個國家能率先發(fā)現并確立基本規(guī)則,哪個國家就有可能引領人工智能法整體范式變革。法治范式變革涉及整個法治體系的系統(tǒng)聯(lián)動,其影響與范圍比立法定位都要大得多。
如果對各國人工智能法治實踐進行理論抽象,可以發(fā)現,新范式的基本規(guī)則其實已經初具雛形,最大特點表現為“非對稱性”。
(一)預訓練階段“原則可用、例外排除”的非對稱性
“原則可用、例外排除”呈現典型的非對稱性,價值判斷與選擇非常明確。原則可用意味著除法律明確禁止公開的數據(國家秘密、商業(yè)秘密、個人隱私)以外,其他合法公開的所有數據原則上均可以用來進行訓練,包括版權作品、已合法公開的個人信息、公共數據和其他數據等。采用原則可用概念而非著作權法學界通常采用的合理使用概念,一是因為預訓練階段的數據不只涉及版權作品,還涉及版權作品之外廣泛來源的數據。采用合理使用概念,會局限于版權法,限縮討論與制度適用的范圍。二是因為即使對版權作品,采用合理使用概念也無法反映大數據時代對于版權作品的預訓練需求。有學者指出,我國2020年第三次著作權法修訂采用“半封閉式”的限制和例外模式,制度空間有限,人工智能創(chuàng)作中對版權作品的利用很難通過“三步檢驗法”的檢測和過濾。原則可用意味著要跳出我國著作權法限制與例外立法模式的束縛,除公開的著作權作品原則上都可用于訓練以外,還應確立互操作制度,為采用技術手段繞過權利人對接口設置的技術措施爬取數據提供法律依據。原則可用也意味著要加大公共數據的開放力度,建立免費、無歧視、高質量的公共數據開放制度。
例外排除包括兩類,一類是法律明確禁止公開的國家秘密、商業(yè)秘密、個人隱私等數據,另一類是數據權益相關人單獨提出并且技術上可以排除使用的數據。第一類已經有相關法律規(guī)定,實踐中需要進一步明確其標準、邊界與程序,防止制度過于模糊。第二類屬于人工智能時代的新挑戰(zhàn),需要在著作權法、個人信息保護法、公共數據開放立法中為權益相關人維護自己權益設計相應的制度,實現制度之間的平衡。不過,數據可用是原則,排除使用是例外,應該在所有制度設計中得到體現。
(二)投入應用階段“有義務無權利”的非對稱性
不論是具身人工智能(人形機器人、無人駕駛汽車)還是非具身人工智能,造成違法損害后果必須承擔責任是沒有爭議的問題。對于有害或者高風險的人工智能系統(tǒng),法律還會禁止或者施加事前監(jiān)管措施。結合人工智能生成物非權利化安排,這種“有義務無權利”的格局呈現突出的非對稱性特點。表面上看,非對稱性不同于法律面前一律平等、權利義務一致性等基本法律原則。然而,兩個階段的非對稱性結合到一起,預訓練階段的數據原則可用,生成物進入公有領域、人人可用并重新投入訓練,正好實現良性循環(huán)和相互證成,是最合理的制度安排。
如何確定智能體造成損害的法律責任非常復雜,必須結合不同應用場景,在實踐中逐步明確認定標準和劃分原則。由于大模型服務不具有雙邊市場特點,其運行模式不同于連接供需雙方的平臺經濟模式。大模型服務提供者必須為智能體造成的損害承擔直接責任而非第三方責任,不能搬用網絡法中的避風港原則。即使大模型開源,也只能免除某些透明度義務,不能免除造成損害的法律責任。但是,另一方面,大模型自主決策是大模型與使用者之間互動的結果,使用者的輸入必不可少。如果對大模型的責任設定過于嚴格,極易誘發(fā)使用者的逆向選擇,以謀取各種不當利益。在使用者惡意行為的情況下,大模型服務提供者實際上是在為使用者的行為擔責。除了大模型服務提供者與使用者之外,還包括預訓練階段的數據創(chuàng)建者、數據管理員、模型創(chuàng)建者等不同主體,需要結合不同場景區(qū)分責任承擔,比線下侵權責任主體認定要復雜得多。另外,智能體自主決策機理不同于人類,不能直接搬用一般法律規(guī)則或認定標準。比如,人工智能生成物均為合成物,不可能不受訓練數據影響。因此,在認定生成物是否構成抄襲、復制方面,應尊重其規(guī)律,否則會制約大模型的發(fā)展。美國學者最新的研究建議,如果大模型技術上采取有力的侵權預防措施,法律上應賦予其避風港保護,形成技術與法律的雙向演進。2024年,廣州互聯(lián)網法院審理并判決我國AIGC平臺侵權第一案。該案中,法院認為,案涉生成圖片部分保留案涉作品的獨創(chuàng)性表達并在此基礎上形成新的特征,侵犯原告對案涉作品的改編權。該案公布后引發(fā)業(yè)界較大的爭議,被認為會阻礙產業(yè)發(fā)展。相反,北京互聯(lián)網法院2024年審理的全國首例“AI聲音侵權案”,獲得比較一致的正面評價。兩個案件的最大差別在于,后者按照普通人識別標準達到了深度偽造程度,而前者并未達到公認的深度偽造程度??梢?,智能體的法律責任認定標準也呈現不同于一般侵權規(guī)則的非對稱性。
智能體的出現,已經引發(fā)各種深層次變化并催生出既不同于現代法,又不同于網絡法的人工智能法?,F代法、網絡法與人工智能法三大范式疊加、交織并共同發(fā)揮作用,是當今時代這一領域的最大特點。把握人工智能法非對稱性特點,加快推動法治范式變革,是迎接時代挑戰(zhàn)的必然要求。
作者:周漢華,中國社會科學院法學研究所研究員。
來源:《現代法學》2024年第5期。