作者:高玉光北京市信利(深圳)律師事務所2023/05/04于深圳#本文僅代表作者觀點,未經作者許可,禁止轉載# 近日,歐洲議會成員就《人工智能法(The AI Act)》提案達成臨時政治協議,要求部署ChatGPT等生成式人工智能工具的公司披露用于開發其系統的受版權保護的材料。該協議可能是為世界上第一部《人工智能法》的出臺鋪平道路。[1]
什么是生成式AI?
生成式AI指的是一類人工智能(AI)算法,它根據訓練過的數據生成新的輸出。與傳統人工智能系統旨在識別模式和做出預測不同,生成式AI有廣泛的應用,主要包括: 1、圖像: 生成式AI可以在現有圖像的基礎上創建新的圖像,比如根據一個人的臉創建一個新的肖像,或者根據現有的風景創建一個新的風景。2、文本: 生成式AI可以用來寫新聞文章、詩歌,甚至腳本。它還可以用于將文本從一種語言翻譯成另一種語言。3、娛樂: 生成式AI可以創造新的視頻游戲、電影和電視節目,使內容創作者更容易接觸到新的受眾。[2]比如自然語言處理工具ChatGPT,這是一種用于處理序列數據的模型,通過連接大量的語料庫來訓練模型,這些語料庫包含了真實世界中的對話,使得ChatGPT具備擁有語言理解和文本生成能力。與之類似,谷歌工程師使用1.6萬個CPU打造了一個深度學習網絡,用來指導計算機畫出貓臉的圖片。當時他們搜集了來自網絡上的1000萬張貓臉的照片,AI利用這個網絡生成了一張非常模糊的貓臉。
生成式AI“創作”原理是什么?
以ChatGPT為例,我們知道互聯網搜索引擎,如谷歌、百度等,能夠進行大量的數據庫查找,并提供一系列可能會回答你查詢的匹配項。ChatGPT的強大功能在于能夠根據其接受過訓練的大量文本數據生成所謂的語料庫,用以解釋特定查詢的上下文和含義,并以語法正確的自然語言生成相關答案,從而能夠以類似人類的方式就幾乎任何話題進行有效的交流。其原理在于AI本身有一個知識庫,這個知識庫接受了來自書籍、互聯網、新聞、小說、科技論文期刊及其他數據等作為訓練材料。這些訓練材料不斷更新并持續輸入到上述知識庫。ChatGPT的核心組成部分是一個很深的多層神經網絡,這個神經網絡使用了一種稱為“Transformer”(轉換器)的架構,這個架構允許模型同時處理多個輸入,并能夠注意到輸入之間的關聯性。通過大規模訓練AI神經網絡來學習語言模型,然后使用這個語言模型來生成自然流暢的文本或完成其他自然語言處理任務。[3] 為了能自我提升,ChatGPT同時應用一種稱為生成式對抗網絡(GAN)的深度學習來創建新內容。GAN由兩個神經網絡組成: 創建新數據的生成器和評估數據的鑒別器。生成器和鑒別器一起工作,生成器根據從鑒別器接收到的反饋改進輸出,直到生成與真實數據難以區分的內容。為了生成高質量、多樣性和流暢的自然語言文本,ChatGPT還應用循環神經網絡(RNN)、卷積神經網絡(CNN)及注意力機制(Attention)等深度學習技術。換句話說,AI創作的原理是:對人類輸入的指令或問題,AI基于知識庫中的素材(客觀事實)利用算法生成一個預測答案,人類如果認為答案有偏離則進一步輸入具體指令,AI利用算法再生成一個修正答案,如此反復,AI最終生成一個讓人類較為滿意的答案模型。在反復試錯及改進過程中,AI會總結人類指令與生成模型之間的規律,并將其作為今后的“行動綱領”。
“創新”OR“抄襲”?
筆者認為,從知識產權角度,創新可以分為組合式創新、轉用式創新、衍生式創新、開拓式創新。組合式創新指的是將現有素材或技術組合起來,產生一種新的素材或技術;例如鉛筆和橡皮是現有素材,將兩者組合在一起生成一端帶橡皮的鉛筆。轉用式創新指將某一產品的素材應用到另一產品用途中,如將飛機的主翼應用到潛水艇上作為潛水翼。衍生式創新是最為常見的創新形式,指將原有技術做微小的改進使其性能更佳,如將手表的指針添加熒光材料,使其夜間可視。開拓式創新是指前所未有的重大創新,如汽車、電話機、電視機、電腦及互聯網等的發明。
如上所述,AI是利用人類現有知識庫素材利用算法生成模型。所以,AI在訓練和學習過程中,會不可避免地使用人類現有作品,如果該種行為不符合法律規定的合理使用情形,則必然會存在侵犯他人知識產權的風險。而AI在“創作”圖像、文字或電影電視作品時,是根據素材、模型及反饋機制總結規律,最后生成“作品”,該作品是人類智力成果的“拼湊”或“仿制”,即AI目前的“創作”屬于組合式創新或轉用式創新,其離不開人類素材庫這個框框。至少在現階段,AI還無法完全擺脫人類的智力成果做出衍生式或開拓式的創新。而前述組合式創作或轉用式創作可能具有一定新穎性,但站在相關領域一般消費者角度來看,這種創作可能是顯而易見的,不構成真正的創新。但AI作品中如果包括了他人在先的作品或作品核心部分,甚至包括了他人的隱私或商業秘密權,則無疑會存在侵權的風險。例如前不久,馬里蘭大學和紐約大學的研究團隊進行了一項研究,對DALL-E2、Stable Diffusion等模型生成的圖片與訓練數據中的圖片進行了對比。結果發現,在生成圖片中,有約1.88%的圖片和訓練集中的某個圖片相似度超過了50%。顯然,這可能構成對原圖片著作權中“改編權”的侵犯。此外,如果將這些生成的圖片在網上進行傳播,還可能構成侵犯“信息網絡傳播權”等問題。[4] 最近,有關版權侵權的爭議始終圍繞著AI公司:圖片發行商Getty Images起訴Stable Diffusion使用有版權的照片來訓練其系統。OpenAI也因拒絕分享用于訓練其軟件的數據集的細節而面臨批評。
結語
各國著作權法的立法宗旨都是鼓勵作者各施所長,各盡所能,獨立創作出豐富多彩的作品,正所謂提倡“百花齊放,百家爭鳴”,從而促進文學、藝術及科學領域的繁榮與發展。著作權法不保護思想,而只保護思想的表達形式。因為著作權法表象目標是提供著作權人一定期間的壟斷權,從而激發作者的創作熱情。但著作權法終極目標是為了促進思想繁榮及社會進步。所以思想應該是自由的, 如果思想被壟斷了, 等于思想的傳播被人為阻斷了,則會禁錮后人的想象力和創造力。AI在現階段尚不具備獨立思想及開拓式創新的能力,擬出臺的人工智能法將對AI的開發者及使用者提出更高的要求,即如何借鑒他人的思想,在不侵犯他人合法權益前提下,應用AI創作出衍生式甚至開拓式創新作品,但彼時,距離AI在各領域全面取代人類也為時不遠了。
參考文獻:
[1] 華爾街見聞:《歐盟達成《人工智能法》協議,為生成式AI設立版權規則》,來源:澎湃新聞 04-28 13:17。
[2] 非凡科普:鏈接:https://www.zhihu.com/pin/1605674940094783489?utm_id=0,發布于 2023-02-05 21:12?IP 屬地北京,來源:知乎,最后訪問時間:2023年05月02日。
[3] 量子認知:《簡單解釋:ChatGPT到底是如何工作的?》2023-04-14 01:26, https://baijiahao.baidu.com/s?id=1763082601430681295&wfr=spider&for=pc,最后訪問時間:2023年4月16日。
[4] 陳永偉:《生成式AI時代的著作權之困》,載《經濟觀察報》2023-04-12 02:01,http://t.10jqka.com.cn/pid_279982808.shtml,最后訪問時間:2023年05月02日。
作者:高玉光北京市信利(深圳)律師事務所
編輯:智愿君 校對:智愿君
-
開源技術
+關注
關注
0文章
389瀏覽量
7914 -
OpenHarmony
+關注
關注
25文章
3660瀏覽量
16156 -
生成式AI
+關注
關注
0文章
488瀏覽量
459
原文標題:HIT 16: 生成式AI版權風險探討
文章出處:【微信號:開源技術服務中心,微信公眾號:共熵服務中心】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論