作者: Wil Michiels 教授(博士),恩智浦半導體安全架構師
機器學習的知識產權問題
假設一家公司主要生產對于客戶的業務運營至關重要的設備。為了避免發生故障而對這些客戶產生重大影響,這家公司使用機器學習模型來做出預防性維護決策。為了構建這種模型,公司花費了大量時間、金錢和精力。但是,客戶可以復制這個知識產權來自行進行維護,這樣就不必繼續支付維護合同的費用。同時,競爭對手也可能會直接復制模型來獲取利益,而不是投資構建自己的模型。本白皮書探討了機器學習模型的哪些方面將受到知識產權法律的保護。
要構建用于維護的機器學習(ML)模型,必須收集并標記正確的訓練集,選擇正確的架構和訓練參數以實現算法精度和速度的優化平衡,并投入計算時間來訓練模型。但是,如果這個維護專用的機器學習模型的知識產權沒有得到妥善保護,競爭對手只需花費很少的時間和精力就能復制和竊取機器學習模型,稍加調整以免被發現,然后即可直接部署到自己的產品中。這僅僅是一個例子而已。在很多情況中,公司都希望保護其投資和知識產權,但是現在和將來,應該如何保護機器學習領域的知識產權呢?
對于任何公司而言,機器學習模型都意味著一筆可觀的投資,同時也是一項寶貴的資產。盡管由機器學習驅動的業務越來越受到青睞,但一些公司可能不愿意在數據收集和模型構建方面進行必要投資,因為他們擔心競爭對手會竊取勞動果實。一直以來,非實物資產創作方面都有專利或版權之類的知識產權保護。但是,在法律領域中,關于知識產權如何保護機器學習以及具體涵蓋哪些方面,仍然是一個頗具爭議的問題。本白皮書闡述了機器學習知識產權(IP)方面的法律背景和挑戰。
術語
在我們深入探討機器學習的知識產權問題之前,必須先要正確理解術語。廣義上講,機器學習是針對算法和統計模型的科學研究。電腦系統使用這些算法和統計模型,依靠模式和推理來高效地執行特定任務,而無需使用手動編程的指令。
在機器學習中,通常使用一系列“訓練數據”推導統計模型的權重。然后在新情況中運用這些權重,從適用于新情況的模型中獲得答案。一種流行的機器學習模型是神經網絡。為了闡明使用神經網絡的過程,請參考下圖:
用于將圖片標記為貓或狗的機器學習模型
這類機器學習分為兩步。首先,在訓練階段,推導架構參數以賦予模型特定的功能。我們將這個階段稱為訓練模型。模型完成訓練后,通過測試數據測量模型質量。第二步,在推理階段,利用經過訓練的模型進行預測,例如對新數據進行分類。雖然所有這些概念在不同文獻中有不同的說法,但在本白皮書中,我們使用以下術語:
架構
神經網絡中的神經元、神經元之間的連接以及所用激活函數的集合。架構可以有向圖的形式呈現。
訓練集
一組用于訓練架構的數據,幫助架構確定合適的權重。
測試集
另外一組數據,用于測試和驗證模型是否提供預期的結果。
機器學習系統
實現機器學習(訓練和/或推理)的軟件和硬件。
模型
對于神經網絡,模型是指與神經網絡架構連接相關聯的權重的集合。這些權重是在訓練期間收集的。
訓練參數
用于控制訓練算法的參數。例如:訓練集應該迭代幾次?在更新權重之前,要處理多少個數據項?在每次更新中,應對權重應用多大幅度的更改?使用什么成本函數進行優化?
如今,機器學習用于處理各種各樣的任務。一種主流應用是分類,例如識別圖像或視頻中的特定物體,將文本分類為特定類別,以及檢測偽劣品或異常尺寸。
其他應用還包括自動駕駛汽車中使用的預測和物體檢測。對于許多使用機器學習的公司而言,用于機器學習應用的訓練集和模型是不應被競爭對手接觸到的寶貴信息。這就引出了如何通過法律手段保護這些信息和其他機器學習要素的問題,即知識產權。
知識產權
知識產權(IPR)是指保護非有形商業資產免遭第三方盜用的法定權利。通過法院發布的法律禁令以及常見的經濟損失賠償和/或侵權產品沒收處罰,可以制止這一類盜用行為。但是,每種類型的知識產權都有其特定要求和局限性。在本白皮書中,我們將探討版權、專利、數據庫權利和商業秘密。
版權
版權是最廣為人知的知識產權類型。版權是指禁止復制和傳播受保護作品的權利。這項權利一直廣泛運用于創造藝術領域,例如音樂、書籍和照片。但是,版權同樣適用于軟件、手冊、白皮書(甚至是本白皮書!)、公司視頻等商業作品。
這類權利的相關法律在世界范圍內已經達到非常高的標準化程度。作品在創作后即自動受到保護,無需申請或注冊。甚至不需要版權聲明,但通常會聲明版權以震懾潛在的抄襲者。唯一的真實要求是作品中必須存在某種形式的創造性。例如,僅僅列出一串日期不受版權保護,但巧妙地用句子來表述將受版權保護。
版權的局限性在于只針對實際復制行為。獨立再創作同一作品并不算侵犯版權。再創作的獨立性可以通過創作過程的相關記錄或日志進行證明。
專利
專利是知識產權領域的重要組成部分。當某項創新受到專利保護時,任何人都不得制造、使用或出售任何包含該創新的設備。與版權不同,專利甚至可以保護并非通過復制進行的獨立再創作。專利持有人可以要求他人支付版稅,或者直接終止他人對其創新成果的商業使用。
專利的主要缺點是必須申請,這會經過長達數年的漫長審查和高達數萬歐元的申請費用,并且結果還不確定。在軟件方面,一個非常復雜的問題是法律對所謂的“軟件專利”有非常嚴格的規定,而這在世界范圍內都是令人詬病的問題。因此而出現了非常嚴格的判例法,從而很難針對大量依賴軟件或自動化的創新執行專利權。
獲得軟件專利的基本準則是發明必須提供真實世界中的改進,而不能僅僅是提高軟件性能。例如,壓縮算法通常被認為是專利技術,內存效率更高的矩陣乘法技術也算專利。但是用于準確預測下一屆足球世界杯冠軍的算法則不符合申請專利的條件。
數據庫權利
數據庫權利是知識產權領域中一個相對較新的概念。數據庫權利于上世紀九十年代末在歐洲提出,旨在保護信息集合,防止被復制和重復使用。數據庫權利的主要要求是在創建或維護數據庫中的數據方面進行了大量投資。與版權一樣,數據庫權利無需進行正式注冊或申請。
受保護數據庫包括在線詞典、帶標記的圖像集合和地圖制圖的源數據。關鍵在于以某種便于搜索和瀏覽的方式組織數據。
數據庫權利的復雜之處在于,該項權利在歐盟以外的地區不受認可。特別是在擁有著悠久法律傳統的美國,數據集合不受知識產權保護,只有創意作品才能受到版權保護。
商業機密
在知識產權世界中,商業機密的現狀在全球范圍內不一而同。但總體而言,可以通過法律針對盜用受良好保護信息的行為采取行動。這要求此類信息的所有者表明已采取適當的安全措施來防止未經授權的訪問。同時,竊取商業秘密的“嫌疑人”可以通過證明該信息已經在公共領域中披露進行反駁。
公司通常會通過與客戶或其他第三方簽署保密協議(NDA)來保護其商業機密。在某些支持違約罰款或其他法律措施的司法管轄區中,可通過嚴格的契約義務禁止復制或復用。其他協議中也可能包含NDA條款。但是,即使使用反向工程等特殊技術,從合法購買產品中挖掘機密數據的個人也不受此類條款的約束。這就限制了商業機密法的作用。
面向機器學習的知識產權保護
競爭對手或其他意圖不軌的實體會通過多種方法,企圖從機器學習系統創造者的成果或投資中分一杯羹。機器學習的獨特性引起這樣一個問題:如何利用知識產權法律保護這項新技術的各個方面。
訓練集保護
為特定的機器學習應用創建出色的訓練集是一項耗時耗財的工作。盡管在典型環境中,侵權人無法直接訪問此訓練集,但是如果通過某些方式獲得了訪問權限,那么復制訓練集輕而易舉。知識產權法律的作用正在于此。
如果訓練集所有者的主要營業地點位于歐盟地區,那么訓練集將受到數據庫權利的保護。但是,這一權利僅對同樣位于該司法管轄區的侵權者具有法律效力。
而更加困難的是能否針對機器學習訓練集主張版權。訓練集并不是一件藝術作品。其目的通常是確保數據適合用例。根據版權法的規定,針對主題創建合適的數據集并不是一項創造性活動。但是,仍然可以主張版權的一個方面是對數據進行分類的方式。如果類別是通過創造性過程(例如,“美麗/丑陋”、“強/弱”、“大/小”)進行篩選的,那么就可以認為通過創造性標記方式創造的訓練集受到版權保護。基于事實要素(例如“貓/狗”、“交通信號燈/路燈/停車標志”)的分類不具備創造性,因此不受版權保護。
在某些應用領域,訓練集是通過模擬或其他人工手段生成的。有另一種觀點認為,這樣的訓練集可以受到版權保護,因為所選的模擬或生成方式可以看作是一種創造性選擇。但是,這一觀點從未在法庭上得到檢驗。
通常,公司會對其訓練集嚴格保密。這種做法十分合理,因為使用機器學習模型無需共享訓練集。避免訓練集被惡意復制,并對需要擁有訓練集的各方施加嚴格的契約約束似乎是最好的方法。
訓練參數保護
訓練集和模型只是機器學習系統寶貴價值的一部分。驅動訓練算法的參數也同樣十分寶貴:選擇正確的訓練參數需要經驗豐富的工程師花費大量時間和精力。
對于創建機器學習系統所用的訓練參數集,版權保護是最有用的。如果數據科學家通過創造性工作來選擇合適的訓練參數,從而確定這些參數,那么最終得到的參數集就很有可能受到版權保護。但是,如果是通過詳盡搜索(例如評估文獻中提出的許多選項)或算法過程發現的訓練參數,則不受版權保護。這一原則同樣適用于使用這些訓練參數和指定訓練集生成的模型。
數據庫權利可能不太適用于參數集,因為數據庫權利的一個標準是集合中的各個元素必須系統地或有條理地排列。參數集很難符合這個標準。
架構保護
系統架構是機器學習系統的基礎。其設計是確保系統正常運行的關鍵要素。在完成訓練后,架構就將投入使用。
這類系統包含兩部分:定義架構的圖形和實現架構的軟件。圖形符合保護的條件與模型參數相同。從理論上講,架構的創新硬件層面可以申請專利;但是由于這一領域的大多數創新基本只與軟件有關,因此硬件專利不太現實。實施訓練和/或推理的軟件通常會受到版權保護,因為軟件主要是通過創造性工作設計而成的。
機器學習系統保護
理論上,使用精心選擇的參數集編程并基于特定訓練集訓練的電腦系統屬于可獲專利的主題范圍。但是,歐洲和美國的現行判例法要求系統的設計目標是執行現實世界中的任務,例如駕駛汽車或識別現實世界中的圖像。對于以更抽象的方式運行的機器學習系統(例如,在現實世界中缺少特定用例的情況下,進行識別和/或分類),能否獲得專利仍未可知。
就像任何其他軟件一樣,機器學習系統的軟件一定可以受到版權保護。
機器學習系統的數據庫權利在理論上是有爭議的:爭議點在于數據集可通過模型和執行該模型的軟件進行搜索。但是,這一觀點從未在法庭上或法律文獻中得到檢驗。
舉證責任
發現侵權者和在法庭上證明侵權是兩件截然不同的事情。在知識產權訴訟案件中,舉證責任可能難以實現。一般而言,法院需要得到充分的證據來確信很有可能存在侵權。被指控的侵權人沒有義務提供相關證據。因此,如果需要的證據在侵權人的掌握之下,那么知識產權權利所有者就可能會遇到問題。一些司法管轄區允許扣押證據或要求當事方進行所謂的“透露”,但這并不能確保權利所有者得到所需證據。
根據版權法的規定,如果兩個物品非常相似,那么法院可以反轉舉證責任:侵權人必須證明其作品是獨立創作的。但是,這是法院針對特定事實分析的結果,權利所有者不應依賴于這一機制。
根據商業機密法的規定,權利所有者有時可以選擇要求法院對證據保密,或者讓獨立的一方(例如公證人)將證據與機密信息進行比較,而不必使機密成為公開法院記錄的一部分。
模型防復制保護
當機器學習系統在對公眾沒有契約或使用限制的情況下推出時,就可以使用某種獨特的方法來復制其功能。本質上,抄襲者使用一個未分類項目數據集,并將每個項目提交到機器學習系統。每個答案都仔細地記錄為抄襲者的數據集分類。從而獲得一個帶有標簽的數據集,用來訓練相似質量的模型。事實證明,即使數據集包含非問題域數據,并且目標系統和克隆系統的架構與模型參數不匹配,這一方法仍然有效。根據版權或數據庫法律的規定,暫時無法界定這種行為是否合法。原始機器學習系統中的數據集未被復制;只是利用了系統輸出,而且只用來標記另一個數據集。
如果數據集分類本身具有創造性,那么抄襲者可能會因為重復使用標簽而侵犯版權。即使只是復制和復用標簽以對完全獨立的數據集進行分類,也有可能侵犯版權。但是,這一觀點從未在法庭上得到檢驗。
機器學習中的水印
知識產權法律的一個實際問題是權利所有者必須證明其權利受到侵犯。
當機器學習模型或訓練集遭到復制時,證明侵權會異常困難,尤其是數據涉及現實世界的元素時。抄襲者可以輕松地辯稱,他只不過是從原始來源或位置收集了相同或高度相似的數據而已。如果沒有辦法反駁這一論點,權利所有者就會遭到冷落。
水印是指在內容中嵌入信息的過程,在正常觀察時可能無法輕易發現嵌入的信息。數字水印誕生于1992年12月,自90年代末以來一直為權利所有者廣泛運用,以察覺和追蹤可能發生的電影和歌曲泄漏。例如,嵌入的信息可以揭露泄漏源頭,或是最初傳播該內容的網絡。
水印在機器學習中也找到了用武之地,但是運用方式略有不同。這里的水印是指對原始訓練數據和/或模型稍作修改以創建某些唯一的模型屬性。例如,可以修改圖像以在特定位置添加標志。要檢測這些水印,需要向機器學習系統提供精心制作的秘密圖像,其中包含相同的唯一輸入。獨立訓練的系統會將該圖像歸為普通類別,但是最初訓練的系統以及抄襲帶水印機器學習系統的系統都將提供由修改觸發的唯一輸出。這就可以表明該系統抄襲了原始系統。
這種方法的另一個優勢是,水印可以用作創意元素,從而為機器學習系統增加了受版權保護的信息。這有助于加強針對抄襲者的版權主張。
抄襲者可能會反駁他獨立使用了相同的水印,或者實際上是自己創建的水印。這樣將扭轉關于抄襲的指控。為了解決此類爭論,必須清晰地記錄選擇和插入水印時的日期和時間。如果沒有有力的證據,版權所有者將無法提出侵權主張。
機器學習和知識產權的未來
由機器學習驅動的業務越來越受到青睞。因此,為了保護該領域中的投資,對于知識產權的興趣也在日益增加:從訓練集的版權到分類系統的專利。但是,當前這一領域的知識產權法律和實踐仍處于發展階段,判例法也非常稀少。因此很難確定面向機器學習系統和機器學習驅動型產品的法律保護將發展到何種程度。
話雖如此,但仍有一些通用說明可供參考,如下表所示:
結論
在本白皮書中,我們闡述了未來哪些機器學習知識產權將受到哪些知識產權法律的保護。那么對于本文開篇的資本設備示例而言,這意味著什么呢?盡管用于維護的機器學習模型本身無法獲得專利,但是這一模型的實施可能是符合專利要求的,因為其目的是執行現實世界中的任務。此外,還可以對實現機器學習算法的軟件提出版權主張。但是,如果抄襲者僅僅是復制模型(權重)并在自己的實現中使用,或者如果通過標記自己的訓練集來創建克隆模型,那么能否進行版權保護就難以確定。開發人員必須證明在架構設計、訓練參數、訓練集組成或數據標記方面做出了創造性選擇,并且這些選擇不僅僅是出于技術考慮。即使能證明這一點,也無法確定這種創造性是否充分地存在于模型的克隆/副本中,從而在法庭上得到認可。因此,制定應對策略來防止克隆或復制(例如平臺安全)或者融入創造性(例如水印)對于機器學習知識產權的保護來說至關重要。最后,我們要指出,在法庭沒有判例之前,侵權案件的審判結果以及法律是否將在這些問題上作出改變只能是推測。盡管如此,公司現在也應該開始考慮如何保護其機器學習知識產權。
恩智浦半導體致力于通過先進的解決方案為人們更智慧安全、便捷的生活保駕護航。作為全球領先的嵌入式應用安全連結解決方案領導者,恩智浦不斷推動著安全互聯汽車、工業與物聯網、移動設備及通信基礎設施市場的創新。除了嵌入式平臺安全之外,恩智浦還提供機器學習模型保護功能。
機器學習模型完成訓練后,將被部署到指定用途的系統中。借助恩智浦? eIQ?機器學習軟件開發環境,您就可以在恩智浦i.MX RT交叉處理器和i.MX系列SoC上使用機器學習算法。eIQ?提供推理引擎、神經網絡編譯器和優化庫。其中還包含提高機器學習網絡安全性的方法,能夠解決本文所述的克隆和對抗攻擊等問題。其他機器學習安全措施也已納入發展計劃。
評論
查看更多