MIT CSAIL的研究人員開發了一種基于深度學習的圖像編輯工具,能夠自動摳圖,替換任何圖像的背景。他們稱之為“圖像軟分割”,這個系統能夠分析原始圖像的紋理和顏色,僅需3~4分鐘,生成非常自然、真實的圖像,其效果不輸專業人士用Photoshop的制作。
是時候卸載你的PS軟件了。
最近,MIT計算機科學與人工智能實驗室(CSAIL)的研究人員開發了一種AI輔助的圖像編輯工具,它可以自動摳圖,替換任何圖像的背景。
像這樣:
和這樣:
要使摳完的這些圖像看起來很逼真并不是一件容易的事,因為圖像編輯必須要成功捕捉前景和背景之間微妙的審美轉換點,這對于人類頭發等復雜材質來說尤其困難。
下圖除外。
“處理這些圖像的棘手之處在于,圖像中每個像素并不是全部只屬于一個物體。”麻省理工學院計算機科學與人工智能實驗室(CSAIL)的訪問研究員Yagiz Aksoy說。“很多時候,我們很難確定哪些像素是背景的一部分,哪些像素是特定的人的一部分。”
除了經驗最豐富的編輯人員之外,其他人都很難把控這些細節。但是在最近的一篇新論文中,Aksoy和他的同事展示了一種利用機器學習讓照片編輯過程自動化的方法,而且表示這種方法也可用于視頻處理。
該團隊提出的方法可以將拍攝的圖像自動分解為一組不同的圖層,圖層之間通過一系列“軟過渡”(soft transitions)相分隔。
他們把這個系統命名為“語義軟分割”(semantic soft segmentation,SSS),它能夠分析原始圖像的紋理和顏色,并將其與神經網絡收集的有關圖像中實際目標的信息相結合。
3分鐘AI自動摳圖,徹底拋棄PhotoShop
編輯器將圖像中的對象和背景分割成不同的部分,以便于選擇。但不像大多數圖片編輯軟件需要式樣磁性套索或魔術套索工具,MIT開發的AI工具并不依賴于用戶輸入的上下文,你不必跟蹤一個對象或放大并捕捉精細細節。AI可以自動實現這一過程。
這個過程從神經網絡估計圖像的區域和特征開始:
然后,神經網絡檢測到“soft transitions”,例如狗狗的毛發和草。以前這個過程必須手動去做。
然后通過顏色將圖像中的像素相互關聯:
這些信息與神經網絡檢測到的特征相結合,對圖像的層進行估計。
經過這一系列處理,現在,可以實現AI自動摳圖并更換背景了。
研究人員表示,這樣自動處理一張640×480的圖像需要3~4分鐘。
“一旦計算出這些軟分割段,用戶就不必手動套索,也不用對圖像的特定圖層的外觀進行單獨修改,”Aksoy說道,他在上周與溫哥華舉辦的SIGGRAPH計算機圖形會議上發表了該技術的論文。“這樣一來,更換背景和調整顏色等手動編輯任務將變得更加容易。”
當然,這個魔術一般的工具背后涉及許多復雜的算法和計算,我們將在后文介紹。該團隊使用神經網絡來處理圖像特征和確定圖像的柔化邊緣。
技術細節:圖像“軟分割”技術煉成大法
該方法最重要的是自動生成輸入圖像的軟分割,也就是說,將輸入圖像分解成表示場景中對象的層,包括透明度和軟過渡(soft transitions)。
圖2:SSS方法的概述
如上圖所示,對于輸入圖像,我們要生成每個像素的超維語義特征向量(hyperdimensional semantic feature vectors),并使用紋理和語義信息定義圖形。圖形構造使得相應的Laplacian矩陣及其特征向量揭示了語義對象和它們之間的軟過渡(soft transitions)。
我們使用特征向量來構建一組初始的軟分割(soft segments),并將它們組合起來得到語義上有意義的分割。最后,我們對soft segments進行細化,使其可用于目標圖像編輯任務。
非局部顏色親和性(Nonlocal Color Affinity)
我們定義了一個額外的 low-level affinity,表示基于顏色的長期交互。
這種親和性(affinity)基本上確保了具有非常相似的顏色的區域在復雜場景結構中保持關聯,其效果如下圖所示。
高級語義親和性(High-Level Semantic Affinity)
雖然非局部顏色親和為分割過程增加了大范圍的交互,但它仍然屬于低級別特征。我們的實驗表明,在沒有附加信息的情況下,在分割中仍然會經常對不同對象的相似顏色的圖像區域進行合并。
為了創建僅限于語義相似區域的分割片段,我們添加了一個語義關聯項,對屬于同一場景對象的像素進行分組,并盡量防止來自不同對象的像素的混雜。我們在目標識別領域的先前成果的基礎上,在每個像素上計算與底層對象相關的特征向量。
我們還定義了超像素的語義親和。除了增加線性系統的稀疏性之外,超像素的使用還減少了過渡區域中不可靠特征向量的負面影響,如圖4所示。
圖4. 不同處理流程效果比較。(a)僅使用Laplacian matting(b)結合使用Laplacian matting和語義分割 (c)進一步利用稀疏顏色連接方法。
由于特征向量不能表示人與背景之間的語義切割,因此僅使用Laplacian matting會導致包括背景的大部分的人物分割片段突出顯示。加入稀疏顏色連接可提供更清晰的前景遮景。
創建圖層
我們使用前面描述的語義親和來創建圖層,得到Laplacian matrix L。我們要從該矩陣中提取特征向量,并使用兩步稀疏化過程,利用這些特征向量創建圖層。
圖6.圖像(a)顯示了像素稀疏化之前(b)和之后(c)的結果。
如圖所示,因為我們的結果(c)保留了頭發周圍的柔和過渡,而常數參數(d)則會導致過度稀疏的結果。
語義特征向量
圖8.我們首先為給定圖像生成每像素128維特征向量(圖a)。圖b表示128維到3維的隨機投影。我們利用每個圖像的主成分分析(c)將特征的維數減少到3。在降維之前,使用引導過濾器對特征進行邊緣對齊。
更多技術細節,請閱讀論文:
該論文由麻省理工學院副教授Wojciech Matusik、CSAIL博士后研究員Tae-Hyun Oh、Adobe Research的Sylvain Paris、以及蘇黎世聯邦理工學院和微軟的Marc Pollefeys共同撰寫。
論文地址:
http://cfg.mit.edu/sites/cfg.mit.edu/files/sss_3.pdf
未來可用于視頻處理
SSS目前主要是處理靜態圖像。不過研究團隊表示,未來可以預見將該技術用于視頻處理,并將可能產生許多電影制作應用程序。
研究人員表示,他們的目的并不是解決一般的自然摳圖問題。自然摳圖是一個成熟的領域,面臨許多特有的挑戰,例如在非常相似顏色的前景和背景區域中生成精確的摳圖結果。目前最先進的方法取決于兩個區域的顏色分布。當目標顏色非常相似時,他們的方法可能在開始的約束稀疏化步驟中失敗,或者基于大面積過渡區域建立了不可靠的語義特征向量,可能導致軟分割的失敗。
兩個失敗的例子
“我們想讓摳圖的過程變得更簡單、快捷,讓一般用戶也可以更方便地進行圖像編輯。“Aksoy說。“我們的目標是,只需點擊一下鼠標,編輯就可以將圖像組合在一起,打造出成熟、逼真的夢幻世界。”
Aksoy表示,目前SSS可供Instagram和Snapchat等社交平臺使用,讓圖像過濾器的效果更加逼真,尤其是在更改自拍背景或模擬特定類型的相機時。在未來,研究人員計劃進一步將處理圖像所需的時間從幾分鐘降低到幾秒,并通過提高系統匹配顏色和處理光照和陰影目標的能力,使圖像看上去更加逼真。
-
神經網絡
+關注
關注
42文章
4762瀏覽量
100541 -
圖像
+關注
關注
2文章
1083瀏覽量
40418 -
深度學習
+關注
關注
73文章
5492瀏覽量
120978
原文標題:該卸載PhotoShop了!MIT用AI實現3分鐘自動摳圖,精細到頭發絲
文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論