加拿大創業公司 Dessa 開發出一個語音合成系統 RealTalk,與以往基于語音輸入學習人聲的系統不同,它可以僅基于文本輸入生成完美逼近真人的聲音。不過,出于倫理、社會影響等方面的考慮,Dessa 并未公布該項目的研究細節、模型和數據集。
加拿大創業公司 Dessa 近日發布了一項新研究:利用其最新開發的 RealTalk 系統,僅利用文本輸入即可生成完美逼近真人的聲音。其 demo 中展示了美國著名脫口秀喜劇演員、主持人 Joe Rogan 的聲音(Joe Rogan 就是那個讓馬斯克在節目中嗨了的主持人)。
所有音頻均為機器學習模型使用文本輸入生成的。音頻中包括換氣聲、「um」「ah」等詞語和噪聲。
視頻中,「Joe Rogan」用他一貫的語調和風格,談論黑猩猩曲棍球隊、快速說繞口令,甚至模擬了一段「Joe Rogan 被人工智能研究者困在機器中」的情境……
Joe Rogan 本人在聽了模擬音頻后表示:「it's terrifyingly accurate」。有 twitter 網友評論道「你應該和 AI Joe Rogan 來一次訪談,lol」……
Joe Rogan 發 ins 表示:「我的立場就是驚訝地聳肩搖頭,然后接受它。未來越來越奇怪了,朋友們。」
復制 Rogan 聲音這一項目是由 Dessa 公司機器學習工程師 Hashiam Kadhim、Joe Palermo 和 Rayhane Mama 組成的團隊創造的,他們使用了一個文本轉語音的深度學習系統 RealTalk,可以僅基于文本輸入生成逼真的語音。
是不是很瘋狂?Dessa 首席機器學習架構師 Alex Krizhevsky (是的沒錯,他就是 AlexNet 的發明者)認為這是「我所看到的人工智能領域最酷也最恐怖的事件之一。與理論上 40100 年后才會出現的奇點不同,語音合成已經成為現實?!挂苍S大家和他的想法是一樣的。
這意味著什么?會產生什么社會影響?
想想看,Dessa 的工程師用 AI 合法地創建了 Joe Rogan 聲音的逼真復制品,多么不可思議。而且,該模型能夠復制任何人的聲音,只要能夠獲得足夠的訓練數據。
而作為構建現實世界應用的 AI 從業者,Dessa 也考慮到了這一點:這項技術會帶來什么影響?
很明顯,語音合成等技術的社會影響是巨大的。它會影響到每一個人:不管有錢沒錢,不管是企業還是政府。
目前,要創建像 RealTalk 這樣性能良好的模型需要技術知識、獨創性、計算能力和數據。所以,不是任何人都可以實現它。但是在接下來的幾年里(甚至更短的時間內),技術可能會發展到只需要幾秒鐘的音頻就能復制出世界上任何人的聲音。
這樣就很恐怖了。
如果這種技術落入壞人之手,可能會發生下面的情況:
垃圾郵件發送者假冒你母親或者愛人來獲取你的個人信息;
以霸凌或騷擾為目的冒充別人;
冒充政府官員進入絕密區域;
利用政客的「audio deepfake」來操縱選舉或引發社會暴動;
……
除了消極影響之外,Dessa 也考慮了這項技術的積極一面。
如果這項技術被正確利用的話,則:
和語音助手說話的時候感覺很自然,就像與朋友聊天一樣。
可以定制語音應用程序,比如,健身 app 里鼓勵大家鍛煉的個性化話語來自阿諾·施瓦辛格。
為只能通過文本-語音設備進行交流的人提供了一種交流選項,比如患有盧·格里克?。u凍人癥,ALS)的人。
用任何語言為任意媒體文件自動配音。
正如牛津大學人類未來研究所在最近發布的一份報告《The Malicious Use of Artificial Intelligence》中所提到的那樣:人工智能領域的進步不僅擴大了現有威脅,還帶來了新的威脅。
如何從倫理方面考慮來構建這個技術,Dessa 還沒有完全得出答案。但未來幾年里,這項技術將不可避免地建立起來并應用到現實世界中。因此,除了提高意識和承認問題以外,Dessa 表示希望這項研究能夠開啟關于語音合成技術的對話和討論。
每個人都應該知道,隨著語音合成技術的發展,可能會發生什么樣的情況。正如 Deepfake 技術出現時我們看到的那樣,公眾意識和對話促使政府、政策制定者、立法者迅速采取行動并制定對策。
Dessa 在相關博客中表示:作為應用人工智能公司,Dessa 的一個重要責任是,了解在研究領域探索 AI 和在現實中應用 AI 有著巨大的差別。為了負責任地對待這種技術,他們認為在開源該項目之前,應該讓公眾首先意識到語音合成模型的影響。
也因此,Dessa 目前沒有公開研究細節、模型或數據集。
Dessa 表示后續將發布博客,介紹 RealTalk 的工作原理和構建過程。
-
AI
+關注
關注
87文章
30146瀏覽量
268421 -
機器學習
+關注
關注
66文章
8377瀏覽量
132410 -
語音合成技術
+關注
關注
0文章
8瀏覽量
2480
原文標題:語音版deepfake出現:從文本到逼真人聲,被模仿者高呼真得可怕
文章出處:【微信號:smartman163,微信公眾號:網易智能】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論