在網上如何區別機器人和真人?目前基本還是要靠驗證碼, 目前已經用了近20年,但這招以后可能不管用了!中英兩國研究人員聯合開發了一套基于GAN的驗證碼AI識別系統,能在0.5秒之內識別出驗證碼,從 實際測試結果看,可以說宣布了對驗證碼的“死刑判決”。
在互聯網上進行交流時,你如何證明自己是活生生的真人?
這是一個比較棘手的問題,多年來,這個問題的解決方案一直就是“驗證碼”,就是看看你能夠能成功識別一系列機器無法識別的扭曲字符。這類安全驗證工具被稱為“CAPTCHA”(即“全自動區分機器和人類公共圖靈測試”)。
驗證碼被廣泛用于垃圾郵件過濾、在社交網絡上,識別并防止機器人賬號發布冒充真人的內容(這些內容很可能包含垃圾或欺詐信息)。在過去的20多年里,雖然有過波折,但總體上看,用驗證碼解決這類問題是管用的。
但現在,情況可能發生了變化。
近日,英國蘭卡斯特大學、中國西北大學、北京大學的計算機科學家們共同開發了一種AI系統,能夠在短短0.5秒內識別出多種驗證碼。該系統已在不同的33個驗證碼系統中進行了成功測試,其中11個來自世界上最受歡迎的一些網站,包括eBay和維基百科等。
該研究的發起人之一、蘭卡斯特大學計算與通信學院副教授Zheng Wang表示:這項研究可能會對文本式驗證碼文本做出“死刑判決”。
這項研究基于深度神經網絡的圖像分類器。深度神經網絡在圖像識別方面表現出驚人的性能。但是,要構建成功的模型,通常需要數百萬個手動標記的圖像才能實現順利學習。這項最新成果的新穎之處在于,它使用生成對抗網絡(GAN)來創建訓練數據。
圖中數據為該系統與現行識別器對各網站驗證碼識別準確率的對比,可以看到,大部分測試中的成功識別率都得到了大幅度提升
這套系統不需要收集和標記數以百萬計的驗證碼文本數據,只需要500組數據就可以成功學習。而且可以使用這些數據,來生成數百萬甚至數十億的合成訓練數據,建立高性能的圖像分類器。結果顯示,該系統比迄今為止所見的任何驗證碼識別器系統的識別精度都高。
這種方法對于需要大量訓練數據的任何圖像識別任務都是有用的。然而,驗證碼識別在某種程度上是獨一無二的,因為這類任務本身處在不斷發展和變化的狀態中。
與真人識別結果的準確率對比情況以及可用性評分。可以看到,第一項的模型表現達到100%識別,超過了真人
早期基于文本的驗證碼(如本文縮略圖所示)是該技術的第一次迭代。但是,到目前為止,我們可能更習慣于使用范圍更廣的、基于交通標志的驗證碼。
這種不斷變化的狀態,讓面向驗證碼識別的訓練數據的收集成為一個棘手的任務。(相比之下,學習識別一只狗就不存在這個問題,因為狗的一生中其外觀形態不會發生大的變化),
研究人員表示:“也就是說,當我們最終收集到足夠的訓練數據時,驗證碼的形式可能快要(或已經)發生變化了,這些變化可能會讓之前收集的數據完全無用。
我們的研究成果提供了一種以更低的成本構建驗證碼識別器的新方法。因此,它對現有的驗證碼體系構成了真正的威脅,因為它可以以更快的速度地學習驗證碼的解算器。“
-
GaN
+關注
關注
19文章
1919瀏覽量
72991 -
識別系統
+關注
關注
1文章
136瀏覽量
18800 -
圖像分類
+關注
關注
0文章
90瀏覽量
11907
原文標題:基于GAN的驗證碼識別工具,0.5秒宣告驗證碼死刑!
文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論