國(guó)際人工智能聯(lián)合會(huì)議(International Joint Conference on Artificial Intelligence,簡(jiǎn)稱為IJCAI)是人工智能領(lǐng)域中最主要的學(xué)術(shù)會(huì)議之一,在會(huì)議上發(fā)表的學(xué)術(shù)成果在整個(gè)AI領(lǐng)域都有深遠(yuǎn)的影響。IJCAI-PRICAI-20于2021年1月在日本舉行,但由于疫情原因,本次會(huì)議多次調(diào)整議程。日前,深蘭科技終于收到了姍姍來(lái)遲的榮譽(yù),在NetML競(jìng)賽獲得兩冠一季的好成績(jī),尤其在AI視頻競(jìng)賽中“深蘭AI智能掃路機(jī)”獲得Best Industrial Video最佳工業(yè)應(yīng)用視頻獎(jiǎng)。
昨日,作為指導(dǎo)委員會(huì)成員,上海市經(jīng)濟(jì)和信息化委員會(huì)、中國(guó)智慧城市工作委員會(huì)、中國(guó)城市環(huán)境衛(wèi)生協(xié)會(huì)智能環(huán)衛(wèi)專業(yè)委員會(huì)、長(zhǎng)三角產(chǎn)業(yè)發(fā)展研究院、AIII人工智能產(chǎn)業(yè)研究院和深蘭科技(排名不分先后),共同倡議發(fā)起新一代人工智能環(huán)衛(wèi)智能化產(chǎn)業(yè)聯(lián)盟,旨在進(jìn)一步集聚智能環(huán)衛(wèi)領(lǐng)域?qū)<覍W(xué)者和領(lǐng)跑企業(yè),聯(lián)合環(huán)衛(wèi)清潔領(lǐng)域的產(chǎn)、學(xué)、研、用、資和服等單位,創(chuàng)新突破關(guān)鍵核心技術(shù),加速建設(shè)人工智能環(huán)衛(wèi)技術(shù)創(chuàng)新生態(tài)體系。深蘭科技作為其中的唯一的人工智能企業(yè),其冠軍團(tuán)隊(duì)的技術(shù)實(shí)力,為環(huán)衛(wèi)智能化的推進(jìn)再添砝碼!
最佳工業(yè)應(yīng)用視頻獎(jiǎng)
IJCAI-PRICAI20 AI視頻競(jìng)賽作為國(guó)際會(huì)議競(jìng)賽中不多見的形式,為研究人員和AI從業(yè)人員提供了一個(gè)展示平臺(tái),以視頻的方式呈現(xiàn)易懂、有趣的人工智能,并體現(xiàn)其對(duì)社會(huì)的價(jià)值。參賽者的視頻在會(huì)議的展廳中循環(huán)播放,最終獎(jiǎng)項(xiàng)由參會(huì)者投票和專業(yè)評(píng)委評(píng)定產(chǎn)生,可謂是眾望所歸。
視頻以深蘭AI智能掃路機(jī)的第一視角,以擬人的方式模擬環(huán)衛(wèi)工人一天的作息,以及在不同環(huán)境下的工作流程,巧妙地展示了機(jī)器人的自動(dòng)檢測(cè)目標(biāo)、躲避障礙、判斷交通信號(hào)、數(shù)據(jù)同步等能力,以及其背后的自動(dòng)駕駛、數(shù)據(jù)管理等核心系統(tǒng)。視頻敘述清晰,畫面風(fēng)格和配樂(lè)充滿科技感,引人入勝。短短4分鐘的視頻內(nèi)容豐富,以講故事的形式讓人不知不覺(jué)中了解了產(chǎn)品的主要信息。
這款A(yù)I智能掃路機(jī)通過(guò)在實(shí)際交通狀況下的行駛,AI智能掃路機(jī)在停車、大轉(zhuǎn)、障礙物避讓等方面開展了多場(chǎng)景測(cè)試和優(yōu)化調(diào)整,已基本滿足了無(wú)人駕駛環(huán)衛(wèi)道路保潔的要求,目前已在上海、深圳、天津等多地投入運(yùn)營(yíng)。
NetML競(jìng)賽獲兩冠一季
NetML競(jìng)賽是由英特爾公司贊助,在IJCAI-PRICAI20上組織的一場(chǎng)基于機(jī)器學(xué)習(xí)的流量分析競(jìng)賽。本次比賽借助IJCAI-PRICAI20參加者的專業(yè)知識(shí),幫助網(wǎng)絡(luò)研究人員與ML / AI社區(qū)進(jìn)行互動(dòng),促進(jìn)網(wǎng)絡(luò)流量分析新方法的研究和開發(fā)。深蘭科技DeepBlueAI團(tuán)隊(duì)在7個(gè)賽道中取得了兩冠一季的好成績(jī)。分別在Track2和Track4獲得冠軍,在Track5獲得季軍。
賽題介紹
隨著互聯(lián)網(wǎng)的發(fā)展,網(wǎng)絡(luò)流量日益增多,同時(shí)惡意流量也在不斷增加。如搶票軟件、明星打榜、惡意爬蟲等。為了探索更好的網(wǎng)絡(luò)流量的分析方法,在這場(chǎng)比賽中,主辦方NetML提供了3個(gè)不同的相關(guān)數(shù)據(jù)集(CICIDS2017,NetML,non-vpn2016),并且將label分成了3種不同的粒度,分別是top,mid 和 fine。top就是二分類區(qū)分正常流量與惡意流量;mid和fine 還需要對(duì)惡意流量進(jìn)行進(jìn)一步的分類。CICIDS2017數(shù)據(jù)集和NetML數(shù)據(jù)集沒(méi)有mid粒度,所以一共有7個(gè)任務(wù)對(duì)應(yīng)7個(gè)賽道。
評(píng)測(cè)指標(biāo)
對(duì)于多分類任務(wù):
overall = F1*mAP 。其中,F(xiàn)1 是每個(gè)類的f1-score乘以每個(gè)類的樣本占比, mAP是所有類的平均準(zhǔn)確率。
對(duì)于二分類任務(wù):
overall = TPR*(1-FAR)。其中,TPR = TP/(TP+FN),F(xiàn)AR = FP/(TN+FP)。
賽題分析
三個(gè)數(shù)據(jù)集都是10w到50w行級(jí)別的數(shù)據(jù)量,62列特征,包含了發(fā)送接收地址與端口, 發(fā)送接收包大小,時(shí)間,hdr信息,pld統(tǒng)計(jì)信息,tls信息,http請(qǐng)求信息,dns信息等網(wǎng)絡(luò)信息。數(shù)據(jù)集之間的區(qū)別是收集源不一樣,二分類與多分類標(biāo)簽不一樣。
經(jīng)過(guò)分析,賽題有主要有以下難點(diǎn):
數(shù)據(jù)處理。原始特征數(shù)量比較多而且類型復(fù)雜,包括很多類型是列表的列如dns的相關(guān)信息。如何從這類列表中提取特征是主要問(wèn)題。
針對(duì)不同粒度的label提取特征。當(dāng)前特征對(duì)top粒度二分類可能有用,但是區(qū)分不了剩下的多分類。
競(jìng)賽方案
自動(dòng)列表類型特征提取:由于列表類型的數(shù)據(jù)是無(wú)法直接喂給模型的,所以我們對(duì)列表類型進(jìn)行了聚合,從而提取了一些統(tǒng)計(jì)數(shù)值特征。
自動(dòng)特征工程:由于原始數(shù)據(jù)特征數(shù)量較多,我們選擇自動(dòng)特征工程進(jìn)行處理,以實(shí)現(xiàn)短時(shí)間內(nèi)有效信息的盡量提取,并節(jié)約人工成本。我們將原始特征主要分成了類別類和數(shù)值類,并在根據(jù)類型做出不同的特征。
特征選擇:經(jīng)過(guò)上面兩步,我們做的特征已經(jīng)超過(guò)一千列了,但其中大多數(shù)是無(wú)效特征。為了避免過(guò)擬合和加速模型訓(xùn)練速度,我們使用了兩種特征選擇方法將特征減少到1/5。首先,我們通過(guò)lightgbm模型根據(jù)信息熵輸出的特征重要性把這些完全沒(méi)用的特征篩選出來(lái);然后,我們選用第二種特征選擇的方法是label 重排列,使用它可以篩選出一些無(wú)效的特征。label 重排列方法的主要思想是,通過(guò)label的隨機(jī)打亂,并逐次學(xué)習(xí),得到隨機(jī)狀態(tài)下重要性的分布,學(xué)習(xí)到哪些特征的重要性是“虛高”的。
指標(biāo)優(yōu)化:預(yù)測(cè)完之后,我們發(fā)現(xiàn)每個(gè)類別的比例與原始數(shù)據(jù)類別比例差別較大,導(dǎo)致得分偏低,尤其是在多分類任務(wù)中。我們就通過(guò)后處理調(diào)整閾值的方式去調(diào)整每個(gè)類別的占比。
模型融合:我們分別使用了lightgbm,catboost,xgboost這些模型。采用加權(quán)平均的方法進(jìn)行融合,權(quán)重由每個(gè)單模型的效果決定。
總結(jié)
DeepBlueAI團(tuán)隊(duì)針對(duì)網(wǎng)絡(luò)流量分析任務(wù),通過(guò)數(shù)據(jù)分析、自動(dòng)列表類型特征提取,自動(dòng)特征工程, 在經(jīng)過(guò)特征選擇,指標(biāo)優(yōu)化和模型融合等設(shè)計(jì)了一個(gè)網(wǎng)絡(luò)流量識(shí)別算法。該算法在本次比賽中取得了2冠1季的好成績(jī),有望幫助互聯(lián)網(wǎng)識(shí)別出惡意流量,形成一個(gè)良好的網(wǎng)絡(luò)環(huán)境。
責(zé)任編輯:lq
-
機(jī)器人
+關(guān)注
關(guān)注
210文章
28205瀏覽量
206532 -
智能化
+關(guān)注
關(guān)注
15文章
4822瀏覽量
55254 -
人工智能
+關(guān)注
關(guān)注
1791文章
46859瀏覽量
237577
原文標(biāo)題:賽道 | 世界冠軍加持環(huán)衛(wèi)智能化 深蘭獲IJCAI20兩冠一季+最佳工業(yè)應(yīng)用視頻獎(jiǎng)
文章出處:【微信號(hào):kmdian,微信公眾號(hào):深蘭科技】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論