隨著復(fù)雜傳感器和大型數(shù)據(jù)庫(kù)技術(shù)的發(fā)展,城市系統(tǒng)中越來(lái)越多的時(shí)空數(shù)據(jù)被記錄和存儲(chǔ)。對(duì)這些時(shí)空數(shù)據(jù)的演化模式進(jìn)行預(yù)測(cè)學(xué)習(xí)是城市計(jì)算中一個(gè)基本但重要的循環(huán),可以更好地支持城市智能管理決策,特別是在交通、環(huán)境、安全、公共衛(wèi)生等領(lǐng)域。由于傳統(tǒng)的統(tǒng)計(jì)學(xué)習(xí)和深度學(xué)習(xí)方法難以捕捉城市時(shí)空數(shù)據(jù)中的復(fù)雜關(guān)聯(lián),近年來(lái)提出了時(shí)空?qǐng)D神經(jīng)網(wǎng)絡(luò)(STGNN)框架。STGNN通過(guò)整合圖神經(jīng)網(wǎng)絡(luò)(GNNs)和各種時(shí)間學(xué)習(xí)方法,使復(fù)雜時(shí)空依賴關(guān)系的提取成為可能。然而,對(duì)于不同的預(yù)測(cè)學(xué)習(xí)任務(wù),如何在STGNN框架中有效設(shè)計(jì)空間依賴學(xué)習(xí)模塊、時(shí)間依賴學(xué)習(xí)模塊和時(shí)空依賴融合方法,是一個(gè)具有挑戰(zhàn)性的問(wèn)題。本文對(duì)城市計(jì)算中用于預(yù)測(cè)學(xué)習(xí)的STGNN技術(shù)的最新進(jìn)展進(jìn)行了全面的綜述。我們首先簡(jiǎn)要介紹了時(shí)空?qǐng)D數(shù)據(jù)的構(gòu)建方法和stgnn中使用的流行深度學(xué)習(xí)模型。然后我們從現(xiàn)有文獻(xiàn)中梳理出主要的應(yīng)用領(lǐng)域和具體的預(yù)測(cè)學(xué)習(xí)任務(wù)。接著分析了STGNN框架的設(shè)計(jì)方法以及近年來(lái)與一些先進(jìn)技術(shù)的結(jié)合;最后總結(jié)了現(xiàn)有研究的局限性,并提出了一些潛在的方向。
1. 引言
隨著傳感和數(shù)據(jù)流處理技術(shù)的快速進(jìn)步,城市系統(tǒng)中越來(lái)越多的數(shù)據(jù)被高效地收集和存儲(chǔ),為城市計(jì)算時(shí)代的到來(lái)奠定了基礎(chǔ)。城市計(jì)算旨在從大數(shù)據(jù)爆發(fā)的不同應(yīng)用領(lǐng)域(如交通、環(huán)境、安全等)了解城市的模式和動(dòng)態(tài)。根據(jù)城市計(jì)算理論[1],基于這些海量城市數(shù)據(jù)的預(yù)測(cè)學(xué)習(xí)是最重要的循環(huán),其中是智慧城市智能決策、調(diào)度和管理的基礎(chǔ)。此外,城市大數(shù)據(jù)的可預(yù)測(cè)性也可以為數(shù)字孿生、元宇宙[2]等一些新技術(shù)的發(fā)展提供可能。
大多數(shù)城市數(shù)據(jù)是時(shí)空數(shù)據(jù),即它們不僅與空間位置相關(guān),而且隨著時(shí)間的推移而變化。相關(guān)性和異質(zhì)性是時(shí)空數(shù)據(jù)在城市系統(tǒng)[3]中普遍存在的屬性。相關(guān)性是指數(shù)據(jù)不僅在時(shí)間維度上而且在空間維度上具有自相關(guān)性的屬性;異質(zhì)性是指數(shù)據(jù)在不同的時(shí)間或空間范圍內(nèi)呈現(xiàn)出不同模式的屬性。為了更直觀地說(shuō)明時(shí)空異質(zhì)性,我們?cè)趫D1中給出了一個(gè)例子。如圖1(a)所示,給定的城市網(wǎng)絡(luò)中存在不同的區(qū)域,如住宅區(qū)、休閑區(qū)和商業(yè)區(qū)。圖1(b)顯示了不同區(qū)域在不同節(jié)點(diǎn)的人流統(tǒng)計(jì)情況。我們可以發(fā)現(xiàn),雖然所有選取的節(jié)點(diǎn)都呈現(xiàn)出明顯的峰值模式,但不同區(qū)域節(jié)點(diǎn)的人群流量統(tǒng)計(jì)存在較大差異。但是,在相同的區(qū)域,即使在不同的節(jié)點(diǎn),如節(jié)點(diǎn)3和節(jié)點(diǎn)4,人群流量的統(tǒng)計(jì)也是相似的。由于這些復(fù)雜的時(shí)空特性,增加了特征工程的難度,一些在傳統(tǒng)數(shù)據(jù)預(yù)測(cè)中表現(xiàn)良好的方法,如支持向量回歸(SVR)[4]、隨機(jī)森林(RF)[5]、梯度提升決策樹(GBDT)[6]等,難以取得更準(zhǔn)確的預(yù)測(cè)結(jié)果。近十年來(lái),由于深度學(xué)習(xí)技術(shù)的快速發(fā)展,一些基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)[7]和循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)[8]的混合神經(jīng)網(wǎng)絡(luò),如ConvLSTM[9]、PredRNN[10]等,逐漸被應(yīng)用于城市時(shí)空數(shù)據(jù)的預(yù)測(cè)學(xué)習(xí),并獲得了顯著的優(yōu)勢(shì)。然而,這些方法最大的局限性在于無(wú)法直接從存在于非歐氏空間的數(shù)據(jù)中進(jìn)行學(xué)習(xí),如交通網(wǎng)絡(luò)數(shù)據(jù)、傳感器網(wǎng)絡(luò)數(shù)據(jù)、語(yǔ)義網(wǎng)絡(luò)數(shù)據(jù)等。
近年來(lái),以圖為代表的深度學(xué)習(xí)技術(shù)神經(jīng)網(wǎng)絡(luò)(GNN)在非歐氏空間數(shù)據(jù)的表示學(xué)習(xí)方面取得了重大突破,為多樣化和復(fù)雜的城市數(shù)據(jù)的預(yù)測(cè)學(xué)習(xí)奠定了基礎(chǔ)。考慮到一些典型城市數(shù)據(jù)的時(shí)空特性,如交通網(wǎng)絡(luò)流量、環(huán)境監(jiān)測(cè)數(shù)據(jù)等,之前的一些工作將圖神經(jīng)網(wǎng)絡(luò)與各種時(shí)間學(xué)習(xí)網(wǎng)絡(luò)相結(jié)合,以捕獲空間和時(shí)間維度上的動(dòng)態(tài)[3]。這種類型的混合神經(jīng)網(wǎng)絡(luò)架構(gòu)被統(tǒng)稱為時(shí)空?qǐng)D神經(jīng)網(wǎng)絡(luò)(STGNN)。通過(guò)過(guò)去五年的發(fā)展,時(shí)空?qǐng)D神經(jīng)網(wǎng)絡(luò)已經(jīng)被廣泛應(yīng)用于城市計(jì)算的預(yù)測(cè)學(xué)習(xí)場(chǎng)景,包括交通、環(huán)境、安全、公共衛(wèi)生、能源、經(jīng)濟(jì)等領(lǐng)域。基于谷歌學(xué)者搜索引擎,通過(guò)關(guān)鍵詞進(jìn)行精準(zhǔn)搜索,統(tǒng)計(jì)近5年相關(guān)論文的發(fā)表情況。如圖2所示,我們可以發(fā)現(xiàn),關(guān)于STGNN的相關(guān)論文呈現(xiàn)逐年遞增的趨勢(shì)。2018年相關(guān)論文不足20篇,而2022年論文接近140篇。這一發(fā)展趨勢(shì)表明,與STGNN相關(guān)的應(yīng)用已成為近年來(lái)的研究熱點(diǎn)。此外,過(guò)去五年的文獻(xiàn)大多集中在預(yù)測(cè)性學(xué)習(xí)任務(wù)上。
相關(guān)調(diào)研近年來(lái),關(guān)于基于STGNN的預(yù)測(cè)學(xué)習(xí)技術(shù)在不同領(lǐng)域的應(yīng)用已經(jīng)有了一些相關(guān)調(diào)研。Wang et al.[3]綜述了截至2020年的時(shí)空數(shù)據(jù)挖掘深度學(xué)習(xí)方法,其中涉及到預(yù)測(cè)學(xué)習(xí)中的一些STGNN技術(shù)。之前的調(diào)查[11]-[13]都調(diào)查了應(yīng)用于交通領(lǐng)域的STGNN技術(shù)。其中,[11]分析了多個(gè)實(shí)際問(wèn)題,綜述了城市交通系統(tǒng)中預(yù)測(cè)、檢測(cè)和控制問(wèn)題的相關(guān)工作。[12]和[13]重點(diǎn)介紹了STGNN在交通預(yù)測(cè)任務(wù)中的最新技術(shù)。工作[14]研究了生成式對(duì)抗技術(shù)在時(shí)空中的應(yīng)用數(shù)據(jù)學(xué)習(xí),包括一些與時(shí)空?qǐng)D數(shù)據(jù)相結(jié)合的方法。
我們的貢獻(xiàn)與之前的調(diào)研相比,我們調(diào)查的貢獻(xiàn)總結(jié)為:
據(jù)我們所知,這是第一個(gè)全面的綜述,回顧了最近探索STGNN在城市計(jì)算中的預(yù)測(cè)性學(xué)習(xí)任務(wù)的工作。我們通過(guò)充分的文獻(xiàn),主要從應(yīng)用和方法的角度回顧了STGNN的進(jìn)展。
我們首先根據(jù)現(xiàn)有文獻(xiàn)對(duì)STGNN在城市計(jì)算中的主要應(yīng)用領(lǐng)域和特定預(yù)測(cè)學(xué)習(xí)任務(wù)進(jìn)行了分類。此外,我們還整理了一些與之前關(guān)于STGNN的工作附帶的公開數(shù)據(jù)集。
對(duì)STGNN的時(shí)間依賴學(xué)習(xí)、空間依賴學(xué)習(xí)和時(shí)空依賴融合方法進(jìn)行了深入分析。我們還回顧了近年來(lái)一些流行的與STGNN結(jié)合的先進(jìn)方法。
我們總結(jié)了STGNN為城市計(jì)算中的預(yù)測(cè)性學(xué)習(xí)任務(wù)所分享的一些挑戰(zhàn),并為解決這些具有挑戰(zhàn)性的問(wèn)題提出了一些未來(lái)方向。
本調(diào)研的組織本調(diào)研的其余部分組織如下。第二節(jié)介紹了時(shí)空?qǐng)D的構(gòu)建。第三節(jié)概述了不同領(lǐng)域的各種預(yù)測(cè)性學(xué)習(xí)任務(wù),這些任務(wù)可以通過(guò)STGNN來(lái)解決。第四節(jié)介紹了在STGNN框架中廣泛采用的基本深度學(xué)習(xí)架構(gòu)。第五節(jié)深入分析了STGNN框架的神經(jīng)架構(gòu)設(shè)計(jì)方法和一些可以結(jié)合的流行先進(jìn)技術(shù)。第V節(jié)討論了現(xiàn)有工作的局限性,并提出了未來(lái)的方向。最后,我們?cè)诘赩I節(jié)中總結(jié)了這一調(diào)查。
時(shí)空?qǐng)D神經(jīng)網(wǎng)絡(luò)
在本節(jié)中,我們介紹STGNN的基本神經(jīng)架構(gòu)。如圖7所示,用于預(yù)測(cè)學(xué)習(xí)的STGNN的基本框架包含三個(gè)主要模塊——數(shù)據(jù)處理模塊(DPM)、時(shí)空?qǐng)D學(xué)習(xí)模塊(STGLM)和任務(wù)感知預(yù)測(cè)模塊(TPM)。對(duì)于城市計(jì)算中的預(yù)測(cè)學(xué)習(xí)任務(wù),DPM旨在從原始數(shù)據(jù)中構(gòu)建時(shí)空?qǐng)D數(shù)據(jù),STGLM旨在從復(fù)雜社會(huì)系統(tǒng)中捕獲隱藏的時(shí)空依賴關(guān)系,TPM旨在將來(lái)自STGLM的時(shí)空隱藏表示映射到下游預(yù)測(cè)任務(wù)的空間中。STGLM是STGNN中最關(guān)鍵的部分,STGNN通常通過(guò)一定的時(shí)空融合神經(jīng)架構(gòu)將空間學(xué)習(xí)網(wǎng)絡(luò)和時(shí)間學(xué)習(xí)網(wǎng)絡(luò)有機(jī)結(jié)合。對(duì)于空間學(xué)習(xí)網(wǎng)絡(luò),譜圖卷積網(wǎng)絡(luò)(spectral GCNs)、空間圖卷積網(wǎng)絡(luò)(spatial GCNs)和圖注意力網(wǎng)絡(luò)(GATs)都可以作為選擇對(duì)象。對(duì)于時(shí)間學(xué)習(xí)網(wǎng)絡(luò),循環(huán)神經(jīng)網(wǎng)絡(luò)(RNNs)、時(shí)間卷積網(wǎng)絡(luò)(TCNs)和時(shí)間自注意力網(wǎng)絡(luò)(tans)都可以作為替代方案。與STGLM相比,TPM是一個(gè)相對(duì)簡(jiǎn)單的神經(jīng)網(wǎng)絡(luò),因此幾乎所有現(xiàn)有工作都集中在STGLM中神經(jīng)架構(gòu)的設(shè)計(jì)上
?
改進(jìn)的STGNN時(shí)空依賴學(xué)習(xí)方法
在第四節(jié)中,我們介紹了STGNN的基本神經(jīng)架構(gòu),增強(qiáng)了對(duì)STGNN中時(shí)空學(xué)習(xí)泛化范式的理解。然而,近年來(lái)出現(xiàn)了許多前沿方法來(lái)改進(jìn)時(shí)空依賴關(guān)系的學(xué)習(xí)。在本節(jié)中,我們總結(jié)并分析了最近STGNN模型中一些改進(jìn)的時(shí)空依賴學(xué)習(xí)方法。
挑戰(zhàn)和未來(lái)方向
我們研究了社會(huì)系統(tǒng)中預(yù)測(cè)學(xué)習(xí)的STGNN的應(yīng)用,基本神經(jīng)架構(gòu)和最近的進(jìn)展。雖然近年來(lái)STGNN模型取得了顯著的性能,但仍有一些具有挑戰(zhàn)性的問(wèn)題有待解決,這些問(wèn)題指向了潛在的未來(lái)研究方向。我們總結(jié)了這些挑戰(zhàn)并提出潛在可行的研究方向如下:
缺乏可解釋性: 到目前為止,絕大多數(shù)與stgnn相關(guān)的工作都專注于通過(guò)復(fù)雜的模型設(shè)計(jì)來(lái)提高預(yù)測(cè)性能。然而,關(guān)于模型可解釋性的研究一直相對(duì)缺乏,即我們無(wú)法清楚地了解哪些時(shí)空特征在提高預(yù)測(cè)性能方面起主導(dǎo)作用。在最近的工作中,STNSCM[241]提出構(gòu)建因果圖來(lái)描述自行車流量預(yù)測(cè),并分析時(shí)空特征與預(yù)測(cè)結(jié)果之間的因果關(guān)系。基于因果關(guān)系的時(shí)空?qǐng)D建模可能是增強(qiáng)STGNN模型可解釋性的一個(gè)潛在方向。
缺乏校準(zhǔn)方法: 不確定性量化對(duì)實(shí)際工業(yè)生產(chǎn)具有重要意義,它反映了對(duì)模型預(yù)測(cè)結(jié)果的信任程度。為了提高深度模型的可信度,需要適當(dāng)?shù)哪P托?zhǔn)方法,近年來(lái)在圖像識(shí)別[242]和圖表示學(xué)習(xí)[243]中得到了廣泛應(yīng)用。目前僅有works[244]、[245]對(duì)STGNN模型的不確定性進(jìn)行了研究,對(duì)標(biāo)定方法的研究較少。STGNN模型的校準(zhǔn)需要同時(shí)考慮空間和時(shí)間的特性,因此比以往的相關(guān)工作更具挑戰(zhàn)性。
缺乏物理約束: 在之前的大多數(shù)工作中,STGNN模型通過(guò)深度神經(jīng)網(wǎng)絡(luò)的集成來(lái)捕獲復(fù)雜的時(shí)空依賴關(guān)系,同時(shí)忽略了對(duì)不同應(yīng)用領(lǐng)域物理約束的考慮,這使得模型在一些專業(yè)領(lǐng)域的認(rèn)準(zhǔn)度較低。近年來(lái),雖然一些用于疫情預(yù)測(cè)的STGNN模型結(jié)合了專業(yè)微分方程作為物理約束[95]-[99],但這樣的工作仍然缺乏,在其他應(yīng)用領(lǐng)域還需要改進(jìn)。
缺乏預(yù)訓(xùn)練技術(shù): 近年來(lái),預(yù)訓(xùn)練技術(shù)在時(shí)間序列和圖表示學(xué)習(xí)領(lǐng)域得到了很大發(fā)展,但在STGNN相關(guān)工作中相對(duì)缺乏。在最近的工作中,STEP[246]提出了一種結(jié)合掩碼自編碼器(MAE)[247]架構(gòu)的預(yù)訓(xùn)練模型,以從非常長(zhǎng)期的歷史時(shí)空?qǐng)D數(shù)據(jù)中高效地學(xué)習(xí)時(shí)間模式。在未來(lái),長(zhǎng)程空間和長(zhǎng)期時(shí)間學(xué)習(xí)的預(yù)訓(xùn)練技術(shù)是必要的,這對(duì)STGNN模型的可擴(kuò)展性和可部署性有很大價(jià)值。
分布轉(zhuǎn)移的障礙:?時(shí)空數(shù)據(jù),如道路網(wǎng)絡(luò)上的交通流量,往往從不同的位置和時(shí)間段收集,導(dǎo)致訓(xùn)練集、驗(yàn)證集和測(cè)試集的分布存在顯著差異。這可能會(huì)給STGNNs帶來(lái)挑戰(zhàn),因?yàn)橛捎诜植计疲谝粋€(gè)數(shù)據(jù)集上訓(xùn)練模型可能在驗(yàn)證集和測(cè)試集上表現(xiàn)不佳,這類似于域適應(yīng)中的分布偏移問(wèn)題(在訓(xùn)練和測(cè)試階段之間,輸入和輸出的聯(lián)合分布不同)。盡管這一問(wèn)題很重要,但在時(shí)空研究界受到的關(guān)注卻較少。雖然一些研究[248]調(diào)查擊敗了時(shí)間序列中的分布變化,但它們未能編碼位置之間的空間相關(guān)性。
探索新的訓(xùn)練策略:之前的研究主要集中在引入具有復(fù)雜層或模塊的新型stgnn,以增強(qiáng)人類移動(dòng)性分析。然而,另一個(gè)有希望的方向是研究新的訓(xùn)練策略。例如,在交通預(yù)測(cè)任務(wù)中,每個(gè)位置都被平等對(duì)待,屬于這些位置的數(shù)據(jù)被聯(lián)合送入神經(jīng)網(wǎng)絡(luò)。然而,對(duì)每個(gè)位置的時(shí)空相關(guān)性進(jìn)行建模的復(fù)雜性可能會(huì)發(fā)生顯著變化,需要一種新的訓(xùn)練策略,如課程學(xué)習(xí)。課程學(xué)習(xí)從更簡(jiǎn)單的數(shù)據(jù)開始,在越來(lái)越困難的數(shù)據(jù)上訓(xùn)練一個(gè)機(jī)器學(xué)習(xí)模型,并可能有效地解決這個(gè)問(wèn)題。此外,STGNNs的其他潛在訓(xùn)練策略包括多任務(wù)學(xué)習(xí)、遷移學(xué)習(xí)和持續(xù)學(xué)習(xí)。通過(guò)探索新的訓(xùn)練策略,我們可以提高STGNNs的性能和精度,并使它們能夠處理更復(fù)雜的任務(wù)。
可擴(kuò)展性問(wèn)題:設(shè)計(jì)高效的STGNNs的一個(gè)特別具有挑戰(zhàn)性的案例是當(dāng)傳感器網(wǎng)絡(luò)中的位置數(shù)量非常大時(shí)。例如,在PEMS系統(tǒng)中有超過(guò)10000個(gè)環(huán)路檢測(cè)器。在這種情況下,需要開發(fā)STGNNs,在保持高預(yù)測(cè)精度的同時(shí),能夠高效地處理和分析網(wǎng)絡(luò)產(chǎn)生的大量時(shí)空數(shù)據(jù)。在這種情況下,更高效的AI解決方案是值得贊賞的,例如通過(guò)模型修剪/蒸餾、圖采樣技術(shù),或探索具有高效率的下一代AI模型。也有一些研究探索了無(wú)圖方法[249],以在擴(kuò)展到大規(guī)模傳感器網(wǎng)絡(luò)時(shí)減少計(jì)算成本。
結(jié)論
本文對(duì)城市計(jì)算中用于預(yù)測(cè)學(xué)習(xí)的時(shí)空?qǐng)D神經(jīng)網(wǎng)絡(luò)(STGNNs)進(jìn)行了系統(tǒng)的綜述。我們首先從時(shí)空?qǐng)D數(shù)據(jù)的基本形式和構(gòu)建方法入手,然后總結(jié)城市計(jì)算中不同應(yīng)用領(lǐng)域的STGNNs所涉及的預(yù)測(cè)學(xué)習(xí)任務(wù)。接下來(lái),我們從基本神經(jīng)網(wǎng)絡(luò)架構(gòu)的角度出發(fā),介紹構(gòu)成STGNNs的空間學(xué)習(xí)網(wǎng)絡(luò)和時(shí)間學(xué)習(xí)網(wǎng)絡(luò)的基本組成部分,如圖神經(jīng)網(wǎng)絡(luò)(GNNs)、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNNs)、時(shí)間卷積網(wǎng)絡(luò)(TCNs)、自注意力網(wǎng)絡(luò)(SANs)、并總結(jié)了這些時(shí)空神經(jīng)網(wǎng)絡(luò)架構(gòu)的基本融合形式。為了進(jìn)一步追蹤STGNNs近年來(lái)的前沿進(jìn)展,我們以空間依賴學(xué)習(xí)方法、時(shí)間依賴學(xué)習(xí)方法、時(shí)空依賴融合方法等可結(jié)合的先進(jìn)技術(shù)為主線,總結(jié)了相關(guān)的典型工作。最后,總結(jié)了當(dāng)前研究面臨的挑戰(zhàn),并提出了一些潛在的方向。
編輯:黃飛
?
評(píng)論
查看更多