群組行為識別目前是計算機(jī)視覺領(lǐng)域的一個研究熱點,在智能安防監(jiān)控,、社會角色理解和體育運動視 頻分析等方面具有廣泛的應(yīng)用價值. 本文主要針對基于深度學(xué)習(xí)框架下的群組行為識別算法進(jìn)行綜述. 首先,,依據(jù)群 組行為識別方法中“是否包含組群成員交互關(guān)系建模”這一核心技術(shù)環(huán)節(jié),,將現(xiàn)有算法劃分為“無交互關(guān)系建模的群組 行為識別”和“基于交互關(guān)系描述的群組行為識別”兩大類. 其次,,鑒于“無交互關(guān)系建模的群組行為識別方法”主要是 聚焦于如何對“群組行為時序過程的整體時空特征的計算和提純”進(jìn)行設(shè)計的,故本文從“多流時空特征計算融合”“個 人/群體多層級時空特征計算合并”“基于注意力機(jī)制的群組行為時空特征提純”3 類典型算法進(jìn)行概述 . 再次,,對于 “基于交互關(guān)系建模的群組行為識別”,,依據(jù)對交互關(guān)系描述方法的不同,將其歸納為“基于組群成員全局交互關(guān)系建 ?!薄盎诮M群分組下的交互關(guān)系建?!焙汀盎陉P(guān)鍵人物為主的核心成員間交互關(guān)系建模”3種類別分別概述. 然后,, 對群組行為識別相關(guān)的數(shù)據(jù)集進(jìn)行介紹,,并對不同識別方法在各個數(shù)據(jù)集的測試性能進(jìn)行了對比和總結(jié). 最后,分別 從群組行為類別定義的二元性,、交互關(guān)系建模的難點與不足,、群組行為數(shù)據(jù)集弱監(jiān)督標(biāo)注和自學(xué)習(xí)、視角變化以及場 景信息綜合利用等方面概述了幾個具有挑戰(zhàn)性的問題和未來研究的方向.
1 引言 群組行為包括“視頻中多個人做相同動作”和“多 數(shù)人協(xié)作完成某一復(fù)雜行為”兩種情況,,而群組行為識 別的任務(wù)則是通過對視頻序列中組群成員運動特征的 感知,、計算、提純,,并歸納出穩(wěn)定的,、鮮明的模式,進(jìn)而 再通過分類歸納得出代表整個組群典型行為特征的群 組行為類別以及每個成員的行為類別. 近年來,,它已經(jīng) 成為計算機(jī)視覺,、人工智能等領(lǐng)域的熱點課題,其在體 育賽事分析,、異常行為檢測及預(yù)警,、實時人群場景的視 頻分類等方面具有重要價值 . 由于群組行為本身具有 復(fù)雜性和多樣性,以及視頻據(jù)在采集過程中也會受到 視角變化,、成員彼此遮擋,、復(fù)雜場景中無關(guān)人員干擾等 因素的影響,,如何設(shè)計高效的識別方法成為了該課題 的難點. 群組行為識別主要包含兩個過程,即群組時空特 征描述和行為屬性分類,,而群組時空特征描述是最關(guān) 鍵的一步 . 鑒于群組行為是多人協(xié)同合作完成的復(fù)雜 行為,,其時空特征的核心應(yīng)該是成員之間的交互關(guān) 系,因此,,本文依據(jù)群組時空特征描述算法中是否包 含“組群成員之間交互關(guān)系建?!边@一核心環(huán)節(jié),將 群組行為識別方法分為“無交互關(guān)系建模的群組行 為識別”和“基于交互關(guān)系建模的群組行為識別”兩 大類 . “無交互關(guān)系建模的群組行為識別方法”的主要思 想是把群組行為過程視為一個時序整體,,這類算法主 要聚焦于如何對該“視頻時序整體的時空特征進(jìn)行 計算和提純”,,本文將從“多流時空特征計算融合” “個人/群體多層級時空特征計算合并”“基于注意力 機(jī)制的群組行為時空特征提純”3 類典型算法特點 進(jìn)行歸納和概述 . 另外,對于“基于交互關(guān)系建模的 群組行為識別”算法,,依據(jù)交互關(guān)系建模方法的不 同,,將現(xiàn)有文獻(xiàn)歸納為“基于組群成員交互關(guān)系的全 局化建模”“基于組群分組下的交互關(guān)系建?!焙汀盎?于關(guān)鍵人物為主的核心成員間交互關(guān)系建?!? 種類 別分別概述 . 簡明起見,上述這些群組行為識別方法的 歸納分類用圖1展示. 圖1 群組行為識別算法的總體分類 2 無交互關(guān)系建模的群組行為識別 “無交互關(guān)系建模的群組行為識別”實際上是一種 相對“粗放的方法”,,表現(xiàn)在其缺少了對“群體成員之間 細(xì)膩的彼此互動”這一環(huán)節(jié)的描述,,而僅僅是對整體場 景的時空特征變化進(jìn)行了刻畫. 具體地,主要是對輸入 圖像序列的場景外觀,、組群成員的姿態(tài),、成員運動光 流、幀間時間序列依存關(guān)系等信息進(jìn)行提取,,并通過 分類器對獲得的整個群組行為的時空特征進(jìn)行分類 和識別 . 在深度學(xué)習(xí)框架下,,這種群組行為識別方法 主要是通過 CNN,LSTM以及其變形體設(shè)計出不同的算 法框架,,旨在解決“整體組群的時空特征的計算和提 純”. 故本文將現(xiàn)有的對應(yīng)算法概括為“多流時空特征計 算融合”“個人/群體多層級時空特征計算合并”“基于注 意力機(jī)制的群組行為時空特征提純”3 個類別,,現(xiàn)分述 如下. 2.1 基于多流時空特征提取與融合的群組行為識別組群場景信息是多樣的,有些信息是相互補充的,,因而,,利用多種時空特征信息的組合可以達(dá)到全面對群組行為特征建模的效果.這種思路主要是應(yīng)用在早期的群組行為算法中,典型的就是多流架構(gòu)特征計算與聚合的識別方法. 為充分利用組群場景的外觀信息和運動信息,,Simonyan等[1]提出了一種雙流網(wǎng)絡(luò),其包含空間流支路和運動流支路,,如圖2所示,,其中,空間流支路對RGB圖像信息進(jìn)行處理,,主要提取外觀特征,,運動流對光流數(shù)據(jù)進(jìn)行學(xué)習(xí)和訓(xùn)練,,從而提取到運動信息,再將得到的兩支路的信息進(jìn)行融合處理,,由于其兩條支路提取的不同信息能夠互為補充,,從而起到豐富組群時空特征的作用,進(jìn)而達(dá)到群組行為有效識別的目的. 圖2 基于雙流網(wǎng)絡(luò)框架的群組行為識別[1] 由于雙流網(wǎng)絡(luò)模型簡單,,便于訓(xùn)練,,許多學(xué)者使用并發(fā)展了它,實現(xiàn)了更多不同特征類別的融合,,并應(yīng)用于群組行為識別中.Borja-Borja等[2]通過一種行為描述向量(Activity Description Vector)得到LRF(Left Right Frequency)圖像和UDF(Up Down Frequency)圖像的數(shù)據(jù),,并分別輸入到ResNet網(wǎng)絡(luò)中進(jìn)行深度特征的提取,最后,,將兩種特征融合后通過分類器實現(xiàn)群組行為分類.Zalluhoglu等[3]提出了一種利用多個區(qū)域提取信息的多流卷積神經(jīng)網(wǎng)絡(luò)體系結(jié)構(gòu),,首先將視頻序列分為帶有背景信息的RGB圖像、只包含特定人員的RGB圖像信息(Region)和光流序列3種數(shù)據(jù),;其次,,將帶有背景信息的RGB圖像輸入到空間CNN(Convolutional Neural Network)網(wǎng)絡(luò),將特定人員(Region)區(qū)域圖像輸入到空間局部CNN網(wǎng)絡(luò)(Spatial Region Stream CNN)中,;同時將光流信息輸入到時間局部CNN網(wǎng)絡(luò)(Temporal Region CNN)和時間CNN網(wǎng)絡(luò)(Temporal CNN)中,;再將Region數(shù)據(jù)分別輸入到空間域CNN網(wǎng)絡(luò)和時間域CNN網(wǎng)絡(luò)中的池化層中,從而進(jìn)一步確定對應(yīng)的成員和幀,;最后提取視頻序列的空間信息和時間信息,,并將4種CNN網(wǎng)絡(luò)所提取的時空信息進(jìn)行融合后,由分類器得到群組行為類別. 鑒于組群外觀和光流運動信息易受到光照變化,、相機(jī)運動等背景因素的影響,,組群成員的姿態(tài)關(guān)節(jié)數(shù)據(jù)逐漸成為被推崇的魯棒特征選項.這主要是因為人體姿態(tài)可以利用關(guān)節(jié)點的位置進(jìn)行刻畫,并通過坐標(biāo)的變化表示姿態(tài)的不同,,不易受拍攝角度,、特征尺度等外界因素的影響,顯示其魯棒性更強(qiáng)而被開發(fā)利用.Azar等[4]利用多流卷積網(wǎng)絡(luò)(Multi-Stream Convolutional Network)對姿態(tài),、RGB空間,、光流特征進(jìn)行融合,如圖3所示,,首先利用CNN1,,CNN2和CNN3分別對場景圖、光流圖和姿態(tài)圖提取3種特征,,其次借助RoiAlign對個體的外觀信息,、運動信息和姿態(tài)信息進(jìn)行提取,同時,,利用全連接層提取整體場景語境表征,、運動語境和姿態(tài)語境表征,,最后對個體特征、整體語義特征分別進(jìn)行池化操作,,實現(xiàn)了不同模態(tài)的多流特征融合的群組行為識別. 圖3 基于多流網(wǎng)絡(luò)的群組行為識別[4] 此外,,為了更好地獲取群組行為的幀間時序依存信息,王傳旭等[5]提出了一種基于多流架構(gòu)與長短時記憶網(wǎng)絡(luò)的模型,,將全局RGB數(shù)據(jù)和全局光流數(shù)據(jù)通過全局LSTM(Long Short-Term Memory)提取全局時空信息,,將局部RGB數(shù)據(jù)和局部光流數(shù)據(jù)通過局部LSTM提取局部時空特征,并將兩種時空特征融合從而得到更加全面的群組特征. 概而言之,,多流時空特征融合實現(xiàn)群組行為識別的算法,,優(yōu)點是每個支路網(wǎng)絡(luò)簡單,并且在內(nèi)容上能互為補充,,可以全面地描述組群場景的時空特征.但每一支路常常要預(yù)先分開訓(xùn)練,,這樣會造成整體網(wǎng)絡(luò)架構(gòu)訓(xùn)練時間耗費過長;此外,,這種多支路網(wǎng)絡(luò)的訓(xùn)練對數(shù)據(jù)集規(guī)模有一定的要求,,如果數(shù)據(jù)集有限,往往難以收斂或者造成過擬合,,故這種多流架構(gòu)模型的泛化性較差.因此,,為了既能提取不同的時空特征,又能方便網(wǎng)絡(luò)訓(xùn)練,,研究者們提出了能提取個人/群體多層級特征的網(wǎng)絡(luò)結(jié)構(gòu),,不僅可以獲得多語義群組信息,還可以提升模型的泛化能力. 2.2 基于個人/群體多層級時空特征計算/合并的群組行為識別這類算法的設(shè)計原理可以概括為如圖4所示的邏輯結(jié)構(gòu)圖,,鑒于群組行為是由多個成員個體協(xié)同完成的,,于是,先將每個成員的信息輸入到個人級網(wǎng)絡(luò)中得到個人級特征,,再將每幀中個人級特征聚合到組群級網(wǎng)絡(luò)中得到群組時空特征,,最后利用分類器識別群組行為. 圖4 基于層級網(wǎng)絡(luò)結(jié)構(gòu)的群組行為識別 典型地,Ibrahim等[6]通過兩階段分層深度時間模型(Hierarchial Deep Temporal Model)實現(xiàn)群組行為識別,,首先在第一階段通過個人級LSTM模擬每個個體的軌跡和動作,;然后在第二階段中通過小組級LSTM將個體特征進(jìn)行結(jié)合,構(gòu)成群組特征,,建立了人-人,、人-群組兩種層次的模型,最后針對高層組群特征實現(xiàn)行為識別.Tsunoda等[7]將分層LSTM模型用于對足球運動群組行為的識別中,,該模型由CNN層和兩層LSTM(即LSTM1和LSTM2)組成,,其中CNN層提取單人特征,包括成員外觀特征和每個人位置信息以及足球位置信息的級聯(lián),LSTM1層提取“球-人之間距離”以及“人-人之間距離”,,LSTM2負(fù)責(zé)集成場景中成員的時序特征;最后由分類器實現(xiàn)了五人制足球群組行為屬性的識別.鑒于LSTM可以很好地捕捉序列的長時間依賴,,Kim等[8]提出了一種基于顯著子事件的判別組群上下文特征(Disentangled Graph Collaborative Filtering,,DGCF)模型來識別群組行為,首先依據(jù)視頻序列(包含bounding box)得到每幀內(nèi)每個成員的位置信息,,并計算成員速度和方向獲得個人和子組信息,,從而得到每一幀的信息;然后為了提取整個視頻幀的特征,,引入了GRU(Gate Recurrent Unit)網(wǎng)絡(luò)進(jìn)行逐層群組行為特征提取,,從而實現(xiàn)群組行為的分類. 除了利用LSTM/GRU網(wǎng)絡(luò),GAN(Generative Adversarial Networks)網(wǎng)絡(luò)也被用于層次結(jié)構(gòu)的群組行為識別.Gammulle等[9]提出了一種基于LSTM結(jié)構(gòu)的多級順序生成對抗性網(wǎng)絡(luò),,該算法首先利用LSTM獲得“成員級”和“場景級”的時序特征,,經(jīng)過門控融合單元將上述特征進(jìn)行聚合,并將其作為GAN的生成器輸入,,由生成器預(yù)測當(dāng)前時序過程的單人和群組行為屬性,;另外,生成器的預(yù)測結(jié)果與“場景級”的時序特征經(jīng)過另一路門控融合單元聚合,,由鑒別器對生成器的群組行為預(yù)判結(jié)果的真?zhèn)芜M(jìn)行甄別和反饋,,最終達(dá)到平衡時,得到當(dāng)前的群組行為判斷結(jié)果. 另外,,由于語義信息對群組行為識別更具有指導(dǎo)性的作用,,Li等[10]提出了一種基于語義的兩層結(jié)構(gòu)的群組行為識別模型:第一層為標(biāo)題生成層,即利用CNN分別提取光流和RGB特征,,并借助LSTM對其序列和光流,、RGB信息生成語意標(biāo)題;第二層為行為預(yù)測層,,該層也是利用CNN和LSTM對標(biāo)題進(jìn)行推理從而生成群組行為識別標(biāo)簽. 上述多層遞次的模型不斷迭代應(yīng)用,,不僅可以逐層提純和融合每層的特征,還能夠進(jìn)一步剖析群組行為內(nèi)部潛在的高層次語義關(guān)系,,達(dá)到提升群組行為識別精度的效果.但其相對于輕量級數(shù)據(jù)集(集體行為數(shù)據(jù)集[11]和排球數(shù)據(jù)集[6])由于樣本數(shù)據(jù)量不豐富,,而無法保證訓(xùn)練過程中的魯棒性;再則,,這種層次結(jié)構(gòu)越高意味著網(wǎng)絡(luò)深度越大,,對設(shè)備的要求也就越高,因此,,能夠設(shè)計一種高效輕量級的組群時序特征提純模型對群組行為的識別會更有意義,,這樣就催生了注意力機(jī)制下的組群時空特征描述算法. 2.3 基于注意力機(jī)制提純?nèi)航M行為時空特征的行為識別群組行為分為兩種,如圖5所示,一種是大多數(shù)人做的相同的動作(圖5(a)),,另一種是多人協(xié)同完成一種行為(圖5(b)).針對后者,,群組行為往往并不是由場景中的所有人都參與完成的,而是僅僅由少數(shù)的關(guān)鍵人參與并決定的,,而那些與群組行為無關(guān)的人及動作則會干擾對群組行為的推斷,,即在圖5(b)中“扣球”行為中,并非雙方全體球員都參與了這次行為,,相反,,僅僅由“二傳手”和“扣球手”兩人來完成的.因此,剔除團(tuán)隊中無關(guān)的人物,,確定團(tuán)隊中關(guān)鍵人物成了群組行為識別的重要方法,,即群組行為中的關(guān)鍵人物注意力機(jī)制. 圖5 兩種群組行為類型比較 (a) 大多數(shù)人做相同動作“Walking”實現(xiàn)的群組行為 (b) 由少數(shù)人參與并決定的群組行為 隨著深度學(xué)習(xí)的發(fā)展,注意力機(jī)制已在圖像識別,、字幕識別[12],、機(jī)器翻譯[13]、人體行為識別[14,,15]等領(lǐng)域取得了良好的效果,,也為群組行為識別提供了新的思路.Ramanathan等[16]引入注意力機(jī)制,通過BiLSTM計算每個個體的行為對群組行為的影響和重要程度,,從而區(qū)分不同的個體行為在群組行為中發(fā)揮的作用.Karpathy等[17]等通過RNN(Recurrent Neural Network)網(wǎng)絡(luò)實現(xiàn)對視頻序列中人物的跟蹤及對時變權(quán)重的自動學(xué)習(xí),,提取每個BiLSTM和軌跡信息,通過注意力獲取關(guān)鍵人的信息.Lu等[18]提出了一種基于時空注意力機(jī)制的GRU模型,,通過基于姿勢的注意力機(jī)制捕捉到每個成員重要的關(guān)節(jié)點,,并通過第一階段的GRU網(wǎng)絡(luò)實現(xiàn)對個人動作的識別,然后借助群組級的池化策略找到空間中重要成員并提取時間序列信息,,使用時間注意力機(jī)制找到關(guān)鍵幀,,從而得到最終的群組行為類別.Tang等[19]通過CCG-LSTM模型捕捉與群組行為相關(guān)人的運動,并通過注意力機(jī)制量化個體行為對群組行為的貢獻(xiàn),,通過聚合LSTM聚合個人運動狀態(tài),,從而實現(xiàn)對群組行為類別的判斷.王傳旭等[20]將注意力機(jī)制、CNN網(wǎng)絡(luò)和LSTM網(wǎng)絡(luò)結(jié)合從而提取群組中關(guān)鍵成員的時空信息. 基于注意力機(jī)制的群組行為識別方法,,不僅能夠考慮到所有人的特征,,同時還可以依據(jù)每個成員在不同時間點上對群組行為的貢獻(xiàn)程度,進(jìn)行空間上和時間上的特征優(yōu)化,,剔除了與群組行為無關(guān)的人和幀,,有效提純了組群信息,提高了識別精度. 上述3種架構(gòu)下的無交互關(guān)系建模群組行為識別算法主要是對場景中組群的整體特征進(jìn)行多線索/多層級的提取和融合,,旨在獲得組群全面的,、顯著的行為描述,實現(xiàn)較好的識別效果.但該類方法所提取的信息仍然局限于組群宏觀的整體底層特征描述及其融合,缺乏對群組內(nèi)部成員之間協(xié)同并存,、彼此依存關(guān)系這一核心信息的挖掘,,即缺少成員之間交互關(guān)系的建模,最終限制了其識別精度的提升. 3 基于交互關(guān)系建模的群組行為識別與單人行為識別方法不同,,群組行為是由多人共同參與完成的,,因此,群組行為識別不僅要考慮個體行為,、空間位置等信息,,還要重點考慮群體中人與人的交互信息.本文定義群組的交互關(guān)系是指群體成員之間互動關(guān)系總和,,它表現(xiàn)為某一行為過程中的成員間彼此影響,、相互制約,,并通過該彼此關(guān)聯(lián)信息把整個組群交融成一個整體.上述無交互關(guān)系建模的群組行為識別算法只是從整體上對群組時空特征進(jìn)行描述,,忽略了運動過程中人與人之間的互動關(guān)系.因此,,隨著群組行為識別研究的深入,,建立并推理群組中的交互關(guān)系成了群組行為建模的核心任務(wù).本節(jié)依據(jù)交互關(guān)系建模方法的不同,,將其歸納為“基于群組成員交互關(guān)系全局化建模的行為識別”“基于群組分組交互關(guān)系建模的行為識別”“基于群組關(guān)鍵成員間交互關(guān)系建模的行為識別”3種類別分別概述. 4 群組行為數(shù)據(jù)集及不同算法實現(xiàn)性能的分析比較隨著對群組行為識別技術(shù)不斷深入地研究,,群組行為數(shù)據(jù)集也相繼推出.目前,,用于群組行為識別的經(jīng)典數(shù)據(jù)集如表1所示. 表1 群組行為識別數(shù)據(jù)集 4.1 集體行為數(shù)據(jù)集及擴(kuò)展數(shù)據(jù)集CAD(Collective Activity Dataset)數(shù)據(jù)集包含由低分辨率手持相機(jī)收集的44個視頻剪輯,,共有2 500個片段,,如圖12所示.其包含6類個人動作標(biāo)簽,即NA,,Crossing,,Queuing,Walking,,Talking,,Waiting,同樣包含5類群組行為標(biāo)簽,,即Crossing,,Queuing,Walking,,Talking,,Waiting.由于相機(jī)在采集數(shù)據(jù)集時角度是固定的,背景是靜態(tài)的,,動作變化也是緩慢的,,數(shù)據(jù)集相對較小,通常會使用早期的深度學(xué)習(xí)網(wǎng)絡(luò)來評估.在實驗過程中,一般將70%作為訓(xùn)練集,,其余作為驗證集和測試集. 圖12 CAD數(shù)據(jù)集中的2個群組行為類別舉例 (a) “Waiting”群組行為 (b) “Moving”群組行為 鑒于CAD數(shù)據(jù)集規(guī)模較少,,因此,提出CAED(Collective Activity Extended Dataset)數(shù)據(jù)集對其進(jìn)行了拓展.該數(shù)據(jù)集將Walking動作從CAD中移除,,并補充了兩個新的動作類型,,分別是Dancing和Jogging,因此,,CAED數(shù)據(jù)集共有6種行為標(biāo)簽,,分別是Crossing,Queuing,,Dancing,,Talking,Waiting,,Jogging.每個人都分配有一個行為標(biāo)簽,,每一幀圖像也包含一個群組行為標(biāo)簽. 同樣,nCAD(new Collective Activity Dataset)數(shù)據(jù)集依然是CAD數(shù)據(jù)集的擴(kuò)展,,包含了6個集體行為類別(Crossing,,Queuing,Dancing,,Walking,,Waiting,Jogging),,8種姿勢標(biāo)簽(right,,right-front,?,,right-back).除了上述標(biāo)簽外,,增加了所有序列中的動作標(biāo)簽、交互標(biāo)簽,、以及每個人體目標(biāo)與這兩者標(biāo)簽的對應(yīng)關(guān)系標(biāo)注.8種交互標(biāo)簽為Approaching(AP),,Leaving(LV),Passing-by(PB),,F(xiàn)acing-each-other(FE),,Walking-side-by-side(WS),Standing-in-a-row(SR),,Standing-side-by-side(SS),,No-interaction(NA). 在集體行為數(shù)據(jù)集中,集體行為的屬性主要是依據(jù)大多數(shù)人的行為來進(jìn)行判斷的,,即大多數(shù)人的行為標(biāo)簽即為群組行為標(biāo)簽. 4.2 排球數(shù)據(jù)集VD(Volleyball Dataset)群組行為的定義并非僅僅是對大多數(shù)人做相同行為的描述,,而更多的是對組群成員協(xié)同完成復(fù)雜行為的刻畫.為此,,為了評估深度學(xué)習(xí)模型的泛化性,許多學(xué)者對運動數(shù)據(jù)集進(jìn)行了提升,,最常用的運動數(shù)據(jù)集為排球數(shù)據(jù)集(VD)[49~51].該數(shù)據(jù)集是基于公開的Youtube排球比賽視頻收集而成的,,如圖13所示,共有4 830幀,,55段視頻.對于每一幀,,每個人都被賦予一個動作類型(Waiting,Setting,,Digging,,F(xiàn)ailing,Spiking,,Blocking,,Jumping,Standing,,Moving),同時包含每組的群組行為類型之一(right-pass,,right-spike,,right-set,right-winpoint,,left-pass,,left-spike,left-set,,left-winpoint).由于相機(jī)采集數(shù)據(jù)集時為可調(diào)的,,故視頻中參與者的運動變化相對適中.通常該數(shù)據(jù)集的72%用于訓(xùn)練,28%用于驗證和測試. 圖13 排球數(shù)據(jù)集中的4個群組行為類別舉例 圖13為排球數(shù)據(jù)集,,主要展示了數(shù)據(jù)集中的4種群組行為類型:“左扣殺”“右贏球”“右扣殺”和“右發(fā)球”.而在排球數(shù)據(jù)集中,,排球運動為所有人共同完成或關(guān)鍵人的動作決定,因此,,其群組行為的標(biāo)簽為關(guān)鍵人的行為標(biāo)簽. 4.3 NBA數(shù)據(jù)集(NBA Dataset)大多數(shù)用于群組行為識別的數(shù)據(jù)集對個人和群組行為都進(jìn)行了標(biāo)注,,但NBA數(shù)據(jù)集則僅有視頻級標(biāo)注,并沒有單人級的標(biāo)注信息,,其更適合于弱監(jiān)督下的群組行為識別[52].該數(shù)據(jù)集包含了9 172個視頻剪輯,,共包含了9種群組行為:2p-succ,2p-fail-off,,2p-fail-def,,2p-layup-succ,2p-layup-fail-off,,2p-layup-fail-def,,3p-succ,,3p-fail-off,3p-fail-def.在實驗過程中,,通常將該數(shù)據(jù)集的83%作為訓(xùn)練集,,17%則作為測試集. 4.4 C-Sports數(shù)據(jù)集(Collective Sports Dataset)現(xiàn)有體育運動數(shù)據(jù)集大多數(shù)是只針對一種運動進(jìn)行分類,其種類有限,,缺乏多樣性,,無法支持復(fù)雜和有代表性的模型的訓(xùn)練,為此,,Zalluhoglu等[53]提出了一種新的群組行為數(shù)據(jù)集——Collective-Sports數(shù)據(jù)集(簡稱“C-Sports”),,有效解決了現(xiàn)有數(shù)據(jù)集存在的局限性問題,該數(shù)據(jù)集中包含11個團(tuán)體體育運動標(biāo)簽(A.Football,,Basketball,,Dodgeball,F(xiàn)ootball,,Handball,,Hurling,IceHockey,,Lacrosse,,Rugby,Volleyball,,Waterpolo)和5種群組行為標(biāo)簽(Gather,,Dismissal,Pass,,Attack,,Wander),其中數(shù)據(jù)集的80%作為訓(xùn)練集,,20%則作為測試集,,如圖14所示. 圖14 C-sports 數(shù)據(jù)集中的不同群組行為類別舉例 圖14中,從左到右,、從上到下,,運動類別分別為美式足球、籃球,、躲避球,、足球、手球,、投擲,、冰球、長曲棍球,、橄欖球,、排球,、水球,其群組行為類型為“gather”“pass”“wander”“dismissal”“wander”“dismissal”“attack”“wander”“gather”“gather”“wander”. 4.5 典型群組行為識別方法性能的比較和分析本文分別從無交互關(guān)系建模的群組行為識別方法和基于交互關(guān)系建模的群組行為識別算法對群組行為進(jìn)行了闡述,,并對相關(guān)數(shù)據(jù)集進(jìn)行了介紹.為了驗證各種算法在不同數(shù)據(jù)集上的性能,,表2和表3對其進(jìn)行了展示.其中,OF表示光流圖像,,代表相鄰時間圖像之間的瞬時速度,;Pose代表姿態(tài)信息;“—”表示為沒有進(jìn)行實驗,;其百分比表示每類算法在該數(shù)據(jù)集上的平均精確度MPCA. 表2 無交互關(guān)系建模的群組行為識別方法在不同數(shù)據(jù)集下的性能比較 表3 基于交互關(guān)系建模的方法在不同數(shù)據(jù)集下的性能比較 表2所示的為基于無交互關(guān)系建模的方法,,通過對場景信息、運動信息等組群整體信息的提取,,實現(xiàn)群組行為的識別.不難發(fā)現(xiàn),,大部分輸入仍舊為RGB圖像,取得了一定的效果,,但算法MCN[9]除了RGB信息外,,還引入了光流、姿態(tài)兩路視覺信息,,這3路特征信息最后經(jīng)過池化融合后作為場景組群的時空特征,,在CAD數(shù)據(jù)集上獲得了95.26%的高平均識別精度,同時在Volleyball數(shù)據(jù)集也獲得了90.42%的較高平均識別精度. 另外,,表2中MLS-GAN[9]提出的基于LSTM結(jié)構(gòu)的多級順序生成對抗性網(wǎng)絡(luò),利用兩個層次的“成員級”和“場景級”時序特征,,經(jīng)過門控融合單元聚合后,,再利用GAN生成器對該融合特征進(jìn)行單人和群組行為屬性預(yù)判;另外鑒別器對生成器的群組行為預(yù)判結(jié)果的真?zhèn)芜M(jìn)行甄別和反饋,,最終達(dá)到平衡時,,得到當(dāng)前的群組行為判斷結(jié)果,由于該算法經(jīng)過GAN網(wǎng)絡(luò)的多次矯正優(yōu)化,,在Volleyball數(shù)據(jù)集獲得了92.40%的較高平均識別精度. 相比之下,,表3中的算法通過對群組交互關(guān)系進(jìn)行了提取和分析,細(xì)化了群組行為特征,,在相同的數(shù)據(jù)集上平均識別精度均有明顯提高.其中,,算法XU[28]利用兩個層級模塊重點挖掘和充分利用了成員交互關(guān)系,具體地,,將成員外觀特征和位置信息輸入到關(guān)系模塊(Relational model)獲得初始交互關(guān)系表達(dá),,然后,該特征與光流特征分別輸入到Relation-GRU和Opt-GRU模塊,,兩者融合得到幀級交互關(guān)系描述,,最后利用注意力機(jī)制進(jìn)行時序特征聚集,,將不同權(quán)重的幀級特征整合視頻級表示,作為分類器輸入實現(xiàn)群組行為的識別.可見正是由于該算法對交互關(guān)系進(jìn)行多層次提取融合,,才得到了組群時空特征的精準(zhǔn)表示,,在Volleyball實際上取得了93.49%的高平均識別精度.另外,GLIL[29]在CAD和Volleyball數(shù)據(jù)集都取得了94.40%和93.04%較高平均識別精度,,主要是得益于提出的GLIL(Graphical LSTM-In-LSTM)網(wǎng)絡(luò)架構(gòu),,它被形象地比喻為“宿主-寄生”體系結(jié)構(gòu),“寄生”模塊是負(fù)責(zé)建立每個成員之間的交互關(guān)系建模,,而“宿主”模塊負(fù)責(zé)群體級行為建模,,即將多個成員運動信息根據(jù)其對群體行為的貢獻(xiàn),選擇性地整合并存儲到“宿主”中,,實現(xiàn)對全局交互關(guān)系的關(guān)鍵時空特征的選擇和提純,,保障了較高的識別精度. 總的說來,通過對群組交互關(guān)系的提取和分析,,可以達(dá)到細(xì)化群組行為特征的效果,,使得在相同的數(shù)據(jù)集上相比較粗狂的無交互關(guān)系建模的方法,平均識別精確度都會有提高,,因此,,基于交互關(guān)系的群組行為識別的方法從整體上優(yōu)于無交互關(guān)系的群組行為識別. 除此之外,從兩個表格中發(fā)現(xiàn),,大多數(shù)算法是基于CAD和Volleyball數(shù)據(jù)集進(jìn)行研究的,,其識別效果大多數(shù)在80%以上.但也能發(fā)現(xiàn),每種數(shù)據(jù)集僅能表示某一類的群組行為,,缺乏多樣性.因此,,研究者們不斷引入NBA,BFH[65]和C-Sports等數(shù)據(jù)集以便應(yīng)用其他場景中.然而這些新數(shù)據(jù)集的引入并沒有達(dá)到經(jīng)典數(shù)據(jù)集的識別效果,,在群組行為識別的效率和識別精度都有待提高. 5 總結(jié)與展望5.1 總結(jié)本文首先對群組行為識別的研究背景和研究意義進(jìn)行了闡述,,然后依據(jù)群組行為識別方法中是否包含“成員交互關(guān)系建模”,,將其分為無交互關(guān)系建模的群組行為識別和基于交互關(guān)系建模的群組行為識別兩大類,;最后,介紹了相關(guān)的數(shù)據(jù)集以及兩類群組行為識別方法在不同數(shù)據(jù)集下的性能比較.下面進(jìn)一步對這兩類算法的各自優(yōu)勢進(jìn)行總結(jié). (1)無交互關(guān)系建模的群組行為識別方法可以從視頻序列提取場景特征并進(jìn)行識別.其中,,基于多流網(wǎng)絡(luò)的群組行為識別,,能夠通過不同信息的互相補充,從而豐富群組特征,;基于層次結(jié)構(gòu)的群組行為識別,,能夠通過逐層聚合獲得群組特征;而基于注意力機(jī)制的方法,,能夠抑制場景中的冗余信息,,從而提取群組中重要的時空特征.這3類算法的先進(jìn)性總的說來是逐步提升的. (2)交互關(guān)系為群組行為的關(guān)鍵信息,,因此,通過捕獲群組行為過程中的交互關(guān)系,,能進(jìn)一步細(xì)化群組特征. 其中,,基于整體交互關(guān)系建模的群組行為識別能夠提取并推理成員整體的交互關(guān)系,從而為群組行為識別提供全面的關(guān)系特征,;基于分組交互關(guān)系建模的群組行為識別通過對群組成員進(jìn)行分組關(guān)系建模并融合,,能夠化整為零,從而達(dá)到“分而治之”的效果,;基于以關(guān)鍵人物為核心的交互關(guān)系建模的群組行為識別方法,,能夠捕獲群組中關(guān)鍵成員以及與其密切相關(guān)的其他成員的特征、以及他們的交互關(guān)系,,抑制與群組行為無關(guān)成員的信息,,從而降低了群組行為識別過程中的噪聲干擾,提高了群組行為識別效率.上述這3類算法的先進(jìn)性總體上也是逐次進(jìn)步的. 綜上,,無交互關(guān)系建模方法只是對場景整體信息進(jìn)行籠統(tǒng)地提取而實現(xiàn)群組行為識別,,其缺陷就是忽視了群組成員間的交互關(guān)系,使得其組群時空特征更多地只關(guān)注了底層特征,,缺少高層交互以及語義特征的刻畫,;而基于交互關(guān)系建模的群組行為識別則更加細(xì)化了成員之間的互動以及語義表達(dá),因此,,它優(yōu)于無交互關(guān)系建模的群組行為識別方法. 另外,,基于交互關(guān)系建模實現(xiàn)群組行為識別的方法也有其不足,可以歸納為兩點.其一是需要較多底層特征的支持,,因為交互關(guān)系建模主要是兩兩成員間(pair-wise)的交互關(guān)系描述,,除了基本的CNN/LSTM時空特征外,還需要成員的位置信息,、運動軌跡、鄰域上下文信息等信息,,以便構(gòu)建成員彼此之間關(guān)系[21],,但這些信息需要多目標(biāo)跟蹤算法作為底層特征提取的保障,但是這些底層算法的精度卻是有限的,,因此,,導(dǎo)致成員間交互關(guān)系的精度不高;其二表現(xiàn)為多層級交互關(guān)系的冗余,,具體地,,交互關(guān)系除了上面的兩兩之間交互關(guān)系外,往往還需要構(gòu)建不同子組群之間的交互關(guān)系,,以及最后融合為整個組群的交互關(guān)系特征,,上述多層級上的交互關(guān)系是有交集的,、非正交的,而最后融合得到的不同特征間集合也難以保證彼此的獨立性,,故這類交互關(guān)系信息不是最簡潔的.上述這兩個缺點會一起制約交互關(guān)系組群特征的區(qū)別性和顯著性,,進(jìn)而影響群組行為識別精度的提升. |
|
來自: mynotebook > 《待分類》