[No.S018]
5月7日,在國際權(quán)威的多目標追蹤挑戰(zhàn)(Multiple Object Tracking Challenge,MOT)的MOT16榜單上,百度視覺技術(shù)團隊超越平安科技、商湯科技、上海交大等眾多實力強勁團隊,獲得榜單世界第一的好成績。MOTA指標顯著提升,超越第二名1.8個點;其中MOTA為誤檢、漏檢、ID交換三個指標綜合平均值。
2019年上半年,百度視覺技術(shù)團隊已分別在CVPR 2019活體、ICME2019人臉Keypoint、Widerface等賽事獲得第一。此次MOT比賽是百度視覺技術(shù)團隊又一次奪冠,是在實踐“領(lǐng)先且實用的AI視覺技術(shù)”,同時是視頻新領(lǐng)域的又一次突破。
(MOT16評測集排名,百度位居榜首)
Multiple Object Tracking Challenge是國際多目標跟蹤領(lǐng)域最權(quán)威的測評平臺,由阿德萊德大學(xué)、蘇黎世聯(lián)邦理工學(xué)院以及達姆施塔特工業(yè)大學(xué)聯(lián)合創(chuàng)辦,是世界各大AI研究機構(gòu)必爭之地。
該平臺針對多行人對象在復(fù)雜場景下的運動軌跡,來評測算法同時進行檢測及追蹤的性能,目前主要包含MOT15、MOT16、MOT17三個評測集,其中MOT16允許參賽隊自定義檢測器,并對目標檢測、特征提取及追蹤等多模塊的綜合效果進行測評,因此更具有挑戰(zhàn)性和實用性。
此次,百度視覺技術(shù)團隊正是在MOT16評測集中勇奪桂冠,超越來自平安科技、商湯科技、�?低�、騰訊優(yōu)圖、NEC北美研究院、上海交大、斯坦福大學(xué)等多支實力強勁的世界知名高校和公司團隊,技術(shù)實力不容小覷。
在檢測、重識別、多目標追蹤等相關(guān)算法上,百度視覺技術(shù)團隊做了諸多創(chuàng)新和改進。檢測部分,基于百度自主研發(fā)的開源深度學(xué)習(xí)平臺PaddlePaddle,選擇更強大的分類底座網(wǎng)絡(luò)并使用多尺度特征提取、改善物體模板以提升對微小目標的召回能力、并利用級聯(lián)網(wǎng)絡(luò)結(jié)構(gòu)對目標框進行更精細的回歸;行人重識別部分,采用自研的基于多樣例注意力方法,能夠進一步挖掘樣本在“困難區(qū)域”的細粒度特征,從而提高相似樣本在特征空間的可區(qū)分性;追蹤部分,采用基于行人重識別的序列特征相似度模型進行目標軌跡匹配、并利用時空特征來降低密集多目標跟蹤的軌跡交換問題。
除此之外,深度學(xué)習(xí)平臺PaddlePaddle也是視覺技術(shù)團隊“披荊斬棘”的利器之一。PaddlePaddle是集深度學(xué)習(xí)核心框架、工具組件和服務(wù)平臺為一體的技術(shù)領(lǐng)先、功能完備的開源深度學(xué)習(xí)平臺,而且PaddlePaddle在視覺技術(shù)上有深厚的積累,官方已開源覆蓋分類、檢測、語義分割、OCR、GAN、人體關(guān)鍵點檢測等類別,基于真實業(yè)務(wù)場景驗證的優(yōu)質(zhì)模型。上個月,PaddlePaddle聯(lián)合視覺技術(shù)團隊重磅發(fā)布了視頻識別工具集,覆蓋主流實用的序列建模算法與端到端視頻識別模型,可一鍵式任務(wù)啟動,公開數(shù)據(jù)集下載,數(shù)據(jù)預(yù)處理,模型訓(xùn)練,模型inference一步到位。后續(xù)將會擴展以解決視頻理解、視頻編輯、視頻生成等一系列視頻理解任務(wù)。
PaddlePaddle還對深度學(xué)習(xí)模型訓(xùn)練中顯存占用及數(shù)據(jù)處理速度進行專項優(yōu)化。以語義分割Deeplabv3+為例,針對顯存消耗分析與解決,冗余前向計算,GPU CPU內(nèi)存交換,使用16位浮點數(shù)等等,讓開發(fā)者可在相同的計算設(shè)備上訓(xùn)練更大的模型,還可以在消費級別顯卡上完成訓(xùn)練。在數(shù)據(jù)處理上,優(yōu)化分布式 IO,增加遠程文件系統(tǒng)流式讀取能力。GPU 多機多卡同步訓(xùn)練通過增加稀疏通信能力提升帶寬不敏感訓(xùn)練能力,在低配網(wǎng)絡(luò)帶寬網(wǎng)絡(luò)環(huán)境下,例如10 G 網(wǎng)絡(luò)下,同步訓(xùn)練可提速10倍。另外PaddlePaddle對單機多設(shè)備及多機分布式訓(xùn)練支持也非常友好,相對于單設(shè)備訓(xùn)練,用戶幾乎不用對模型進行任何修改,可以低成本的實現(xiàn)單機多CPU/GPU訓(xùn)練;而對于多機分布式訓(xùn)練,只需要簡單的配置,用戶即可方便地從模型構(gòu)建快速過渡到多種環(huán)境下的模型運行。
從實際應(yīng)用角度,多目標追蹤是視頻理解和分析領(lǐng)域的核心技術(shù)之一。近年來,隨著人工智能技術(shù)的不斷落地,多目標追蹤在城市安防、客流分析、智慧零售、文體直播等多項重要應(yīng)用場景(尤其是AI to B場景)發(fā)揮出日益重要的作用。
基于對多目標追蹤技術(shù)的重視,百度視覺技術(shù)團隊已在此方向積累百萬量級的檢測、重識別、追蹤訓(xùn)練數(shù)據(jù);多項相關(guān)開放服務(wù),如人體檢測、人體追蹤、人體屬性識別、靜態(tài)/動態(tài)人流統(tǒng)計等,已構(gòu)成完整的B端人體分析服務(wù)矩陣。對內(nèi)支持百度智能云、自動駕駛等業(yè)務(wù);并通過百度大腦AI開放平臺對外開放,服務(wù)各行各業(yè)。未來,百度視覺技術(shù)團隊會繼續(xù)推進多目標追蹤領(lǐng)域的創(chuàng)新性工作,并爭取在更多實際應(yīng)用場景實現(xiàn)落地。
視覺技術(shù)是百度大腦核心技術(shù)能力之一,其領(lǐng)先國際的技術(shù)優(yōu)勢為開發(fā)者帶來了更多創(chuàng)新的機會。此次在MOT測評中的奪冠,是百度大腦技術(shù)實力的有力證明,也為百度人工智能“巨樹”再添碩果。據(jù)了解,百度視覺技術(shù)團隊不僅獲得多項國際賽事的第一名,還在CVPR、ICCV、ECCV、AAAI等多項計算機視覺頂會上發(fā)表文章。
百度大腦是百度AI技術(shù)多年積累和業(yè)務(wù)實踐的集大成,除了視覺技術(shù)領(lǐng)跑國際,在深度學(xué)習(xí)領(lǐng)域也頻頻發(fā)力。一站式深度學(xué)習(xí)開發(fā)平臺AI Studio更送出1億元免費算力,為普通開發(fā)者破除算力桎梏。
未來,百度大腦將持續(xù)秉持AI普惠的價值理念,一面在產(chǎn)業(yè)實踐中不斷打磨,超越自我勇攀高峰,一面高瞻遠矚、開山辟路,為開發(fā)者建立完善的AI生態(tài)環(huán)境,以技術(shù)改變生活、服務(wù)社會,為推動人類的文明與發(fā)展貢獻自己的AI之力。
榜單收錄、高管收錄、融資收錄、活動收錄可發(fā)送郵件至news#citmt.cn(把#換成@)。
海報生成中...