5月7日,在國際權(quán)威的多目標(biāo)追蹤挑戰(zhàn)(Multiple Object Tracking Challenge,MOT)的MOT16榜單上,百度視覺技術(shù)團(tuán)隊超越平安科技、商湯科技、上海交大等眾多實力強(qiáng)勁團(tuán)隊,獲得榜單世界第一的好成績。MOTA指標(biāo)顯著提升,超越第二名1.8個點(diǎn);其中MOTA為誤檢、漏檢、ID交換三個指標(biāo)綜合平均值。
2019年上半年,百度視覺技術(shù)團(tuán)隊已分別在CVPR 2019活體、ICME2019人臉Keypoint、Widerface等賽事獲得第一。此次MOT比賽是百度視覺技術(shù)團(tuán)隊又一次奪冠,是在實踐“領(lǐng)先且實用的AI視覺技術(shù)”,同時是視頻新領(lǐng)域的又一次突破。
(MOT16評測集排名,百度位居榜首)
Multiple Object Tracking Challenge是國際多目標(biāo)跟蹤領(lǐng)域最權(quán)威的測評平臺,由阿德萊德大學(xué)、蘇黎世聯(lián)邦理工學(xué)院以及達(dá)姆施塔特工業(yè)大學(xué)聯(lián)合創(chuàng)辦,是世界各大AI研究機(jī)構(gòu)必爭之地。
該平臺針對多行人對象在復(fù)雜場景下的運(yùn)動軌跡,來評測算法同時進(jìn)行檢測及追蹤的性能,目前主要包含MOT15、MOT16、MOT17三個評測集,其中MOT16允許參賽隊自定義檢測器,并對目標(biāo)檢測、特征提取及追蹤等多模塊的綜合效果進(jìn)行測評,因此更具有挑戰(zhàn)性和實用性。
此次,百度視覺技術(shù)團(tuán)隊正是在MOT16評測集中勇奪桂冠,超越來自平安科技、商湯科技、�?低暋Ⅱv訊優(yōu)圖、NEC北美研究院、上海交大、斯坦福大學(xué)等多支實力強(qiáng)勁的世界知名高校和公司團(tuán)隊,技術(shù)實力不容小覷。
在檢測、重識別、多目標(biāo)追蹤等相關(guān)算法上,百度視覺技術(shù)團(tuán)隊做了諸多創(chuàng)新和改進(jìn)。檢測部分,基于百度自主研發(fā)的開源深度學(xué)習(xí)平臺PaddlePaddle,選擇更強(qiáng)大的分類底座網(wǎng)絡(luò)并使用多尺度特征提取、改善物體模板以提升對微小目標(biāo)的召回能力、并利用級聯(lián)網(wǎng)絡(luò)結(jié)構(gòu)對目標(biāo)框進(jìn)行更精細(xì)的回歸;行人重識別部分,采用自研的基于多樣例注意力方法,能夠進(jìn)一步挖掘樣本在“困難區(qū)域”的細(xì)粒度特征,從而提高相似樣本在特征空間的可區(qū)分性;追蹤部分,采用基于行人重識別的序列特征相似度模型進(jìn)行目標(biāo)軌跡匹配、并利用時空特征來降低密集多目標(biāo)跟蹤的軌跡交換問題。
除此之外,深度學(xué)習(xí)平臺PaddlePaddle也是視覺技術(shù)團(tuán)隊“披荊斬棘”的利器之一。PaddlePaddle是集深度學(xué)習(xí)核心框架、工具組件和服務(wù)平臺為一體的技術(shù)領(lǐng)先、功能完備的開源深度學(xué)習(xí)平臺,而且PaddlePaddle在視覺技術(shù)上有深厚的積累,官方已開源覆蓋分類、檢測、語義分割、OCR、GAN、人體關(guān)鍵點(diǎn)檢測等類別,基于真實業(yè)務(wù)場景驗證的優(yōu)質(zhì)模型。上個月,PaddlePaddle聯(lián)合視覺技術(shù)團(tuán)隊重磅發(fā)布了視頻識別工具集,覆蓋主流實用的序列建模算法與端到端視頻識別模型,可一鍵式任務(wù)啟動,公開數(shù)據(jù)集下載,數(shù)據(jù)預(yù)處理,模型訓(xùn)練,模型inference一步到位。后續(xù)將會擴(kuò)展以解決視頻理解、視頻編輯、視頻生成等一系列視頻理解任務(wù)。
PaddlePaddle還對深度學(xué)習(xí)模型訓(xùn)練中顯存占用及數(shù)據(jù)處理速度進(jìn)行專項優(yōu)化。以語義分割Deeplabv3+為例,針對顯存消耗分析與解決,冗余前向計算,GPU CPU內(nèi)存交換,使用16位浮點(diǎn)數(shù)等等,讓開發(fā)者可在相同的計算設(shè)備上訓(xùn)練更大的模型,還可以在消費(fèi)級別顯卡上完成訓(xùn)練。在數(shù)據(jù)處理上,優(yōu)化分布式 IO,增加遠(yuǎn)程文件系統(tǒng)流式讀取能力。GPU 多機(jī)多卡同步訓(xùn)練通過增加稀疏通信能力提升帶寬不敏感訓(xùn)練能力,在低配網(wǎng)絡(luò)帶寬網(wǎng)絡(luò)環(huán)境下,例如10 G 網(wǎng)絡(luò)下,同步訓(xùn)練可提速10倍。另外PaddlePaddle對單機(jī)多設(shè)備及多機(jī)分布式訓(xùn)練支持也非常友好,相對于單設(shè)備訓(xùn)練,用戶幾乎不用對模型進(jìn)行任何修改,可以低成本的實現(xiàn)單機(jī)多CPU/GPU訓(xùn)練;而對于多機(jī)分布式訓(xùn)練,只需要簡單的配置,用戶即可方便地從模型構(gòu)建快速過渡到多種環(huán)境下的模型運(yùn)行。
從實際應(yīng)用角度,多目標(biāo)追蹤是視頻理解和分析領(lǐng)域的核心技術(shù)之一。近年來,隨著人工智能技術(shù)的不斷落地,多目標(biāo)追蹤在城市安防、客流分析、智慧零售、文體直播等多項重要應(yīng)用場景(尤其是AI to B場景)發(fā)揮出日益重要的作用。
基于對多目標(biāo)追蹤技術(shù)的重視,百度視覺技術(shù)團(tuán)隊已在此方向積累百萬量級的檢測、重識別、追蹤訓(xùn)練數(shù)據(jù);多項相關(guān)開放服務(wù),如人體檢測、人體追蹤、人體屬性識別、靜態(tài)/動態(tài)人流統(tǒng)計等,已構(gòu)成完整的B端人體分析服務(wù)矩陣。對內(nèi)支持百度智能云、自動駕駛等業(yè)務(wù);并通過百度大腦AI開放平臺對外開放,服務(wù)各行各業(yè)。未來,百度視覺技術(shù)團(tuán)隊會繼續(xù)推進(jìn)多目標(biāo)追蹤領(lǐng)域的創(chuàng)新性工作,并爭取在更多實際應(yīng)用場景實現(xiàn)落地。
視覺技術(shù)是百度大腦核心技術(shù)能力之一,其領(lǐng)先國際的技術(shù)優(yōu)勢為開發(fā)者帶來了更多創(chuàng)新的機(jī)會。此次在MOT測評中的奪冠,是百度大腦技術(shù)實力的有力證明,也為百度人工智能“巨樹”再添碩果。據(jù)了解,百度視覺技術(shù)團(tuán)隊不僅獲得多項國際賽事的第一名,還在CVPR、ICCV、ECCV、AAAI等多項計算機(jī)視覺頂會上發(fā)表文章。
百度大腦是百度AI技術(shù)多年積累和業(yè)務(wù)實踐的集大成,除了視覺技術(shù)領(lǐng)跑國際,在深度學(xué)習(xí)領(lǐng)域也頻頻發(fā)力。一站式深度學(xué)習(xí)開發(fā)平臺AI Studio更送出1億元免費(fèi)算力,為普通開發(fā)者破除算力桎梏。
未來,百度大腦將持續(xù)秉持AI普惠的價值理念,一面在產(chǎn)業(yè)實踐中不斷打磨,超越自我勇攀高峰,一面高瞻遠(yuǎn)矚、開山辟路,為開發(fā)者建立完善的AI生態(tài)環(huán)境,以技術(shù)改變生活、服務(wù)社會,為推動人類的文明與發(fā)展貢獻(xiàn)自己的AI之力。
榜單收錄、高管收錄、融資收錄、活動收錄可發(fā)送郵件至news#citmt.cn(把#換成@)。
海報生成中...