再傳喜訊！百度大腦實現(xiàn)多目標(biāo)追蹤突破躍居MOT榜單第一

2019/05/13 10:44 IT產(chǎn)業(yè)網(wǎng)

　　5月7日，在國際權(quán)威的多目標(biāo)追蹤挑戰(zhàn)(Multiple Object Tracking Challenge，MOT)的MOT16榜單上，百度視覺技術(shù)團(tuán)隊超越平安科技、商湯科技、上海交大等眾多實力強(qiáng)勁團(tuán)隊，獲得榜單世界第一的好成績。MOTA指標(biāo)顯著提升，超越第二名1.8個點(diǎn);其中MOTA為誤檢、漏檢、ID交換三個指標(biāo)綜合平均值。

　　2019年上半年，百度視覺技術(shù)團(tuán)隊已分別在CVPR 2019活體、ICME2019人臉Keypoint、Widerface等賽事獲得第一。此次MOT比賽是百度視覺技術(shù)團(tuán)隊又一次奪冠，是在實踐“領(lǐng)先且實用的AI視覺技術(shù)”，同時是視頻新領(lǐng)域的又一次突破。

　　(MOT16評測集排名，百度位居榜首)

　　Multiple Object Tracking Challenge是國際多目標(biāo)跟蹤領(lǐng)域最權(quán)威的測評平臺，由阿德萊德大學(xué)、蘇黎世聯(lián)邦理工學(xué)院以及達(dá)姆施塔特工業(yè)大學(xué)聯(lián)合創(chuàng)辦，是世界各大AI研究機(jī)構(gòu)必爭之地。

　　該平臺針對多行人對象在復(fù)雜場景下的運(yùn)動軌跡，來評測算法同時進(jìn)行檢測及追蹤的性能，目前主要包含MOT15、MOT16、MOT17三個評測集，其中MOT16允許參賽隊自定義檢測器，并對目標(biāo)檢測、特征提取及追蹤等多模塊的綜合效果進(jìn)行測評，因此更具有挑戰(zhàn)性和實用性。

　　此次，百度視覺技術(shù)團(tuán)隊正是在MOT16評測集中勇奪桂冠，超越來自平安科技、商湯科技、�？低暋Ⅱv訊優(yōu)圖、NEC北美研究院、上海交大、斯坦福大學(xué)等多支實力強(qiáng)勁的世界知名高校和公司團(tuán)隊，技術(shù)實力不容小覷。

　　在檢測、重識別、多目標(biāo)追蹤等相關(guān)算法上，百度視覺技術(shù)團(tuán)隊做了諸多創(chuàng)新和改進(jìn)。檢測部分，基于百度自主研發(fā)的開源深度學(xué)習(xí)平臺PaddlePaddle，選擇更強(qiáng)大的分類底座網(wǎng)絡(luò)并使用多尺度特征提取、改善物體模板以提升對微小目標(biāo)的召回能力、并利用級聯(lián)網(wǎng)絡(luò)結(jié)構(gòu)對目標(biāo)框進(jìn)行更精細(xì)的回歸;行人重識別部分，采用自研的基于多樣例注意力方法，能夠進(jìn)一步挖掘樣本在“困難區(qū)域”的細(xì)粒度特征，從而提高相似樣本在特征空間的可區(qū)分性;追蹤部分，采用基于行人重識別的序列特征相似度模型進(jìn)行目標(biāo)軌跡匹配、并利用時空特征來降低密集多目標(biāo)跟蹤的軌跡交換問題。

　　除此之外，深度學(xué)習(xí)平臺PaddlePaddle也是視覺技術(shù)團(tuán)隊“披荊斬棘”的利器之一。PaddlePaddle是集深度學(xué)習(xí)核心框架、工具組件和服務(wù)平臺為一體的技術(shù)領(lǐng)先、功能完備的開源深度學(xué)習(xí)平臺，而且PaddlePaddle在視覺技術(shù)上有深厚的積累，官方已開源覆蓋分類、檢測、語義分割、OCR、GAN、人體關(guān)鍵點(diǎn)檢測等類別，基于真實業(yè)務(wù)場景驗證的優(yōu)質(zhì)模型。上個月，PaddlePaddle聯(lián)合視覺技術(shù)團(tuán)隊重磅發(fā)布了視頻識別工具集，覆蓋主流實用的序列建模算法與端到端視頻識別模型，可一鍵式任務(wù)啟動，公開數(shù)據(jù)集下載，數(shù)據(jù)預(yù)處理，模型訓(xùn)練，模型inference一步到位。后續(xù)將會擴(kuò)展以解決視頻理解、視頻編輯、視頻生成等一系列視頻理解任務(wù)。

　　PaddlePaddle還對深度學(xué)習(xí)模型訓(xùn)練中顯存占用及數(shù)據(jù)處理速度進(jìn)行專項優(yōu)化。以語義分割Deeplabv3+為例，針對顯存消耗分析與解決，冗余前向計算，GPU CPU內(nèi)存交換，使用16位浮點(diǎn)數(shù)等等，讓開發(fā)者可在相同的計算設(shè)備上訓(xùn)練更大的模型，還可以在消費(fèi)級別顯卡上完成訓(xùn)練。在數(shù)據(jù)處理上，優(yōu)化分布式 IO，增加遠(yuǎn)程文件系統(tǒng)流式讀取能力。GPU 多機(jī)多卡同步訓(xùn)練通過增加稀疏通信能力提升帶寬不敏感訓(xùn)練能力，在低配網(wǎng)絡(luò)帶寬網(wǎng)絡(luò)環(huán)境下，例如10 G 網(wǎng)絡(luò)下，同步訓(xùn)練可提速10倍。另外PaddlePaddle對單機(jī)多設(shè)備及多機(jī)分布式訓(xùn)練支持也非常友好，相對于單設(shè)備訓(xùn)練，用戶幾乎不用對模型進(jìn)行任何修改，可以低成本的實現(xiàn)單機(jī)多CPU/GPU訓(xùn)練;而對于多機(jī)分布式訓(xùn)練，只需要簡單的配置，用戶即可方便地從模型構(gòu)建快速過渡到多種環(huán)境下的模型運(yùn)行。

　　從實際應(yīng)用角度，多目標(biāo)追蹤是視頻理解和分析領(lǐng)域的核心技術(shù)之一。近年來，隨著人工智能技術(shù)的不斷落地，多目標(biāo)追蹤在城市安防、客流分析、智慧零售、文體直播等多項重要應(yīng)用場景(尤其是AI to B場景)發(fā)揮出日益重要的作用。

　　基于對多目標(biāo)追蹤技術(shù)的重視，百度視覺技術(shù)團(tuán)隊已在此方向積累百萬量級的檢測、重識別、追蹤訓(xùn)練數(shù)據(jù);多項相關(guān)開放服務(wù)，如人體檢測、人體追蹤、人體屬性識別、靜態(tài)/動態(tài)人流統(tǒng)計等，已構(gòu)成完整的B端人體分析服務(wù)矩陣。對內(nèi)支持百度智能云、自動駕駛等業(yè)務(wù);并通過百度大腦AI開放平臺對外開放，服務(wù)各行各業(yè)。未來，百度視覺技術(shù)團(tuán)隊會繼續(xù)推進(jìn)多目標(biāo)追蹤領(lǐng)域的創(chuàng)新性工作，并爭取在更多實際應(yīng)用場景實現(xiàn)落地。

　　視覺技術(shù)是百度大腦核心技術(shù)能力之一，其領(lǐng)先國際的技術(shù)優(yōu)勢為開發(fā)者帶來了更多創(chuàng)新的機(jī)會。此次在MOT測評中的奪冠，是百度大腦技術(shù)實力的有力證明，也為百度人工智能“巨樹”再添碩果。據(jù)了解，百度視覺技術(shù)團(tuán)隊不僅獲得多項國際賽事的第一名，還在CVPR、ICCV、ECCV、AAAI等多項計算機(jī)視覺頂會上發(fā)表文章。

　　百度大腦是百度AI技術(shù)多年積累和業(yè)務(wù)實踐的集大成，除了視覺技術(shù)領(lǐng)跑國際，在深度學(xué)習(xí)領(lǐng)域也頻頻發(fā)力。一站式深度學(xué)習(xí)開發(fā)平臺AI Studio更送出1億元免費(fèi)算力，為普通開發(fā)者破除算力桎梏。

　　未來，百度大腦將持續(xù)秉持AI普惠的價值理念，一面在產(chǎn)業(yè)實踐中不斷打磨，超越自我勇攀高峰，一面高瞻遠(yuǎn)矚、開山辟路，為開發(fā)者建立完善的AI生態(tài)環(huán)境，以技術(shù)改變生活、服務(wù)社會，為推動人類的文明與發(fā)展貢獻(xiàn)自己的AI之力。

IT產(chǎn)業(yè)網(wǎng)微信二維碼logo

　　榜單收錄、高管收錄、融資收錄、活動收錄可發(fā)送郵件至news#citmt.cn（把#換成@）。

海報生成中...

分享到微博分享到微信一鍵復(fù)制

標(biāo)題鏈接已成功復(fù)制

再傳喜訊！百度大腦實現(xiàn)多目標(biāo)追蹤突破躍居MOT榜單第一

最新新聞

熱門新聞

新動態(tài)

關(guān)注度

最話題

再傳喜訊！百度大腦實現(xiàn)多目標(biāo)追蹤突破 躍居MOT榜單第一

相關(guān)閱讀

最新新聞

熱門新聞

新動態(tài)

關(guān)注度

最話題

再傳喜訊！百度大腦實現(xiàn)多目標(biāo)追蹤突破躍居MOT榜單第一