• <acronym id="rl541"></acronym>

  • 讓機器“多感官進化”——云從科技x上海交大跨模態技術成果入選頂會EMNLP?2021

    2021-11-12
    back



       讓機器實現多感官同步進化,

       做到像人類一樣同時看懂、聽懂、讀懂


    近日,國際NLP領域頂級會議EMNLP 2021正式舉辦。云從科技與上海交通大學聯合研究團隊的《Relation-aware Network:探索視頻片段定位任務中的多種層面關系》成功入選會議論文,并于大會進行線上宣講。

    EMNLP(Conference on Empirical Methods in Natural Language Processing)是計算語言學和自然語言處理領域的頂級國際會議之一,由國際語言學會(ACL)旗下SIGDAT組織。EMNLP論文入選標準十分嚴格,今年論文錄取率僅23.3%,相比去年略有下降。EMNLP學術會議上展示的研究成果,被認為代表著自然語言處理領域的前沿水平與未來發展方向。


    本次云從科技與上海交大聯合團隊的入選論文,圍繞“基于語言查詢的視頻片段定位”這一視覺-文本的跨模態任務,將NLP與視覺技術結合,技術讓機器同時具備“理解文字”和“看懂視頻”的能力:能夠更精準地讀懂文字,并理解視頻內容,在整段視頻中找出與給定文字相對應的視頻片段。該項成果在多個數據集上,都取得了優于過去研究的表現。


    這一成果在技術研究與實踐領域都具有十分重要的意義:


    技術上讓機器實現“多感官進化”

    在云從看來,視覺、聽覺等單點AI技術,將越來越難以滿足多樣的應用需求。云從與上交大的該項技術,旨在讓機器向完成“跨模態任務”進化:讓機器能夠同時掌握視覺、文字等多種模態的信息,做到像人類一樣看懂、聽懂、讀懂,擁有全面的能力。近年來在學界,跨模態任務已成為一大研究熱點,為AI領域注入新的活力。

    突破單點技術,擴大跨模態應用場景

    在實戰場景中,隨著高清攝像頭的普及以及網絡媒體的快速發展,各式各樣的視頻呈海量增長態勢,自動化視頻處理AI技術也迎來巨大的需求。云從與上海交大的本項成果——基于語言查詢的視頻片段定位技術,能夠有效解決治理、出行等多領域的難點問題,例如公共場合下的安全監控、社交媒體視頻內容的審核等等,突破以往的單點技術應用瓶頸,帶來數量級的效率提升。


    今年以來云從的多項技術頻頻在國際權威數據集、頂級會議上收獲佳績:本次入選EMNLP,也是云從今年在繼視覺、語音等領先技術獲得國際認可后,在NLP領域斬獲的又一成果。NLP等決策技術被認為是AI領域下一個技術突破口,使機器擁有理解、思考、分析決策的能力,為人機交互、行業應用等帶來顛覆式改變。


    在技術持續領先與創新的背后,是云從對于技術與產業變革的深刻理解。

    人工智能產業經歷了單點技術的發展后,如今已來到云從定義的“二浪時代”,客戶尋求以智能解決方案實現全業務鏈條的 AI 賦能,形成行業價值閉環。云從緊密把握產業趨勢,突破了一般AI企業單點技術的局限,構筑起感知-認知-決策的核心技術閉環,憑借原創的核心技術,打造更全面的人機協同操作操作系統與行業智能化解決方案,加快各行業的智能化變革。



    論文解讀

    云從科技與上海交通大學聯合研究團隊提出Relation-aware Network,探索視頻片段定位任務中的多種層面關系




    1

    //  概述

    基于語言查詢的視頻片段定位任務(Temporal Language Grounding):該任務是給定一個視頻和一段描述語句,通過融合視覺和語言兩種模態的信息,在視頻中定位出語言所描述內容的視頻片段。隨著高清攝像頭的普及以及網絡媒體的快速發展,每天都會出現大量各式各樣的視頻,作為視覺-文本的跨模態任務,基于語言查詢的視頻片段定位也受到了越來越多的關注。

    一方面,已有的視頻片段定位方法通常只考慮了視頻片段和整個句子的關系,而忽略了視頻片段和句子中每個詞語這種更加細致的關系,這樣就不能全面地交互視覺和語言的信息,上交和云從聯合團隊的研究者們提出了一種coarse-and-fine的交互方式,從粗粒度和細粒度的角度同時考慮了視頻片段-句子層面和關系和視頻片段-詞語層面的關系。另一方面,現有的工作往往忽視了不同視頻片段之間的關系,或者僅僅采用了幾層卷積網絡的堆疊,存在計算量大、有噪聲影響等缺點,本文的研究者們提出了一種稀疏連接的圖網絡,僅僅考慮了起始或者終止時間相同的視頻片段,高效地建模了不同視頻片段之間的關系,幫助模型更好地區分視覺上相似的視頻片段。


    2

    //  研究方法

     研究者們認為,基于語言查詢的視頻片段定位任務(Temporal Language Grounding),在某種程度上和自然語言理解中的多項選擇閱讀理解任務(Multi-choice Reading Comprehension)類似,可以把給定的視頻、查詢語言以及候選的視頻片段分別類比為閱讀理解中的文章、問題和候選答案。在將問題轉化為閱讀理解任務之后,研究者們提出了RaNet來解決該問題。




    RaNet一共包含5個部分:(1)多模態的特征編碼模塊;(2)候選視頻片段的生成模塊;(3)候選視頻片段和查詢語句的交互模塊;(4)不同視頻片段的關系構建模塊;(5)結果選擇模塊。(詳情請見論文原文)


    3

    //  實驗結果

    研究者們通過大量的實驗驗證了RaNet對于基于語言查詢的視頻片段定位任務的有效性。

    與SOTA模型的比較:

    本文在3個常見數據集TACoS、Charades-STA、ActivityNet Captions上,采用了Rank n@m評價指標,與以往的工作進行了對比,在3個數據集上基本都取得了SOTA的表現。




    4

    //  結論

    針對基于語言查詢的視頻片段定位這個任務,云從-上交大聯合研究團隊提出了探索多層關系的RaNet,將視頻片段定位類比為自然語言處理中的多項選擇閱讀理解,同時建模了視頻片段-句子層面和視頻片段-單詞層面的關系,并且提出了一種稀疏連接的圖網絡高效地建模了不同視頻片段之間的關系,在公開數據集上取得了SOTA表現。

    更多的技術細節請見論文原文

    論文地址:https://arxiv.org/abs/2110.05717

    代碼地址:https://github.com/Huntersxsx/RaNet


    參考文獻

     

    [1] Songyang Zhang, Houwen Peng, Jianlong Fu, and Jiebo Luo. 2020b. Learning 2d temporal adjacent networks for moment localization with natural language.  In Proceedings of the AAAI Conference on Artificial Intelligence, volume 34, pages 12870–12877.

    [2] Mengmeng Xu, Chen Zhao, David S. Rojas, Ali Thabet, and Bernard Ghanem. 2020. G-tad: Sub-graph localization for temporal action detection. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).

    [3] Zilong Huang, Xinggang Wang, Lichao Huang, Chang Huang, Yunchao Wei, and Wenyu Liu. 2019. Ccnet: Criss-cross attention for semantic segmentation. In

    2019 IEEE/CVF International Conference on Computer Vision (ICCV), pages 603–612.



    您可能感興趣

    全國熱線電話

    400-151-5992

    周一到周五9:30-18:00(北京時間)

    • 商務合作:business@cloudwalk.com

    • 媒體合作:Media@cloudwalk.com

    • 渠道合作:business_partner@cloudwalk.com

    Copyright? 2022 粵公網安備 44011502000477號

    粵ICP備15087156號 云從科技集團股份有限公司 CloudWalk Technology Co., Ltd.

    AI開放平臺/云從logo/使用條款/法律聲明/防詐騙聲明
    關注我們

    掃描二維碼,關注云從科技
    精彩一手掌握

    亚洲国产另类久久久精品女同

    留言咨詢

    請填寫以下表格,我們的銷售代表會盡快與您聯系

    • 姓名 *
    • 工作郵箱
    • 電話 *
    • 城市 *
    • 公司名稱 *
    • 行業
    • 職位
    • 產品/解決方案
      AI定義設備
      場景定義設備
      機場專用產品
      刷臉支付終端
      活體模組
      智慧金融
      智慧治理
      智慧交通
      智慧商業
    • 預算
    • 請輸入需求描述 *

    提交成功

    我們的銷售代表會盡快與您聯系