自主學習丨大創(chuàng)項目:一種基于深度學習的多模態(tài)長內(nèi)容不實信息檢測方法

發(fā)布人:林柱良

必贏3003no1線路檢測中心重視學生實踐能力、創(chuàng)新思維及團隊精神的培養(yǎng),鼓勵推動學生參與創(chuàng)新創(chuàng)業(yè)項目,推進學院拔尖創(chuàng)新人才的培養(yǎng)工作,推進“五個融合”。在2022年大學生創(chuàng)新創(chuàng)業(yè)訓練計劃項目(以下簡稱大創(chuàng)項目)結(jié)題答辯中,有三個項目組被評定為優(yōu)秀。學院公眾號特推出大創(chuàng)項目優(yōu)秀小組系列推送,希望必贏3003no1線路檢測中心全體學生以此為榜樣,積極參與科研訓練實踐。

小組簡介

項目主題:一種基于深度學習的多模態(tài)長內(nèi)容不實信息檢測方法

項目負責人和成員

       楊翼飛,項目負責人,必贏3003no1線路檢測中心2020級本科生,具有一定基礎(chǔ),在各級專業(yè)相關(guān)比賽中獲得過一些獎項和榮譽表彰。

       鐘悅東,必贏3003no1線路檢測中心2020級本科生,具有一定基礎(chǔ),對技術(shù)有較強熱情,獲得過校級相關(guān)比賽獎項。

       鄭燦峰 ,必贏3003no1線路檢測中心2020級本科生,具有一定基礎(chǔ),獲得過校級和院級的專業(yè)比賽獎項。

       張俊鵬,必贏3003no1線路檢測中心2020級本科生,具有一定基礎(chǔ),多次參與學校ACM競賽并獲獎,在相關(guān)領(lǐng)域有一定研究。

       張翀宇,計算機學院計算機科學與技術(shù)專業(yè)2020級本科生,有較強學習熱情和一定的開源項目經(jīng)驗,在校多次獲得院級及校級表彰。

立項等級:校級

項目評級:優(yōu)秀

項目介紹

隨著移動互聯(lián)網(wǎng)的飛速發(fā)展,海量信息不斷涌現(xiàn),相比于以前人們更多從官方渠道獲得消息,當前人們獲取信息的渠道得到了極大的拓展,但這也間接導致了新的傳播問題出現(xiàn)——網(wǎng)絡謠言。謠言幾乎伴隨著人類語言一同誕生,在互聯(lián)網(wǎng)時代之前,謠言基本上只能靠面對面的交流口口相傳,相對而言傳播速度可控,傳播范圍也算不上廣泛。但如今借助發(fā)達的網(wǎng)絡,謠言可以在極短時間內(nèi)達到世界范圍內(nèi)的傳播,其對社會的負面影響程度也因此有了極大的提高。 

在互聯(lián)網(wǎng)時代,每一刻都會有無數(shù)新的信息產(chǎn)生,靠人工逐一核實正確性是一項不可能完成的任務,自動化地對不實信息進行檢測就成為了一個學界密切關(guān)注的研究話題。對于英文不實信息的研究起步相對較早,在2012年就出現(xiàn)了有關(guān)Twitter中不實消息的基礎(chǔ)研究;而面向中文互聯(lián)網(wǎng),在2015年,清華大學自然語言處理與社會人文計算實驗室團隊也對微博不實信息進行了基本的統(tǒng)計研究。此后,很多基于文本特征的機器學習方法被嘗試使用在了網(wǎng)絡不實信息檢測中,2017年的研究在僅使用詞袋模型的情況下對于微博數(shù)據(jù)集的檢測取得了不錯的成績。

隨著在自然語言處理領(lǐng)域具有跨時代意義的BERT模型的提出,基于文本特征的互聯(lián)網(wǎng)信息真實性驗證算法也有了井噴式的發(fā)展,騰訊實驗室的相關(guān)研究便證明了BERT模型在中文語境下也能有優(yōu)秀的表現(xiàn)。  

互聯(lián)網(wǎng)信息往往不止包含單純的文本信息,其中包含的其它信息也能成為識別信息真實性的關(guān)鍵點,因此也一直有相關(guān)研究出現(xiàn)。2016年就有研究通過識別極端用戶檢測Twitter上有關(guān)信息的真實性,近來也有一些通過識別評論信息、時間屬性和地理位置屬性等來進行謠言檢測的方法出現(xiàn)。而對于在互聯(lián)網(wǎng)消息中信息量最大的圖像等多媒體信息,由于學界長期以來缺少對應的深度挖掘,在2017年才有了最初的有關(guān)文本-圖像融合多模態(tài)信息相關(guān)研究出現(xiàn),但一經(jīng)提出就出現(xiàn)了大量的研究成果,有研究提出了一種對于圖像信息進行頻率域和像素域組合分析的模型MVNN,在對公開數(shù)據(jù)集的分析上取得了很好的成績。  

在本項目組的研究中,我們針對中文長內(nèi)容的圖像-文本雙模態(tài)信息,結(jié)合使用BERT算法和MVNN圖像真實性識別模型,提出了一種基于注意力機制的用于檢測“圖像 + 文本”多模態(tài)中文長內(nèi)容信息真實性的深度學習模型。在構(gòu)造過程中,模型綜合使用了GPT-2、BERT等多種優(yōu)秀深度學習模型和算法,并使用注意力機制進行模態(tài)融合和模型整合。在實驗過程中,我們也成功構(gòu)建了一個中文多模態(tài)長內(nèi)容不實信息數(shù)據(jù)集,并使用該自建數(shù)據(jù)集和業(yè)界通用的公開數(shù)據(jù)集進行實驗,和學界已有成果相比,我們的工作性能達到了一線水平,基本達到了立項時的目標。

image-20230403150913-1

▲該項目組所提出的網(wǎng)絡模型

小組心得體會

在近一年的大創(chuàng)項目學習實踐過程中,本項目組成員掌握了機器學習與深度學習的一般原理和方法,對于自然語言處理和多模態(tài)深度學習領(lǐng)域的一線知識和研究成果有了一定了解,提高了自己的論文閱讀能力、團隊協(xié)作能力和算法工程能力。


在進行大創(chuàng)項目的過程中,來自不同學院的同學共同組成的小組從零開始接觸一個新的領(lǐng)域。小組成員們從剛開始信心滿滿到一次次碰壁,從幾近放棄到重燃希望,最終交出的答卷雖然不能讓自己完全滿意,但終究也是大家汗水與智慧的結(jié)晶。還記得一年前,項目組五位成員中有三位剛剛從其他工科專業(yè)轉(zhuǎn)入軟件工程相關(guān)專業(yè),對于專業(yè)前沿知識知之甚少。而一年之后,小組成員們對于專業(yè)現(xiàn)狀有了相對清晰的認知,對于自己的未來也有了相對明確的規(guī)劃,其中三位同學還獲得了頭部互聯(lián)網(wǎng)公司的實習機會。總之,從大二到大三,大創(chuàng)項目的科研工作對于我們小組的成員而言,都是一段難得且寶貴的學習經(jīng)歷。

image 185

▲成員們在討論項目進度

導師介紹和寄語

導師介紹

image 184

▲導師:蘇玉鑫

        蘇玉鑫,助理教授,碩士生導師,中國計算機學會服務計算專委會執(zhí)行委員。2021年7月入選必贏3003no1線路檢測中心百人計劃,加入必贏3003no1線路檢測中心。主要研究方向為人工智能與系統(tǒng)軟件的融合,具體包括分布式系統(tǒng)、云計算、云原生系統(tǒng)、機器學習、數(shù)據(jù)挖掘、計算機視覺、云系統(tǒng)可靠性與智能運維(AIOps)等。近年來在國際會議和期刊共發(fā)表20余篇論文,其中17篇發(fā)表于ASE、ICSE、ISSTA、FAST、CVPR、SIGIR、AAAI、IJCAI、CSUR、TKDE等軟件工程、操作系統(tǒng)、分布式系統(tǒng)、計算機視覺、人工智能、數(shù)據(jù)挖掘等領(lǐng)域CCF A類頂級會議與期刊。

導師寄語

該項目組成員在選題、立項階段就立志于解決現(xiàn)實社會中的熱點問題,經(jīng)過一番討論最終聚焦于謠言檢測。同學們在項目實施過程中,學會了閱讀前沿學術(shù)論文、實現(xiàn)具有未知和挑戰(zhàn)性的程序,經(jīng)歷了完整的科研訓練。通過一點一滴的努力最終實現(xiàn)了優(yōu)越的實驗效果,結(jié)項時也獲得評委老師們的一致好評。希望小組成員們可以繼續(xù)深入開展研究工作,利用自己所學,為經(jīng)濟發(fā)展、社會進步不斷地添磚加瓦。