自主學(xué)習(xí)丨大創(chuàng)項(xiàng)目:一種基于深度學(xué)習(xí)的多模態(tài)長(zhǎng)內(nèi)容不實(shí)信息檢測(cè)方法

發(fā)布人:林柱良

必贏3003no1線路檢測(cè)中心重視學(xué)生實(shí)踐能力、創(chuàng)新思維及團(tuán)隊(duì)精神的培養(yǎng),鼓勵(lì)推動(dòng)學(xué)生參與創(chuàng)新創(chuàng)業(yè)項(xiàng)目,推進(jìn)學(xué)院拔尖創(chuàng)新人才的培養(yǎng)工作,推進(jìn)“五個(gè)融合”。在2022年大學(xué)生創(chuàng)新創(chuàng)業(yè)訓(xùn)練計(jì)劃項(xiàng)目(以下簡(jiǎn)稱大創(chuàng)項(xiàng)目)結(jié)題答辯中,有三個(gè)項(xiàng)目組被評(píng)定為優(yōu)秀。學(xué)院公眾號(hào)特推出大創(chuàng)項(xiàng)目?jī)?yōu)秀小組系列推送,希望必贏3003no1線路檢測(cè)中心全體學(xué)生以此為榜樣,積極參與科研訓(xùn)練實(shí)踐。

小組簡(jiǎn)介

項(xiàng)目主題:一種基于深度學(xué)習(xí)的多模態(tài)長(zhǎng)內(nèi)容不實(shí)信息檢測(cè)方法

項(xiàng)目負(fù)責(zé)人和成員

       楊翼飛,項(xiàng)目負(fù)責(zé)人,必贏3003no1線路檢測(cè)中心2020級(jí)本科生,具有一定基礎(chǔ),在各級(jí)專業(yè)相關(guān)比賽中獲得過一些獎(jiǎng)項(xiàng)和榮譽(yù)表彰。

       鐘悅東,必贏3003no1線路檢測(cè)中心2020級(jí)本科生,具有一定基礎(chǔ),對(duì)技術(shù)有較強(qiáng)熱情,獲得過校級(jí)相關(guān)比賽獎(jiǎng)項(xiàng)。

       鄭燦峰 ,必贏3003no1線路檢測(cè)中心2020級(jí)本科生,具有一定基礎(chǔ),獲得過校級(jí)和院級(jí)的專業(yè)比賽獎(jiǎng)項(xiàng)。

       張俊鵬,必贏3003no1線路檢測(cè)中心2020級(jí)本科生,具有一定基礎(chǔ),多次參與學(xué)校ACM競(jìng)賽并獲獎(jiǎng),在相關(guān)領(lǐng)域有一定研究。

       張翀宇,計(jì)算機(jī)學(xué)院計(jì)算機(jī)科學(xué)與技術(shù)專業(yè)2020級(jí)本科生,有較強(qiáng)學(xué)習(xí)熱情和一定的開源項(xiàng)目經(jīng)驗(yàn),在校多次獲得院級(jí)及校級(jí)表彰。

立項(xiàng)等級(jí):校級(jí)

項(xiàng)目評(píng)級(jí):優(yōu)秀

項(xiàng)目介紹

隨著移動(dòng)互聯(lián)網(wǎng)的飛速發(fā)展,海量信息不斷涌現(xiàn),相比于以前人們更多從官方渠道獲得消息,當(dāng)前人們獲取信息的渠道得到了極大的拓展,但這也間接導(dǎo)致了新的傳播問題出現(xiàn)——網(wǎng)絡(luò)謠言。謠言幾乎伴隨著人類語(yǔ)言一同誕生,在互聯(lián)網(wǎng)時(shí)代之前,謠言基本上只能靠面對(duì)面的交流口口相傳,相對(duì)而言傳播速度可控,傳播范圍也算不上廣泛。但如今借助發(fā)達(dá)的網(wǎng)絡(luò),謠言可以在極短時(shí)間內(nèi)達(dá)到世界范圍內(nèi)的傳播,其對(duì)社會(huì)的負(fù)面影響程度也因此有了極大的提高。 

在互聯(lián)網(wǎng)時(shí)代,每一刻都會(huì)有無數(shù)新的信息產(chǎn)生,靠人工逐一核實(shí)正確性是一項(xiàng)不可能完成的任務(wù),自動(dòng)化地對(duì)不實(shí)信息進(jìn)行檢測(cè)就成為了一個(gè)學(xué)界密切關(guān)注的研究話題。對(duì)于英文不實(shí)信息的研究起步相對(duì)較早,在2012年就出現(xiàn)了有關(guān)Twitter中不實(shí)消息的基礎(chǔ)研究;而面向中文互聯(lián)網(wǎng),在2015年,清華大學(xué)自然語(yǔ)言處理與社會(huì)人文計(jì)算實(shí)驗(yàn)室團(tuán)隊(duì)也對(duì)微博不實(shí)信息進(jìn)行了基本的統(tǒng)計(jì)研究。此后,很多基于文本特征的機(jī)器學(xué)習(xí)方法被嘗試使用在了網(wǎng)絡(luò)不實(shí)信息檢測(cè)中,2017年的研究在僅使用詞袋模型的情況下對(duì)于微博數(shù)據(jù)集的檢測(cè)取得了不錯(cuò)的成績(jī)。

隨著在自然語(yǔ)言處理領(lǐng)域具有跨時(shí)代意義的BERT模型的提出,基于文本特征的互聯(lián)網(wǎng)信息真實(shí)性驗(yàn)證算法也有了井噴式的發(fā)展,騰訊實(shí)驗(yàn)室的相關(guān)研究便證明了BERT模型在中文語(yǔ)境下也能有優(yōu)秀的表現(xiàn)。  

互聯(lián)網(wǎng)信息往往不止包含單純的文本信息,其中包含的其它信息也能成為識(shí)別信息真實(shí)性的關(guān)鍵點(diǎn),因此也一直有相關(guān)研究出現(xiàn)。2016年就有研究通過識(shí)別極端用戶檢測(cè)Twitter上有關(guān)信息的真實(shí)性,近來也有一些通過識(shí)別評(píng)論信息、時(shí)間屬性和地理位置屬性等來進(jìn)行謠言檢測(cè)的方法出現(xiàn)。而對(duì)于在互聯(lián)網(wǎng)消息中信息量最大的圖像等多媒體信息,由于學(xué)界長(zhǎng)期以來缺少對(duì)應(yīng)的深度挖掘,在2017年才有了最初的有關(guān)文本-圖像融合多模態(tài)信息相關(guān)研究出現(xiàn),但一經(jīng)提出就出現(xiàn)了大量的研究成果,有研究提出了一種對(duì)于圖像信息進(jìn)行頻率域和像素域組合分析的模型MVNN,在對(duì)公開數(shù)據(jù)集的分析上取得了很好的成績(jī)。  

在本項(xiàng)目組的研究中,我們針對(duì)中文長(zhǎng)內(nèi)容的圖像-文本雙模態(tài)信息,結(jié)合使用BERT算法和MVNN圖像真實(shí)性識(shí)別模型,提出了一種基于注意力機(jī)制的用于檢測(cè)“圖像 + 文本”多模態(tài)中文長(zhǎng)內(nèi)容信息真實(shí)性的深度學(xué)習(xí)模型。在構(gòu)造過程中,模型綜合使用了GPT-2、BERT等多種優(yōu)秀深度學(xué)習(xí)模型和算法,并使用注意力機(jī)制進(jìn)行模態(tài)融合和模型整合。在實(shí)驗(yàn)過程中,我們也成功構(gòu)建了一個(gè)中文多模態(tài)長(zhǎng)內(nèi)容不實(shí)信息數(shù)據(jù)集,并使用該自建數(shù)據(jù)集和業(yè)界通用的公開數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),和學(xué)界已有成果相比,我們的工作性能達(dá)到了一線水平,基本達(dá)到了立項(xiàng)時(shí)的目標(biāo)。

image-20230403150913-1

▲該項(xiàng)目組所提出的網(wǎng)絡(luò)模型

小組心得體會(huì)

在近一年的大創(chuàng)項(xiàng)目學(xué)習(xí)實(shí)踐過程中,本項(xiàng)目組成員掌握了機(jī)器學(xué)習(xí)與深度學(xué)習(xí)的一般原理和方法,對(duì)于自然語(yǔ)言處理和多模態(tài)深度學(xué)習(xí)領(lǐng)域的一線知識(shí)和研究成果有了一定了解,提高了自己的論文閱讀能力、團(tuán)隊(duì)協(xié)作能力和算法工程能力。


在進(jìn)行大創(chuàng)項(xiàng)目的過程中,來自不同學(xué)院的同學(xué)共同組成的小組從零開始接觸一個(gè)新的領(lǐng)域。小組成員們從剛開始信心滿滿到一次次碰壁,從幾近放棄到重燃希望,最終交出的答卷雖然不能讓自己完全滿意,但終究也是大家汗水與智慧的結(jié)晶。還記得一年前,項(xiàng)目組五位成員中有三位剛剛從其他工科專業(yè)轉(zhuǎn)入軟件工程相關(guān)專業(yè),對(duì)于專業(yè)前沿知識(shí)知之甚少。而一年之后,小組成員們對(duì)于專業(yè)現(xiàn)狀有了相對(duì)清晰的認(rèn)知,對(duì)于自己的未來也有了相對(duì)明確的規(guī)劃,其中三位同學(xué)還獲得了頭部互聯(lián)網(wǎng)公司的實(shí)習(xí)機(jī)會(huì)??傊瑥拇蠖酱笕?,大創(chuàng)項(xiàng)目的科研工作對(duì)于我們小組的成員而言,都是一段難得且寶貴的學(xué)習(xí)經(jīng)歷。

image 185

▲成員們?cè)谟懻擁?xiàng)目進(jìn)度

導(dǎo)師介紹和寄語(yǔ)

導(dǎo)師介紹

image 184

▲導(dǎo)師:蘇玉鑫

        蘇玉鑫,助理教授,碩士生導(dǎo)師,中國(guó)計(jì)算機(jī)學(xué)會(huì)服務(wù)計(jì)算專委會(huì)執(zhí)行委員。2021年7月入選必贏3003no1線路檢測(cè)中心百人計(jì)劃,加入必贏3003no1線路檢測(cè)中心。主要研究方向?yàn)槿斯ぶ悄芘c系統(tǒng)軟件的融合,具體包括分布式系統(tǒng)、云計(jì)算、云原生系統(tǒng)、機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘、計(jì)算機(jī)視覺、云系統(tǒng)可靠性與智能運(yùn)維(AIOps)等。近年來在國(guó)際會(huì)議和期刊共發(fā)表20余篇論文,其中17篇發(fā)表于ASE、ICSE、ISSTA、FAST、CVPR、SIGIR、AAAI、IJCAI、CSUR、TKDE等軟件工程、操作系統(tǒng)、分布式系統(tǒng)、計(jì)算機(jī)視覺、人工智能、數(shù)據(jù)挖掘等領(lǐng)域CCF A類頂級(jí)會(huì)議與期刊。

導(dǎo)師寄語(yǔ)

該項(xiàng)目組成員在選題、立項(xiàng)階段就立志于解決現(xiàn)實(shí)社會(huì)中的熱點(diǎn)問題,經(jīng)過一番討論最終聚焦于謠言檢測(cè)。同學(xué)們?cè)陧?xiàng)目實(shí)施過程中,學(xué)會(huì)了閱讀前沿學(xué)術(shù)論文、實(shí)現(xiàn)具有未知和挑戰(zhàn)性的程序,經(jīng)歷了完整的科研訓(xùn)練。通過一點(diǎn)一滴的努力最終實(shí)現(xiàn)了優(yōu)越的實(shí)驗(yàn)效果,結(jié)項(xiàng)時(shí)也獲得評(píng)委老師們的一致好評(píng)。希望小組成員們可以繼續(xù)深入開展研究工作,利用自己所學(xué),為經(jīng)濟(jì)發(fā)展、社會(huì)進(jìn)步不斷地添磚加瓦。