編者按:網絡與新媒體的發展,用戶參與網絡形式和內容呈現多元化,也導致了多樣化數據的產生,非結構化輿情數據及相互關系的處理已成為必然,這與傳統結構化或同構輿情數據處理相比,在方法和技術方面都存在巨大挑戰和困難。湖南師范大學新聞與傳播學院段峰峰和陳淼在《傳媒觀察》2020年第1期發表論文,針對不斷增多的熱點事件網絡輿情異構及非結構化數據,通過引入人工智能理論和技術,提出了跨媒體網絡輿情數據智能分析與處理六個研究方向和技術實踐思路,從而全面、精準地應對輿情。
隨著網絡與新媒體的發展,網絡輿情傳播對政治輿論與秩序、社會生活等諸多領域的影響不斷增強。輿情信息也不再只是文本、數字等結構化數據,圖像、音頻、視頻等非結構化數據逐漸增多,當某一輿情事件產生時,與該事件相關的多種類型媒體數據可能在網絡中迅速傳播。媒體數據多元化的趨勢下,考察非結構化的輿情信息,研究異構輿情數據獲取、分析與處理,成為輿情預警和有效應對的關鍵。
目前常用的輿情監測系統主要是針對結構化和半結構化數據,采集的一般都是網頁文本數據,不能實現不同媒體形式間的關聯搜索。根據話題活躍程度或話題數量能夠發現和識別熱點話題,但無法實現跨媒體話題識別與追蹤,難以實現非結構化輿情熱度的預測。
隨著新一代人工智能的勃興,一些學者分析了人工智能技術在網絡輿情監測和應對中的應用及價值,提出了人工智能應用于網絡輿情數據分析各環節的范式,并且大多都強調了語義分析的重要性。而在實踐應用領域,人工智能對網絡輿情研究的最重要影響在于,將推動跨媒體網絡輿情數據的智能分析與處理。
傳播機理探索
網絡輿情傳播及演化,一方面是所處環境文化價值觀的體現,受意見領袖和議程設置的影響,表現為沉默的螺旋和群體極化下的認同或否定,參與者為了表達這種認同或否定,會以多元化的有力證據證明自己的認知價值觀;另一方面是參與者個人心理傾向的體現,受秩序、公民權和力量欲望的影響,表現為開放互聯網環境下的表達欲和分享欲。參與者為了實現由于表達和分享而帶來的自我滿足感、公民權訴求和對他人的影響,會采用更加豐富多彩的方式來進行觀點和內容呈現,以吸引他人關注。
大量參與者以多元化的證據以及豐富多彩的觀點和內容等多種不同方式的參與,導致了輿情的快速傳播與擴散,跨媒體網絡輿情大數據隨之不斷生成??缑襟w輿情數據在形式上的最大特征即異構性,針對異構輿情數據結構和特點,可以利用智能推理及貝葉斯網絡方法和技術進行異構內容語義特征分析,來探尋不同媒體數據類型相關關系的本質以及輿情熱點演化關系;并通過挖掘不同媒體類型輿情數據傳播特點、相互作用機制、傳播過程、傳播路徑及互動關系等,來實現跨媒體網絡輿情傳播機理解析。
智能檢索技術
不同于同構媒體間的匹配檢索,跨媒體網絡輿情大數據的檢索,關鍵在于依據同一輿情事件的語義實現異構媒體數據間的互動檢索,這就可以利用人工智能相關技術進行跨媒體數據間關系的建立以及特征分析和匹配。(1)跨模態(Cross-Modality)特征提取及融合。采用人工智能深度學習的理論和方法對異構跨模態特征進行提取,即基于卷積神經網絡的深度學習算法,采用多層學習方式實現特征檢測及提取,根據特征貢獻量,對異構特征進行均衡處理,實現特征融合,獲取高維多階特征。(2)海量網絡數據關聯模型構建。通過典型相關性分析(CCA)建立容納不同媒體特征的同構子空間(即相關性子空間),采用最大系數的思想,通過不斷的關聯學習,獲取最大系數,來進行異構媒體關聯模型的構建,并在此基礎上基于本體語義及機器學習概念關系建立,挖掘異構媒體不同概念層次的相關性,以此實現跨媒體關聯關系的建立。(3)異構高維稀疏性特征結構化。根據Mitchison提出的神經稀疏編碼理論,采用結構學習方式對異構高維稀疏特征進行結構化處理。在處理中,通過建立回歸模型,利用先驗知識,來實現算子優化,從而實現選擇算子構造。(4)基于增量學習的相關反饋。采用基于增量學習的相關反饋,結合用戶感知的先驗知識,修正查詢向量和整個數據集的拓撲關系。且反饋作用于跨媒體特征映射的子空間,而非初始的視覺和聽覺特征空間,從而提高查詢效率。
智能識別追蹤
海量網絡信息中,較為及時、準確地發現其中的顯性和隱性熱點及敏感話題,并對其傳播路徑及演化趨勢進行追蹤,能夠對輿情發展進行預測和有效應對。熱點及敏感話題的發現和識別主要依據于話題來源、用戶參與數量和頻度等;而追蹤則是要實現參與者新增話題與原始話題的相似度分析。Web中熱點及敏感話題的識別與追蹤一般通過文本聚類來實現,一種是在聚類中以關鍵詞作為文本特征,通過運用不同的聚類算法,能實現話題下的文本聚合,但文本難以較為準確地形成話題;另一種是將文本聚類映射為話題特征聚類,然后依據事件將文本信息組織并重構成話題。從跨媒體網絡輿情的形成和傳播機理來看,用戶參與形式和觀點的表達,以及所形成的新話題信息內容都呈現多樣化特征。簡單的文本或同構媒體聚類及相似分析難以準確地實現跨媒體網絡輿情熱點及敏感話題的識別與追蹤。
人工神經網絡智能理論和技術能夠支持基于深度學習的熱點及敏感話題識別,即利用基于深度學習的無監督多模態特征自動聚類方法和技術,根據跨媒體異構數據相關關系的學習,對跨媒體特征進行分類聚合,由聚類中的異構多特征指向話題,通過檢測和分析自動發現和識別熱點及敏感話題。在基于深度學習的話題智能追蹤中,通過建立節點關聯存儲模型,分析和記錄話題傳播路徑,對話題演變根據特征智能匹配技術,進行實時追蹤,追溯并發現話題源頭和演化脈絡,跟蹤輿情熱點傳播過程。
熱度智能預測
相對于文本描述來說,視音頻、圖像等非結構化的視聽內容包含有更豐富、更直觀、更真實的信息,更容易引起受眾的關注。對于很多輿情事件,都是因視音頻、圖像等視聽材料的信息而引起了更多人的關注,從而快速引燃了網絡輿情的爆發或加速了網絡輿情的蔓延。例如2018年8月27日發生的“昆山反殺案”,第二天現場視頻曝出后,持刀人劉某某被“反殺”的戲劇性情節引發大量網民關注,視頻被網民大量點擊,轉發和評論量急劇上升,由此引發和加速了網絡輿情迅速升溫及蔓延,8月30日即達到第一次高峰。在未出現事件具體背景信息的情況下,正是由于視頻內容的潛在熱度,助推了網絡輿情的熱度而使其廣受關注,并快速和大范圍傳播。
基于內容的熱度預測是針對非結構化的視聽內容,根據內容元素及特點預測其在網絡傳播中受關注的程度?;趦热莸木W絡輿情熱度智能預測能夠對網絡中出現的視音頻、圖像等輿情信息關注度的高低進行自動預測,從而預判輿情爆發的可能性及熱度,為有效阻止輿情爆發和輿情危機應對提供支持?;趦热莸臒岫戎悄茴A測關鍵在于場景理解可計算模型和方法,即基于大數據分析、數據關聯模型,進行內容關聯,并利用跨模態特征及關聯關系,形成可計算模型和方法的構建,實現對現實世界場景的理解,進而建立起“物-信息-人”的關系,以及語義理解和傳遞。同時,根據輿情數據內容的理解,基于深度學習的大數據挖掘,參考計算機視覺圖像識別庫ImageNet數據集對圖像、視頻內容對象進行識別及熱度分析,并根據跨媒體特征和相關分析進行輿情熱度的預測,從而自動挖掘潛在熱點輿情并支持輿情危機智能預判。
情感智能分析
輿情大數據情感分析是對輿情事件表現出的態度傾向性判斷,如正面、中性、負面等,或更為具體的快樂、悲傷、喜歡、討厭、渴望、焦慮、冷漠等態度類型。在網絡輿情分析與實踐中,常見輿情監測系統大都是利用分詞和語義分析方法,對帶有情感色彩的詞語進行分類,根據出現的頻度,來計算各類型態度的概率,從而獲取參與者對輿情事件情感的判斷。但這些方法受語句復雜度、否定詞以及標點符號的影響和制約,導致準確度不高,而對于跨媒體異構數據的情感分析更是顯得無能為力。人工神經網絡智能方法的引入,跨媒體特征學習為跨媒體網絡輿情大數據情感智能分析提供了支持。
跨媒體網絡輿情大數據情感智能分析,一方面是基于深度學習的文本、圖像、音頻、視頻情感計算,即利用深度學習模型,分別針對文本、圖像、音頻、視頻進行文本關鍵詞、圖像對象、語音情感特征、視頻分割和對象識別進行分析,然后基于非線性處理的深度學習進行情感判斷。另一方面是,跨媒體情感智能計算。事件的描述信息通常具有多種媒體類型組成,根據跨模態數據關聯關系,基于深度學習構建最優情感計算模型,以及從底層視聽內容到認知層實體再到高層情感類型和強度的映射學習模型,進行跨媒體情感智能計算,實現輿情信息的情感分類和理解。
長數據智能存儲
在復雜的網絡環境下,以單個事件為基礎,以常用網絡輿情演化模型為依據,對輿情發展趨勢進行預測,并對各個階段進行應對,其針對性、準確性和有效性明顯不足。2013年,美國學者Samuel Arbeseman首次提出“長數據概念”,即具有歷史縱深性的大規模數據匯聚。長數據概念的引入,把社會現象放在一個更長、更深遠的歷史語境中去觀察,了解現象與現象之間的關聯,深入挖掘事件發展變化的內在規律。在研究某個輿情事件時,將其同歷史輿情事件數據關聯起來,建立歷史性的數據庫,能夠研究輿情事件背景、發展趨勢、演變規律。大數據的動態變化賦予了其“瞬時性”的特征,非結構化音頻、圖片、視頻變化更是頻繁,而長數據提供了觀察世界的另一種縱深視角,能夠更方便地聚焦于這些“變量”中的“常量”,從而總結出事物變化的規律,結合長數據思想可以更好地實現輿情分析、預警與應對。
跨媒體輿情長數據分析關鍵在于數據及相關關系的智能存儲。通過建立輿情長數據案例庫,為輿情分析和應對提供“典型樣板”;通過對同類事件的學習,參考過往傳播路徑和應對策略,智能、精準預測輿情發展趨勢,能夠有效提供輿情危機預警與應對預案??缑襟w網絡輿情長數據智能存儲,一方面是對跨媒體輿情數據進行智能編目,即以輿情事件為基礎,形成數據編目方案,實現編目數據特征智能獲取、組織和描述;另一方面主要是對異構數據和關聯關系進行存儲,為克服輿情大數據的動態變化問題,可采用基于增量學習的非重復存儲方式,實時存儲輿情數據增量,基于內容匹配消除重復數據。
(載《傳媒觀察》2020年01月號,原文約8000字,標題為:多元與智能:跨媒體網絡輿情數據的分析與處理。此為節選,圖表和注釋等從略,學術引用請參考原文。)
【作者簡介】段峰峰,湖南師范大學新聞與傳播學院副教授,湖南省社會輿情監測與網絡輿情研究中心研究員,碩士生導師,博士
陳淼,湖南師范大學新聞與傳播學院講師,碩士
【基金項目】本文為2018年度國家社科基金項目“跨媒體網絡輿情大數據智能獲取、分析與處理技術及應用研究”(18BXW109)研究成果之一。