解讀網路大數據需更謹慎

文:吳世昌|圖:編輯部

「人類社會的思維行為」是很難具體展現的,因為每個人在想什麼只有自己知道,旁人無從得知,只有透過「數字」才能具體呈現。因此,「數字新聞」往往會是民眾關注的焦點,透過簡單的百分比,呈現複雜的人類思維,這也就是各類數字吸引人的魔力,也是各類型數字充斥於媒體閱聽環境的主因。

舉例來說,因為有了各單位民調的公布,人民才了解最新的總統、行政院長滿意度百分比是多少,不滿意比例是多高;沒有具體數字的產出,誰都沒有辦法得知一群人、或整個社會群體對於議題的看法,「數字」是最簡單而直接的呈現。

這也就是不管是政治上或商業上,不斷有單位公布數字的原因,透過數字的公布,才能讓民眾關注到具體的結果,達到特定的行銷或宣導之目的。

除了民調外,這幾年國內外最「夯」,與數據有關的名詞叫做「大數據」(Big Data)。不同於民調是採取「抽樣調查」,往往透過1,000多份有效樣本,去推估無限大的母群體,「大數據」則是數萬筆、數十萬筆「巨量資料」的集合性分析,而「巨量資料」多來自於網路興起,人們在網路上活動留下紀錄累積的總集合。

大數據應用在社會面上的展現,就是所謂的「網路輿情」。網路輿情應用近年來需求日增,媒體、政府部門重視程度,逐漸有凌駕傳統民調之上,但何謂網路輿情,網路輿情是否精準,而要如何才能適當解讀網路輿情?

要精準解讀網路輿情,則必須要先了解網路輿情如何產生,以及解讀上的限制。筆者長期觀測網路輿情並進行分析,認為目前網路輿情分析上存在三大限制,在解讀面上需較民調更為謹慎。

一、未在網路上互動的民眾,不計入網路大數據的計算中

網路輿情又稱「網路大數據」,主要是透過搜尋引擎,以設定關鍵字方式將民眾在網路上的行為匯總後進行統計分析。既然稱之為網路輿情,蒐集的就是「有在網路上進行反應互動」的網民所留下的數據。

而這些數據包括了具體的內容,如媒體的報導;網民的發言與回應,如有在網路論壇或社群媒體有留言、按讚、討論、回覆等動作。而若一個人只在網路進行瀏覽,而沒有進行互動,則不會計入到網路輿情搜尋系統計算中。

這樣的數據蒐集模式,無可避免造成網路大數據雖擁有巨量資料,但精準度卻不如僅千來份樣本的民意調查。因為大數據反應的結果是在網路上積極互動網民的紀錄,而絕大多數「僅瀏覽、不留言」網民意見因此被忽略,如此蒐集資料產生的結果勢必造成偏差。

二、大數據語意分析技術,仍有相當大改進空間

網路輿情很重視「語意分析技術」。因蒐集而來的巨量資料,統稱為「總聲量」,但總聲量對議題來說,僅能反映有多少人在網路上進行討論,而無法區分是正面或是負面,因此若要進一步分析這些聲量是「支持」多或是「反對」多,則需要進一步透過「語意分析系統」,對內容進行進一步的判斷。

不過,有鑑於中文的「博大精深」,有太多成語或反諷用語等,目前市場上的語意分析系統都無法真正精準判斷,若單純依賴系統跑出來的正負聲量,而沒進行進一步的人工校正,往往得到偏誤的結果,因而做出錯誤的解讀。

三、人為操作機率高,影響資料品質

如前文所述,網路輿情是蒐集「有在網路上互動留下的數據」,這也造成了新興產業「網軍」的產生。而大量網軍湧入網路上,針對特定議題進行攻擊或洗白動作,對特定人物進行打擊或保護動作,都會影響到真實網民意見的呈現;大數據蒐集產生的結果,有很大的可能成為網軍活動操作所產生的偏誤結果。

因此,解讀市面上日漸氾濫的「大數據報導」需更謹慎,不可盡信。當然大數據的存在仍有相當高的應用價值,如可防微杜漸、危機管控;可快速蒐集資料,即時分析等(相關應用面下篇專文分析);只有以精準民調為主體,輔以即時大數據做綜合性的判讀,才能真正做到精準、快速的掌握民意。

讀者留言