解讀網路大數據需更謹慎

由

2021 年 8 月 11 日上午 9:42

文：吳世昌｜圖：編輯部

「人類社會的思維行為」是很難具體展現的，因為每個人在想什麼只有自己知道，旁人無從得知，只有透過「數字」才能具體呈現。因此，「數字新聞」往往會是民眾關注的焦點，透過簡單的百分比，呈現複雜的人類思維，這也就是各類數字吸引人的魔力，也是各類型數字充斥於媒體閱聽環境的主因。

舉例來說，因為有了各單位民調的公布，人民才了解最新的總統、行政院長滿意度百分比是多少，不滿意比例是多高；沒有具體數字的產出，誰都沒有辦法得知一群人、或整個社會群體對於議題的看法，「數字」是最簡單而直接的呈現。

這也就是不管是政治上或商業上，不斷有單位公布數字的原因，透過數字的公布，才能讓民眾關注到具體的結果，達到特定的行銷或宣導之目的。

除了民調外，這幾年國內外最「夯」，與數據有關的名詞叫做「大數據」（Big Data）。不同於民調是採取「抽樣調查」，往往透過1,000多份有效樣本，去推估無限大的母群體，「大數據」則是數萬筆、數十萬筆「巨量資料」的集合性分析，而「巨量資料」多來自於網路興起，人們在網路上活動留下紀錄累積的總集合。

大數據應用在社會面上的展現，就是所謂的「網路輿情」。網路輿情應用近年來需求日增，媒體、政府部門重視程度，逐漸有凌駕傳統民調之上，但何謂網路輿情，網路輿情是否精準，而要如何才能適當解讀網路輿情？

要精準解讀網路輿情，則必須要先了解網路輿情如何產生，以及解讀上的限制。筆者長期觀測網路輿情並進行分析，認為目前網路輿情分析上存在三大限制，在解讀面上需較民調更為謹慎。

網路輿情又稱「網路大數據」，主要是透過搜尋引擎，以設定關鍵字方式將民眾在網路上的行為匯總後進行統計分析。既然稱之為網路輿情，蒐集的就是「有在網路上進行反應互動」的網民所留下的數據。

而這些數據包括了具體的內容，如媒體的報導；網民的發言與回應，如有在網路論壇或社群媒體有留言、按讚、討論、回覆等動作。而若一個人只在網路進行瀏覽，而沒有進行互動，則不會計入到網路輿情搜尋系統計算中。

這樣的數據蒐集模式，無可避免造成網路大數據雖擁有巨量資料，但精準度卻不如僅千來份樣本的民意調查。因為大數據反應的結果是在網路上積極互動網民的紀錄，而絕大多數「僅瀏覽、不留言」網民意見因此被忽略，如此蒐集資料產生的結果勢必造成偏差。

網路輿情很重視「語意分析技術」。因蒐集而來的巨量資料，統稱為「總聲量」，但總聲量對議題來說，僅能反映有多少人在網路上進行討論，而無法區分是正面或是負面，因此若要進一步分析這些聲量是「支持」多或是「反對」多，則需要進一步透過「語意分析系統」，對內容進行進一步的判斷。

不過，有鑑於中文的「博大精深」，有太多成語或反諷用語等，目前市場上的語意分析系統都無法真正精準判斷，若單純依賴系統跑出來的正負聲量，而沒進行進一步的人工校正，往往得到偏誤的結果，因而做出錯誤的解讀。

如前文所述，網路輿情是蒐集「有在網路上互動留下的數據」，這也造成了新興產業「網軍」的產生。而大量網軍湧入網路上，針對特定議題進行攻擊或洗白動作，對特定人物進行打擊或保護動作，都會影響到真實網民意見的呈現；大數據蒐集產生的結果，有很大的可能成為網軍活動操作所產生的偏誤結果。

因此，解讀市面上日漸氾濫的「大數據報導」需更謹慎，不可盡信。當然大數據的存在仍有相當高的應用價值，如可防微杜漸、危機管控；可快速蒐集資料，即時分析等（相關應用面下篇專文分析）；只有以精準民調為主體，輔以即時大數據做綜合性的判讀，才能真正做到精準、快速的掌握民意。