網路大數據的實務應用面

文:吳世昌|圖:編輯部

文「解讀網路大數據需更謹慎」提到網路大數據在應用上,面臨到的問題,包括了「僅能分析到有在網路上互動的民眾數據」、「語意分析仍有很大的改善空間」、「人為操作機率高,影響資料品質」等,提醒讀者「解讀網路大數據需謹慎」。

然而前文所述網路大數據產生的缺點,是否就導致「網路輿情」在實務運用上無法發揮良好功能,而不該運用網路大數據工具,來進行精準的數據分析?在此讀者認為並非如此,了解網路大數據特性,就可以在實際應用面上發揮大數據強大功能,對解讀輿情產生作用。

近年來隨著「網路大數據」日漸風行,在推動大數據上,業者多以「取代民調」作為主要推廣用詞。然深刻了解兩者間特性後就可發現,在實務運用上,民調與大數據是「互補」,而非「取代」,因應兩種調查方法不同,「誰也無法取代誰」。

作為已發展成熟的意見搜集工具,民調是以「機率抽樣」作為主要的研究方法,以抽取少數的樣本(一般約1,000個有效樣本),推估母體整體意見。傳統民調由於仍是選舉主要評估工具,民調準不準,「票開了就知道」;在這樣的即時驗証下,我們可以發現,臺灣民調若能確保以下幾個前提,至今仍是相當準確。

一、嚴格的訪員管理訓練
民調教學在課堂上,最常強調就是「垃圾進,垃圾出」,若蒐集到的資料有很大問題,那怎麼分析都不會得到正確結果。而民調資料搜集仰賴的是訪員,若無嚴格訪員訓練與管理,很難搜集到品質良好資料。

二、嚴守機率抽樣的規則
民調核心在於「用少數樣本『推估』多數人意見」,「推估」要能準,「機率抽樣」不可少。只有嚴守機率抽樣規則,抽出的樣本才能做出精準的推估。

三、避開機構效應的影響
在臺灣「政治」民調實務運作上,由於藍綠長期對立,「機構效應」確實存在,民眾會在調查過程中,因應調查單位的不同而選擇「校正回歸」,偏藍機構作出結果,往往對藍營有利,反之亦然;民調執行時如何避開機構效應的干擾,已是產出「精準民調」首要關注之事。

四、公正的問卷設計與資料處理
民調在問卷設計上是一門大學問,問題的問法、題序的安排,都會影響到產出來的數字結果。問卷設計若無法維持中立客觀、過於「引導式」、「偏向式」自然無法得出準確的結果。

而在資料處理上,如果無法秉持科學原則,過多人為調整,不當的加權干預,也會影響到調查產出的結果。

即便民調能確保以上執行規則,產出符合現況的精準資料,但仍有不少缺點,如執行時間較長、費用較高、市內電話涵蓋率持續下滑、行動電話抽樣方式仍待克服等問題;而要面對網路時代「瞬息萬變」輿情,大數據強大的功能特性,即可產生相當大「互補」效果。

大數據的實務運用面,根據筆者多年實戰經驗,在以下項目上,可發揮強大的用處:

一、網路輿情的即時掌握
網路大數據主要就是搜集「民眾在網路上的互動行為」,由於網路的特性就是「快」,大數據搜集引擎是不間斷地在網路上「爬蟲」,可以更快速、即時的掌握網民對於議題的反應。

二、即時輿情的危機處理
由於網路環境「新媒體」特性,與「傳統媒體」交互影響,網路產生的輿情反應,首先會在「網民」之間延燒,隨著傳統媒體引用報導,則會向一般民眾擴散。有效掌握即時網路輿情,可在危機處理上,做好更佳管理,避免議題快速延燒到不可收拾的地步

三、巨量資料分析價值
相較於民調多透過1,000份左右樣本,分析多數人意見,網路大數據因電腦運算速度的快速成長,可以即時搜集數萬筆、甚至數十萬筆資料及時進行分析;透過大量巨量資料的分析,可快速的將輿情進行更深度瞭解。

四、「網路攻防」只能依靠大數據分析工具
網路攻防已成現今政壇上、商業競爭上,不可忽視現象。只有透過網路大數據搜尋引擎,才能快速的分析出哪些平台、論壇、社群媒體產生了不利於己的言論,哪些網路意見領袖(KOL)在「帶風向」,並進行妥適的處理。

整體來說,網路輿情「快速搜集」、「成本較低」、「巨量資料」特性,是傳統民調無法趕上的優勢,顯示網路大數據在探測民意上,仍具有相當高的應用價值。然就如同筆者不斷強調,不論是民調或是大數據,都有其應用面的限制,不可偏廢任一方。只有「即時性的網路大數據掌握」,結合「定期性的民調」,才會是精準掌握輿情的最佳方式。

讀者留言