名家論壇》賴祥蔚/當心大數據變成大騙劇

▲大數據確實很神,在網路時代人人要懂才能善用。(示意圖/取材自CC0圖庫)
▲大數據確實很神,在網路時代人人要懂才能善用。(示意圖/取材自CC0圖庫)

文/賴祥蔚

最近大數據成了顯學,甚至可以說是神學,一門讓多數人都覺得很神的科學。

我是廣告 請繼續往下閱讀
理論上,只要能夠掌握並且整合網際網路上的使用足跡,大數據確實可以很神。不過實際上,如果一味強調大數據無所不能,那就是大騙劇了。

大數據可以多麼神?網路上有這樣一個故事段子,非常貼切:

某人打電話去訂披薩,電話接通還沒說話,客服人員就知道來電的人是誰,而且還知道家住哪裡、手機電話幾號、家裡電話幾號,原來這些資料都已經被整合了。

客戶想訂海鮮披薩,客服人員提醒根據醫療紀錄,最好不要吃海鮮,還說參考過去查閱的資料,勸訂健康披薩,而且主動根據訂戶家裡人數建議披薩大小,順帶提醒老母親剛動過手術不宜吃太多。

客戶要刷卡,客服人員連刷卡紀錄跟銀行可用額度都知道,而且提醒客戶剛剛刷了共用單車,定位顯示人就在附近,不妨自己來取。最後順帶根據客戶的情人資料,溫馨提醒等等去約會時,應該帶什麼物品。

故事會太誇張嗎?不會。理論上都做得到。不過實際上卻不一定,因為要看使用者日常生活的上網程度,以及各家網站數據的整合程度。

簡單說,如果有人幾乎都不上網,大數據就找不太到他的資料。當各家網站的數據無法真正整合,披薩客服人員只會知道客戶過去的訂餐紀錄,當然不會知道醫療、金融、交通等其他紀錄。

有一個跟大數據相關的概念,最近也受到很多重視,尤其選舉快到了更是如此,這就是網路上的社群聆聽(social listening),以及相關的網路聲量分析。

社群聆聽以及網路聲量,就是追蹤及分析網路上對某些人物或是主題的討論情況,包括正、負評價的次數,以及最常伴隨出現的文字(形成文字雲)。

初次看到網路聲量分析的人,一定會覺得大數據很神,居然可以挖掘出網路上是怎麼討論某些人物或是主題。

原理說起來也不複雜,主要就是透過Hadoop或Spark這些既有的程式框架,發展出機器學習的程式,到網路上索引和跟踪相關數據。

網路聲量分析有三大關鍵:一是程式發展能力,二是納入分析的網址及社群網站,以及追蹤的詞彙數量,三是語意分析的能力。

如果程式不優、網站及詞彙數量不多、語意分析不佳,那麼就算跑出有模有樣的大數據分析圖表,卻完全沒有參考價值,而且還會誤導,根本就是大騙劇。

就算大數據分析的程式優、網站及詞彙數量多、語意分析佳,還是要小心,因為這反映的是積極參與討論的網友的意見,未必是全體網友的心態,其中更沒有包括不太上網的群體。對大數據過度解讀,一樣會變成大騙劇。

大數據確實很神,在網路時代人人要懂才能善用,也避免大數據變成大騙劇。

●作者:賴祥蔚/台灣藝術大學廣播電視學系教授、中華傳播管理學會理事長

●本文為作者評論意見,不代表《NOWnews今日新聞》立場

●《今日觀點》開拓不同的視野

●《今日廣場》歡迎來稿或參與討論,文章歡迎寄至public@nownews.com

我是廣告 請繼續往下閱讀
AI倪珍報新聞