運用「文本大數據分析」 提升研究效益

圖/Unsplash

文/陳俊儒 工研院產業科技國際策略發展所研究員

在資訊爆炸的時代,如何從龐雜且倍速成長的資料中,擷取出具有意義和應用價值的內容尤為重要,大數據(Big Data)結合AI人工智慧的數位應用,是有效提升工作效率及產值的關鍵。尤其是產業分析師,需要從各產業收集的意見、研究報告、新聞資料、期刊等大量的文本資料,透過對於資料的理解、分類、歸納、解析,提出對特定議題的洞察。但在資料量遽增時代,想要消化龐大的文本資料,得花費更多時間與精力,這也是分析師當前的職業痛點。 

工研院提出「文本大數據分析」方法,首先從研究需求出發,收集並梳理文本資料;接著,透過文本相似度的計算,以及網絡集群分析並形成文字雲,進而呈現出趨勢要點與重大議題。

從文本用詞的相似性及分群,使原先龐雜的文本資料能夠浮現出文本資料中的重點。分析師可再深入解讀,找出關鍵的脈絡洞見,並提出相關建言。 

以工研院於2019年所舉辦的八場公民論壇為例,累計公民參與人數共262位,分為學生組(16-25歲)、青年組(26-39歲)、輕熟組(40-49歲)及樂齡組(50歲以上)等四個世代。論壇連結台灣重要趨勢與各世代需求,形成五個台灣未來情境故事,包括:「追求生活品質的高齡社會」、「適性教育與彈性職能的終身學習環境」、「數位經濟智動化時代」、「氣候及環境變遷下的生活變化」和「政治透明與參與的多元社會」。透過有趣的圖文和動畫,激發公民想像並熱烈討論台灣2030年可能的情境與需求,並獲得他們表達的意見與看法。 

按照一般的質性分析方法,分析師在取得公民論壇討論的文字紀錄後,會逐一地審閱各條意見,並透過本身的觀察和經驗,歸納出各世代公民的主要討論議題。例如:青年組主要討論的議題,是「以科技協助工作,融入人性,讓科技更符合我們的需要」、「期待政府在高齡化社會提供更有力的作為」、「終身學習更多元,自主學習制度更健全」、「政府資訊更透明,政策需持續被追蹤」等。然而以人力閱讀數百條到上千條的公民意見,對分析師而言,非常耗時和精力。 

有別於傳統的質性分析結果,透過工研院「文本大數據分析」,可提供量化比對、客觀且快速的分析結果,進而呈現八場公民論壇對台灣2030年所關注之重大議題,其中前三大議題依序為「未來教育需求」、「老人照顧需求」及「未來工作情境」。此外,「文本大數據分析」亦可呈現不同世代對關注議題的討論熱度差異,凸顯出某世代特別關注之議題,例如:青年特別關注「產經發展」、學生特別關注「數位科技對未來的影響」。這些分析結果可以幫助分析師減少閱讀和分類的苦工,將時間和精力多投入在公民需求解讀與歸納等較有價值的工作。 

分析師透過「文本大數據分析」的方法,可更客觀且快速地呈現重大議題,提升研究員的工作效益。此外,「文本大數據分析」的基礎來自有品質的資料,還須因應不同研究主題或領域適時調整,例如:選取合適的詞彙、設定不同文本相似度條件等,才能確實解讀資料、有效分群。 

在大數據和AI人工智慧等相關數位科技的結合下,預期未來「文本大數據分析」可進一步整合語意與關聯分析、主題分析與追蹤、語意搜尋、閱讀理解…等功能,使文本資料的分析更加深入且精準,從龐雜資料中顯現真正應用價值所在。

>>訂閱名家評論周報,關心全球財經大小事

延伸閱讀