唯品會輿情監控系統

 

背景和現狀

唯品會作為國內發展迅速的大型電商之一,在微博、微信、貼吧、app 應用市場等各大網絡渠道上,每天會有大量關於唯品會的用戶交流、評論、反饋等輿情信息產生。而這些輿情信息中,往往包含著對公司的各種建議、用戶心聲、體驗反饋等有用信息。因此,收集並分析用戶的評論反饋,對於企業瞭解用戶的心聲和需求、提升用戶體驗、提高運營效率等方面將有較大的幫助,同時也是產品制定需求的重要參考依據。不過,目前的用戶反饋、評論收集、評論分析工作存在著如下主要問題:

  • 各個渠道的用戶反饋評論信息分散、瑣碎,不利於收集,人工爬取評論的速度較慢,成本較高;
  • 評論的數量很多且非結構化, 分類及語義分析依靠人工效率低下;
  • 預警的速度較慢,出現問題無法及時預警,等到發現時,損失已造成;
  • 無法對線上輿情形成長期有效的監控,可讀性不好,用戶體驗差。

而互聯網輿情監控系統可以很好地解決上述問題,它利用爬蟲、搜索引擎、文本挖掘等技術,通過對網絡上相關的信息自動采集處理、智能聚類分類、統計分析等,實現各方對自己相關網絡輿情監督管理的需要,最終及時形成輿情分析報告、輿情預警等信息,為相關人員全面掌握輿情動態、瞭解用戶心聲、調整制定方針政策,提供分析依據。

總體介紹

目前,市面上有騰訊企鵝風訊、百度輿情、七麥數據等輿情監控系統,這些系統能對市面的上的主流應用 app,通過分佈式爬蟲抓取各大應用市場、主流論壇、微博等渠道的用戶評論,並對爬取到的信息進行匯總、智能分類、報表輸出等。這些輿情分析系統能簡化運營、產品對用戶口碑的收集工作,在提供專業的運營質量分析的同時,節省瞭項目人力。市面上的這些系統雖然能為我們提供一些分析和參考數據,但是也存在一定的局限性,如數據來源有限(一般隻能提供微博、app 應用市場、論壇等渠道的用戶評論信息)、無法實現定制化需求等,因此非常有必要開發屬於唯品會自己的輿情監控系統,實現豐富的數據來源、各種定制化的功能需求等。

當前唯品會輿情系統評論數據訂閱來源主要有各大 App 應用市場用戶評論、微信公眾號評論和唯品會內部的客服留言。在獲取這三部分數據後,會做持久化存儲,用於後期的文本挖掘分析,如圖 1 所示。

唯品會輿情監控系統

 

 

圖 1:數據來源

系統會對獲取的這些評論信息進行情感判定、文本分詞、評論分類、詞頻分析等計算分析工作。輿情系統整體架構設計如圖 2 所示,分為輿情采集、輿情分析、輿情應用三大模塊。圖 3 是我們已經上線的輿情系統,本文將著重介紹輿情分析模塊中的幾個重要功能模塊。

唯品會輿情監控系統

 

 

圖 2:輿情系統主要模塊

唯品會輿情監控系統

 

 

圖 3:系統展示

系統架構

上面已經簡單介紹過唯品會輿情系統的主要模塊,圍繞這些模塊,我們實現瞭整個系統,其基本架構如圖 4 所示,下面將詳細介紹情感分析、文本分詞、詞頻分析、分類分析四個核心系統功能模塊的實現。

唯品會輿情監控系統

 

 

圖 4:系統架構圖

  • 情感分析

傳統的文本情感分類一般基於情感詞典,它是對人的記憶和思維判斷的簡單的模擬,如圖 5 所示。首先通過學習來記憶一些基本語料詞匯,比如積極、消極和否定詞語,這些基本詞匯在人們的大腦中形成一個基本的語料庫。然後,我們再對輸入的語句進行拆分,看所記憶的詞匯表中是否存在相應的詞語,最後根據這些記憶中的詞語類別來判斷情感。

唯品會輿情監控系統

 

 

圖 5:傳統情感分析

基於上述思路,我們設計瞭自己的基於詞典的情感分析模塊,主要如下:

1、情感詞典設計

與傳統方法不同的是,我們的情感詞典分為三個部分:積極肯定情感語料庫、消極否定情感語料庫和幹擾語料庫,如圖 6 所示。為瞭得到更加完整的情感詞典,我們從網絡上收集瞭若幹個情感詞典,並且對它們進行瞭去重整合和調整。對於收集而來的詞典並非進行簡單地整合,而是有針對性地對詞典進行瞭去雜和更新,以達到盡可能高的準確率。比如,加入瞭針對我們電商行業相關的一些行業詞匯,以增加準確率。此外,引入幹擾語料庫的目的是排除一些如“能不能”、“可不可以”等容易誤判為積極肯定或者消極否定的詞。

唯品會輿情監控系統

 

 

圖 6:情感詞典

2、基本算法

基於情感詞典的文本情感分類規則算法比較簡單,它將每個情感詞語賦予的一定的權重值: w

w (權重值需要根據具體行業、業務等做調整),一般來說,積極肯定的詞語賦予正數值,我們用:w

p

wp 表示,而消極否定的詞賦予負數值我們用:w

n

wn 表示,並且情感權重值滿足線性疊加原理。每條評論在剔除幹擾詞匯後,分別進行積極肯定和消極否定的權重計算。例如,評論中既包含積極肯定詞匯也包含消極否定詞匯,將評論命中的積極肯定的權重值線性疊加,得到該條評論的積極肯定權重值:

唯品會輿情監控系統

 

 

而將命中的消極否定的權重值線性疊加得到消極否定權重值:

唯品會輿情監控系統

 

 

極性綜合判定將得到的積極權重值和消極權重值線性疊加,然後根據用戶設定的評論極性權重閥值,最終判定評論的極性,整個情感判定邏輯如圖 7 所示。

唯品會輿情監控系統

 

 

圖 7:情感分析邏輯圖

3、實現效果

基於上述架構,實現瞭輿情系統的情感分析模塊,它會對每條評論信息自動進行極性的五級(極好評、好評、中評、差評、極差評)劃分,並對應 5-1 分的評分。在評定完一定周期內所有評論的評分後,系統會計算出該周期內所有評論的綜合平均分(1-5 分,對應一星到五星),類似於部分應用市場的五星等級評價。目前該模塊主要針對應用市場的評論進行五級情感劃分,如圖 8 所示。通過情感劃分,能看到用戶對我們唯品會 app 的一個整體滿意度情況。相比於人工篩選劃分,能極大的降低人工篩選時間,減少工作量。

唯品會輿情監控系統

 

 

圖 8:應用市場評論五星分級

  • 文本分詞

一般來說,做文本挖掘首先要做的預處理就是分詞。在英語中,英文單詞天然的空格有助於計算機迅速識別單詞間邊界。而中文由於沒有空格,讓計算機頗為困惑,處理起來難度較大,因此中文分詞就是一個需要專門去解決的問題瞭。

1、分詞現狀

目前現有的中文分詞方法大致可分為三大類:基於字符串匹配的詞典分詞方法、基於理解的分詞方法和基於統計的分詞方法。比如,基於字符串匹配的正向最大匹配法、逆向最大匹配法,基於統計的 N-gram 模型思想等等。目前比較流行的中文分詞工具有 jieba、SnowNLP、THULAC、HanLP 等等。

2、實現算法

我們輿情系統的文本分詞采用的是基於詞典的 N 最短路徑算法。N 最短路徑算法是中科院分詞工具 NLPIR 進行分詞用到的一個重要算法,張華平、劉群老師發表的論文《基於 N- 最短路徑方法的中文詞語粗分模型》中做瞭比較詳細地介紹。該算法的基本思想就是給定一待處理中文字符串,然後根據詞典,找出詞典中所有可能的詞,構造出字串的一個有向無環圖,也稱為 DAG(Directed Acyclic Graph),算出從開始到結束所有路徑中最短的前 N 條路徑。每個可能分詞對應 DAG 的一條邊,每條邊有一定的權重值,表示該詞出現的概率。最簡單的做法是采用詞頻作為權值, 也可以采用 TF-IDF 值作為權值提高對低頻詞的分詞準確度。因此,分詞問題轉化成瞭求 DAG 中起點到終點的最短路徑問題。

以“同事說明天下午休假”為例,按照人們的理解,我們一般能找到“同事 / 說 / 明天 / 下午 / 休假”和“同事 / 說明 / 天下 / 午休 / 假”兩種分詞方式,如圖 9 所示。那麼計算機如何實現這個想法呢?首先,它將字串分為單個的字,每個字用圖中相鄰的兩個結點表示,故對於長度為 n 的字串,需要 n+1 個結點。兩節點間若有邊,則表示兩節點間所包含的所有結點構成的詞,比如圖中結點 3、4、5 構成詞“明天”。通過跟已有詞典比較,構造出有向無環圖,圖構造出來後,接下來就要針對圖計算各種路徑中的最短路徑。N- 最短路徑是基於 Dijkstra 算法的一種簡單擴展,它在每個結點處記錄瞭 N 個最短路徑值與該結點的前驅。關於這個算法的描述,在網上、教科書中都有很多詳細介紹,這裡就不再贅述瞭。

唯品會輿情監控系統

 

 

圖 9:分詞分析舉例

此外,在現實情況中,每條邊的權值不可能都設為 1,因為否則隨著字串長度 n 和最短路徑 N 的增大,長度相同的路徑數將會急劇增加,並且這樣的分法也不夠準確。為瞭解決這個問題,我們需要通過某種策略為有向圖的邊賦權重,如前文中所述,其實就是該詞出現的可能性,也即該詞出現的概率。那這個概率該如何計算呢?假設我們輸入的字串為 C,可能劃分的詞串為:w

i

wi,其中 i=1,2,…,m,表示對字串 C 有 m 種可能的劃分。因此,我們要求的就是概率:P(w

i

|C)

P(wi|C) 最大的 N 個,然後根據貝葉斯定理,以及訓練語料庫,即可得出概率。當然,這個概率也可以通過一些開源的訓練語料庫直接得到。進而可以求出整個有向圖的路徑,最終我們可以得到 N 種字串劃分結果,從而找出路徑最短的分詞劃分。文本分詞結果是我們系統中其他模塊的基礎,如詞頻分析等。

  • 詞頻分析

詞頻分析模塊是唯品會輿情監控系統的重要組成部分,它是基於上面介紹的文本分詞的結果進行的分析,後面將介紹詞頻的基本算法和實現。

1、基本概念

首先,我們先介紹幾個概念——詞頻和逆向文件頻率。詞頻 (Term Frequency, TF) 指的是某一個給定的詞語在該文件中出現的次數,這個數字通常會被歸一化 (一般是詞頻除以文章總詞數), 以防止它偏向長的文件。提到 TF,必然需要瞭解逆向文件頻率 (Inverse Document Frequency,IDF),它的主要思想是:如果包含詞條 w 的文檔越少, IDF 越大,則說明該詞條 w 具有很好的類別區分能力。某一特定詞語的 IDF,可以由總文件數目除以包含該詞語的文件的數目,再將得到的商取對數得到。而他們的組合 TF-IDF 是一種統計方法,用以評估某個詞條對於一個文件集或一個語料庫中的其中一份文件的重要程度。TF-IDF 的含義總結就是, 一個詞語在一篇文章中出現次數越多, 同時在所有文檔中出現次數越少, 越能夠代表該篇文章。因此,TF-IDF 傾向於過濾掉常見的詞語,保留重要的詞語。關於 TF-IDF 的算法有很多資料,這裡就不再詳細說明。

2、實現算法

唯品會輿情系統的詞頻算法也是基於上述 TF-IDF 算法思想,並進行瞭改進以滿足我們系統自身需求。對用戶評論的詞頻分析,是希望分析出在不同周期內(如一周、一個月),哪些詞條在當前周期相對於上個周期有明顯地上升,而這些明顯上升的關鍵詞條往往是用戶集中反饋的一些問題或者關註的熱點,具有較高的挖掘價值。當然,關鍵詞條的上升判斷,不能簡單地通過某個詞條數目絕對數量的多少,或者比上個周期有所增加就判定為熱點詞匯。因為每個周期內,分詞詞條樣本數量是不同的,簡單地看某個詞的絕對數量並不能說明問題,就如 TF-IDF 的算法所述,需要過濾掉常見的詞語,保留重要的詞語。

圖 10 為我們詞頻分析的算法邏輯實現圖,它首先根據分詞結果分別計算當前周期內和上個周期內每個分詞 W 的占比,其樣本值為各自周期內的所有分詞詞條數目,詞條總數在當前周期表示為:NP

now

NPnow,上個周期表示為:NP

last

NPlast,因此當前周期和上個周期內每個分詞的占比可以分別用:

唯品會輿情監控系統

 

 

唯品會輿情監控系統

 

 

表示,其中 i=1,2,3,…,N,j=1,2,3,…,M,這裡 N 和 M 分別為當前周期和上個周期內所有分詞的個數。

隨後, 對兩個周期內的每個分詞的占比 P

i

Pi 和 P

j

Pj 分別做排序,每個周期中分別選取其中占比最大的 n(n 可以根據自身情況設定,如 100、200、500 等)個詞條,將篩選出來的詞條和對應占比表示為 $(W_{i},P_{i}){x}和

和(W{j},P_{j})_{y}$,其中 x,y=1,2,3,…,n。

將不同周期內的前 n 個詞條占比 $(W_{i},P_{i}){x}和

和(W{j},P_{j})_{y}$ 采用差分算法,計算出當前周期中每個分詞占比值相對於上個周期提升的幅度,並按照從大到小排列,這樣我們就能找出當前周期內熱度值最高,並且相對於上個周期有明顯提升的關鍵詞條。

唯品會輿情監控系統

 

 

圖 10:詞頻分析邏輯

3、實現效果

圖 11 為用戶留言反饋計算得到的最終詞頻結果示例。此外,詞頻分析會按照用戶設定的不同評論分類的維度來分別進行計算,這樣能找出各個分類中的一些熱點詞匯,為及時發現熱點問題、用戶敏感問題、線上 Bug 等提供參考依據。如圖 11,切換右邊已設置的分類,我們能查看對應的詞頻分析結果。此外,點擊分詞詞條對應的柱狀圖,能查看詞條對應的具體評論信息,方便用戶查詢和定位問題,如圖 12 所示。目前,系統會對來自於 App 應用市場和客服留言的評論做詞頻分析,並且通過詞頻分析,我們發現瞭如 App 閃退問題、會員俱樂部無法進入、在線客服打不開等部分線上 Bug。

唯品會輿情監控系統

 

 

圖 11:詞頻分析結果

唯品會輿情監控系統

 

 

圖 12:詞頻關鍵詞對應的評論信息詳情

  • 分類分析

對用戶評論信息按照設定的分類進行歸類,能方便使用者針對不同方面需求進行查看及相關信息統計。在評論信息量較大的時候,人工分類雖然比較精準,但是效率非常低下,因此我們需要對評論自動進行歸類,這樣能極大地降低人工分類篩選成本。

1、分類器現狀

目前,中文文本分類常用的分類器包括:樸素貝葉斯、決策樹、深度學習、人工神經網絡、KNN、SVM、Adaboosting、Rocchio 算法、LDA 模型等等。這些分類器有各自的優缺點,比如人工神經網絡,其優點是分類的準確度高、並行分佈處理能力強、分佈存儲及學習能力強,以及對噪聲神經有較強的魯棒性和容錯能力等,但它也有自己的缺點,比如需要大量的參數,如網絡拓撲結構、權值和閾值的初始值,學習時間過長,甚至可能達不到學習的目的等。

2、實現邏輯

由於我們電商產品的一些特點,用戶評論反饋的信息一般集中在選購流程、支付、商品質量、物流、會員權益、營銷活動等幾個相對固定的大類,其分類相對簡單。因此,考慮自身產品的特點、系統復雜度以及性能等各種因素影響,唯品會輿情系統並未采用上述分類算法,而是采用較為簡單的自研算法。

其算法邏輯如圖 13 所示,采用分類關鍵詞 (k) 設定及關鍵詞權重 w

k

wk 計算的方法來對評論進行每個分類的權重計算,得到該條評論在某個分類命中的所有關鍵詞權重和:

唯品會輿情監控系統

 

 

其中 (i=0,…,n,j=0,…,m,這裡 n 為評論命中某個分類的關鍵詞數量,m 為設置的分類數量),然後將每個分類的權重和:

唯品會輿情監控系統

 

 

排序,權重和最大的分類:

唯品會輿情監控系統

 

 

即為該評論的最終分類。此種算法雖比較簡單,但是對於大量非結構化評論,是很有效的分類方法,其分類準確性比較高,能達到 90% 以上。分類關鍵詞的設定及管理可以通過系統提供的分類管理和關鍵詞管理兩個功能模塊進行管理。圖 14 為用戶評論按照分類統計的趨勢結果,其詞頻分析結果也是按照分類維度來統計,如前面的圖 11 所示。

唯品會輿情監控系統

 

 

圖 13:分類分析邏輯

唯品會輿情監控系統

 

 

圖 14:評論反饋分類趨勢

此外,用戶評論詳情查詢也支持按照設定的分類來查看,方便用戶按照感興趣的分類查詢、搜索相關評論詳情,如圖 15 所示。

唯品會輿情監控系統

 

 

圖 15:評論詳情按照分類查詢

實踐效果

系統自上線以來已有來自產品、開發、測試、金融等各個部門將近 300 位的公司內部用戶,為公司各部門瞭解用戶的心聲和需求、提升用戶體驗、制定產品計劃、發現線上問題等方面提供瞭一定的參考依據。在線上質量監控方面,輿情系統通過詞頻分析、分類分析等功能發現瞭 app 兼容問題、會員俱樂部無法進入、在線客服打不開、品牌收藏沒有展示等約幾十個各種線上問題,為發現並及時修復問題提供瞭重要參考,改善瞭用戶體驗、減少瞭部分經濟損失。

計劃展望

如前所述,輿情系統通過詞頻分析發現的線上問題和用戶熱點問題較多。因此,在後面的迭代計劃中會增加詞頻預警功能,通過郵件等渠道向用戶提供實時的詞頻分析結果,供巡檢人員發現和查詢需要及時處理的熱點、關鍵問題。此外,系統用戶也可以根據自身的需要設置並訂閱感興趣的詞頻關鍵詞,在詞頻分析結果中有匹配時,及時向相關用戶發送預警郵件,做到問題的及時發現和處理。

本文由唯技術公眾號(VIP-Tech)授權 InfoQ 中文站轉載。

 

 

❤ 如果喜歡我們的分享,歡迎加入我們,我們是大陸到台灣集運商,現在低價收貨14元每公斤, 時效3天到台灣。如果你有在大陸購物或者進貨的話請資訊我賴: welisen     加我賴吧以後有需可以備用! 

威立森台灣集運


關註官方微信:knifehome


❤ 威立森集運官網 https://www.welisen.com

❤ 淘寶內部優惠券 http://yhq.welisen.com/

 

 

arrow
arrow
    創作者介紹
    創作者 集運賴:welisen 的頭像
    集運賴:welisen

    台灣集運,集運台灣,LINE:welisen 官網 https://www.welisen.com

    集運賴:welisen 發表在 痞客邦 留言(0) 人氣()