感謝大家長期以來對文章的關(guān)注,最近工作比較忙,好久沒更新了。接下來的幾篇文章想和大家分享下關(guān)于用戶畫像的一些東西。今天我們先從用戶畫像的標(biāo)簽權(quán)重開始聊起吧。
用戶畫像:即用戶信息標(biāo)簽化,通過收集用戶社會屬性、消費習(xí)慣、偏好特征等各個維度數(shù)據(jù),進(jìn)而對用戶或者產(chǎn)品特征屬性的刻畫,并對這些特征分析統(tǒng)計挖掘潛在價值信息,從而抽象出一個用戶的信息全貌,可看做是企業(yè)應(yīng)用大數(shù)據(jù)的根基,是定向廣告投放與個性化推薦的前置條件。
先舉個場景,程序員小Z在某電商平臺上注冊了賬號,經(jīng)過一段時間在該電商平臺的web端/app端進(jìn)行瀏覽、所搜、收藏商品、下單購物等系列行為,該電商平臺數(shù)據(jù)庫已全程記錄該用戶在平臺上的行為,通過系列建模算法,給程序員小Z打上了符合其特征的標(biāo)簽(如下圖所示)。此后程序員小Z在該電商平臺的相關(guān)推薦版塊上總能發(fā)現(xiàn)自己想買的商品,總能在下單前猶豫不決時收到優(yōu)惠券的推送,總是在平臺上越逛越喜歡....
上面的例子是用戶畫像一些應(yīng)用場景。而本文主要分享的是打在用戶身上標(biāo)簽的權(quán)重是如何確定的。
如上圖所示,一個用戶標(biāo)簽表里面包括常見的字段如:用戶id、用戶姓名、標(biāo)簽id、標(biāo)簽名稱、用戶與該標(biāo)簽發(fā)生行為的次數(shù)(如搜索了兩次“大數(shù)據(jù)”這個關(guān)鍵詞)、行為類型(不同的行為類型對應(yīng)用戶對商品不同的意愿強度,如購買某商品>收藏某商品>瀏覽某商品>搜索某商品),行為時間(越久遠(yuǎn)的時間對用戶當(dāng)前的影響越小,如5年前你會搜索一本高考的書,而現(xiàn)在你會搜索一本考研的書)。最后非常重要的一個字段是標(biāo)簽權(quán)重,該權(quán)重影響著對用戶屬性的歸類,屬性歸類不準(zhǔn)確,接下來基于畫像對用戶進(jìn)行推薦、營銷的準(zhǔn)確性也就無從談起了。下面我們來講兩種權(quán)重的劃分方法:
TF-IDF算法是什么思想,這里不做詳細(xì)展開,簡而言之:一個詞語的重要性隨著它在該文章出現(xiàn)的次數(shù)成正比,隨它在整個文檔集中出現(xiàn)的次數(shù)成反比。
比如說我們這里有3個用戶和4個標(biāo)簽,標(biāo)簽和用戶之間的關(guān)系將會在一定程度上反應(yīng)出標(biāo)簽之間的關(guān)系。這里我們用w(P , T)表示一個標(biāo)簽T被用于標(biāo)記用戶P的次數(shù)。TF(P , T)表示這個標(biāo)記次數(shù)在用戶P所有標(biāo)簽中所占的比重,公式如下圖:
對上面的圖來說,用戶1身上打了標(biāo)簽A 5個,標(biāo)簽B 2個,標(biāo)簽C 1個,那么用戶1身上的A標(biāo)簽TF=5/(5+2+1) 。相應(yīng)的IDF(P , T)表示標(biāo)簽T在全部標(biāo)簽中的稀缺程度,即這個標(biāo)簽的出現(xiàn)幾率。如果一個標(biāo)簽T出現(xiàn)幾率很小,并且同時被用于標(biāo)記某用戶,這就使得該用戶與該標(biāo)簽T之間的關(guān)系更加緊密。
然后我們根據(jù)TF * IDF即可得到該用戶該標(biāo)簽的權(quán)重值。到這里還沒結(jié)束,此時的權(quán)重是不考慮業(yè)務(wù)場景,僅考慮用戶與標(biāo)簽之間的關(guān)系,顯然是不夠的。還需要考慮到該標(biāo)簽所處的業(yè)務(wù)場景、發(fā)生的時間距今多久、用戶產(chǎn)生該標(biāo)簽的行為次數(shù)等等因素。我用個圖總結(jié)下:
關(guān)于時間衰減的函數(shù),根據(jù)發(fā)生時間的先后為用戶行為數(shù)據(jù)分配權(quán)重。
時間衰減是指用戶的行為會隨著時間的過去,歷史行為和當(dāng)前的相關(guān)性不斷減弱,在建立與時間衰減相關(guān)的函數(shù)時,我們可套用牛頓冷卻定律數(shù)學(xué)模型。牛頓冷卻定律描述的場景是:一個較熱的物體在一個溫度比這個物體低的環(huán)境下,這個較熱的物體的溫度是要降低的,周圍的物體溫度要上升,最后物體的溫度和周圍的溫度達(dá)到平衡,在這個平衡的過程中,較熱物體的溫度F(t)是隨著時間t的增長而呈現(xiàn)指數(shù)型衰減,其溫度衰減公式為:
F(t)=初始溫度×exp(-冷卻系數(shù)×間隔的時間)
其中α為衰減常數(shù),通過回歸可計算得出。例如:指定45分鐘后物體溫度為初始溫度的0.5,即 0.5=1×exp(-a×45),求得α=0.1556。
2、基于相關(guān)系數(shù)矩陣的權(quán)重歸類
這個相關(guān)系數(shù)矩陣聽title挺困難,其實道理十分簡單。舉個例子:用戶1身上打上了5個A標(biāo)簽、2個B標(biāo)簽、1個C標(biāo)簽;用戶2身上打上了4個A標(biāo)簽,3個B標(biāo)簽;用戶3身上打上了4個C標(biāo)簽、1個D標(biāo)簽。
用個圖形象表示一下:
那么同時打上A、B標(biāo)簽的用戶有兩個人,這就說明AB之間可能存在某種相關(guān)性,當(dāng)用戶量、標(biāo)簽量級越多時,標(biāo)簽兩兩之間的相關(guān)性也越明顯。
-
算法
+關(guān)注
關(guān)注
23文章
4549瀏覽量
92012 -
權(quán)重
+關(guān)注
關(guān)注
0文章
12瀏覽量
7571 -
標(biāo)簽
+關(guān)注
關(guān)注
0文章
133瀏覽量
17834
原文標(biāo)題:用戶畫像之標(biāo)簽權(quán)重算法
文章出處:【微信號:AI_shequ,微信公眾號:人工智能愛好者社區(qū)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論