(電子商務(wù)研究中心訊)
零售是數(shù)據(jù)科學(xué)和數(shù)據(jù)挖掘重要的商業(yè)應(yīng)用領(lǐng)域之一。零售領(lǐng)域有著豐富的數(shù)據(jù)和大量的優(yōu)化問題,如優(yōu)化價(jià)格、折扣、推薦、以及庫存水平等可以用數(shù)據(jù)分析優(yōu)化的問題。
全渠道零售,即在所有線上和線下渠道整合營銷、客戶關(guān)系管理,以及庫存管理的崛起產(chǎn)生了大量的關(guān)聯(lián)數(shù)據(jù),大大增強(qiáng)了數(shù)據(jù)驅(qū)動(dòng)型決策的重要性和能力。
盡管已經(jīng)有許多關(guān)于數(shù)據(jù)挖掘在營銷和客戶關(guān)系管理方面的書,如 [BE11, AS14, PR13 etc.],但絕大多數(shù)書的結(jié)構(gòu)更像是數(shù)據(jù)科學(xué)家手冊(cè),專注在算法和方法論,并且假設(shè)人的決策是處于將分析結(jié)果到業(yè)務(wù)執(zhí)行上的中心位置。
在這篇文章中我們?cè)噲D采用更加嚴(yán)謹(jǐn)?shù)姆椒ê拖到y(tǒng)化的視角來探討基于數(shù)據(jù)分析的經(jīng)濟(jì)學(xué)模型和目標(biāo)函數(shù)如何使得決策更加自動(dòng)化。在這篇文章里, 我們將描述一個(gè)假想的收入管理平臺(tái),這一平臺(tái)基于零售商的數(shù)據(jù)并控制零售策略的很多方面,如價(jià)格、營銷和倉儲(chǔ)。
我們專注在將經(jīng)濟(jì)學(xué)框架和數(shù)據(jù)挖掘方法的組合有以下兩個(gè)主要的原因:
我們可以從經(jīng)濟(jì)學(xué)教科書上找到上百個(gè)與零售有關(guān)的經(jīng)濟(jì)學(xué)模型,因?yàn)殛P(guān)于市場、折扣、競爭等問題在上個(gè)世紀(jì)得到了深入的研究。然而,許多模型都是高度參數(shù)化的(即嚴(yán)格的由帶有有限參數(shù)的公式所定義)并且不能足夠靈活而精確地對(duì)現(xiàn)實(shí)世界的問題建模。但數(shù)據(jù)挖掘提供了很多非參數(shù)建模技 術(shù),可以幫助創(chuàng)建靈活而實(shí)用的模型。在最近十年里,也有許多成功的平衡抽象模型和機(jī)器學(xué)習(xí)技術(shù)的文章和案例研究已經(jīng)發(fā)表。
快速的數(shù)據(jù)循環(huán)使得在現(xiàn)代零售業(yè)中可以使用相對(duì)簡單的模型做出更加準(zhǔn)確的預(yù)測,因?yàn)樾∫?guī)模增量式的預(yù)測一般而言要比大決策更加容易。例 如,因?yàn)閷?duì)于一個(gè)新的顛覆性產(chǎn)品在消費(fèi)者心中的感知價(jià)值是未知的,要計(jì)算它的最優(yōu)價(jià)格是很困難的。但是根據(jù)需求和庫存水平實(shí)時(shí)調(diào)整促銷價(jià)格則是相對(duì)容易 的。有一些成功的商業(yè)解決方案對(duì)價(jià)格優(yōu)化就幾乎丟棄了經(jīng)濟(jì)學(xué)模型,簡單的根據(jù)銷售閉環(huán)的反饋情況來決定價(jià)格的上升和下降 [JL11]。
以上兩點(diǎn)意味著在零售業(yè)自動(dòng)化決策和動(dòng)態(tài)優(yōu)化具有很高的潛力,因此我們專注于研究這個(gè)領(lǐng)域。本文很大篇幅用于綜述零售業(yè)者和研究人員發(fā)表的成果,這些成果都是他們?cè)诰C合應(yīng)用抽象經(jīng)濟(jì)學(xué)模型和數(shù)據(jù)挖掘方法構(gòu)建實(shí)際的決策和優(yōu)化系統(tǒng)中產(chǎn)生的。
特別的,本文主要受到3個(gè)案例研究的啟發(fā),分別出自 Albert Heijn [KOK07],荷蘭最大的連鎖超市,Zara [CA12],一家國際服裝零售商,以及 RueLaLa [JH14],一家創(chuàng)新在線時(shí)尚零售商。我們同樣綜合了來自 Amazon、Netflix、LinkedIn 和許多獨(dú)立研究者和商業(yè)項(xiàng)目的結(jié)果。同時(shí),我們避免使用那些缺乏實(shí)踐支持的學(xué)術(shù)結(jié)果。
我們的研究主要著眼于與收入管理相關(guān)的優(yōu)化問題,包括營銷和定價(jià)等問題。更加特殊的數(shù)據(jù)挖掘應(yīng)用,如供應(yīng)鏈優(yōu)化和欺詐檢測, 數(shù)據(jù)挖掘過程實(shí)現(xiàn)的細(xì)節(jié)(如模型質(zhì)量的驗(yàn)證)則不在這我們研究的范疇內(nèi)。
本文剩余部分組織如下:
我們首先引入一個(gè)簡單的框架將零售商的行為,利潤和數(shù)據(jù)聯(lián)系在一起。此框架將作為更統(tǒng)一的方式來描述分析問題。
本文的主體部分探討了一系列與零售業(yè)相關(guān)的優(yōu)化問題。我們將在不同章節(jié)逐個(gè)介紹這些問題。每個(gè)章節(jié)會(huì)簡要描述問題,并提供一組業(yè)務(wù)案例和應(yīng)用,以及詳細(xì)介紹如何將問題分解成經(jīng)濟(jì)學(xué)模型和數(shù)據(jù)挖掘任務(wù),使得可以通過數(shù)值優(yōu)化方法來解決業(yè)務(wù)問題。
然后,我們會(huì)有一個(gè)章節(jié)專門討論這些方法在實(shí)際應(yīng)用中的可期的經(jīng)濟(jì)收益。
最后,總結(jié)部分會(huì)對(duì)這些問題之間的依賴關(guān)系進(jìn)行討論,從而闡明一般的原則和關(guān)鍵點(diǎn)。
優(yōu)化框架:
本文介紹了 6 個(gè)主要與營銷和定價(jià)相關(guān)的優(yōu)化問題,這些問題都能夠應(yīng)用數(shù)據(jù)挖掘技術(shù)來解決。盡管這些問題非常不同,但我們嘗試建立了一般性的框架來幫助設(shè)計(jì)求解所需的優(yōu)化和數(shù)據(jù)挖掘任務(wù)。
該框架的基本思想是用一個(gè)經(jīng)濟(jì)指標(biāo),例如毛利率作為優(yōu)化目標(biāo),并將這一目標(biāo)作為零售商行為(如營銷活動(dòng)或者分類調(diào)整)的函數(shù)。
同時(shí)計(jì)量經(jīng)濟(jì)學(xué)目標(biāo)也是數(shù)據(jù)的一個(gè)函數(shù),即計(jì)量經(jīng)濟(jì)模型應(yīng)該被零售商的特性參數(shù)化,從而在其輸出中產(chǎn)生一個(gè)數(shù)值,如毛利率。
例如,某零售商在計(jì)劃一個(gè)郵件營銷活動(dòng)??尚械男袆?dòng)空間可被定義為一組對(duì)于每個(gè)客戶發(fā)送/不發(fā)送決策集合,而活動(dòng)的毛利率則決定于營銷動(dòng)作(有些人會(huì)接受激勵(lì)而另一些人不會(huì))以及給定客戶的期望收入和郵件成本。這一方法可以更形式化的由如下公式表達(dá):
此公式里 G 是可用于分析的數(shù)據(jù),是零售業(yè)者行為和決策空間, 是計(jì)量經(jīng)濟(jì)模型函數(shù),其參數(shù)是 d 和 A,而 A0 是最優(yōu)策略。這一框架由文獻(xiàn) [JK98] 整理提出。
模型 G 的設(shè)計(jì)十分依賴于問題本身。在大部分情況下,對(duì)毛利率建模和優(yōu)化都是合理的。但是,有些情況下其他的目標(biāo)也是有可能的,就如下一章探討的響應(yīng)建模。同時(shí)需 要注意的是優(yōu)化問題(1)也跟時(shí)間有關(guān)系,因?yàn)榄h(huán)境會(huì)隨著如新產(chǎn)品的上架、競爭對(duì)手的行動(dòng)等因素變化,零售業(yè)者自己的行為也會(huì)產(chǎn)生影響。
數(shù)據(jù)挖掘在這一優(yōu)化問題中的角色是非常重要的,因?yàn)橛?jì)量模型 G 通常都比較復(fù)雜且必須基于數(shù)據(jù)通過回歸等數(shù)據(jù)挖掘技術(shù)學(xué)習(xí)確定。
在某些情況下因?yàn)閺?fù)雜性太高(如用戶的行為很難精確預(yù)測)或者因?yàn)闊o法將現(xiàn)有數(shù)據(jù)做外推(如對(duì)于完全新的服務(wù)),模型是無法完全確定的。這時(shí),可以用 A/B 測試和問卷調(diào)查來獲得額外的數(shù)據(jù)來改進(jìn)模型的精度。
問題 1:響應(yīng)建模
1.問題描述
在廣告或者特價(jià)優(yōu)惠活動(dòng)中,需要決定將一些資源投放給一些客戶。而這些資源都是有成本的,如郵寄印制商品的目錄的資金成本,或者一些負(fù)面效應(yīng)(如使得用戶取消郵通知訂閱)。
同時(shí), 這些資源將會(huì)影響用戶的決策,如促使他們更多地消費(fèi)或者購買更高價(jià)值的產(chǎn)品。其目標(biāo)是找到一組最靠譜的候選客戶,對(duì)他們投入資源后能夠使得業(yè)績最大化。
投入的資源可以是同質(zhì)的(如所有參加的客戶都得到同樣的激勵(lì))也可以是個(gè)性化的。在后一種情況下,零售業(yè)者將對(duì)每個(gè)不同的客戶提供不同的激勵(lì)如不同產(chǎn)品的優(yōu)惠券來最大化總體的收益目標(biāo)。
2.應(yīng)用
響應(yīng)建模被廣泛的應(yīng)用在營銷和客戶關(guān)系管理上:
確定特定的折扣、優(yōu)惠券和特價(jià),需要識(shí)別出客戶對(duì)這些激勵(lì)的反應(yīng)。
有這對(duì)性的郵件促銷、活動(dòng)和贈(zèng)品(如 4S 店提供的免費(fèi)太陽眼鏡)通常需要識(shí)別出最優(yōu)價(jià)值的客戶來降低營銷費(fèi)用。
客戶挽留計(jì)劃需要識(shí)別出那些可能會(huì)離開但可以通過激勵(lì)來改變主意的客戶。例如,電商可以向那些放棄購物車或者離開搜索會(huì)話的客戶發(fā)送特價(jià)優(yōu)惠。
在線目錄和搜索結(jié)果可以根據(jù)客戶對(duì)某些商品的的喜好來重新調(diào)整。
響應(yīng)建模幫助優(yōu)化了電郵促銷來避免不必要的垃圾郵件,這些垃圾郵件可能會(huì)讓客戶取消郵件訂閱。
3.求解
基于以上的討論,我們現(xiàn)在可以認(rèn)識(shí)到這個(gè)問題就是資源分配的優(yōu)化問題,而優(yōu)化問題由一個(gè)目標(biāo)函數(shù)驅(qū)動(dòng)。一個(gè)最基本的方法是:根據(jù)每個(gè)客戶的響應(yīng)概率和期望凈價(jià)值來對(duì)促銷活動(dòng)的整體利潤建模。
這里 Pr(R│u;I) 是給定客戶 u 對(duì)激勵(lì) I 的響應(yīng)概率,g(u|R)) 是這個(gè)客戶響應(yīng)的激勵(lì)的凈價(jià)值,而 c 則是激勵(lì)的成本。公式中第一項(xiàng)是響應(yīng)從響應(yīng)用戶獲得的凈收益,而第二項(xiàng)則是對(duì)應(yīng)在沒有響應(yīng)的客戶上的期望損失。目標(biāo)是通過找到一組最有可能響應(yīng)活動(dòng)并 能貢獻(xiàn)高利潤的客戶子集來最大化 G。因?yàn)楣?(1.1) 可以約簡如下:
這里 E{g|u;I} 表示對(duì)給定客戶在假定他會(huì)接受激勵(lì)的情況下的毛利率的數(shù)學(xué)期望,而客戶的選擇標(biāo)準(zhǔn)則要符合以下條件:
同時(shí),最優(yōu)的客戶子集 U 可以定義為最大化毛利率的子集:
我們也可以以隨機(jī)分配激勵(lì)為基準(zhǔn)的凈值最大化。為此,我們假設(shè)參與該次營銷活動(dòng)的客戶數(shù)固定為 |U|。首先,我們將公式 (1.2) 展開,顯示的包括對(duì)于隨機(jī)選取的 |U| 個(gè)客戶的營銷活動(dòng)的期望毛利率。
此處 E{g|I} 是所有客戶上的平均凈價(jià)值。這一平均凈價(jià)值是常數(shù),因此在 |U| 確定的情況下在目標(biāo)函數(shù)中可以被略去。因此,公式(1.2)在固定 的情況下同樣可以得到(1.3):
然而,文獻(xiàn) [VL02] 提出這一模型存在一定的缺陷,因?yàn)樵撃P推蛴谝子诮邮芗?lì)的客戶,而沒有考慮那些有沒有激烈都會(huì)貢獻(xiàn)同樣利潤的的客戶。為解決這一 缺陷,我們需要根據(jù)以下四種情況來計(jì)算客戶集合 U 的毛利率:
G1 – 根據(jù)公式(1.2)選擇 U 并向中所有客戶發(fā)送激勵(lì)
G2 – 隨機(jī)選擇 U 并向 U 中所有客戶發(fā)送激勵(lì)
G3 – 根據(jù)公式(1.2)選擇 U 但是不發(fā)送任何激勵(lì)
G4 – 隨機(jī)選擇 U 但是不發(fā)送任何激勵(lì)
公式(1.2)是最大化 之差即相較于隨機(jī)投放的提升度。
另一種方法是優(yōu)化,這一目標(biāo)函數(shù)不僅僅度量相較于隨機(jī)投放的提升度同時(shí)還考慮去除掉在同樣的客戶集合上不做任何激勵(lì)的提升度。在此情況下,公式(1.2)變?yōu)槿缦滦问剑?/p>
此處最后一項(xiàng)對(duì)應(yīng)的是未被激勵(lì)的客戶的期望凈價(jià)值。這一方法被稱為差分響應(yīng)分析或者提升度建模由文獻(xiàn) [BE09] 提出。
值得注意的是,公式(1.2)和(1.4)都不是通過最大化營銷費(fèi)用來優(yōu)化的??紤]如下情況,每個(gè)響應(yīng)的用戶可以貢獻(xiàn) 100 美元的凈利潤,而激勵(lì)費(fèi)用為 1 美元。如果一個(gè)客戶組有 100 萬客戶,其中有 0.5% 的潛在響應(yīng)者,則花費(fèi)最大的營銷活動(dòng)是對(duì)每個(gè)客戶都做觸達(dá)則最終將損失 50 萬美元(總的響應(yīng)者貢獻(xiàn)的 50 萬美元凈價(jià)值減去活動(dòng)費(fèi)用 100 萬美元)。
公式(1.4)對(duì)于各種類型的價(jià)格折扣特別重要(優(yōu)惠券、臨時(shí)價(jià)格折扣、特價(jià))。考慮如下問題:“一個(gè)零售商應(yīng)該向每天都買蘋果的人提供蘋果優(yōu)惠券嗎?” 根據(jù)公式(1.2),回答是肯定的。因?yàn)檫@個(gè)人很有可能會(huì)使用優(yōu)惠券。
然而,更可能的是這個(gè)客戶用更低的價(jià)格購買了同樣數(shù)量的蘋果,根本上這會(huì)降低零售商的利潤。公式(1.4)考慮了默認(rèn)的客戶行為從而消除了這一問題。我們?cè)谙乱还?jié)將繼續(xù)討論價(jià)格區(qū)分問題因?yàn)檫@一是個(gè)復(fù)雜的問題遠(yuǎn)超了公式(1.4)范疇。
公式(1.2)和(1.4)中凈收入的數(shù)學(xué)期望能夠基于過去客戶對(duì)激勵(lì)是否接受的歷史數(shù)據(jù)用分類或者回歸模型來確定。這一問題可能是非常有挑戰(zhàn)性的,特別是當(dāng)需要評(píng)估的激勵(lì)與過往出現(xiàn)過的都存在某種程度上的差異。
在這種情況下,全規(guī)模的活動(dòng)上線之前需要在一個(gè)客戶測試組上進(jìn)行測試。另外,對(duì)于零售業(yè)者而言毛利率并非唯一的關(guān)鍵指標(biāo)。在公式(1.2)和(1.4)中使用的毛利率度量關(guān)心的是第一次付款后即時(shí)的匯報(bào),從客戶關(guān)系管理的角度看這是非常簡單的視角。
零售業(yè)者還會(huì)關(guān)心其他不同的度量,度量上的多元性是如此巨大以至于有一門專門研究這個(gè)問題的經(jīng)濟(jì)學(xué)分支 – 傾向性建模[SG09, LE13] – 這一學(xué)科發(fā)展了不同的模型來預(yù)測用戶未來的行為。最重要的傾向性模型包括:
生命價(jià)值預(yù)測。生命價(jià)值模型是估計(jì)一個(gè)客戶在其生命周期內(nèi)可以貢獻(xiàn)的收入或者利潤總額。這一指標(biāo)對(duì)于那些目標(biāo)為獲取新客的營銷活動(dòng)而言是很重要的。
錢包份額預(yù)測。錢包份額模型用來估計(jì)用戶對(duì)于某些類型商品,如雜貨或者服飾,在某一零售商及其在各競爭對(duì)手那花錢的比例。這一度量能夠揭示哪些客戶具有貢獻(xiàn)高收入的潛力,因?yàn)檫@一模型能夠用在忠誠計(jì)劃和提升使用的營銷活動(dòng)中。
類型擴(kuò)展傾向。該模型估計(jì)首次購買某一類型的商品后,從休閑產(chǎn)品轉(zhuǎn)換到奢侈品的可能性。這一模型能夠幫助設(shè)計(jì)目的是獲得使用擴(kuò)展的活動(dòng)。
流失傾向。這一模型估計(jì)客戶從給定零售商流失并轉(zhuǎn)換到競爭對(duì)手的可能性。如果客戶具有較高的流失傾向則可以定向進(jìn)行挽留活動(dòng)。例如,一個(gè)零售商可以識(shí)別出那些放棄了在線購物車或者退出了搜索會(huì)話但是提供一定折扣或者贈(zèng)品后會(huì)改變主意的客戶。
購物習(xí)慣改變傾向。每個(gè)客戶的購物習(xí)慣最終確定了其對(duì)一個(gè)零售商的價(jià)值,即客戶的購買頻率、購買什么產(chǎn)品、購買什么類型的產(chǎn)品等等。這些習(xí)慣通常是穩(wěn)定的,一旦零售商改變一個(gè)客戶的分層,這個(gè)分層將會(huì)持續(xù)。
因此,零售業(yè)者通常對(duì)找到那些對(duì)改變習(xí)慣比較開放的客戶感興趣, 如那些從一個(gè)城市遷移到另一個(gè)城市的人群, 從學(xué)校畢業(yè)的學(xué)生, 剛剛結(jié)婚的人群等等。一個(gè)典型的例子是預(yù)測客戶是否在懷孕早期 [DG12] 因?yàn)樾律恼Q生會(huì)顯著的改變客戶的購物行為。
以上模型都能夠嵌入類似公式(1.4)的公式來代替毛利率目標(biāo),我們?cè)诤竺娴男」?jié)中將針對(duì)討價(jià)格差異化的情況下對(duì)折扣的響應(yīng)傾向建模的情況仔細(xì)探討傾向性建模。關(guān)于傾向性建模的更多細(xì)節(jié)可以參考 [FX06] 和 [SG09] 兩本書。
這一框架也能夠擴(kuò)展到在多個(gè)可能的激勵(lì)方案中選擇最優(yōu)的方案。例如,一個(gè)零售商可以估計(jì)對(duì)于兩個(gè)激烈方案 A 和 B(例如巧克力冰激淋和香草冰激淋)的期望表現(xiàn)然后對(duì)于給定的用戶可以根據(jù)以下標(biāo)準(zhǔn)[WE07]來選擇最優(yōu)的選項(xiàng):
最后,值得注意的是響應(yīng)建模是與客戶分群緊密耦合的:
響應(yīng)建模能夠用來檢驗(yàn)通過聚類行程的客戶分群的可行性。一個(gè)分群應(yīng)該對(duì)特定的營銷計(jì)劃有持續(xù)的響應(yīng)。
傾向性模型是基于客戶數(shù)據(jù)訓(xùn)練得到的回歸和分類模型??蛻舴秩嚎梢詤⒖紝?duì)于主要回歸量的分析結(jié)果。另一方面,從聚類結(jié)果中也可以發(fā)現(xiàn)合理的傾向性模型。
問題 2:推薦
1.問題說明
一組激勵(lì)中的每一項(xiàng)激勵(lì)對(duì)應(yīng)著一個(gè)產(chǎn)品或者其他目錄項(xiàng)目。展示這些激勵(lì)并不直接與費(fèi)用成本相關(guān),但是只有有限數(shù)量的激勵(lì)能夠展示給用戶。
從這個(gè)角度來說,每個(gè)激勵(lì)的展示都會(huì)占用一定的屏幕空間或者客戶的注意力,所以給客戶提供的某個(gè)激勵(lì)的負(fù)面激勵(lì)能夠被機(jī)會(huì)成本的損失來度量。
在這樣的目標(biāo)下就需要將激勵(lì)的子集對(duì)于每個(gè)客戶而言都是個(gè)性化的(如網(wǎng)站上的推薦)從而最大化群體的購買表現(xiàn)。
2.應(yīng)用
該問題最典型的應(yīng)用有推薦系統(tǒng), 個(gè)性化搜索結(jié)果, 和定向廣告。 此外還有一些其他重要的應(yīng)用:
廠商贊助折扣可以歸為這類問題,因?yàn)榱闶凵虒?duì)激勵(lì)的成本不關(guān)心(由廠商覆蓋這部分成本), 他們僅關(guān)心有效的定向。廠商贊助的活動(dòng)被廣泛的應(yīng)用在很多零售細(xì)分領(lǐng)域,如雜貨店或者百貨商店,因?yàn)檫@些廠商市場份額的提升有很重的依賴。
交叉銷售的營銷能也夠從推薦模型中獲益,因?yàn)橐恍┩扑]技術(shù)能夠揭示出客戶畫像中的隱含維度,如生活方式。這些能力對(duì)于跨類之間的推薦是特別有用的,可以基于客戶服飾方面的消費(fèi)行為向客戶推薦家居或者廚具。
推薦系統(tǒng)可以將用戶的購買和瀏覽歷史概括為心心理學(xué)畫像,因此乏味的著裝品味或者運(yùn)動(dòng)型的生活方式能夠量化測量。同樣的技術(shù)也可以根據(jù)競爭者銷售產(chǎn)品的來對(duì)競爭者畫像,就像根據(jù)客戶購買來對(duì)客戶畫像。
一些推薦算法能夠基于文本描述來區(qū)分產(chǎn)品的心理維度,如生活方式等。所以商家可以利用它們來評(píng)估產(chǎn)品描述,也可以用來獲得關(guān)于產(chǎn)品定位的適當(dāng)措辭的建議。
特別需要注意的是盡管推薦通常被認(rèn)為是線上服務(wù)特有的,但其所產(chǎn)生的基本原則和技術(shù)對(duì)于零售業(yè)的許多方面也是非常重要的。因?yàn)檫@些技術(shù)致力于揭示客戶對(duì)產(chǎn)品興趣的隱含關(guān)系,而這是零售商最基本的任務(wù)。
3.解決方案
推薦系統(tǒng)在過去20年是非常受關(guān)注的研究領(lǐng)域,[JZ10, RR10] 兩本書提供了對(duì)幾十種在各種論文,演講和白皮書中提出的推薦算法和技術(shù)的系統(tǒng)化視角。
某種程度上,推薦技術(shù)的高度多樣性在于一些實(shí)現(xiàn)推薦時(shí)遇到的挑戰(zhàn),如客戶評(píng)分的稀疏性,計(jì)算的可擴(kuò)展性,以及缺乏新物品和客戶的信息。
顯然,我們無法在本節(jié)中綜述哪怕一下部分方法和算法,而且在此處探討這些也沒有太多的意義,因?yàn)檫@樣的綜述俯拾皆是。相反我們將關(guān)注于驅(qū)動(dòng)設(shè)計(jì)推薦系統(tǒng)的目標(biāo)和效用函數(shù),而基本上忽略這一問題的算法和技術(shù)側(cè)的細(xì)節(jié)。
從計(jì)量經(jīng)濟(jì)學(xué)的觀點(diǎn)來看,推薦系統(tǒng)問題與電商和全渠道商業(yè)在很多零售領(lǐng)域的興起帶來銷售品類的快速擴(kuò)張是緊密相關(guān)。大的平類增加了很多非暢銷產(chǎn)品,每一個(gè)產(chǎn)品的銷售量和貢獻(xiàn)的收入都是很少的,但是這個(gè)“長尾”的總體貢獻(xiàn)是非常顯著的。
傳統(tǒng)推薦技術(shù)如推廣最暢銷的商品不能有效利用非暢銷商品的潛力,這就需要更巧妙的推薦方法在數(shù)百萬他或者她從未探索過的產(chǎn)品中對(duì)其進(jìn)行引導(dǎo)。
因?yàn)槲覀冎饕P(guān)注模型對(duì)客戶在產(chǎn)品上的偏好的描述,我們將從根據(jù)效用函數(shù)的復(fù)雜性從簡單到負(fù)責(zé)來介紹使用最廣的推薦技術(shù), 我們將依據(jù)如下圖所示的推薦技術(shù)層次分類圖。這個(gè)層次分類綜合了推薦系統(tǒng)的常用分類,但也不是完全一致:
4.單一目標(biāo)
讓我們從單一目標(biāo)推薦任務(wù)的基本定義開始,這一定義被廣泛的應(yīng)用在推薦系統(tǒng)的文獻(xiàn)之中。零售商向用戶群體 U={u_1,…,u_m } 銷售物品 J={j_1,…,j_n }。評(píng)分函數(shù) R:J×U 表示一個(gè)用戶對(duì)一個(gè)物品的觀點(diǎn)從負(fù)面(“不喜歡”)到正面(“喜歡”),通常使用數(shù)字來表示。
一些用戶和物品對(duì)的評(píng)分值可以基于用戶的評(píng)分或者通過分析購買歷史,網(wǎng)站訪問記錄來估計(jì),推薦任務(wù)則可以被定義為對(duì)給定用戶-物品對(duì) (u,j) 評(píng)分值 ?r_(u,j) 的預(yù)測。
有兩種方法可以解決評(píng)級(jí)預(yù)測問題:
通過查找與特定用戶過去喜歡的項(xiàng)目相似的項(xiàng)目來獨(dú)立估計(jì)每個(gè)用戶的評(píng)分;
也可以通過對(duì)來自與給定用戶類似的用戶的評(píng)分進(jìn)行平均來估計(jì)評(píng)分。這兩種方法分別被稱為內(nèi)容過濾和協(xié)作過濾。
5.內(nèi)容過濾
內(nèi)容過濾的主要思想是基于對(duì)用戶過往對(duì)于產(chǎn)品的偏好、行為和購買。盡管不可以對(duì)內(nèi)容過濾做不同的解釋, 我們選擇將其作為分類問題 [PZ07] 來強(qiáng)調(diào)數(shù)據(jù)挖掘的應(yīng)用:
每個(gè)用戶可以被視作一個(gè)對(duì)物品預(yù)測評(píng)分的回歸模型。一個(gè)特殊的例子是可以用二分類將物品分為兩個(gè)類別 – “喜歡”和“不喜歡”。
一個(gè)用戶的畫像就是上面介紹的回歸模型的一個(gè)實(shí)例。這一模型使用該用戶的已知評(píng)分(顯示評(píng)分,購買歷史等等)來訓(xùn)練。
給指定用戶的推薦物品列表是通過對(duì)所有目錄物品采用該用戶對(duì)應(yīng)的回歸模型預(yù)測評(píng)分然后選擇那些估計(jì)評(píng)分最高的物品子集來獲得的。
盡管以上的過程似乎是是比較直接的,但是實(shí)際上確實(shí)非常挑戰(zhàn)的。因?yàn)橛脩艉臀锲肥歉静煌膶?shí)體,而且要找到一種可以直接將物品轉(zhuǎn)換成回歸模型可以使用的用戶偏好這種微妙的東西。
最主要的問題是存貨屬性諸如品牌、物品名,或者價(jià)格對(duì)于衡量物品對(duì)用戶的效用是根本不夠的。盡管一些客戶能夠被滿足忠于某品牌或價(jià)格取件的特征,但是需要更多微妙而有信息的維度如生活方式或者品味來描述觀察到的模式和共性。
這些隱式的維度對(duì)于如電影、書籍、音樂,甚至是如服飾這樣的有形物品都是非常重要的。零售商可以用如下的方法基于標(biāo)準(zhǔn)的分類技術(shù)來對(duì)帶有隱含維度的物品打標(biāo)簽 [GH02]:
例如,服裝可以用諸如時(shí)髦、保守、運(yùn)動(dòng)等標(biāo)簽來標(biāo)識(shí)。
標(biāo)準(zhǔn)產(chǎn)品屬性(如文本描述)旨在向客戶提供特定的營銷信息,因此它們隱含地包含了一些無形的屬性。因此,人工評(píng)分項(xiàng)目的物品子集可以用于構(gòu)建將從 產(chǎn)品屬性映射到隱含維度的分類模型。例如,可以使用貝葉斯分類方法來估計(jì)描述在隱含屬性值出現(xiàn)時(shí)詞出現(xiàn)的條件概率 Pr(詞項(xiàng)描述 | 隱含屬性值)。
物品然后可以通過計(jì)算后驗(yàn)概率 Pr(隱式屬性值 | 項(xiàng)目描述)來自動(dòng)分類沒有人工評(píng)分的商品。
一般化的來看,內(nèi)容過濾和物品建模實(shí)際是信息檢索任務(wù),所以許多的為恩本挖掘和搜索技術(shù)(例如,[MA08] 的綜述所提到的)可以被用來構(gòu)建推薦系統(tǒng)。我們?cè)诖寺赃^這些細(xì)節(jié),因?yàn)閺挠?jì)量經(jīng)濟(jì)的角度來看這些都不是最重要的部分。
協(xié)同過濾: 前面部分提到的隱含維度的問題具有重要意義,此問題可以引導(dǎo)我們了解推薦技術(shù)的第二個(gè)系列。這個(gè)問題源于根本無法嚴(yán)格的對(duì)人的口味和傾向建模。
協(xié)同過濾是一種自然的,也許是唯一不需要對(duì)系統(tǒng)進(jìn)行很多人工工作的解決方案 – 推薦決策中對(duì)”人的因素”的需求通過其他用戶的反饋來滿足。
最基本的協(xié)同過濾模型 [RE04, BR98] 直接由用戶之間的相似度度量來定義:
此處 r_u,j 為用戶 u 對(duì) j 物品的評(píng)分,U 是所有用戶的集合或者啟發(fā)式選取的給定用戶的鄰近用戶,λ 是規(guī)范化系數(shù),sim(u,v) 是兩個(gè)用戶之間的相似度度量, 而 ˉr_u 是戈丁用戶的平均評(píng)分:
假設(shè) J_u 是一組用戶評(píng)分過的物品,公式 (2.1) 使用的平均用戶評(píng)分概念來建模用戶比其他用戶在打分傾向上是偏高還是偏低,因?yàn)樗麄冇械囊蟾哂械囊蟮?。雖然不是絕對(duì)必要,這一修正在實(shí)踐是上非常重要并在最開始實(shí)現(xiàn)協(xié)同過濾時(shí)就被廣泛應(yīng)用了。
一般用余弦距離或者皮爾森相關(guān)系數(shù)來計(jì)算評(píng)分向量 J_u 和 J_v 之間的相似度。此外,文獻(xiàn) [ER98, SU09] 介紹了很多對(duì)于此基本相似度度量進(jìn)行調(diào)整的多種方法來改進(jìn)使用中的性能。
模型(2.1)存在一些顯著的缺陷:首先這一模型的計(jì)算復(fù)雜性(與物品和用戶數(shù)量成正比)很高,其次用戶的評(píng)分是非常稀疏的。評(píng)分的稀疏性是指每個(gè) 用戶都只會(huì)對(duì)很小一部分物品進(jìn)行評(píng)分,所以在計(jì)算向量 J_u 和向量 J_v 的相似度時(shí)經(jīng)常會(huì)出現(xiàn)沒有重合的元素,這會(huì)降低推薦的質(zhì)量。
例如,眾所周知 Amazon[SA01] 和 Netflix[YK08] 的評(píng)分矩陣中的評(píng)分缺失率達(dá)到 99%。為了克服這一限制,基于用戶的模型(2.1)在通常被概念上非常相似的基于物品的模型 [SA01, YK08] 所取代:
其中物品之間的相似度度量是基于那些在兩個(gè)物品上都有評(píng)分的用戶的基準(zhǔn)評(píng)分 ˉr_(u,j) 來計(jì)算的?;鶞?zhǔn)評(píng)分同時(shí)考慮了用戶偏差(用戶的平均評(píng)分值相較于整體評(píng)分的偏差)以及物品偏差(物品的平均評(píng)分相較于整體評(píng)分的偏差)。
值得注意的是,有一簡單的方法來實(shí)現(xiàn)公式(2.2),此方法通過尋找頻繁項(xiàng)集(被頻繁一起購買的物品)并基于在頻繁項(xiàng)集的同現(xiàn)來計(jì)算相似度。這一方法因其簡單被視為“窮人的推薦引擎”[RE03]。
模型(2.1)和(2.2)屬于所謂最近鄰模型,這些模型通過分析相似的用戶或者物品的鄰居來估計(jì)他們的評(píng)分。這一系列的算法也包括很多變種的技術(shù) [SU09] 通過使用跟緊湊的概率模型或者其他近似方法來取代計(jì)算開銷昂貴的檢查鄰居的方法。
盡管最近鄰模型是一種被諸如亞馬遜等領(lǐng)先的零售商驗(yàn)證過的推薦技術(shù),但在根本上這些技術(shù)還是在根本上具有在內(nèi)容過濾中就有的隱含維度所帶來的問題。前面考慮的用戶之間和物品之間的相似度度量對(duì)于揭示用戶和無偏之間的復(fù)雜關(guān)系,其能力是有限的。
這與信息檢索里面的同義搜索和多義搜索棉面臨的問題是類似的,要揭示搜索者的實(shí)際意圖,并將其意圖翻譯成文本和查詢之間的相似度是非常挑戰(zhàn)的事情。
為了解決這一問題,一種被稱為隱含語義分析的的技術(shù)被提出來 [DR90]。該方法被提出來 10 年后被用來設(shè)計(jì)推薦系統(tǒng) [SA00],并開創(chuàng)了一類新隱含因子模型。
隱含因子模型主要的思想能夠被描述如下:評(píng)分函數(shù) R 能夠被表達(dá)成 m×n 矩陣(m 是用戶數(shù),n 是產(chǎn)品數(shù)), 其中的元素是評(píng)分值。這可以被當(dāng)作一個(gè)線性空間問題。
推薦任務(wù)則可以被重新定義為用其他評(píng)分向量的組合來計(jì)算用戶評(píng)分向量。實(shí)際上,公式(2.1)自然的就是一種權(quán)重由相似度函數(shù)定義的評(píng)分制的線性組合。
然而,問題是評(píng)分矩陣缺失評(píng)分而稀疏,因偏見和隨機(jī)因素通常帶有噪音,而且基于物品維度則限制了揭示用戶品味的能力,而品味通常是與一組物品相關(guān)而不是與單個(gè)物品相關(guān)。
換句話說, 被散落在巨大的低密度矩陣中并混有一定程度噪音的信號(hào)智能通過研究隱含模式才能顯示出來。隱含因子模型的思想是用低維度的基來近似一個(gè)高維線性空間,這有助于達(dá)成以下目標(biāo):
較少的維度能夠幫助把信號(hào)的能量集中,則每個(gè)基向量對(duì)評(píng)分估計(jì)的貢獻(xiàn)都是顯著的。它通過丟棄簡單的不適應(yīng)這些較小的基啊的波動(dòng)來減少噪聲。
基本的計(jì)算過程可以被設(shè)計(jì)來產(chǎn)生有著最少依賴的基向量,從而有效的揭示用戶品味的主要傾向,這些傾向每個(gè)對(duì)應(yīng)一個(gè)基向量。例如,Netflix 用這一方法來預(yù)測電影評(píng)分 [YK08, YK09] 時(shí), 系統(tǒng)產(chǎn)生的維度清晰的對(duì)應(yīng)著諸如喜劇,男女等坐標(biāo)軸。
集合中的每個(gè)點(diǎn)沿著 R_1 和 R_2 維度都有著很大的坐標(biāo)值并顯示出數(shù)據(jù)的復(fù)雜而不規(guī)則的結(jié)構(gòu)。然而,在另一個(gè)坐標(biāo)系 B 中則揭示了數(shù)據(jù)可以被維度 B_1 有效描述,而維度 B_2 則并不重要,這暗示了這是一個(gè)一維的隱含因子模型。
某種程度上,隱含因子模型能夠與離散余弦變換 (DCT) 相比較,離散余弦變換被用在圖像壓縮算法諸如 JPEG 中來用少量的諧波來近似圖片。
以上的思考鏈引導(dǎo)我們到如下的隱含因子的形式化模型,首先選擇維數(shù) b?n,m 并將每個(gè)用戶和物品都當(dāng)作該維度空間中的一個(gè)向量。我們將用戶 u 的向量標(biāo)識(shí)為 p_u∈R^b, 物品 j 的向量標(biāo)識(shí)為 q_j∈R^b,這些向量是基于評(píng)分舉證計(jì)算 R 得到的,計(jì)算過程中通過某種辦法讓向量 b 的個(gè)分量都對(duì)應(yīng)到上面所述的一個(gè)隱含維度。
因此,用戶和物品都可以在同樣的主題下進(jìn)行編碼,同時(shí)評(píng)分可以通過計(jì)算兩個(gè)向量的內(nèi)積,即將向量的維度兩兩對(duì)應(yīng)相乘然后求和得到:
有許多不同的方法來計(jì)算用戶和物品的隱含因子向量 p_u 和 q_j,最直接的方法就是用奇異值分解 (SVD) 對(duì)評(píng)分矩陣 R 進(jìn)行分解。然而,基于計(jì)算穩(wěn)定性和復(fù)雜性的考慮,在實(shí)踐中一般使用迭代的梯度瞎講優(yōu)化方法 [YK09]。
下圖展示了卷積(2.1)和(2.3)之間的區(qū)別。左邊對(duì)于給定物品的稀疏的評(píng)分向量與稀疏度相似的給定用戶做卷積得到評(píng)分估計(jì);而在右邊,評(píng)分是通過計(jì)算兩個(gè)降維后且能量密度很好的向量的卷積得到的。
6.多目標(biāo)
以上討論的推薦方法本質(zhì)上都是由一個(gè)單一目標(biāo)驅(qū)動(dòng),這一目標(biāo)是提供最好的語義匹配或者預(yù)測偏好評(píng)分。然而,推薦精度并不是推薦系統(tǒng)設(shè)計(jì)的唯一考慮,零售商可能有興趣對(duì)綜合多個(gè)有沖突的目標(biāo)在一起給用戶提供推薦。
例如,食品雜貨商可能有興趣提升具有較短貨架期的易腐食物的銷量,時(shí)尚商店可能希望推廣贊助品牌或當(dāng)季款,更多的零售商可以從推薦較高利潤率的產(chǎn)品或考慮產(chǎn)品庫存水平避免以避免缺貨來獲得更好收益。
文獻(xiàn) [JW10] 提出了多目標(biāo)推薦系統(tǒng)并在 LinkedIn[RP12] 中做了大規(guī)模驗(yàn)證。在 LinkedIn 的例子中, 其主要的目標(biāo)是給候選人推薦語義上匹配的工作機(jī)會(huì),其次是顯示找工作的行為。[RP12] 描述了該方法,將推薦任務(wù)定義為如下的優(yōu)化問題:
此處:
ˉr 是由底層推薦系統(tǒng)基于語義匹配和相關(guān)性產(chǎn)生的原生推薦向量,ˉr 中的第 j 個(gè)元素表示的是第 j 個(gè)產(chǎn)品的相關(guān)性分值(或排序)。
ˉf 是二級(jí)特征值向量,ˉf 中的第個(gè)元素對(duì)應(yīng)的是第 j 個(gè)產(chǎn)品在次要目標(biāo)上對(duì)應(yīng)的分值。例如,這一向量可以產(chǎn)品的毛利率。
R(·) 是組合排序函數(shù)其綜合了 ˉr 和 ˉf 形成一個(gè)新的物品排序平衡了兩個(gè)目標(biāo)。
g(·) 表示度量推薦系統(tǒng)性能的整體效用函數(shù)。
E{?} 對(duì)所有推薦效果的平均。
(·)_(1…K) 表示的是前 K 個(gè)具有最高分?jǐn)?shù)的元素,這里 K 是給用戶推薦的物品數(shù)。例如,如果 ˉr 中包括在冊(cè)的所有 n 個(gè)產(chǎn)品的推薦分,則 ˉr_(1..K) 對(duì)應(yīng)的是 K 個(gè)最值得推薦的產(chǎn)品。
dist(·) 是度量兩個(gè)推薦向量之間的差異的距離函數(shù),而 c 是這一差異的限制閾值。根據(jù) [RP12], 一個(gè)合理而實(shí)際的距離度量是兩個(gè)分值向量直方圖的平方誤差和。
上述優(yōu)化問題的主要事項(xiàng)是是增加混合了次要目標(biāo)的相關(guān)度分值的綜合推薦的效用,但是對(duì)原聲的相關(guān)性推薦結(jié)果和綜合推薦結(jié)果的差異做懲罰來保證不會(huì)為了最求次要目標(biāo)而完全犧牲相關(guān)性。
函數(shù) R(·) 的設(shè)計(jì)需要包括可調(diào)整的參數(shù)來調(diào)節(jié)兩個(gè)目標(biāo)的權(quán)重并決定哪個(gè)是主要的優(yōu)化目標(biāo),這一方法可以直接的擴(kuò)展到多于兩個(gè)目標(biāo)的情況。
我們能夠使用大量的例子來展示上述優(yōu)化模型是可以適配到實(shí)際的問題中去的。首先,考慮零售商要將收入目標(biāo)整合到推薦分值里的情況。
整體的效用函數(shù)可以被期望毛利率定義,設(shè) m(p)∈[0,1] 為物品 p 的規(guī)范化毛利率,而被購買的概率則由排序位置的倒數(shù)表示(即在推薦列表里排序越低的的物品,其轉(zhuǎn)化概率越低)。
此處是概率規(guī)范化常數(shù)。綜合排序函數(shù)可以被定義為如下:
其中 β 是一個(gè)控制相關(guān)性和選取高毛利率產(chǎn)品之間的權(quán)衡的參數(shù),這一參數(shù)決定了優(yōu)化問題(2.4)的主要目標(biāo)。
根據(jù)次要目標(biāo)重新排序的另一個(gè)例子是促銷特色商品,如打折產(chǎn)品或易腐貨物。效用函數(shù)可以指定為特選產(chǎn)品在有 K 個(gè)推薦項(xiàng)的推薦列表中的平均個(gè)數(shù)。
此處 F(·) 是特選標(biāo)志當(dāng)物品是特選時(shí)為 1,不是則為 0。綜合排序函數(shù)組合了相關(guān)性分值和特選標(biāo)志,通過參數(shù) β 來權(quán)衡哪個(gè)是主要的優(yōu)化目標(biāo)。
以上的排序函數(shù)能夠直接擴(kuò)展到整合多個(gè)分離的特征,每個(gè)特征對(duì)最終排序分值的貢獻(xiàn)尤其對(duì)應(yīng)的權(quán)衡參數(shù)(所有參數(shù)需要聯(lián)合起來優(yōu)化):
關(guān)于問題(2.4)的數(shù)值優(yōu)化算法的細(xì)節(jié)可以在 [RP12] 中找到。
問題 3: 需求預(yù)測
1.問題定義
零售商為客戶提供一組產(chǎn)品,對(duì)給定產(chǎn)品的需求依賴于許多因素,包括產(chǎn)品本身的特性如價(jià)格或品牌,同類產(chǎn)品競爭對(duì)手的價(jià)格、 促銷活動(dòng),甚至是天氣。
該問題的目標(biāo)是整合這些因素來構(gòu)建需求模型并且允許進(jìn)行假設(shè)分析以預(yù)測對(duì)價(jià)格變化的響應(yīng),品類的擴(kuò)充和減少,計(jì)算最佳庫存水平,并分配貨架空間單位。
2.應(yīng)用
在本節(jié)中我們將討論需求預(yù)測核心問題。這一問題可以被考慮為一個(gè)建造模塊,該模塊要求對(duì)影響需求的行為或者庫存水平的限制建模:
價(jià)格優(yōu)化,促銷活動(dòng)計(jì)劃, 以及定向折扣。
品類管理和計(jì)劃。
庫存水平優(yōu)化。
需求預(yù)測模型通常應(yīng)用在市場營銷活動(dòng)設(shè)計(jì)中,因?yàn)檫@些模型能夠解釋需求回歸量的影響。例如,一個(gè)需求預(yù)測模型可以揭示某一產(chǎn)品的價(jià)格敏感性(當(dāng)價(jià) 格變化時(shí)需求有多少變化)與包裝大小和和銷售區(qū)域的人口特性緊密相關(guān),這就暗示了可以在不同的商店使用不同的價(jià)格并對(duì)不同包裝的產(chǎn)品設(shè)定不同的單位毛利 率。
我們將在后面的章節(jié)中把需求預(yù)測模型用在價(jià)格優(yōu)化和品類計(jì)劃問題上。
3.解決方案
需求預(yù)測可以被認(rèn)為是一個(gè)相對(duì)簡單的數(shù)據(jù)挖掘問題,只需要建立一個(gè)回歸模型并用歷史數(shù)據(jù)進(jìn)行評(píng)估。然而,設(shè)計(jì)回歸模型則不是那么簡單的事情,因?yàn)樾枨笫艿胶芏嘤兄鴱?fù)雜依賴關(guān)系的因素的影響。
在本節(jié)中,我們將研究文獻(xiàn) [KOK07] 為 Albert Heijn(一家荷蘭的連鎖超市)構(gòu)建并驗(yàn)證的回歸模型。這一模型基于早期的營銷研究如 [BG92],以及時(shí)尚零售商如 RueLaLa[JH14] 和 Zara[CA12] 的實(shí)踐,這些實(shí)踐中應(yīng)用了相似的模型。
然而,重要的是要理解不同的優(yōu)化問題需要不同的需求預(yù)測模型并且?guī)缀醪豢赡軜?gòu)建通用的需求模型來整合各種不同的需求影響因子。
我們從以下對(duì)一給定產(chǎn)品的需求模型開始:
此處:
V 是在給定時(shí)間窗口內(nèi)顧客到訪商店的數(shù)量,例如一天。
Pr(purchase | visit) 是客戶在逛商店期間購買任意商品的概率。
Pr(j | purchase) 是當(dāng)客戶發(fā)生購買時(shí)在所有可選項(xiàng)中選擇產(chǎn)品的概率。
E{Q | j;purchase} 是當(dāng)客戶選擇了產(chǎn)品并購買時(shí)購買數(shù)量(單位數(shù)量)的數(shù)學(xué)期望。
公式(3.1)中的所有因素都可以用店鋪的歷史交易數(shù)據(jù)來估計(jì)。需求通常與日期(周幾、節(jié)假日等)和店鋪(大小、鄰近區(qū)域的人口統(tǒng)計(jì)情況等等)相關(guān),所以我們引入下標(biāo) t 和 h 來分別表示日期和店鋪,而估計(jì)的需求就是這些參數(shù)的函數(shù)。
另外,商店屬性,如大小、位置和平均消費(fèi)者的收入可以納入模型作為回歸。根據(jù) [KOK07],商店訪客的數(shù)量可以建模如下:
此處 Tt 是天氣溫度,Wt 是天氣舒適度指數(shù)(濕度、陰晴等),Bti 和 Eti 分別是表示一天是星期幾和公共假期的 0/1 啞變量,H 是公共假期的天數(shù),而 α 是回歸系數(shù)。
購買事件是一個(gè)二值變量(購買/沒有購買),所以我們可以用一個(gè)標(biāo)準(zhǔn)的建模方法 – 將購買概率用一個(gè) Sigmoid 函數(shù)來表達(dá)并從數(shù)據(jù)估計(jì)指數(shù)參數(shù):
則 x 的回歸模是:
此處 Ajht 是啞變量,產(chǎn)品 j 在促銷時(shí)值為 1 否則為 0,Nh 是所有產(chǎn)品的數(shù)量,而 β4 對(duì)應(yīng)的是促銷產(chǎn)品占整體銷售產(chǎn)品中的百分比。
Pr(j | purchase) 的估計(jì)則更為棘手一些??蛻暨x擇建模在本質(zhì)上是計(jì)量經(jīng)濟(jì)問題,是一個(gè)特別的經(jīng)濟(jì)學(xué)研究分支——選擇建模理論。選擇建模理論證明了多項(xiàng) logit 模型(MNL)是有效的方法來對(duì)多個(gè)選項(xiàng)中選擇的概率進(jìn)行建模。
此處會(huì) i 迭代遍歷所有產(chǎn)品,yj 是一個(gè)參數(shù)變量。類似于購買事件的概率,我們對(duì)參數(shù) yj 建立了一個(gè)回歸模型:
此處系數(shù) Γn+1 和 數(shù) Γn+2 由所有產(chǎn)品共享,Rjht 和 R 分別是單個(gè)產(chǎn)品的價(jià)格和產(chǎn)品的平均價(jià)格,而 Ajht 和 A 是促銷啞變量和平均促銷率,如上面對(duì)購買可能性回歸模型描述的那樣。
最后,單位產(chǎn)品的平均銷售數(shù)量可以建模如下:
通過將上述模型代入根表達(dá)式(3.1),可以得到完全特別的需求預(yù)測模型。 這一模型可以根據(jù)零售商的業(yè)務(wù)用例來調(diào)整,這些跳幀個(gè)可以通過增加更多的解釋性變量如營銷事件來完成。(來源:TalkingData 文/Ilya Katsov)