發(fā)布時(shí)間:2019-04-24所屬分類:科技論文瀏覽:1次
摘 要: 摘要:在常用評(píng)論特征的基礎(chǔ)上,提出了一種基于搜索引擎(如百度)的文本相似性方法獲取評(píng)論與產(chǎn)品標(biāo)題之間的相似性,并作為新的評(píng)論特征建立評(píng)論推薦模型。實(shí)驗(yàn)證明,引入評(píng)論與產(chǎn)品相似性特征可明顯改進(jìn)評(píng)論推薦機(jī)制的有效性,同時(shí)文本相似性評(píng)價(jià)的準(zhǔn)確性可
摘要:在常用評(píng)論特征的基礎(chǔ)上,提出了一種基于搜索引擎(如百度)的文本相似性方法獲取評(píng)論與產(chǎn)品標(biāo)題之間的相似性,并作為新的評(píng)論特征建立評(píng)論推薦模型。實(shí)驗(yàn)證明,引入評(píng)論與產(chǎn)品相似性特征可明顯改進(jìn)評(píng)論推薦機(jī)制的有效性,同時(shí)文本相似性評(píng)價(jià)的準(zhǔn)確性可以借助搜索引擎得到較大提升。
關(guān)鍵詞:評(píng)論推薦,文本相似性,搜索引擎,點(diǎn)互信息,指派問(wèn)題
1引言
近年來(lái),憑借在線瀏覽以及移動(dòng)支付的便捷性,電子商務(wù)持續(xù)繁榮,商品評(píng)論的重要性日益凸顯。據(jù)統(tǒng)計(jì),認(rèn)為可以借鑒評(píng)論購(gòu)買商品的人群占比82%[1]。超過(guò)85%的消費(fèi)者在網(wǎng)上研究或購(gòu)買大件商品如電子產(chǎn)品和汽車,63%的人選擇帶有評(píng)論推薦的網(wǎng)站[2]。同時(shí),隨著用戶的急劇增長(zhǎng),評(píng)論不可避免地出現(xiàn)了信息過(guò)載問(wèn)題[3]。而研究表明,潛在消費(fèi)者的購(gòu)買意愿與信息檢索時(shí)間成反比[4],信息采納程度與用戶評(píng)論的信息質(zhì)量成正比[5]。
為此各平臺(tái)先后推出了自己的評(píng)論推薦機(jī)制,以期提升平臺(tái)服務(wù)質(zhì)量及經(jīng)濟(jì)效益。亞馬遜采用評(píng)分加互評(píng)的方式進(jìn)行排序,準(zhǔn)確率高,但構(gòu)建時(shí)間長(zhǎng),篩選效率有待進(jìn)一步提升;淘寶根據(jù)字?jǐn)?shù)多少、是否有圖、是否追評(píng)、是否近期、賬號(hào)等級(jí)高低作為標(biāo)準(zhǔn),沒(méi)有深度的評(píng)價(jià)評(píng)論內(nèi)容與意義,存在刷評(píng)論的漏洞;京東和當(dāng)當(dāng)多了一個(gè)管理員的角色,增加后臺(tái)人工篩選,置頂優(yōu)質(zhì)評(píng)論,增強(qiáng)了對(duì)文本內(nèi)容的考察,卻也增加了新的成本,同時(shí)無(wú)法消除管理員個(gè)體因素的影響。
隨著文本挖掘的快速發(fā)展,評(píng)論篩選的研究有了重大進(jìn)展,篩選效率進(jìn)一步提升,篩選成本持續(xù)降低,平臺(tái)服務(wù)質(zhì)量也有了較大改善。文獻(xiàn)6將所有評(píng)論的特征匯總,提出了特征提取規(guī)約模型[6],該種方法簡(jiǎn)單方便,但未對(duì)每個(gè)特征下的所有評(píng)論進(jìn)行有效篩選或推薦。文獻(xiàn)7從語(yǔ)義層次將意見(jiàn)表達(dá)形式分為情感、評(píng)判、鑒賞三種類別,依據(jù)評(píng)論數(shù)據(jù)價(jià)值評(píng)價(jià)體系,完成評(píng)論數(shù)據(jù)排序[7],但沒(méi)有進(jìn)行驗(yàn)證。文獻(xiàn)8運(yùn)用潛在狄利克雷分布(LatentDirichletAllocation,LDA)獲取評(píng)論的主題,不過(guò)提取的主題詞出現(xiàn)交叉[8]。
文獻(xiàn)9通過(guò)支持向量機(jī)分析評(píng)論中與評(píng)論質(zhì)量相關(guān)的多個(gè)影響因素[9]。文獻(xiàn)10提出的無(wú)監(jiān)督的主題對(duì)立情感混合模型綜合考慮了評(píng)論詞語(yǔ)的主題分布與評(píng)論本身的情感極性,取得了較好的結(jié)果[10]。文獻(xiàn)11基于k-means聚類的異常點(diǎn)檢測(cè)算法,通過(guò)剔除不能反映用戶需求的評(píng)論來(lái)提升評(píng)論集的質(zhì)量[11]。不過(guò)目前各種方法所選語(yǔ)料庫(kù)差異較大,所選指標(biāo)不一致,存在無(wú)法進(jìn)行有效對(duì)比的問(wèn)題。國(guó)內(nèi)外評(píng)論排序研究在綜合考慮評(píng)論整體、單條評(píng)論本身、用戶特異性等各類變量后,開(kāi)始偏重建模方法的改進(jìn),忽視了即使是同類商品,不同廠家不同型號(hào)的產(chǎn)品也存在差異性。
同時(shí),部分學(xué)者忽略了模型中變量的個(gè)數(shù)并非越多越好,有時(shí)變量之間相關(guān)關(guān)系的存在會(huì)引發(fā)多重共線性,反而會(huì)影響模型的精度。本文以此作為研究的出發(fā)點(diǎn),認(rèn)為潛在消費(fèi)者在搜索產(chǎn)品時(shí)帶有一定的傾向或目的性。因此,本文增加了“評(píng)論與產(chǎn)品標(biāo)題相似性”作為評(píng)論的特征,并對(duì)短文本相似性評(píng)價(jià)方法進(jìn)行改進(jìn)。最后,通過(guò)具體案例進(jìn)行驗(yàn)證。
2文本相似性分析
文本相似性分析指通過(guò)對(duì)目標(biāo)文本與測(cè)試文本的內(nèi)容、語(yǔ)法、結(jié)構(gòu)等因素分析,建立算法模型量化評(píng)價(jià)文本之間的相似程度。可用于解決機(jī)器翻譯、圖書(shū)檢索、論文查重等實(shí)際問(wèn)題。由于文本相似度評(píng)價(jià)方法中多用到相關(guān)性概念,也有學(xué)者將其稱為“文本相關(guān)性”[12]。將“產(chǎn)品標(biāo)題”作為目標(biāo)文本,對(duì)應(yīng)所有“產(chǎn)品評(píng)論”作為測(cè)試文本,建立文本相似性分析模型可得“評(píng)論與產(chǎn)品標(biāo)題相似性”變量的特征值。
2.1問(wèn)題描述
文本相似性方法主要分為基于統(tǒng)計(jì)和基于語(yǔ)義規(guī)則兩類[13];诮y(tǒng)計(jì)的方法簡(jiǎn)單有效但忽視了詞語(yǔ)之間的位置和語(yǔ)義關(guān)系,精度不高;谡Z(yǔ)義的方法一般通過(guò)對(duì)語(yǔ)料庫(kù)進(jìn)行訓(xùn)練挖掘語(yǔ)義關(guān)系,語(yǔ)義關(guān)系越明顯,精度越高。而電商評(píng)論文本長(zhǎng)度短、表達(dá)隨意、非規(guī)范化等特點(diǎn)致使評(píng)論文本語(yǔ)義關(guān)系稀疏,基于語(yǔ)義的方法無(wú)法有效適用于電商評(píng)論。
也有部分學(xué)者基于已有的語(yǔ)義知識(shí)庫(kù)或編碼規(guī)則建立文本相似性評(píng)價(jià)模型直接應(yīng)用于短文本,如基于《同義詞詞林》語(yǔ)義知識(shí)庫(kù)或基于hash碼等。該方法避免了短文本語(yǔ)義關(guān)系難以識(shí)別的問(wèn)題,但語(yǔ)義知識(shí)庫(kù)具有主觀性,且建立過(guò)程耗時(shí)耗力,精度難以提升。
2.2模型建立
本文認(rèn)為搜索引擎(如百度)中不同關(guān)鍵詞的相關(guān)信息(如共現(xiàn)結(jié)果數(shù)目)是二者之間語(yǔ)義相關(guān)性的綜合體現(xiàn),同時(shí)搜索引擎的形成更加客觀,因此提出了基于搜索引擎的文本相似性評(píng)價(jià)(TextSimilarityEvaluationbasedonSearchEngine,SimSE)模型。該模型基于文本信息主要體現(xiàn)在關(guān)鍵詞及其權(quán)重上的假設(shè),將文本相似性求解分為三部分:a)向量空間模型將非結(jié)構(gòu)化的文本轉(zhuǎn)換成結(jié)構(gòu)化的關(guān)鍵詞權(quán)重矩陣。b)詞語(yǔ)相似度模型求解不同文本的不同關(guān)鍵詞之間的相關(guān)性。c)文本相似度模型將詞語(yǔ)的相關(guān)性轉(zhuǎn)化為文本的相關(guān)性。
3應(yīng)用分析
本文將SimSE方法應(yīng)用到電子商務(wù)評(píng)論推薦問(wèn)題中,以期能建立電商評(píng)論的低成本快速推薦模型,進(jìn)一步提升平臺(tái)的服務(wù)質(zhì)量,同時(shí)驗(yàn)證引入“評(píng)論與產(chǎn)品標(biāo)題相似性”變量對(duì)于評(píng)論推薦有效性及SimSE方法對(duì)于短文本相似性評(píng)價(jià)的準(zhǔn)確率的影響。參考相關(guān)論文中所選評(píng)論特征和方法[1,3,6,8],在引入相似性變量前后分別建立評(píng)論推薦模型,同時(shí)選擇不同的文本相似性方法求解評(píng)論與產(chǎn)品標(biāo)題相似性,對(duì)各個(gè)模型預(yù)測(cè)結(jié)果的對(duì)比得出結(jié)論。
3.1數(shù)據(jù)概況
爬取亞馬遜上所有空氣凈化器產(chǎn)品的基本信息及評(píng)論內(nèi)容,經(jīng)過(guò)數(shù)據(jù)清洗、刪除低贊(<5)及近期評(píng)論(<3個(gè)月)后,保留相關(guān)評(píng)論超過(guò)200個(gè)的單個(gè)產(chǎn)品組成評(píng)論集,最終得到11種產(chǎn)品的2433條評(píng)論。每條評(píng)論包含“產(chǎn)品標(biāo)題、用戶名稱、用戶評(píng)分、評(píng)論時(shí)間、評(píng)論正文、配圖數(shù)量及獲贊數(shù)”。
3.2相關(guān)定義
評(píng)論的有效性:衡量評(píng)論本身對(duì)于用戶行為產(chǎn)生影響的程度。以單條評(píng)論所獲點(diǎn)贊數(shù)為衡量標(biāo)準(zhǔn)。評(píng)論特征向量:評(píng)論在所選有序特征維度上的取值序列。
4結(jié)論
本文針對(duì)評(píng)論推薦問(wèn)題,提出了基于搜索引擎的文本相似性評(píng)價(jià)方法,并選擇更加客觀的亞馬遜評(píng)論獲贊數(shù)作為有效性的評(píng)價(jià)指標(biāo)。實(shí)驗(yàn)結(jié)果表明,消極情感分值、主題覆蓋率、評(píng)價(jià)時(shí)間、功能、圖片數(shù)量、形容詞數(shù)量、副形詞數(shù)量、詞性復(fù)雜度、評(píng)論長(zhǎng)度、與產(chǎn)品標(biāo)題相似性、性價(jià)比對(duì)于評(píng)論的有效性有顯著的影響。相似性特征的引入明顯提升了評(píng)論推薦的有效性,同時(shí)證明了SimSE在短文本相似性評(píng)價(jià)方面更加有效。以上結(jié)論對(duì)于評(píng)論推薦模型的建立及改進(jìn)具有明顯的參考價(jià)值,有助于消費(fèi)者和商家快速找到有用信息,進(jìn)而提升平臺(tái)的服務(wù)質(zhì)量。不過(guò)應(yīng)用中的評(píng)論推薦模型在低贊評(píng)論或同贊評(píng)論的篩選上有待改進(jìn)。
參考文獻(xiàn):
[1]郭林方.影響在線評(píng)論有用性的相關(guān)因素研究[D].東北財(cái)經(jīng)大學(xué),2013.
[2]劉翔,范嬌嬌.供應(yīng)商與客戶智能協(xié)同決策規(guī)則識(shí)別研究[J].中國(guó)商貿(mào),2013,(6):175-177.
[3]余文菇,沙朝鋒,何曉豐,等.考慮觀點(diǎn)多樣性的評(píng)論選擇問(wèn)題[J].計(jì)算機(jī)研究與發(fā)展,2015,52(5):1050-1060.
[4]李啟庚,趙曉虹,余明陽(yáng).服務(wù)型產(chǎn)品在線評(píng)論信息特征對(duì)評(píng)論感知有用性與購(gòu)買意愿的影響[J].工業(yè)工程與管理,2017,(6):148-153.
[5]李雪,劉益,高偉.用戶評(píng)論信息特征與信息采納——產(chǎn)品涉入與社區(qū)涉入的不同調(diào)節(jié)作用[J].情報(bào)科學(xué),2018,36(11):117-123.
[6]HongY,LuJ,YaoJ,etal.Whatreviewsaresatisfactory:novelfeaturesforautomatichelpfulnessvoting[C]//Proceedingsofthe35thinternationalACMSIGIRconferenceonResearchanddevelopmentininformationretrieval.ACM,2012:495-504.
[7]曹高輝.基于語(yǔ)義理解的意見(jiàn)挖掘研究[D].武漢大學(xué),2010.
相關(guān)刊物推薦:《情報(bào)科學(xué)》曾用刊名:(國(guó)外情報(bào)科學(xué)),1980年創(chuàng)刊,本著求實(shí)創(chuàng)新的理念,始終站在學(xué)科研究的前沿,全面反映學(xué)科發(fā)展的動(dòng)態(tài),著力突出刊物與時(shí)俱進(jìn)的時(shí)代特征,抓住圖書(shū)情報(bào)界的研究熱點(diǎn),刊發(fā)了一大批既有理論水平,又有學(xué)術(shù)影響的重要論文,及時(shí)反映了情報(bào)學(xué)、信息管理、圖書(shū)館學(xué)等諸領(lǐng)域的最新研究進(jìn)展。