起重學(xué)院
下載手機(jī)APP
當(dāng)前位置: 首頁 ? 起重學(xué)院 ? 電子商務(wù) ? 正文

聚類搜索引擎的對象、功能、算法分析

來源:中國起重機(jī)械網(wǎng)
|
|
|

聚類對象分析

 

現(xiàn)有聚類搜索引擎的聚類對象主要包括三類數(shù)據(jù):商業(yè)數(shù)據(jù)、評價(jià)數(shù)據(jù)、社交數(shù)據(jù)。

商品數(shù)據(jù)主要包括對服裝、電器、化妝品等數(shù)據(jù)信息進(jìn)行分類整理,例如用戶在淘寶網(wǎng)輸入“牙膏”關(guān)鍵字,在網(wǎng)頁上立馬顯示出“功能”、“品牌”、“產(chǎn)地”等分類信息,并按照銷量、價(jià)格、信用進(jìn)行了排序,對商品的聚類分析清晰明確。評價(jià)數(shù)據(jù)主要包括論壇對相關(guān)主題的討論信息,博客的交流信息,商業(yè)網(wǎng)站對商品的滿意度評價(jià)信息等。大連海事大學(xué)的魯明羽、姚曉娜等人提出一種基于模糊聚類的網(wǎng)絡(luò)論壇熱點(diǎn)話題挖掘算法,通過分析帖子和用戶間的影響力傳遞,來判斷是否為焦點(diǎn)人物和熱門話題[11]。社交數(shù)據(jù)主要包括社交網(wǎng)絡(luò)注冊用戶個(gè)人資料信息、用戶關(guān)注度信息、用戶之間交互信息等社交數(shù)據(jù)資源。社交數(shù)據(jù)隱含了大量可以用于聚類的關(guān)聯(lián)信息,對實(shí)現(xiàn)智能和個(gè)性化聚類搜索具有重要意義。此外,聚類對象按數(shù)據(jù)類型還可以劃分為文本數(shù)據(jù)、多媒體數(shù)據(jù)等。

 

 

聚類功能分析

 

聚類搜索引擎的聚類功能主要有智能聚類、去重、多媒體、覆蓋性等能力。

智能聚類:聚類搜索引擎大多具有這項(xiàng)功能。目前做得最好的如Vivisimo系統(tǒng),它最大的特色是會(huì)對搜索結(jié)果自動(dòng)分類,采用專門開發(fā)的啟發(fā)式算法來集合或聚類原文文獻(xiàn)。

去重:去重可以取掉大部分的廣告網(wǎng)頁并節(jié)省掉用戶的選擇時(shí)間,是十分實(shí)用的一項(xiàng)聚類功能。國內(nèi)的比比貓的去重功能非常出色,在用戶獲得多個(gè)搜索引擎的搜索結(jié)果后,比比貓可以自動(dòng)為用戶獲取最有搜索結(jié)果并取掉重復(fù)的信息。

多媒體:除了文本聚類,聚類搜索引擎還關(guān)注視頻、音頻等多媒體信息進(jìn)行聚類的功能,商業(yè)化、集成化、多媒體化的氣息更加濃厚。搜狗音樂推出了新版的聚類頁面,可視化強(qiáng),用戶輸入音樂名稱,將獲得全新的聚類結(jié)果,該結(jié)果首先按照音頻特征聚類,再按照文本信息聚類,保證搜索界面顯示的音樂相關(guān)度最高。

覆蓋性:聚類搜索引擎一般基于一些大型通用搜索引擎的數(shù)據(jù)資源,這樣能夠保證搜索的結(jié)果覆蓋全面,可聚類的對象內(nèi)容豐富。

 

 

聚類算法分析

 

聚類搜索引擎的聚類算法主要有層次聚類、樹狀聚類、網(wǎng)狀聚類、圓形聚類。其中Carrot2、Clusty(clusty.com)、iBoogie( iBoogie.com)等系統(tǒng)使用層次聚類的方法,按照來源及站點(diǎn)進(jìn)行聚類。PinkySeach[12]Mnemomap(mnemomap.org)系統(tǒng)是使用樹狀結(jié)構(gòu)的聚類算法,將聚類的結(jié)果以列表的形式展示出來。UJIKO系統(tǒng)(ujiko.com)是使用圓形結(jié)構(gòu)的聚類算法,它將搜索結(jié)果聚類后按照主題自動(dòng)分類成圖形界面顯示出來。Quintura系統(tǒng)(quintura.com)是使用網(wǎng)狀結(jié)構(gòu)的聚類算法,是通過標(biāo)簽云的形式將在語義上相關(guān)的詞聚類,構(gòu)成網(wǎng)狀鏈接。

?

移動(dòng)版:聚類搜索引擎的對象、功能、算法分析