起重學(xué)院
下載手機(jī)APP
當(dāng)前位置: 首頁(yè) ? 起重學(xué)院 ? 電子商務(wù) ? 正文

聚類(lèi)搜索引擎的對(duì)象、功能、算法分析

來(lái)源:中國(guó)起重機(jī)械網(wǎng)
|
|
|

聚類(lèi)對(duì)象分析

 

現(xiàn)有聚類(lèi)搜索引擎的聚類(lèi)對(duì)象主要包括三類(lèi)數(shù)據(jù):商業(yè)數(shù)據(jù)、評(píng)價(jià)數(shù)據(jù)、社交數(shù)據(jù)。

商品數(shù)據(jù)主要包括對(duì)服裝、電器、化妝品等數(shù)據(jù)信息進(jìn)行分類(lèi)整理,例如用戶(hù)在淘寶網(wǎng)輸入“牙膏”關(guān)鍵字,在網(wǎng)頁(yè)上立馬顯示出“功能”、“品牌”、“產(chǎn)地”等分類(lèi)信息,并按照銷(xiāo)量、價(jià)格、信用進(jìn)行了排序,對(duì)商品的聚類(lèi)分析清晰明確。評(píng)價(jià)數(shù)據(jù)主要包括論壇對(duì)相關(guān)主題的討論信息,博客的交流信息,商業(yè)網(wǎng)站對(duì)商品的滿(mǎn)意度評(píng)價(jià)信息等。大連海事大學(xué)的魯明羽、姚曉娜等人提出一種基于模糊聚類(lèi)的網(wǎng)絡(luò)論壇熱點(diǎn)話題挖掘算法,通過(guò)分析帖子和用戶(hù)間的影響力傳遞,來(lái)判斷是否為焦點(diǎn)人物和熱門(mén)話題[11]。社交數(shù)據(jù)主要包括社交網(wǎng)絡(luò)注冊(cè)用戶(hù)個(gè)人資料信息、用戶(hù)關(guān)注度信息、用戶(hù)之間交互信息等社交數(shù)據(jù)資源。社交數(shù)據(jù)隱含了大量可以用于聚類(lèi)的關(guān)聯(lián)信息,對(duì)實(shí)現(xiàn)智能和個(gè)性化聚類(lèi)搜索具有重要意義。此外,聚類(lèi)對(duì)象按數(shù)據(jù)類(lèi)型還可以劃分為文本數(shù)據(jù)、多媒體數(shù)據(jù)等。

 

 

聚類(lèi)功能分析

 

聚類(lèi)搜索引擎的聚類(lèi)功能主要有智能聚類(lèi)、去重、多媒體、覆蓋性等能力。

智能聚類(lèi):聚類(lèi)搜索引擎大多具有這項(xiàng)功能。目前做得最好的如Vivisimo系統(tǒng),它最大的特色是會(huì)對(duì)搜索結(jié)果自動(dòng)分類(lèi),采用專(zhuān)門(mén)開(kāi)發(fā)的啟發(fā)式算法來(lái)集合或聚類(lèi)原文文獻(xiàn)。

去重:去重可以取掉大部分的廣告網(wǎng)頁(yè)并節(jié)省掉用戶(hù)的選擇時(shí)間,是十分實(shí)用的一項(xiàng)聚類(lèi)功能。國(guó)內(nèi)的比比貓的去重功能非常出色,在用戶(hù)獲得多個(gè)搜索引擎的搜索結(jié)果后,比比貓可以自動(dòng)為用戶(hù)獲取最有搜索結(jié)果并取掉重復(fù)的信息。

多媒體:除了文本聚類(lèi),聚類(lèi)搜索引擎還關(guān)注視頻、音頻等多媒體信息進(jìn)行聚類(lèi)的功能,商業(yè)化、集成化、多媒體化的氣息更加濃厚。搜狗音樂(lè)推出了新版的聚類(lèi)頁(yè)面,可視化強(qiáng),用戶(hù)輸入音樂(lè)名稱(chēng),將獲得全新的聚類(lèi)結(jié)果,該結(jié)果首先按照音頻特征聚類(lèi),再按照文本信息聚類(lèi),保證搜索界面顯示的音樂(lè)相關(guān)度最高。

覆蓋性:聚類(lèi)搜索引擎一般基于一些大型通用搜索引擎的數(shù)據(jù)資源,這樣能夠保證搜索的結(jié)果覆蓋全面,可聚類(lèi)的對(duì)象內(nèi)容豐富。

 

 

聚類(lèi)算法分析

 

聚類(lèi)搜索引擎的聚類(lèi)算法主要有層次聚類(lèi)、樹(shù)狀聚類(lèi)、網(wǎng)狀聚類(lèi)、圓形聚類(lèi)。其中Carrot2、Clusty(clusty.com)、iBoogie( iBoogie.com)等系統(tǒng)使用層次聚類(lèi)的方法,按照來(lái)源及站點(diǎn)進(jìn)行聚類(lèi)。PinkySeach[12]Mnemomap(mnemomap.org)系統(tǒng)是使用樹(shù)狀結(jié)構(gòu)的聚類(lèi)算法,將聚類(lèi)的結(jié)果以列表的形式展示出來(lái)。UJIKO系統(tǒng)(ujiko.com)是使用圓形結(jié)構(gòu)的聚類(lèi)算法,它將搜索結(jié)果聚類(lèi)后按照主題自動(dòng)分類(lèi)成圖形界面顯示出來(lái)。Quintura系統(tǒng)(quintura.com)是使用網(wǎng)狀結(jié)構(gòu)的聚類(lèi)算法,是通過(guò)標(biāo)簽云的形式將在語(yǔ)義上相關(guān)的詞聚類(lèi),構(gòu)成網(wǎng)狀鏈接。

?

移動(dòng)版:聚類(lèi)搜索引擎的對(duì)象、功能、算法分析