垂直搜索引擎發展現狀
互聯網最基礎的功能即提供信息。2008年1月,中國互聯網絡信息中心在北京發布《第21次國際互聯網絡發展狀況統計報告》,調查結果顯示,目前2.1億網民中使用搜索引擎的比例是72.4%,即已有1.52億人從搜索引擎獲益,半年凈增加3086萬人。位列網絡應用中網絡音樂、即時通信、網絡影視和網絡新聞之后的第五位,高于電子郵件。與其他國家相比,由于中國互聯網仍舊是娛樂功能占主體,總體網民的搜索引擎使用率偏低。
垂直搜索引擎是搜索引擎行業保持高增長的重要力量。據調查,目前中國互聯網中的垂直搜索引擎日益發展壯大,不斷有面向新行業的垂直搜索引擎網站出現,例如,有面向房子的搜房網,有面向求職的職業搜索,有面向學術的學術搜索等。
目前垂直搜索引擎所用的技術模式和通用搜索引擎的技術基本相同。首先通過網絡蜘蛛對互聯網的網頁進行抓取,進而獲得元數據,然后對元數據進行分析處理,根據關鍵詞的權重和其鏈接的關系,計算出該網頁的重要度,存入數據庫。當用戶提交關鍵詞的時候,針對該關鍵詞進行查詢,進而將結果返回給用戶,這就是垂直搜索引擎的一般工作流程。
目前垂直搜索引擎的主要盈利模式是基于競價排名的廣告模式,具體廣告主在向垂直搜索引擎購買該項服務后,通過注冊一定數量的關鍵詞,按照付費最高者排名靠前的原則,購買了同一關鍵詞的網站按不同的順序進行排名,出現在網民相應的搜索結果中。
垂直搜索引擎的優勢分析
互聯網迅速發展。依賴搜索引擎是避免信息爆炸的快捷方式,而對于一個行業,信息量也是越來越大,準確抓住需要的信息,過濾無用信息是每個行業的從業者必須面對的課題,垂直搜索引擎為他們提供了好工具,幫助他們把握住行業發展的方向,并為想了解該行業的人提供一個便利方式。
商業公司對其日益重視。搜索引擎是人們登陸互聯網的門戶,垂直搜索引擎則是它所面向行業的門戶,在這里進行廣告投資,獲得巨大收益的概率大,所以每個商業公司都會重視對其相關行業的垂直搜索引擎投資。
擁有巨大價值的用戶搜索數據。垂直搜索引擎是面向行業、專注行業的搜索引擎,而使用垂直搜索引擎的人也都是和該行業有著密切關系的人,垂直搜索引擎記錄著這些人的搜索數據,這些數據經過整理之后將會對該行業的發展有巨大的指導作用和巨大的價值。
垂直搜索引擎面臨的問題
(一)搜索排名與搜索結果的用戶滿意度不一致
垂直搜索引擎廣告收入是其收入的巨大來源,而競價排名方案是其廣告的主要模式,但是競價排名模式是根據廣告客戶購買關鍵詞的出價多少來決定該關鍵詞的查詢結果的排列順序,這就帶來了一系列問題。出價高的網頁就排列在前,出價少或沒有出價的網頁就必然會被排列在后。根據統計研究表明,一般用戶使用搜索引擎的習慣是只看到第三頁,后面的搜索結果對用戶來說是沒有意義的,這就可能導致用戶搜索后無法得到他想要的結果,或者要經過更多次的翻頁才能找到需要的網頁,而排列在前面的那些出價很高的網頁對他的價值不一定高于那些出價少排列在后的網頁。這就極大地破壞了用戶體驗,干擾了用戶的信息獲取。如果無法在廣告和信息準確度做出均衡,一味地根據廣告費用來決定頁面的排列方式,這將會帶來用戶的不信任,進而用戶會大量流失,失去用戶的互聯網企業,是沒有生存空間的,但是沒有廣告收入,對垂直搜索行業也是無法承受的。所以,如何對廣告和用戶體驗綜合調整,盡可能讓廣告客戶獲得廣告效益,又使得用戶獲得滿意的搜索結果是亟待解決的問題。
(二)與相關行業聯系度低
垂直搜索引擎發展至今,對通用搜索引擎的模式進行了大量克隆。但是,因為通用搜索引擎面向的是所有行業,各種行業在通用搜索引擎看來,沒有高下之分,而對于垂直搜索引擎,這方面就完全不同于通用搜索引擎。如果垂直搜索引擎不能和所面向的行業進行緊密結合,就無法獲得與通用搜索引擎的差異化優勢。目前垂直搜索引擎的數據采集還是通過網絡蜘蛛在互聯網上進行爬行,抓取頁面,進而分析關鍵詞,獲取行業數據,還是停留在傳統的搜索引擎抓取數據的方式,這就導致最后的用戶查詢和在通用搜索引擎上的查詢效果并無二致,這種情況肯定無法吸引用戶,也無法發揮自己專業查詢的優勢。而且由于對該行業的了解無法深入,和該行業的從業人員也不能進行有效的溝通,自然無法了解該行業的真正需求。雖然表面看來有模有樣,但只是一個披著行業外皮的通用搜索引擎,無法設計出行業需求的功能模塊,自然無法吸引行業客戶投入廣告或者分享數據。
促進垂直搜索引擎發展的對策
(一)優化采集策略和數據來源
對于垂直搜索引擎的采集策略來說,必須不同于通用搜索引擎的采集策略。從互聯網中準確快速提取出本行業的數據,關鍵詞是一個很關鍵的因素,所以必須和該行業的專業人士進行溝通,由他們提供基于本行業的關鍵詞。另外,用戶也可以向搜索引擎提交關鍵詞,在管理員審核通過的情況下,也添加進入關鍵詞序列,定期對關鍵詞整理,去除使用頻率低的關鍵詞,并添加新近出來的新詞。在有一個維護良好的新詞表的基礎上,優化策略就有了一個好的開始。由于現在網頁html語言越來越規范化,這也給采集帶來了方便。根據研究發現,一個網頁的主題決定了一個網頁的內容,也就是在之間的部分,只要通過網絡蜘蛛先抓部分的內容,之后再將抓取的部分和關鍵詞列表進行對比,如果主題里含有關鍵詞超過規定的閾值,就繼續抓取,否則,就放棄抓取。這種改進的抓取策略可以有效地改善抓取的效率和準確度。
在數據來源方面,如果只從互聯網上獲取數據,那就無法體現垂直搜索引擎專業化的優勢,必須從別的渠道獲取行業數據,這樣才能充分發揮垂直搜索引擎的特點。可以采用激勵制度,鼓勵用戶提供數據,如果提供的數據很有價值,而且本身搜索引擎沒有收錄,可以給予用戶獎勵。購買一些收費資料,可以采取廣告分成或收費檢索的方式進行收錄。總之,行業資料要盡可能地全面。
(二)進行有效的數據挖掘
數據挖掘,就是對用戶在查詢結果出現后的瀏覽行為和關鍵詞輸入記錄,并進行有效整理統計分析,進而根據所獲得的相關數據進行二次應用。可以據此對查詢結果進行重新排序,把和用戶興趣相似度高的排列在前面,以此來緩解競價排名帶來的負面影響。可以將此數據提供給行業用戶進行商業決策。具體措施如下:
第一,挖掘用戶瀏覽習慣。獲取用戶的瀏覽習慣是對用戶對搜索結果滿意度反饋的獲取,有如下行為可以判斷用戶對某一鏈接興趣度高:點擊鏈接網頁后鏈接的層次,打開鏈接網頁后網站的持續打開時間,用戶打開網站后有無復制文本,保存鏈接進入收藏夾等行為。如果產生上述行為,可以認為此鏈接用戶興趣度高,此鏈接相比其他搜索結果更有價值,同時,由于網頁瀏覽并發性高,時間短,理論上通過客戶端記錄用戶行為效果最好,但是用戶對后臺監控自己行為的軟件內心是一種反感態度,軟件本身也無法使用戶相信不會泄露用戶的隱私,所以不宜采用,在當前條件下,由于電腦日益普及,個人電腦的保有量大大增加,所以采用ip和cookies可以近似地保證用戶數據的單一性和獨立性,具體操作的流程如下:
啟動垂直搜索引擎,搜索引擎獲得cookies和ip,在數據庫查找該用戶的信息,如果沒有信息,則新建一個用戶,如果存在該用戶,則在數據庫中調用該用戶已經存在的瀏覽興趣數據。
提交關鍵詞,搜索引擎接收關鍵詞,獲得搜索結果,并根據用戶的瀏覽興趣表,將瀏覽興趣表和原始搜索結果進行相關性計算,之后將結果返回給用戶瀏覽器。
通過每次用戶瀏覽該結果的過程進行記錄,并將此記錄迭代更新到用戶興趣表,反復進行,隨著用戶搜索的持續進行,則用戶的搜索結果的排序越來越接近他自己想要的結果,并且用戶興趣表對用戶的愛好的反映也和用戶本身的愛好相似度越來越高,從而抽象出用戶的興趣模型,使用戶的滿意度提高。
第二,挖掘行業關注點。作為關注點在所面向行業的垂直搜索引擎,可以在用戶查詢時對其所輸入的關鍵詞進行記錄,之后在一個時間間隔內(3個月或半年)對這些關鍵詞進行統計分析一次,就能夠獲取這個時間區間內用戶對這個行業的各方面關注情況,這些資料對于從事該行業的企業來說很有價值,并將帶來生產、營銷收益。這些數據都是來源于用戶的搜索記錄,不存在修改、偽造,反映出的數據是真實可靠的,因此可以用作決策參考。企業根據資料所反映的情況,調整自己的生產,營銷策略,去適應用戶和市場的需求,以在市場上獲得先機。同時通過給企業用戶提供搜索報告,可以和他們交換一些互聯網沒有的行業資料,實現雙贏的效果。
第三,廣告推薦。作為競價排名廣告的有益補充,數據挖掘技術在推薦廣告方面也可以發揮出它的作用,使得企業所投放的廣告獲得更好的收益。當獲得一系列用戶的興趣模型,即可對這些用戶進行相應的聚類分析,得出有相同愛好的一類用戶。這時,就可以根據用戶的愛好和興趣度,進行相應的廣告投放和產品推薦,所投放的廣告由于是基于用戶的愛好,二者之間有很高的相似度,用戶一般也樂于接受,不會造成反感,認可度更高,效果也要比沒有選擇性的廣告好很多。
(三)集成行業優勢并發展成為該行業的門戶
通過和該行業的從業人員進行有效溝通,以及對該行業進行充分調研了解,對垂直搜索引擎進行不斷改造、更新,使其在該行業發揮出越來越重要的作用,進而成為該行業的門戶,這時就可以依托門戶優勢,成為電子商務的中介平臺。比如一個面向玩具的垂直搜索引擎,就可以采用如下模式進行中介,用戶搜索某一玩具,搜索引擎利用自己整合優勢,通過運算比較,返回給用戶最合適的購買方案,如果用戶對該玩具只有模糊的印象,搜索引擎也可以根據用戶提供的信息在龐大的資料庫內進行有效的查詢,返回用戶最滿意的結果,進而用戶就可以根據返回的結果選擇購買。由此可以看出,搜索引擎通過龐大、準確的行業庫可以提供買賣方的有效信息互動,減少買賣方的成本。
(四)發展移動搜索
隨著手機的逐漸普及,以及3G技術的迅速鋪開,移動搜索也已經提到議事日程來,未來的互聯網將逐步轉移到移動平臺上,抓住移動平臺,也就抓住了商機。在移動平臺,垂直搜索引擎將發揮更加重要的作用,由于移動平臺自身的局限性,通用搜索引擎檢索信息在速度、準確度上都不適用于移動平臺,垂直搜索引擎自身的小、快、靈的特點與移動平臺相適合,二者相得益彰。手機通信是通過基站進行傳遞中轉,如果和通信服務商進行合作,就可以在用戶提交查詢時獲取用戶的基站信息,通過基站信息就可以對用戶的位置進行大致定位,獲取用戶位置,從而進行一系列的針對性服務。(編選:中國搜索研究中心陳奇)
heet://haidanet.cn
地 址:北京市海淀區建材城中路12號院17號樓1層119室
武漢分公司地址:湖北省武漢市洪山區南國雄楚廣場A4棟2011室
鄭州分公司地址:河南鄭州金水區東風路科技市場對面米蘭陽光6號樓917室
郵 箱:haidanet@163.com
24小時聯系電話: 15201609116 13651084380