一搜索引擎原理和用戶使用習(xí)慣
【導(dǎo)讀】搜索引擎是指根據(jù)一定的策略、運用特定的計算機程序從互聯(lián)上搜集信息,在對信息進行組織和處理后,為用戶提供檢索服務(wù),將用戶檢索相關(guān)的信息展示給用戶的系統(tǒng)。當用戶在搜索框輸入一個關(guān)鍵字后,我們應(yīng)該給用戶返回什么內(nèi)容呢?
一、搜索引擎原理和用戶使用習(xí)慣
1.1 搜索引擎是一個可供所有人檢索的數(shù)據(jù)庫
別拿人不當人;在人之下圖1:搜索引擎簡單的人機交互過程
其中:
1)被檢索的數(shù)據(jù)庫即搜索引擎所抓取的頁數(shù)據(jù)。
通過蜘蛛爬取到原始數(shù)據(jù)后,搜索引擎會對其進行處理后才入庫。即搜索引擎的搜索算法,比如大家熟知名字( 當然是名字啦,內(nèi)容原理是最高機密) 的Google的PageRank。
2)搜索引擎是高度簡化后的產(chǎn)品。
用戶需要做的即是輸入想要檢索的關(guān)鍵詞,確定,查看結(jié)果。這里有個需要說明的是,用戶連搜索條件都不需要輸入。而對搜索引擎來講,不僅要在海量數(shù)據(jù)中快速找到相關(guān)結(jié)果,還要揣測用戶的期望并提取正確的內(nèi)容給用戶,內(nèi)部的機制已經(jīng)不能用繁瑣來形容了。
這個難度就好比在大量圖書中快速準確找出某一個未知問題的答案一樣。
圖2:剛拍攝的國家圖書館,使用了濾鏡。
1.2 搜索引擎數(shù)據(jù)處理過程
搜索引擎是一個超級復(fù)雜的系統(tǒng),內(nèi)部具體的處理規(guī)則和技術(shù)原理不可能是簡單的闡述清楚。我們通過產(chǎn)品的思維來理解一下這個過程即可。拿寫論文的例子分析即可,論文在成文之前材料的整理過程大致如下:
1)從絡(luò)、圖書館、書籍雜志、講座等等收集大量原始資料
2)排除相關(guān)重復(fù)內(nèi)容
3)排除跟主題關(guān)聯(lián)性不大的內(nèi)容
4)根據(jù)主題、邏輯順序、優(yōu)先級等進行人為的計算、分析、排版、處理等。這個過程是最為繁瑣和耗時的,使用的武器便是史上最牛逼的工具:人腦!!!
5)成文輸入結(jié)果
忍不住再重申一下:所有的產(chǎn)品其實都是在模仿人類的實際社會活動。。。明白這個對于產(chǎn)品經(jīng)理很重要哦。
搜索引擎數(shù)據(jù)處理流程基本類似(想要了解的可以自行搜索相關(guān)資料),唯一的也是搜索引擎想消除的區(qū)別 :
一個是有感情有邏輯的人腦在分析,一個是機器按照一定規(guī)則來分析。
所以,想要搜索結(jié)果更精準,那就讓它像人腦一樣分析輸入數(shù)據(jù)并輸入結(jié)果。
恩,我也覺得不怎么現(xiàn)實,但是可以想辦法讓他比較精準。
二、獲取信息的方式
我們還是先從日常行為的來入手然后再推導(dǎo)產(chǎn)品的操作方式。
2.1 通常,我們從周圍環(huán)境如下獲取信息:
1、 已知獲取途徑和方法
如想獲知今天美元對人民幣的匯率抑或北京飛青島的機票價格和時刻表,因為途徑已知,此類信息只要按圖索驥即可。差別在于不同途徑的成本。匯率可通過絡(luò)查詢、咨詢、銀行點詢問等,顯然第一種方法更便捷。(的確是廢話)。
這些信息都是規(guī)則化,概念明確的。
2、了解核心關(guān)鍵需要整理的
如剛才提到的論文寫作,假設(shè)題目為弱關(guān)系社區(qū)設(shè)計,我們就需要去詢問什么弱關(guān)系,和強關(guān)系有什么區(qū)別,已有的設(shè)計案例是什么。
這些信息的獲取建立在人為分析的前提下。
2.2 提問方式
還是舉兩個例子。
1、 在形成完整的序言邏輯前,小孩子提問的方式是最簡單的關(guān)鍵要學(xué)會調(diào)整心態(tài)詞,大人們要做的便是通過他的咿呀來理解孩子的需求。一般大人都能準確預(yù)測,原因在于其非常了解孩子的習(xí)慣、行為、方式、特征 等。
2、有了完整的語言邏輯后,我們一般選擇直接提問:今天的匯率是什么?北京飛青島的票價多少,都是幾點的?人腦也完全可以處理這些問題。當然,人是復(fù)雜的感情動物,好多東西還不能完全通過字面意思去理解。說一個不是很恰當?shù)睦樱杭s會中,女孩提問你覺得現(xiàn)在的房價如何。字面意思是房價,潛在意思是你的購房能力如何。
2.3 搜索引擎該這么處理
假設(shè)搜索引擎具有跟我們一樣的大腦的話,那他處理問題的方式應(yīng)該是這樣的:
1、分析所查詢的問題是檢索關(guān)鍵詞還是提問
2、結(jié)果分為三種,
答案已知直接輸出結(jié)果;
途徑已知,輸入解決途徑;
提供最符合用戶預(yù)期的排序結(jié)果共用戶挑選
3、不同的情況下會出現(xiàn)相互組合。當搜索引擎對關(guān)鍵詞理解越充分時,結(jié)果越準確。
三、改進方法和策略
再總結(jié)一下用戶的操作行為:
3.1 當用戶輸入的為關(guān)鍵詞時:
1)已知用戶的特征,根據(jù)其特征對搜索結(jié)果進行符合其本身的排序
2)未知用戶特征,則視為普通的查詢。提供結(jié)構(gòu)話的搜索結(jié)果,即具有相關(guān)性的提示,相關(guān)性越高,結(jié)果越靠前。
3.2 當用戶進行提問時:
1)分析提問的語義,簡單的語義輸出結(jié)果或途徑
2) 無法分析確切人的語義,
提供多個結(jié)果給用戶,同時根據(jù)用戶的反饋不斷調(diào)整結(jié)果。這也是用戶特征的一部分。
3.3 搜索結(jié)果出現(xiàn)交叉時,痛癢還是需要參考用戶的行為特征來對結(jié)果排序。
有幾個名詞,感興趣的可再去搜索一下:Baidu-框計算;Google-知識圖譜;Facebook-社交圖譜搜索;Siri-語義搜索;概率-馬爾可夫模型 。
說白了,就是
搜索引擎對用戶的搜索意圖越理解,資料庫越完備,輸出的結(jié)果越精準 。
還是舉個例子來佐證一下:同樣一個問題,好朋友的解答一般比陌生人要好,因為好朋友更了解你提問的動機,背景甚至期望得到的答案。
問題來了,計算機畢竟不是生物,他執(zhí)行的僅僅是規(guī)則。能做的便是收集你的一些行為和特征來推斷你的喜好:
1、個人信息:姓名、性別、籍貫、職業(yè)、行業(yè)、興趣愛好、使用偏好等。
2、個人行為:搜索記錄、瀏覽記錄、社交行為等
3、處理方法:聚類、分類、數(shù)據(jù)挖掘
恩,其實是一個推薦引擎。更多知識和操作方法可以看一下Ibm Developer的文章:探索推薦引擎的秘密。
減重多少才會有平臺期三諾血糖儀準嗎為什么來月經(jīng)有血塊- 2022二級建造師《建設(shè)工程法律法規(guī)及相關(guān)知識》真題答案及解析
- 唐藝昕曬性感美照,穿著高叉裙大秀身材,纖細美腿十分吸睛
- 2022招生預(yù)測分數(shù)線出爐?
- 拍戲最敬業(yè)的三個明星,抱真蟒蛇被真酒瓶砸頭,小鮮肉該接吻了
- 2022年焊工考試高級焊工考試梁漢文套卷及答案
- 流產(chǎn)之后,孕媽會有的各種奇怪“癖好”,對照看看,你中招了嗎?
- 為啥奈何二胎比頭胎難?要二胎這一時間還沒中,三種原因可以先排除
- 贈與身份證“做公益”竟成公司股東,男子被迫打官司“自證清白”
- 談方琳:15歲成化學(xué)家,和44位諾貝爾獎得主交流,她有多厲害?
- 按揭提問:請問貴司機動車智能查驗機器人是否有實際應(yīng)用?
- 海洋水質(zhì)的網(wǎng)站監(jiān)測實際應(yīng)用中的問題
- 巨型電影放映機和相框!進來感受vivo S15系列的實力