Google搜尋引擎核心技術始於「隨機運算」(Randomized Algorithms)

具有一點基礎程式概念的人都會知道,在搜尋引擎中輸入關鍵字,可立即傳回搜尋結果,而且每次不會超過1秒,這樣的運算方式,絕不可能是搜尋所有網路中的網站後才傳回的結果。

目前在全球的網路中,網站及網頁的數目無法準確估計,也許你在看這篇文章的同時,已經同時產生不只一個網站了,所以對於搜尋引擎來說,一次搜尋全部的資料不但複雜,而且花的時間也不可能只有1秒。所以簡單來說,搜尋引擎並非直接搜尋網站,而是搜尋索引(*索引是由一個會自動掃瞄網路中的網站、同時能把資訊抓取回來的機器人,也就俗稱的網路蜘蛛[Spider]),例如:重要詞彙、從哪一網頁來的。

這樣的索引方式始於拉傑夫偉(Rajeev Motwani)教授的「隨機運算」(Randomized Algorithms),其用短路的方式來解決複雜的問題。拉傑夫偉(Rajeev Motwani)是史坦福大學電腦科學教授,專精數學與邏輯理論,Google創辦人拉里佩奇(Larry Page)與謝爾蓋布林(Sergey Brin)則為該教授傑出的學生。拉傑夫偉(Rajeev Motwani)教授的專長是資料庫、資料開礦、網路搜尋,這樣的專長使用於搜尋引擎的核心技術當中,使Google成為目前搜尋引擎的巨擎。

「隨機運算」(Randomized Algorithms)的運算方式,可因應網路資料龐大,從一小部分資料,得到高可信度的答案。一旦只要時間愈長,資料愈多,所得到的結果將會更加準確。網路上網站日積月累,成長迅速,且被搜尋引擎索引的網頁也愈來愈多,也代表著搜尋後所排序的結果資料將會愈來愈趨於精準。

搜尋引擎Google與其他家搜尋引擎最大的差異在於演算法(PageRank),針對每一個網站的網頁給於權重大小,並按權重大小給予排序。基本原則為:
1.網頁品質愈高,代表透過其他網頁連結的數目愈多,也代表權重愈大。
2.從高權重的網頁過來的連結,多過於低權重網頁過來的連結
3.對外連結越多的網頁,代表連結所給於的權重將會降低。
4.其他因素,如網站的歷史、網站的知名度、進出連結的新舊。
5.運算細節,請洽Google。

0 意見:

張貼留言

歡迎討論