Google搜尋引擎核心技術始於「隨機運算」(Randomized Algorithms)

具有一點基礎程式概念的人都會知道，在搜尋引擎中輸入關鍵字，可立即傳回搜尋結果，而且每次不會超過1秒，這樣的運算方式，絕不可能是搜尋所有網路中的網站後才傳回的結果。

目前在全球的網路中，網站及網頁的數目無法準確估計，也許你在看這篇文章的同時，已經同時產生不只一個網站了，所以對於搜尋引擎來說，一次搜尋全部的資料不但複雜，而且花的時間也不可能只有1秒。所以簡單來說，搜尋引擎並非直接搜尋網站，而是搜尋索引(*索引是由一個會自動掃瞄網路中的網站、同時能把資訊抓取回來的機器人，也就俗稱的網路蜘蛛[Spider])，例如：重要詞彙、從哪一網頁來的。

這樣的索引方式始於拉傑夫偉(Rajeev Motwani)教授的「隨機運算」(Randomized Algorithms)，其用短路的方式來解決複雜的問題。拉傑夫偉(Rajeev Motwani)是史坦福大學電腦科學教授，專精數學與邏輯理論，Google創辦人拉里佩奇(Larry Page)與謝爾蓋布林(Sergey Brin)則為該教授傑出的學生。拉傑夫偉(Rajeev Motwani)教授的專長是資料庫、資料開礦、網路搜尋，這樣的專長使用於搜尋引擎的核心技術當中，使Google成為目前搜尋引擎的巨擎。

「隨機運算」(Randomized Algorithms)的運算方式，可因應網路資料龐大，從一小部分資料，得到高可信度的答案。一旦只要時間愈長，資料愈多，所得到的結果將會更加準確。網路上網站日積月累，成長迅速，且被搜尋引擎索引的網頁也愈來愈多，也代表著搜尋後所排序的結果資料將會愈來愈趨於精準。

搜尋引擎Google與其他家搜尋引擎最大的差異在於演算法(PageRank)，針對每一個網站的網頁給於權重大小，並按權重大小給予排序。基本原則為：
1.網頁品質愈高，代表透過其他網頁連結的數目愈多，也代表權重愈大。
2.從高權重的網頁過來的連結，多過於低權重網頁過來的連結
3.對外連結越多的網頁，代表連結所給於的權重將會降低。
4.其他因素，如網站的歷史、網站的知名度、進出連結的新舊。
5.運算細節，請洽Google。

吃尤加利葉的貓

Google搜尋引擎核心技術始於「隨機運算」(Randomized Algorithms)

0 意見:

張貼留言

訂閱

最新文章

熱門文章

文章存檔

文章分類

贊助廣告

文章標籤