搜尋引擎對重複性內容的4個盲點

最近搜尋引擎Google針對內容農場(Content Farm)進行大規模撲"章"的動作,直接影響到一些知名聯合供稿網站(Associated Content Syndication),例如:associatedcontent.com, ezinearticles.com等等,主要為了抑治來自不同網站的大量重複性內容,企圖佔據絕大的搜尋引擎結果排名,除了造成搜尋引擎爬蟲效率的影響外,也讓一些有價值的網站無法浮出抬面,也進一步引起使用者對搜尋引擎的負面觀感。


對於重複性內容,一直都是搜尋引擎的心腹大患,搜尋引擎雖然可以透過運算法則來控制資料萃取的結果,但卻無法預測或控制使用者的行為,也因此防不勝防,只能利用更新運算機制的改善方式來處理面臨問題,但搜尋引擎畢竟只是機器,針對重複性內容總有盲點之處,以下提供幾點個人看法:


1. 網站內容或文章雖具原創性,但如果搜尋引擎優先從其他網站抓到該內容,誰具有原創性?


在此姑且不論搜尋引擎是否考慮著作權的問題,舉例來說:一個新網站,網站發佈一篇豐富性、原創性兼具的好文章,由於新網站還未被搜尋引擎檢索或搜尋引擎不知道有這個新網站,但文章內容在第一時間可能已經被企業的行銷人員或知道該網站的人(假如是認識的人,例如:客戶)發佈在其他網站平台上,發生了搜尋引擎優先從其他網站平台上抓取到該內容,這時出現了幾個問題:

a. 文章裡沒有註明來源處,搜尋引擎會認為誰是原創者?
b. 文章裡有註明來源處,搜尋引擎會認為誰是原創者?
c. 文章裡沒有註明來源處,其他網站平台的使用者會認為誰是原創者?
d. 文章裡有註明來源處,從搜尋引擎結果來到網站平台的使用者會認為誰是原創者?
e. 更多問題…

是否該考慮新網站讓搜尋引擎檢索之前,都應該保密呢?不瞭解搜尋引擎檢索這事的人,又該如何是好?


2. 網站內容雖然原創,但內容被發佈到權重或歷史性比你高的網站平台上,搜尋引擎優先採取誰的排名?


權重及歷史性的因素雖然不是搜尋引擎排名的絕對考量,但網站信任度(Trust)卻是影響搜尋引擎排名的重要因素之一。

例如:維基百科有一篇文章是根據你的網站,而撰寫相同的內容(內容不會絕大部份都重複),文章底部也註明來源網站,但由於維基百科是具歷史性的權威網站(Authority Site),搜尋引擎的結果只會出現維基百科的排名,而不會出現你的網站排名。就如同一家知名大企業(維基百科)和一家不知名的小企業(新網站)所分析的市場趨勢及狀況報告,誰家的報告比較具可信任性!可能大部份的人會認為大企業所提出的報告比較不會出錯,因此讓它由專門機構(搜尋引擎)提出來讓大家做參考,但事實上大企業所提出的報告是從小企業來的。


3. 只有部份搜尋引擎針對重複性內容擁有較大的改善措施,但其他搜尋引擎跟進速度似乎不快,是否容易產生間接性的影響?


重複性內容的散播除了本身網站外,可藉由其他外部網站(非本身網站)來大量傳播,經由大量傳播的結果可能使搜尋引擎結果產生一個以上的重複性搜尋結果,例如:搜尋引擎的第一頁所列的結果,其實都是指同一篇文章內容,但只是來源網站不同而已。

使用者很少會去探討那一則搜尋結果才是主要來源處並藉以引用,因此以時間來推算其結果,最初的來源處所發佈的內容,被發掘或連結的機率也相對減少,讓其他重複性搜尋結果排名有機會往前,原創性的內容因此石沉大海。


4. 搜尋引擎只能根據文字內容去判別內容是否重複,無法根據不同語意區別?


搜尋引擎或許可以精準到某篇內容被別的網站引用了多少百分比,但可能不同文章其實說明的是同一件事情,只是換個說法,用不同的語意去轉換原創者所欲表達的文章內容,就如同換句話說。這種情形的發生,使用者很輕易就可以判別出來,但對於搜尋引擎而言,仍然有很大的進步空間。


以上仍然有細節可談,但先至此。重複性內容的議題將會是個永久的問題,而改善人為的造因會比搜尋引擎改善其運算規則來的有用,但事實上,要控制人為因素是一道極艱巨的跨越難題。

0 意見:

張貼留言

歡迎討論