SEO設計過(guò)程的第一步是确保你的網站能(néng)夠被(bèi)搜索引擎發(fā)現并爬行。說起(qǐ)來容易,但做起(qǐ)來卻很難,因爲有許多熱門網站設計和運行架構是爬蟲無法理解的。
可索引的内容
要想在搜索引擎中獲得好(hǎo)的排名,那麼(me)你的網站内容,也就是呈現給網站訪客的材料,必須是HTML文本格式。例如,圖片和 Flash文件盡管能(néng)被(bèi)搜索引擎爬廳,但搜索引擎卻很難分析這(zhè)些内容。因此這(zhè)些文件便不适合向(xiàng)搜索引擎傳遞頁面(miàn)相關性的信号。搜索引擎很難識别圖片的相關性,這(zhè)是因爲GIF、JPEG或PNG格式的圖片文件内含有極少的文本輸入字段(也就是文件名、标題及l屬性)。因此,我們強烈建議你在這(zhè)些字段中準确詳細地對(duì)圖片進(jìn)行标注,僅僅一個圖片是無法爲網頁在相關搜索請求中獲得較高排名的;圖片識别技術不斷進(jìn)步,所以在不久的將(jiāng)來,處理能(néng)力的局限性可能(néng)會妨礙搜索引擎在網絡搜索中廣泛運用這(zhè)種(zhǒng)分析方法。
除了文本之外,谷歌允許用戶使用圖片作爲搜索請求進(jìn)行搜索(不過(guò),用戶可以輸入文本對(duì)該搜索請求進(jìn)行補充說明),上傳一張圖片,從桌面(miàn)拖曳一張圖片,輸入圖片網址或在浏覽器(安裝有插件的 Firefox及 Chrom測覽器)内右擊圖片,用戶通常都(dōu)能(néng)在網頁中找到該圖片的其他位置以進(jìn)行參考和研究,同時還(hái)會找到與該圖片的色調和内容相似的其他圖片。這(zhè)雖然不能(néng)立即改變圖片在SEO中的局面(miàn),但最起(qǐ)碼它給了我們一個提示,讓我們知道(dào)谷歌如何擴充圖片内容的通用相關性指示符。
對(duì)于 Flash文件,盡管可以爬取具體的w文件(最常見的Fash文件擴展名)并且建立索引,而且當用戶在運行個.sw文件搜索文件名中包含的具體的詞彙或短語時,經(jīng)常也會碰到.w文件,但在通用查詢中,很少會返回一個Fash文件或者一個全部由Fash構建的網站作爲一個高度相關的搜索結果,這(zhè)是因爲缺少“可讀性”的内容。這(zhè)并不是說,使用∏lash創建的網站本來就缺乏相關性,或者我們無法成(chéng)功地優化一個使用Fash的網站,而是從我們的經(jīng)驗來看,IM格式的文件是較好(hǎo)的選擇。
可爬行的鏈接架構
正如我們在第2章中講到的,搜索引擎會使用網頁中的鏈接來幫助它們發(fā)現其他的網頁或網站。出于這(zhè)個原因,我們強烈建議你拿出時間來創建一個能(néng)被(bèi)爬蟲順利爬行的内鏈架構。許多網站會犯一些緻命性的錯誤,它們會隐藏或模糊其導航結構,限制了爬蟲的讀取能(néng)力,從而導緻網頁無法出現在搜索引擎的索引中,圖6-解釋了這(zhè)個問題是如何出現的。
谷歌爬蟲已經(jīng)到達了頁面(miàn)A,并看到了頁面(miàn)B和的鏈接,但盡管頁面(miàn)C和D可能(néng)是網站中比較重要的頁面(miàn),爬蟲卻無法訪問這(zhè)些頁面(miàn)(盡管知道(dào)了這(zhè)些頁面(miàn)的存在),這(zhè)主要是因爲缺少到達這(zhè)些頁面(miàn)的、直接可爬行的鏈接點。在谷歌看來,這(zhè)類頁面(miàn)便等同于不存在。如果吧蟲無法在第一時間到達頁面(miàn),那麼(me)再好(hǎo)的内容、再好(hǎo)的關鍵詞選擇、再好(hǎo)的營銷策略都(dōu)是無濟于事(shì)的。
下面(miàn)是一些頁面(miàn)可能(néng)無法被(bèi)讀取的常見原因,使用提交格式的鏈接搜索爬蟲幾乎不會去嘗試“提交”格式,因此僅通過(guò)某種(zhǒng)格式才能(néng)訪問的内容或鏈接對(duì)搜索引擎是不可見的,甚至一些簡單的格式也會起(qǐ)到反作用,如用戶注冊、搜索框或某些下拉列表。
使用難以解析的 Javascript的鏈接如果在鏈接中使用 Javascript,那麼(me)你可能(néng)會發(fā)現搜索引擎既不爬行,也不在意這(zhè)些嵌入鏈接。2014年6月,谷歌宣布能(néng)夠爬行 Javascript和CSS。谷歌目前不僅能(néng)夠解析一些 Javascript,而且能(néng)夠訪問些 Javascript鏈接。基于這(zhè)一改變,谷歌能(néng)夠爬行你的 Javascrip和CSS文件。要預覽谷歌如何解析你的網站,你可以點擊Search Console-> Crawl->Fetch as google輸入你想要預覽的網址,選擇“ Fetchand Render”。
Java或其他插件中的鏈接
通常來講,搜索引擎不會查看嵌入在ava和插件中的鏈接。
Flash中的插件
從理論上來講,搜索引擎能(néng)夠發(fā)現Flash内的鏈接,但是并不會過(guò)分依賴這(zhè)個發(fā)現功能(néng)。Powerpoint和PDF文件中的鏈接搜索引擎有時會顯示在 Powerpoint文件或PDFA文件中看到的鏈接,這(zhè)些鏈接被(bèi)看作是與嵌入在HTM文件中的鏈接相似的。
指向(xiàng) robots标簽、re=” nofollow”或robots. tx限制頁面(miàn)的鏈接.
robots. tx文件提供了一種(zhǒng)能(néng)夠阻止網絡爬蟲爬行網站頁面(miàn)的方法,在鏈接中使用norodom屬性或者在包含鏈接的頁面(miàn)中添加 content-” nofollow”屬性的元 robotsnofollow tag,指示搜索引擎不要通過(guò)鏈接越過(guò)鏈接權限内容推送和搜索爬蟲控制”部分詳細讨論這(zhè)個概念)。由于一些霸道(dào)的SEO從業者過(guò)度操控,鏈接中 nofollow屬性的有效性已大打折扣,更多這(zhè)方面(miàn)的内容請參見谷歌Matt cutts博客“網頁排名實踐”。
鏈接所在的頁面(miàn)含有成(chéng)幹上萬個鏈接之前,谷歌曾建議每個頁面(miàn)最多包含100個鏈接,若超出這(zhè)個數值,它便會停止從該頁面(miàn)爬行其他的鏈接,但是随著(zhe)時間的推移,這(zhè)個建議也漸漸過(guò)時了,我們更多時候會將(jiāng)其看作一個通過(guò)頁面(miàn)排名的策略性指導意見,如果一個頁面(miàn)内包含200個鏈接,那麼(me)任何一個鏈接都(dōu)不會獲得較高的網頁排名。通過(guò)限制鏈接的數量來設法控制網頁排名,這(zhè)通常是個不錯的主意。有些工具能(néng)夠統計每個頁面(miàn)活躍的鏈接數量,如 Screaming frog.
在框架或内嵌框架中的鏈接
從嚴格意義上來講,在框架和内嵌框架中的鏈接都(dōu)能(néng)夠被(bèi)爬行,但框架和内嵌框架在組織機制和追蹤方面(miàn)給搜索引擎帶來了結構性的問題。除非你是一位資深用戶,非常清楚搜索引擎在技術層面(miàn)是如何索引和追蹤框架内的鏈接的,否則最好(hǎo)不要將(jiāng)鏈接放在框架内,以免岀現不能(néng)被(bèi)爬行的問題。我們將(jiāng)在6.2節“創建最佳的信息架構”中詳細讨論框架和内嵌框架。
XML站點地圖
谷歌、 Yahoo l!和Bing(原來是MSN搜索,然後(hòu)是實時搜索)都(dōu)支持一個叫(jiào)XML站點地圖的協議,谷歌在2005年首先宣布了這(zhè)一協議,之後(hòu)是 Yahoo!,然後(hòu)在2006年,MSN搜索也宣布支持這(zhè)協議。使用站點地圖協議,你可以向(xiàng)搜索引擎提交一個列表,列出所有你希望能(néng)夠被(bèi)搜索引擎爬行和索引的網址。
將(jiāng)網址添加到站點地圖文件中并不能(néng)保證該網址就一定能(néng)被(bèi)爬行或索引,但它能(néng)夠吸引搜索引擎發(fā)現和索引一些本來沒(méi)有被(bèi)注意到的頁面(miàn)。
該程序是對(duì)搜索引擎常規基于鏈接的爬行的一種(zhǒng)補充,而不是替代。站點地圖的優點主要如下:
對(duì)于一些搜索引擎通過(guò)其常規吧行所獲取的頁面(miàn),搜索引擎會使用你提供的元數據來改善爬行你的網站的方式;如内容最後(hòu)一次修改的時間(最後(hòu)修改日期頁面(miàn)被(bèi)修改的頻率(修改頻率等元數據。
對(duì)于它們不知道(dào)的一些頁面(miàn),搜索引擎會使用你提供的附加網址來增加爬行的覆蓋範圍。
對(duì)于一些可能(néng)有多個副本的網址,搜索引擎會使用XML站點地圖數據來選擇一個比較标準的版本。
XML站點地圖的認證和注冊可能(néng)會提供一些正面(miàn)的可信任權威信号。
站點地圖的爬行内置優點可能(néng)還(hái)有其他積極的作用,如提高排名或内部鏈接的廣泛度。
在( google search console中注冊站點地圖,能(néng)夠幫助你更好(hǎo)地了解自己的網站是否遇到了索引、爬行或内容重複的問題。谷歌反垃圾小隊的前隊長(cháng) Matt cutts是這(zhè)樣(yàng)解釋XM站點地圖的:
假設網站有A、B、C三個頁面(miàn),我們通過(guò)常規的鏈接爬行找到了頁面(miàn)A和B,之後(hòu)你創建一個站點地圖,列出了頁面(miàn)B和C,那麼(me)現在我們就有機會(但不一定)吧行頁面(miàn)C,我們也不會因爲你沒(méi)有將(jiāng)頁面(miàn)A列在站點地圖内而放棄它,而且我們也不會因爲你在站點地圖中列出了一個我們不知道(dào)的頁面(miàn),就能(néng)保證我們爬行該頁面(miàn),但如果之前我們出于某些原因沒(méi)有看到頁面(miàn)C的鏈接,或者我們雖然知道(dào)頁面(miàn)C而頁面(miàn)網址因包含參數過(guò)多或因其他一些原因而被(bèi)拒絕了,那麼(me)有了站點地圖之後(hòu),我們就有可能(néng)會爬行頁面(miàn).
站點地圖使用的XML格式非常簡單,你可以在htp:www.Sitemaps.org/了解這(zhè)一格式。對(duì)于網站來講,XML站點地圖是一個非常有用且在某些情況下可以說是非常重要的工具,尤其是,如果你有理由相信網站沒(méi)有被(bèi)充分索引,那麼(me)XMI站點地圖就能(néng)夠幫助你使更多的頁面(miàn)被(bèi)索引。随著(zhe)網站規模的不斷擴大XMI站點地圖文件的價值也日漸凸顯出來,因爲站點地圖能(néng)夠吸引更多的流量流向(xiàng)新增的網址。
創建一個XM站點地圖
創建XML站點地圖的第一步是創建一個正确格式下的XML站點地圖,因爲創建一個XM站點地圖需要一定的技術知識,因此你最好(hǎo)從一開(kāi)始就讓自己的開(kāi)發(fā)團隊參與到XML站點地圖.
你可以使用以下工具創建XML站點地圖.
XML站點地圖生成(chéng)器這(zhè)是一個簡單的腳本,你可以安裝該腳本以自動生成(chéng)并提交站點地圖。站點地圖生成(chéng)器能(néng)夠根據網址列表、用戶訪問日志,或一個具有與URL對(duì)應的靜态文件的目錄路徑創建這(zhè)些站點地圖,下面(miàn)是幾個XML站點地圖生成(chéng)器的例子Source Forge net s谷歌sitemap genXml-sitemaps.comSitemapGen-eratorSitemaps PalGsite crawler簡單的文本你可以向(xiàng)谷歌提供一個簡單的文本文件,文件每行僅一個網址。不過(guò),谷歌建議,如果網站有文本站點地圖文件那麼(me)你最好(hǎo)使用站點地圖協議,借助站點地圖生成(chéng)器從該文本文件中生成(chéng)一個站點地圖。網站聚合内容摘要谷歌接受網站聚合内容摘要(RSS2.0和Atom1.0摘要。需要注意的是,摘要可能(néng)僅提供與最近網址相關的信息。
确定在站點地圖文件中包含哪些内容
在創建站點地圖文件的過(guò)程中,你需要注意一些情況,看看網站的哪些位置有多個指向(xiàng)同一條内容的網址:包括“唯一的”偏好(hǎo)的(标準的)網址版本,因爲搜索引擎可能(néng)會認爲在站點地圖文件中指定的網址更适合某個内容的網址,所以你可以使用站點地圖文件提示搜索引擎哪個網址是更适合某個特定頁面(miàn)的。
另外需要注意不要在站點地圖中添加什麼(me)樣(yàng)的内容。例如,不要添加多個指向(xiàng)同一内容的網址,不要添加一些僅是頁碼标記的頁面(miàn)(或同一内容的交替排列次序),更不要將(jiāng)網站中價值不大的頁面(miàn)添加到站點地圖中。最重要的是,确保站點地圖文件中的所有網址均不含追蹤參數。
移動設備站點地圖。對(duì)于目标是移動設備中的内容,我們可以使用移動設備站點地圖,移動設備信息被(bèi)保存在一個獨立的站點地圖文件中,該文件中不包含任何與非移動網址相關的信息。谷歌支持非移動标記、 XHTML移動配置文件WML(WAP12)及 CHTMI。視頻站點地圖。在站點地圖中添加與視頻相關的信息,會提升視頻被(bèi)搜索引孳發(fā)現的機會。谷歌支持以下的視頻格式:mpg、mpeg、mp4、m4v、mov、wmv、asf、avi、ra、ram、rm、flv、及.swf等.
圖片站點地圖。將(jiāng)圖像添加到站點地圖文件中能(néng)夠增加圖片的可見性。你除了可以在站點地圖文件中添加頁面(miàn)網址,還(hái)可以列出出現在這(zhè)些頁面(miàn)中的圖片。每個頁面(miàn)最多能(néng)列出1000張圖片,將(jiāng)專門的圖片标簽與網址相關聯。在站點地圖中列出圖片,這(zhè)并不會增加這(zhè)些圖片被(bèi)索引的機會,但如果你列出其中一些圖片,而未列出其他的一些圖片,那麼(me)那些未被(bèi)列出的圖片會被(bèi)認爲不重要.
上傳站點地圖文件
站點地圖文件完成(chéng)之後(hòu),將(jiāng)其上傳到你的網站,并放置在你希望搜索引擎爬行的目錄的最頂端(通常來講,是根目錄),如www.yoursite:com/sitemap.xml。你可以在提交的站點地圖中添加多個子域,然後(hòu)在( google Search( Console驗證站點地圖對(duì)每個子域的作用,盡管通常來講,如果每個子域在( google search( insole都(dōu)有自己相對(duì)應的站點地圖和配置文件,那麼(me)我們可能(néng)更容易了解索引的實際情況。
管理和更新ⅪM站點地圖
ⅹML站點地圖被(bèi)接受、網站被(bèi)爬行之後(hòu),監測運行結果,若有問題,随時更新站點地圖。在谷歌中,你可以返回到Google Search Console賬戶,查看與XML站點地圖相關的統計數據和運行診斷報告,隻須點擊你想檢測的網站即可,另外,你還(hái)能(néng)從谷歌中找到一些與常見問題相關的FAQ,如爬行慢、索引較少Bing中的XML站點地圖。另外,你可能(néng)還(hái)應該在增加大星或一組關鍵頁面(miàn)之後(hòu),更新你的站點地圖文件。
如果僅僅是更新現有網址中的内容麼(me)便沒(méi)有必要更新XML站點地圖,而且如果是删除頁面(miàn),也沒(méi)有必要去更新站點地圖,因爲搜索引擎隻是不能(néng)爬行這(zhè)些頁面(miàn)而己,但要在提要中出現大量零散的頁面(miàn)之前,更新站點地圖。另外,在你添加新内容并删除一些無效頁面(miàn)之後(hòu),一定要記得更新你的站點地圖文件。谷歌和Bing會定期重新加載站點地圖,因此除非站點地圖位置發(fā)生改變,否則你無須重新向(xiàng)谷歌或Bng提交站點地圖。
使用 Site map-網站 robots.txt文件中的指令,使谷歌和Bing能(néng)自動發(fā)現你的XML站點地圖的位置。如果你要定期地在網站中添加或删除些新的頁面(miàn),那麼(me)你可能(néng)希望借助一個工具或希望網站開(kāi)發(fā)者有這(zhè)個能(néng)力,能(néng)夠使XML站點地圖定期重新生成(chéng)所有最近口的網址,許多網站借助自動運行腳本每天重新生成(chéng)XM站點地圖。谷歌和其他大型搜索引擎通過(guò)爬行鏈接發(fā)現和索引網站。谷歌XML站點地圖是一種(zhǒng)在谷歌中填充網址的方式,添加你希望被(bèi)爬行的網址,以便進(jìn)行更深入的爬行和索引;這(zhè)就導緻了長(cháng)尾搜索能(néng)力的提高,通過(guò)創建和更新這(zhè)個XML文件,确保谷歌能(néng)夠識别你的整個網站,進(jìn)而讓更多的人發(fā)現你的網站。另外,XML站點地圖還(hái)能(néng)幫助所有的搜索引擎弄清楚,哪個網址是比較标準的(如果有多個指向(xiàng)同一内容的網址)。