日本免费精品视频,男人的天堂在线免费视频,成人久久久精品乱码一区二区三区,高清成人爽a毛片免费网站

在線客服

robots協(xié)議實(shí)用13篇

引論:我們?yōu)槟砹?3篇robots協(xié)議范文,供您借鑒以豐富您的創(chuàng)作。它們是您寫作時(shí)的寶貴資源,期望它們能夠激發(fā)您的創(chuàng)作靈感,讓您的文章更具深度。

robots協(xié)議

篇1

在這種情況下,司法者的權(quán)限并不局限于尋找包含robots協(xié)議內(nèi)容的具體法條,而是可以根據(jù)實(shí)際案情裁量違反Robots協(xié)議,是否就違反了《反不正當(dāng)競(jìng)爭(zhēng)法》(第二條)中對(duì)經(jīng)營(yíng)者應(yīng)當(dāng)遵循自愿、平等、公平、誠(chéng)實(shí)信用和公認(rèn)商業(yè)道德的強(qiáng)制性規(guī)定。認(rèn)定違法也并不需要將Robots協(xié)議上升為法律作為前提,違反規(guī)則就可能導(dǎo)致違反法律的結(jié)果。

況且,3B案發(fā)生背景之一是被告奇虎360簽署了《互聯(lián)網(wǎng)搜索引擎服務(wù)自律公約》,承諾“遵守機(jī)器人協(xié)議(Robots協(xié)議)”和“限制搜索引擎抓取應(yīng)有行業(yè)公認(rèn)合理的正當(dāng)理由,不利用機(jī)器人協(xié)議進(jìn)行不正當(dāng)競(jìng)爭(zhēng)行為”。360在明確承認(rèn)Robots協(xié)議約束力后又規(guī)避了協(xié)議,既是違法,又構(gòu)成違約。

百度在360推出網(wǎng)絡(luò)搜索后迅速啟用Robots協(xié)議,在百度旗下的知道、貼吧、文庫(kù)、百科等產(chǎn)品屏蔽了360爬蟲(chóng)。需要指出的是,百度拒絕360爬蟲(chóng)抓取的產(chǎn)品,基本屬于用戶創(chuàng)造內(nèi)容(UGC)類型的上傳平臺(tái),而百度對(duì)這些內(nèi)容并不直接享有著作權(quán),360因此質(zhì)疑百度無(wú)權(quán)拒絕收錄。但UGC平臺(tái)身份也無(wú)礙百度根據(jù)《著作權(quán)法》第十四條對(duì)相關(guān)內(nèi)容享有作為匯編者的權(quán)利。在百度主張反不正當(dāng)競(jìng)爭(zhēng)保護(hù)情況下,舉證責(zé)任更簡(jiǎn)化到證明原告合法投入因被告競(jìng)爭(zhēng)行為受到實(shí)際損害及被告競(jìng)爭(zhēng)行為違反誠(chéng)實(shí)信用或商業(yè)道德,而360強(qiáng)行利用百度網(wǎng)站內(nèi)容已構(gòu)成搭便車的不正當(dāng)競(jìng)爭(zhēng)行為。

360在3B案中,以百度濫用Robots協(xié)議作為抗辯,但換個(gè)角度看,真正容易被濫用的倒是爬蟲(chóng)程序。互聯(lián)與分享是網(wǎng)絡(luò)的基本性格,而信息的多元化也決定了網(wǎng)絡(luò)傳播在很多情況下必須受到控制。不受Robots協(xié)議限制的Spider程序必然使互聯(lián)網(wǎng)陷入嚴(yán)重混亂,網(wǎng)站后臺(tái)隱私無(wú)法保護(hù),網(wǎng)頁(yè)更新的舊信息必須完全刪除而不能僅僅屏蔽,音樂(lè)、視頻等內(nèi)容的收費(fèi)盈利模式遭到毀滅性打擊。互聯(lián)網(wǎng)經(jīng)過(guò)長(zhǎng)期博弈逐步擺脫無(wú)序狀態(tài),難道只因搜索爬蟲(chóng)失控又將回到比拼技術(shù)暴力的暗黑叢林?這種情景,絕非法治下的互聯(lián)網(wǎng)可以接受的。

Robots協(xié)議自產(chǎn)生以來(lái)在全球受到嚴(yán)格遵守,利用Robots協(xié)議屏蔽搜索的案例舉不勝舉。比如,F(xiàn)acebook和Twitter長(zhǎng)期屏蔽Google,后者除了發(fā)發(fā)牢騷,卻也不敢采取任何規(guī)避手段;默多克的新聞集團(tuán)一度全面屏蔽Google,后者一直忍到默多克自己投降。在國(guó)內(nèi),搜索屏蔽360的除了百度,還有騰訊的QQ空間,更有意思的是,QQ空間卻在2012年后對(duì)百度和Google開(kāi)放,360甚至都沒(méi)有為此指責(zé)騰訊歧視。騰訊盡管向百度開(kāi)放QQ空間,卻將騰訊微博的內(nèi)容屏蔽至今,新浪微博也一度加入屏蔽百度的隊(duì)列。電商領(lǐng)域可能是互相屏蔽的高地,淘寶從2008年起一直屏蔽百度搜索,京東、蘇寧、當(dāng)當(dāng)網(wǎng)等也屏蔽了阿里旗下一淘搜索的爬蟲(chóng)。

篇2

在這一事件中,我認(rèn)為當(dāng)事人涉嫌違反《信息安全技術(shù)個(gè)人信息保護(hù)指南》,該指南制訂中,北京奇虎科技有限公司、北京百度網(wǎng)訊科技有限公司均有參與,理應(yīng)遵守。違反的原則包括:1、安全保障原則(防止未經(jīng)授權(quán)檢索、公開(kāi)及丟失、泄露、損毀和篡改個(gè)人信息)。2、合理處置原則(不采用非法、隱蔽、間接等方式收集個(gè)人信息,在達(dá)到既定目標(biāo)后不再繼續(xù)處理個(gè)人信息)。3、知情同意原則(未經(jīng)個(gè)人信息主體同意,不處理個(gè)人信息)。此外,企業(yè)自有版權(quán)及所具有其他機(jī)構(gòu)的版權(quán)授權(quán),未經(jīng)許可不得復(fù)制。隨意抓取,會(huì)造成侵權(quán),涉嫌違反知識(shí)產(chǎn)權(quán)有關(guān)法律。

篇3

篇4

自媒體時(shí)代,網(wǎng)絡(luò)輿論管理、議題管理和危機(jī)管理變得十分困難,解決難題的關(guān)鍵是對(duì)網(wǎng)絡(luò)用戶身份的有效識(shí)別。目前,用戶身份識(shí)別主要依賴人工檢索結(jié)合技術(shù)提純的方式,也就是通過(guò)在網(wǎng)絡(luò)中檢索用戶分享的數(shù)據(jù),從中查找身份信息之間的相關(guān)關(guān)系、身份特征信息,最后結(jié)合技術(shù)手段獲取真實(shí)身份,簡(jiǎn)單來(lái)說(shuō)就是先檢索再發(fā)現(xiàn)最后收集的過(guò)程。優(yōu)勢(shì)是,隨著用戶分享帶來(lái)的數(shù)據(jù)豐富性,可以挖掘的潛在相關(guān)關(guān)系越豐富。然而,缺陷也很明顯,一是效率不夠,對(duì)廣泛互聯(lián)網(wǎng)數(shù)據(jù)的搜索需要花費(fèi)大量人力;二是缺少真實(shí)性評(píng)估,相關(guān)關(guān)系沒(méi)有絕對(duì),只有可能性,面對(duì)不對(duì)稱的檢索結(jié)果,真實(shí)性勢(shì)必受到主觀偏見(jiàn)的影響;三是時(shí)效性帶來(lái)的數(shù)據(jù)丟失,無(wú)論是用戶的主動(dòng)刪除還是資源平臺(tái)的被動(dòng)刪除,缺少主動(dòng)收集機(jī)制造成的數(shù)據(jù)丟失不可避免。

為了解決上述存在的缺陷同時(shí)讓優(yōu)勢(shì)大放異彩,本文提出一種用于網(wǎng)絡(luò)原型挖掘的AjaxCrawler系統(tǒng),通過(guò)主動(dòng)收集的方式對(duì)現(xiàn)有工作模式進(jìn)行有效升級(jí)。

2 設(shè)計(jì)目標(biāo)和詳細(xì)設(shè)計(jì)

網(wǎng)絡(luò)原型挖掘的對(duì)象主要是提供用戶數(shù)據(jù)交互的web、bbs站點(diǎn),而此類站點(diǎn)為了提供更好的用戶體驗(yàn)多在開(kāi)發(fā)中采用AJAX技術(shù),所以AjaxCrawler的設(shè)計(jì)重點(diǎn)是實(shí)現(xiàn)對(duì)支持AJAX技術(shù)的動(dòng)態(tài)網(wǎng)頁(yè)的有效挖掘。

2.1 設(shè)計(jì)目標(biāo)

設(shè)計(jì)主要考慮幾方面因素:一是抓取質(zhì)量,針對(duì)Web、Bbs采取不同的抓取策略,通過(guò)JavaScript解析器實(shí)現(xiàn)對(duì)AJAX動(dòng)態(tài)頁(yè)面完整抓取,同時(shí)支持JS代碼中的DOM操作,以獲取頁(yè)面元素、修改頁(yè)面元素的內(nèi)容;二是抓取效率,針對(duì)網(wǎng)絡(luò)延遲、站點(diǎn)限制等因素采取并行策略,使爬蟲(chóng)同時(shí)處理不同的URL,以提高網(wǎng)絡(luò)帶寬利用率,加快處理速度;三是抓取策略靈活性,能夠設(shè)定采集范圍、采集頻度、采集時(shí)間和采集深度,以期能達(dá)到最好的特定信息采集效果。

2.2 詳細(xì)設(shè)計(jì)

系統(tǒng)采用四層結(jié)構(gòu)。第一層Client節(jié)點(diǎn)是門戶和命令入口,用戶通過(guò)它進(jìn)行任務(wù)下發(fā)、查看執(zhí)行結(jié)果;第二層Master節(jié)點(diǎn)是唯一的控制器,連接Client和Crawler,進(jìn)行任務(wù)的抽取和分發(fā);第三層X(jué)Crawler節(jié)點(diǎn)由不同的Crawler組成,結(jié)構(gòu)上便于擴(kuò)展,同時(shí),將Ajax模塊獨(dú)立出來(lái)以降低系統(tǒng)耦合性,便于針對(duì)非JS腳本頁(yè)面添加其它引擎;第四層Depository節(jié)點(diǎn)是系統(tǒng)倉(cāng)庫(kù),存儲(chǔ)運(yùn)行結(jié)果等信息,此討論重點(diǎn)將不再提及。本系統(tǒng)的通信庫(kù)基于MINA開(kāi)發(fā),系統(tǒng)各節(jié)點(diǎn)之間通信,只需要調(diào)用相應(yīng)的API即可,不用關(guān)心通信細(xì)節(jié)。系統(tǒng)體系結(jié)構(gòu)設(shè)計(jì),如圖1所示:

2.2.1 XCrawler設(shè)計(jì)

XCrawler是具體執(zhí)行任務(wù)的節(jié)點(diǎn),分為WebCrawler、BBSCrawler,架構(gòu)基本相同,僅抓取策略和方式有所區(qū)別。其架構(gòu)如圖2所示:

爬蟲(chóng)系統(tǒng)分為兩部分,第一部分是預(yù)處理,負(fù)責(zé)凈化URL,去除不必要抓取的URL,類似于過(guò)濾器。第二部分是網(wǎng)頁(yè)抓取,由于網(wǎng)頁(yè)下載比較耗時(shí),為充分利用資源,采用多線程。抓取階段獲得網(wǎng)頁(yè),析出網(wǎng)頁(yè)內(nèi)部的鏈接,然后進(jìn)行預(yù)處理,以凈化可能包含有以前抓去過(guò)的重復(fù)URL、Robots協(xié)議禁止抓取的URL等。Clean URLs是凈化后的URL庫(kù),存放需要抓取的URL。

2.2.2 頁(yè)面預(yù)處理

(1)頁(yè)面去重 為避免頁(yè)面重復(fù)抓取,系統(tǒng)包含網(wǎng)頁(yè)去重管理機(jī)制,建立了一個(gè)可維護(hù)的HASH表,記錄已處理過(guò)的URL的MD5值。頁(yè)面預(yù)處理通過(guò)判斷任務(wù)URL的MD5值在HASH表中是否存在,來(lái)判斷URL是否重復(fù)。

(2)HTTP協(xié)議控制和URL文件格式控制 目前只支持HTTP協(xié)議,HTTP協(xié)議控制用來(lái)檢測(cè)URL協(xié)議,如果不是HTTP協(xié)議直接拋棄;系統(tǒng)收集對(duì)象是包含用戶身份信息的網(wǎng)頁(yè)文本,一些多媒體格式,比如MP3,AVI和JPG等格式并不需要,URL文件格式控制用來(lái)過(guò)濾不支持的URL。

(3)Robots控制。遇到一個(gè)新網(wǎng)站時(shí),首先會(huì)通過(guò)Robots文件管理模塊獲取該網(wǎng)站的robots.txt文件,然后根據(jù)robots.txt的文件規(guī)定控制URL的抓取。

2.2.3 AjaxEngine設(shè)計(jì)

3 AjaxCrawler的實(shí)現(xiàn)

3.1 Crawler的實(shí)現(xiàn)

對(duì)于Internet上不同類型的網(wǎng)站,采用單一的抓取模式、抓取策略,顯然不合適宜。如前文所述,本系統(tǒng)Crawler包括WebCrawler、BbsCrawler兩種Crawler,以下逐一敘述。

3.1.1 WebCrawler

對(duì)于最基本的Web內(nèi)容,設(shè)置一定的抓取深度,配置廣告等無(wú)關(guān)內(nèi)容的過(guò)濾器,依照Web內(nèi)容更新頻度設(shè)定爬蟲(chóng)的更新頻率,依照詳細(xì)設(shè)計(jì)中的XCrawler的框架,實(shí)現(xiàn)較為簡(jiǎn)單,這里不再贅述。

3.1.2 BBSCrawler

3.2.2 DOM Builder

DOM Builder建立JS對(duì)象與HTML對(duì)象的映射,構(gòu)造DOM樹(shù),觸發(fā)事件等功能。本系統(tǒng)借助NokoHTML掃描HTML文本,建立DOM樹(shù)。NekoHTML還能增補(bǔ)缺失的父元素、自動(dòng)用結(jié)束標(biāo)簽關(guān)閉相應(yīng)的元素及不匹配的內(nèi)嵌元素標(biāo)簽。使用NekoHTML進(jìn)行DOM樹(shù)建立接口很簡(jiǎn)單,使用NekoHTML中DOMParser對(duì)網(wǎng)頁(yè)進(jìn)行解析即可。

Rhino在執(zhí)行JS代碼時(shí),需要根據(jù)JS對(duì)象與HTML對(duì)象映射表修改DOM樹(shù)中的元素內(nèi)容。本系統(tǒng)中,借用了HtmlUnit建立的JS對(duì)象與HTML對(duì)象之間的映射關(guān)系。在Html Unit中,繼承了W3C的DOM接口,同時(shí)實(shí)現(xiàn)了JS對(duì)象與HTML對(duì)象之間的映射。

4 結(jié)束語(yǔ)

本文在分析了互聯(lián)網(wǎng)身份管理的現(xiàn)狀和優(yōu)缺點(diǎn)后,根據(jù)大數(shù)據(jù)相關(guān)關(guān)系分析法的理念基礎(chǔ),提出一種通過(guò)爬蟲(chóng)技術(shù)對(duì)互聯(lián)網(wǎng)交互式站點(diǎn)中開(kāi)放數(shù)據(jù)進(jìn)行主動(dòng)收集,挖掘其中存在身份信息以及身份信息件存在的相關(guān)關(guān)系的工作方法,從而通過(guò)已知身份挖掘出可能尚未掌握的未知身份信息,同時(shí)針對(duì)現(xiàn)有交互式網(wǎng)站普遍采用Ajax技術(shù)模式詳細(xì)設(shè)計(jì)實(shí)現(xiàn)了AjaxCrawler挖掘模型,是現(xiàn)有網(wǎng)絡(luò)身份管理模式的升級(jí)和有力補(bǔ)充。最后,作者相信隨著科技浪潮的發(fā)展,更多的管理困境將找到更好的解決方案。

參考文獻(xiàn)

[1] 馬民虎.互聯(lián)網(wǎng)信息內(nèi)容安全管理教程[M].北京:中國(guó)人民公安大學(xué)出版社,2008.

[2] 李學(xué)凱.面向多任務(wù)、多通道并行爬蟲(chóng)的技術(shù)研究[D].哈爾濱:哈爾濱工業(yè)大學(xué),2009.

[3] 曾偉輝,李淼.基于JavaScript切片的Ajax框架網(wǎng)絡(luò)爬蟲(chóng)技術(shù)研究[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2009.

[4] Viktor Mayer-Sch?nberger,Big Data:A Revolution That Will Transform How We Live, Work,and Think[M].Hodder,2013.

篇5

在抓取網(wǎng)頁(yè)的時(shí)候,網(wǎng)絡(luò)蜘蛛一般有兩種策略:廣度優(yōu)先和深度優(yōu)先。

廣度優(yōu)先是指網(wǎng)絡(luò)蜘蛛會(huì)先抓取起始網(wǎng)頁(yè)中鏈接的所有網(wǎng)頁(yè),然后再選擇其中的一個(gè)鏈接網(wǎng)頁(yè),繼續(xù)抓取在此網(wǎng)頁(yè)中鏈接的所有網(wǎng)頁(yè)。這是最常用的方式,因?yàn)檫@個(gè)方法可以讓網(wǎng)絡(luò)蜘蛛并行處理,提高其抓取速度。深度優(yōu)先是指網(wǎng)絡(luò)蜘蛛會(huì)從起始頁(yè)開(kāi)始,一個(gè)鏈接一個(gè)鏈接跟蹤下去,處理完這條線路之后再轉(zhuǎn)入下一個(gè)起始頁(yè),繼續(xù)跟蹤鏈接。這個(gè)方法有個(gè)優(yōu)點(diǎn)是網(wǎng)絡(luò)蜘蛛在設(shè)計(jì)的時(shí)候比較容易。兩種策略的區(qū)別,下圖的說(shuō)明會(huì)更加明確。

由于不可能抓取所有的網(wǎng)頁(yè),有些網(wǎng)絡(luò)蜘蛛對(duì)一些不太重要的網(wǎng)站,設(shè)置了訪問(wèn)的層數(shù)。例如,在上圖中,A為起始網(wǎng)頁(yè),屬于0層,B、C、D、E、F屬于第1層,G、H屬于第2層,I屬于第3層。如果網(wǎng)絡(luò)蜘蛛設(shè)置的訪問(wèn)層數(shù)為2的話,網(wǎng)頁(yè)I是不會(huì)被訪問(wèn)到的。這也讓有些網(wǎng)站上一部分網(wǎng)頁(yè)能夠在搜索引擎上搜索到,另外一部分不能被搜索到。對(duì)于網(wǎng)站設(shè)計(jì)者來(lái)說(shuō),扁平化的網(wǎng)站結(jié)構(gòu)設(shè)計(jì)有助于搜索引擎抓取其更多的網(wǎng)頁(yè)。

網(wǎng)絡(luò)蜘蛛在訪問(wèn)網(wǎng)站網(wǎng)頁(yè)的時(shí)候,經(jīng)常會(huì)遇到加密數(shù)據(jù)和網(wǎng)頁(yè)權(quán)限的問(wèn)題,有些網(wǎng)頁(yè)是需要會(huì)員權(quán)限才能訪問(wèn)。當(dāng)然,網(wǎng)站的所有者可以通過(guò)協(xié)議讓網(wǎng)絡(luò)蜘蛛不去抓取(下小節(jié)會(huì)介紹),但對(duì)于一些出售報(bào)告的網(wǎng)站,他們希望搜索引擎能搜索到他們的報(bào)告,但又不能完全**的讓搜索者查看,這樣就需要給網(wǎng)絡(luò)蜘蛛提供相應(yīng)的用戶名和密碼。網(wǎng)絡(luò)蜘蛛可以通過(guò)所給的權(quán)限對(duì)這些網(wǎng)頁(yè)進(jìn)行網(wǎng)頁(yè)抓取,從而提供搜索。而當(dāng)搜索者點(diǎn)擊查看該網(wǎng)頁(yè)的時(shí)候,同樣需要搜索者提供相應(yīng)的權(quán)限驗(yàn)證。

網(wǎng)站與網(wǎng)絡(luò)蜘蛛

網(wǎng)絡(luò)蜘蛛需要抓取網(wǎng)頁(yè),不同于一般的訪問(wèn),如果控制不好,則會(huì)引起網(wǎng)站服務(wù)器負(fù)擔(dān)過(guò)重。今年4月,淘寶taobao.com)就因?yàn)檠呕⑺阉饕娴木W(wǎng)絡(luò)蜘蛛抓取其數(shù)據(jù)引起淘寶網(wǎng)服務(wù)器的不穩(wěn)定。網(wǎng)站是否就無(wú)法和網(wǎng)絡(luò)蜘蛛交流呢?其實(shí)不然,有多種方法可以讓網(wǎng)站和網(wǎng)絡(luò)蜘蛛進(jìn)行交流。一方面讓網(wǎng)站管理員了解網(wǎng)絡(luò)蜘蛛都來(lái)自哪兒,做了些什么,另一方面也告訴網(wǎng)絡(luò)蜘蛛哪些網(wǎng)頁(yè)不應(yīng)該抓取,哪些網(wǎng)頁(yè)應(yīng)該更新。

每個(gè)網(wǎng)絡(luò)蜘蛛都有自己的名字,在抓取網(wǎng)頁(yè)的時(shí)候,都會(huì)向網(wǎng)站標(biāo)明自己的身份。網(wǎng)絡(luò)蜘蛛在抓取網(wǎng)頁(yè)的時(shí)候會(huì)發(fā)送一個(gè)請(qǐng)求,這個(gè)請(qǐng)求中就有一個(gè)字段為User-agent,用于標(biāo)識(shí)此網(wǎng)絡(luò)蜘蛛的身份。例如Google網(wǎng)絡(luò)蜘蛛的標(biāo)識(shí)為GoogleBot,Baidu網(wǎng)絡(luò)蜘蛛的標(biāo)識(shí)為BaiDuSpider,Yahoo網(wǎng)絡(luò)蜘蛛的標(biāo)識(shí)為Inktomi Slurp。如果在網(wǎng)站上有訪問(wèn)日志記錄,網(wǎng)站管理員就能知道,哪些搜索引擎的網(wǎng)絡(luò)蜘蛛過(guò)來(lái)過(guò),什么時(shí)候過(guò)來(lái)的,以及讀了多少數(shù)據(jù)等等。如果網(wǎng)站管理員發(fā)現(xiàn)某個(gè)蜘蛛有問(wèn)題,就通過(guò)其標(biāo)識(shí)來(lái)和其所有者聯(lián)系。下面是博客中blogchina.com)2004年5月15日的搜索引擎訪問(wèn)日志:

網(wǎng)絡(luò)蜘蛛進(jìn)入一個(gè)網(wǎng)站,一般會(huì)訪問(wèn)一個(gè)特殊的文本文件Robots.txt,這個(gè)文件一般放在網(wǎng)站服務(wù)器的根目錄下,blogchina.com/robots.txt。網(wǎng)站管理員可以通過(guò)robots.txt來(lái)定義哪些目錄網(wǎng)絡(luò)蜘蛛不能訪問(wèn),或者哪些目錄對(duì)于某些特定的網(wǎng)絡(luò)蜘蛛不能訪問(wèn)。例如有些網(wǎng)站的可執(zhí)行文件目錄和臨時(shí)文件目錄不希望被搜索引擎搜索到,那么網(wǎng)站管理員就可以把這些目錄定義為拒絕訪問(wèn)目錄。Robots.txt語(yǔ)法很簡(jiǎn)單,例如如果對(duì)目錄沒(méi)有任何限制,可以用以下兩行來(lái)描述:

User-agent: *

Disallow:

當(dāng)然,Robots.txt只是一個(gè)協(xié)議,如果網(wǎng)絡(luò)蜘蛛的設(shè)計(jì)者不遵循這個(gè)協(xié)議,網(wǎng)站管理員也無(wú)法阻止網(wǎng)絡(luò)蜘蛛對(duì)于某些頁(yè)面的訪問(wèn),但一般的網(wǎng)絡(luò)蜘蛛都會(huì)遵循這些協(xié)議,而且網(wǎng)站管理員還可以通過(guò)其它方式來(lái)拒絕網(wǎng)絡(luò)蜘蛛對(duì)某些網(wǎng)頁(yè)的抓取。

網(wǎng)絡(luò)蜘蛛在下載網(wǎng)頁(yè)的時(shí)候,會(huì)去識(shí)別網(wǎng)頁(yè)的HTML代碼,在其代碼的部分,會(huì)有META標(biāo)識(shí)。通過(guò)這些標(biāo)識(shí),可以告訴網(wǎng)絡(luò)蜘蛛本網(wǎng)頁(yè)是否需要被抓取,還可以告訴網(wǎng)絡(luò)蜘蛛本網(wǎng)頁(yè)中的鏈接是否需要被繼續(xù)跟蹤。例如:表示本網(wǎng)頁(yè)不需要被抓取,但是網(wǎng)頁(yè)內(nèi)的鏈接需要被跟蹤。

轉(zhuǎn)貼于

現(xiàn)在一般的網(wǎng)站都希望搜索引擎能更全面的抓取自己網(wǎng)站的網(wǎng)頁(yè),因?yàn)檫@樣可以讓更多的訪問(wèn)者能通過(guò)搜索引擎找到此網(wǎng)站。為了讓本網(wǎng)站的網(wǎng)頁(yè)更全面被抓取到,網(wǎng)站管理員可以建立一個(gè)網(wǎng)站地圖,即Site Map。許多網(wǎng)絡(luò)蜘蛛會(huì)把sitemap.htm文件作為一個(gè)網(wǎng)站網(wǎng)頁(yè)爬取的入口,網(wǎng)站管理員可以把網(wǎng)站內(nèi)部所有網(wǎng)頁(yè)的鏈接放在這個(gè)文件里面,那么網(wǎng)絡(luò)蜘蛛可以很方便的把整個(gè)網(wǎng)站抓取下來(lái),避免遺漏某些網(wǎng)頁(yè),也會(huì)減小對(duì)網(wǎng)站服務(wù)器的負(fù)擔(dān)。

內(nèi)容提取

搜索引擎建立網(wǎng)頁(yè)索引,處理的對(duì)象是文本文件。對(duì)于網(wǎng)絡(luò)蜘蛛來(lái)說(shuō),抓取下來(lái)網(wǎng)頁(yè)包括各種格式,包括html、圖片、doc、pdf、多媒體、動(dòng)態(tài)網(wǎng)頁(yè)及其它格式等。這些文件抓取下來(lái)后,需要把這些文件中的文本信息提取出來(lái)。準(zhǔn)確提取這些文檔的信息,一方面對(duì)搜索引擎的搜索準(zhǔn)確性有重要作用,另一方面對(duì)于網(wǎng)絡(luò)蜘蛛正確跟蹤其它鏈接有一定影響。

對(duì)于doc、pdf等文檔,這種由專業(yè)廠商提供的軟件生成的文檔,廠商都會(huì)提供相應(yīng)的文本提取接口。網(wǎng)絡(luò)蜘蛛只需要調(diào)用這些插件的接口,就可以輕松的提取文檔中的文本信息和文件其它相關(guān)的信息。

HTML等文檔不一樣,HTML有一套自己的語(yǔ)法,通過(guò)不同的命令標(biāo)識(shí)符來(lái)表示不同的字體、顏色、位置等版式,如:、、等,提取文本信息時(shí)需要把這些標(biāo)識(shí)符都過(guò)濾掉。過(guò)濾標(biāo)識(shí)符并非難事,因?yàn)檫@些標(biāo)識(shí)符都有一定的規(guī)則,只要按照不同的標(biāo)識(shí)符取得相應(yīng)的信息即可。但在識(shí)別這些信息的時(shí)候,需要同步記錄許多版式信息,例如文字的字體大小、是否是標(biāo)題、是否是加粗顯示、是否是頁(yè)面的關(guān)鍵詞等,這些信息有助于計(jì)算單詞在網(wǎng)頁(yè)中的重要程度。同時(shí),對(duì)于HTML網(wǎng)頁(yè)來(lái)說(shuō),除了標(biāo)題和正文以外,會(huì)有許多廣告鏈接以及公共的頻道鏈接,這些鏈接和文本正文一點(diǎn)關(guān)系也沒(méi)有,在提取網(wǎng)頁(yè)內(nèi)容的時(shí)候,也需要過(guò)濾這些無(wú)用的鏈接。例如某個(gè)網(wǎng)站有“產(chǎn)品介紹”頻道,因?yàn)閷?dǎo)航條在網(wǎng)站內(nèi)每個(gè)網(wǎng)頁(yè)都有,若不過(guò)濾導(dǎo)航條鏈接,在搜索“產(chǎn)品介紹”的時(shí)候,則網(wǎng)站內(nèi)每個(gè)網(wǎng)頁(yè)都會(huì)搜索到,無(wú)疑會(huì)帶來(lái)大量垃圾信息。過(guò)濾這些無(wú)效鏈接需要統(tǒng)計(jì)大量的網(wǎng)頁(yè)結(jié)構(gòu)規(guī)律,抽取一些共性,統(tǒng)一過(guò)濾;對(duì)于一些重要而結(jié)果特殊的網(wǎng)站,還需要個(gè)別處理。這就需要網(wǎng)絡(luò)蜘蛛的設(shè)計(jì)有一定的擴(kuò)展性。

對(duì)于多媒體、圖片等文件,一般是通過(guò)鏈接的錨文本(即,鏈接文本)和相關(guān)的文件注釋來(lái)判斷這些文件的內(nèi)容。例如有一個(gè)鏈接文字為“張曼玉照片”,其鏈接指向一張bmp格式的圖片,那么網(wǎng)絡(luò)蜘蛛就知道這張圖片的內(nèi)容是“張曼玉的照片”。這樣,在搜索“張曼玉”和“照片”的時(shí)候都能讓搜索引擎找到這張圖片。另外,許多多媒體文件中有文件屬性,考慮這些屬性也可以更好的了解文件的內(nèi)容。

動(dòng)態(tài)網(wǎng)頁(yè)一直是網(wǎng)絡(luò)蜘蛛面臨的難題。所謂動(dòng)態(tài)網(wǎng)頁(yè),是相對(duì)于靜態(tài)網(wǎng)頁(yè)而言,是由程序自動(dòng)生成的頁(yè)面,這樣的好處是可以快速統(tǒng)一更改網(wǎng)頁(yè)風(fēng)格,也可以減少網(wǎng)頁(yè)所占服務(wù)器的空間,但同樣給網(wǎng)絡(luò)蜘蛛的抓取帶來(lái)一些麻煩。由于開(kāi)發(fā)語(yǔ)言不斷的增多,動(dòng)態(tài)網(wǎng)頁(yè)的類型也越來(lái)越多,如:asp、jsp、php等。這些類型的網(wǎng)頁(yè)對(duì)于網(wǎng)絡(luò)蜘蛛來(lái)說(shuō),可能還稍微容易一些。網(wǎng)絡(luò)蜘蛛比較難于處理的是一些腳本語(yǔ)言(如VBScript和javascript)生成的網(wǎng)頁(yè),如果要完善的處理好這些網(wǎng)頁(yè),網(wǎng)絡(luò)蜘蛛需要有自己的腳本解釋程序。對(duì)于許多數(shù)據(jù)是放在數(shù)據(jù)庫(kù)的網(wǎng)站,需要通過(guò)本網(wǎng)站的數(shù)據(jù)庫(kù)搜索才能獲得信息,這些給網(wǎng)絡(luò)蜘蛛的抓取帶來(lái)很大的困難。對(duì)于這類網(wǎng)站,如果網(wǎng)站設(shè)計(jì)者希望這些數(shù)據(jù)能被搜索引擎搜索,則需要提供一種可以遍歷整個(gè)數(shù)據(jù)庫(kù)內(nèi)容的方法。

對(duì)于網(wǎng)頁(yè)內(nèi)容的提取,一直是網(wǎng)絡(luò)蜘蛛中重要的技術(shù)。整個(gè)系統(tǒng)一般采用插件的形式,通過(guò)一個(gè)插件管理服務(wù)程序,遇到不同格式的網(wǎng)頁(yè)采用不同的插件處理。這種方式的好處在于擴(kuò)充性好,以后每發(fā)現(xiàn)一種新的類型,就可以把其處理方式做成一個(gè)插件補(bǔ)充到插件管理服務(wù)程序之中。

更新周期

篇6

要說(shuō)明的是,這個(gè)網(wǎng)站是推一把線下10期學(xué)員新做的一個(gè)網(wǎng)站,網(wǎng)站內(nèi)容并不多,項(xiàng)目也是虛擬的,建站的目的是為了通過(guò)實(shí)踐掌握教學(xué)內(nèi)容,網(wǎng)站的名稱叫:釀蜜坊蜂產(chǎn)品專賣店,網(wǎng)址:,以下簡(jiǎn)稱“診斷網(wǎng)站”,不啰嗦了,下面進(jìn)入如何診斷網(wǎng)站十二步。

第一步,檢查各網(wǎng)頁(yè)標(biāo)題是否設(shè)置正確

這個(gè)診斷項(xiàng)目是最重要的,網(wǎng)站標(biāo)題是搜索引擎識(shí)別、抓取,收錄網(wǎng)站重要依據(jù),是獲得較好排名和展現(xiàn)給用戶的第一要素,SEO沒(méi)有什么比這更重要的啦。見(jiàn)過(guò)很多號(hào)自稱SEO高手的連個(gè)標(biāo)題都寫不好。

正確的網(wǎng)站頁(yè)面標(biāo)題格式應(yīng)該如下:(注意:指網(wǎng)站所有頁(yè)面)

首頁(yè)標(biāo)題:關(guān)鍵詞_網(wǎng)站名稱

欄目頁(yè)標(biāo)題:欄目名稱_網(wǎng)站名稱

內(nèi)容頁(yè)標(biāo)題:文章標(biāo)題_欄目頁(yè)_網(wǎng)站名稱

診斷網(wǎng)站狀況:

首頁(yè)標(biāo)題:蜂蜜減肥法,蜂蜜面膜,蜂蜜美容小知識(shí)—釀蜜坊蜂產(chǎn)品專賣店

欄目頁(yè)標(biāo)題:行業(yè)新聞-蜂蜜減肥法,蜂蜜面膜,蜂蜜美容小知識(shí)—釀蜜坊蜂產(chǎn)品專賣店

內(nèi)容頁(yè)標(biāo)題:蜂蜜加白醋能減肥嗎—蜂蜜白醋減肥方法-蜂蜜減肥法,蜂蜜面膜,蜂蜜美容小知識(shí)—釀蜜坊蜂產(chǎn)品專賣店

分析:目標(biāo)網(wǎng)站首頁(yè)、欄目頁(yè)及內(nèi)容頁(yè)書寫順序正確,標(biāo)題中還自動(dòng)重復(fù)了首頁(yè)標(biāo)題,有利于搜索引擎對(duì)網(wǎng)站內(nèi)容的理解和抓取。如果你的網(wǎng)站沒(méi)有達(dá)到此標(biāo)準(zhǔn),盡快改過(guò)來(lái)吧。

第二步,檢查首頁(yè)標(biāo)題的長(zhǎng)度及符號(hào)

在第一步中我們已經(jīng)談到網(wǎng)頁(yè)標(biāo)題的重要性,首頁(yè)標(biāo)題更是重中之重了,怎樣寫首頁(yè)標(biāo)題不是本文討論的重點(diǎn),但是你要知道首頁(yè)標(biāo)題要寫好有那些要求。

要求是:標(biāo)題字?jǐn)?shù)不超過(guò)30個(gè)漢字,核心關(guān)鍵3-5個(gè),用“,”或者“|”線隔開(kāi),公司名用“—”聯(lián)接,用戶搜索次數(shù)最大的關(guān)鍵詞排在最前面,不要問(wèn)我原因,你懂的。

診斷網(wǎng)站狀況:

首頁(yè)標(biāo)題:蜂蜜減肥法,蜂蜜面膜,蜂蜜美容小知識(shí)—釀蜜坊蜂產(chǎn)品專賣店

診斷分析:診斷網(wǎng)站首頁(yè)標(biāo)題字?jǐn)?shù)28字。關(guān)鍵詞之間才用“,”分隔,公司名用“—”橫線連接,符合要求。

第三步,診斷網(wǎng)頁(yè)是否有標(biāo)題重復(fù)與描述重復(fù)。

1、各網(wǎng)頁(yè)標(biāo)題診斷

要求:對(duì)各個(gè)頁(yè)面進(jìn)行診斷,包括首頁(yè)、欄目頁(yè)、內(nèi)容頁(yè),每個(gè)頁(yè)面標(biāo)題不能重復(fù),否則搜索引擎以為你的網(wǎng)站每個(gè)頁(yè)面都是相同的內(nèi)容,而其實(shí)每個(gè)頁(yè)面的內(nèi)容不可能是相同的,比如“產(chǎn)品中心”欄目是介紹不同產(chǎn)品的,“企業(yè)新聞”欄目是發(fā)表企業(yè)相關(guān)新聞動(dòng)態(tài)的。

診斷網(wǎng)站狀況:沒(méi)有發(fā)現(xiàn)重標(biāo)題的網(wǎng)頁(yè)。

例如:企業(yè)簡(jiǎn)介欄目標(biāo)題:關(guān)于釀蜜坊-要想身體好,蜂蜜的作用與功效不得了,健康天使——釀蜜坊專賣店;

內(nèi)容欄目標(biāo)題:油菜春漿蜂皇漿-蜂蜜減肥法,蜂蜜面膜,蜂蜜美容小知識(shí)—釀蜜坊蜂產(chǎn)品專賣店

2、描述重復(fù)診斷

與網(wǎng)頁(yè)標(biāo)題診斷一樣,每個(gè)頁(yè)面都要有不同的描述,切不要都是一樣的描述內(nèi)容。

要求:準(zhǔn)確的描述網(wǎng)頁(yè)內(nèi)容,不能有關(guān)鍵詞堆砌。每個(gè)頁(yè)面都應(yīng)該有不同的描述。長(zhǎng)度合理。

診斷網(wǎng)站狀況:沒(méi)有發(fā)現(xiàn)重復(fù)的網(wǎng)頁(yè)標(biāo)題,但發(fā)現(xiàn)一些產(chǎn)品頁(yè)描述不正確或者過(guò)于簡(jiǎn)單,產(chǎn)生的原因是系統(tǒng)自動(dòng)生成,產(chǎn)品第一段內(nèi)容很關(guān)鍵,尤其是前100字,要對(duì)產(chǎn)品進(jìn)行精準(zhǔn)的描述。

診斷分析:雖然網(wǎng)站沒(méi)重復(fù)的標(biāo)題及描述,但標(biāo)題及描述不合理,網(wǎng)頁(yè)標(biāo)題沒(méi)有體現(xiàn)該網(wǎng)頁(yè)內(nèi)容,相近度高,原因可能是網(wǎng)站管理系統(tǒng)自動(dòng)生成標(biāo)題和描述適成的,對(duì)于小型網(wǎng)站或者企業(yè)網(wǎng)站,建議網(wǎng)頁(yè)標(biāo)題及描述手寫更準(zhǔn)確。

第四步,網(wǎng)站URL的唯一性

網(wǎng)站URL要具有唯一性,如果不相同的頁(yè)面有洋同URL,搜索引擎在排名時(shí)會(huì)分散權(quán)重,網(wǎng)站難以獲得好的排名

要求:正確的選擇首選域,內(nèi)鏈和外鏈要統(tǒng)一,做好301重定向。

診斷網(wǎng)站狀況:

網(wǎng)站首選域?yàn)椋海瑑?nèi)鏈和外鏈基本統(tǒng)一。

訪問(wèn)/index.html和xxx.cn及都是同一頁(yè)面,無(wú)301重定向。

網(wǎng)站內(nèi)鏈和外鏈建設(shè)選擇為首選域。

診斷分析:做301轉(zhuǎn)向?qū)τ赟EO新人來(lái)說(shuō),可能技術(shù)有難度,這方面可能要請(qǐng)技術(shù)人員協(xié)助解決。

第五步,網(wǎng)站URL靜態(tài)化

雖然百度SEO指南中說(shuō),百度蜘蛛對(duì)于動(dòng)態(tài)網(wǎng)頁(yè)的抓取沒(méi)有岐意,但細(xì)心的你可以發(fā)現(xiàn)獲得良好排名的網(wǎng)站,其URL必然是靜態(tài)化的,至于什么是靜態(tài)化的網(wǎng)頁(yè),很多初學(xué)者說(shuō)會(huì)動(dòng)的網(wǎng)頁(yè),就是動(dòng)態(tài)的,其實(shí)這是錯(cuò)誤的看法,只要URL中包含“?”“%”等符號(hào),就是動(dòng)態(tài)的網(wǎng)頁(yè),多說(shuō)了幾句,掃一下盲。

要求:網(wǎng)站全部采用靜態(tài)化,有利于網(wǎng)站收錄及排名。

診斷網(wǎng)站狀況:網(wǎng)站所有網(wǎng)頁(yè)均是偽靜態(tài)

如:/info/contact.html

診斷分析:全站最深層次為三層,符合要求

第六步,診斷圖片ALT屬性

百度官方SEO指南中強(qiáng)調(diào),蜘蛛暫時(shí)無(wú)法讀取圖片、flash等的內(nèi)容,網(wǎng)站中出現(xiàn)圖片時(shí),要做好圖片屬性設(shè)置,也就是ALT啦,一方面它可以告訴搜索引擎這是關(guān)于什么的圖片,另一方面當(dāng)瀏覽器無(wú)法展示圖片時(shí),會(huì)以文字的形式展現(xiàn),還可增加關(guān)鍵詞密度。

要求:1、網(wǎng)站所有圖片都加上ALT屬性,命名合理,不重復(fù)。

2、圖片上方、或者下方加上關(guān)鍵詞錨文本

3、增加圖片頁(yè)面的內(nèi)鏈和外鏈,優(yōu)化重要圖片

診斷網(wǎng)站狀況:發(fā)現(xiàn)網(wǎng)站所有圖片沒(méi)有ALT屬性,修改完善圖片ALT屬性,對(duì)重要圖片進(jìn)行優(yōu)化,做好圖片站內(nèi)鏈接,圖片周圍多出現(xiàn)關(guān)鍵詞和錨文本。

診斷分析:做好ALT屬性可以展現(xiàn)網(wǎng)站對(duì)搜索引擎的友好度,增加客戶體驗(yàn)性。

第七步,診斷robots文件

對(duì)收錄及排名沒(méi)有影響、不重要的網(wǎng)頁(yè)內(nèi)容,或者不想讓搜索引擎抓取的內(nèi)容,可以通過(guò)robots協(xié)議禁止

要求:網(wǎng)站中要有robots文件,并且代碼正確,對(duì)不需要搜索引擎抓取的部分進(jìn)行禁止。

診斷網(wǎng)站狀況:網(wǎng)站有robots文件,對(duì)一些無(wú)需抓取的內(nèi)容進(jìn)行了禁止。

robots文件網(wǎng)址:xxx.cn/robots.txt

診斷分析:robots文件重要,但書寫一定要正確,否則可以事得其反,最好請(qǐng)技術(shù)人員解決。

第八步,診斷死鏈接

死鏈接就是用戶點(diǎn)擊無(wú)法展示的頁(yè)面,或者已經(jīng)不在的頁(yè)面,死鏈接會(huì)影響搜索引擎的友好度,會(huì)告成因客戶體驗(yàn)差,而流失目標(biāo)客戶,嚴(yán)重影響轉(zhuǎn)化率。

要求:網(wǎng)站無(wú)死鏈接。

診斷網(wǎng)站狀況:整站無(wú)死鏈接

診斷分析:如何診斷死鏈接,查找死鏈接可以借助站長(zhǎng)工具,這個(gè)不要我多講吧。

第九步,網(wǎng)站404頁(yè)面

404頁(yè)面是當(dāng)網(wǎng)站出現(xiàn)死鏈接時(shí),自動(dòng)轉(zhuǎn)到404頁(yè)面,引導(dǎo)用戶瀏覽其它首頁(yè),避免用戶流失。

要求:網(wǎng)站要有友好的404頁(yè),對(duì)死鏈接進(jìn)行轉(zhuǎn)化引導(dǎo)。

診斷網(wǎng)站狀況:網(wǎng)站沒(méi)有404網(wǎng)頁(yè),設(shè)計(jì)和完善好404頁(yè)面。

第十步,網(wǎng)站空間速度診斷

為什么要求網(wǎng)站空間打開(kāi)速度要快,這個(gè)問(wèn)題也太小白了吧,你會(huì)在一個(gè)等了半天也不開(kāi)的門前,傻等半天嗎?客戶是沒(méi)有耐心等待的

要求:網(wǎng)站打開(kāi)速快,不影響用戶抓取和用戶瀏覽

診斷網(wǎng)站狀況:最快5毫秒,最慢68妙,電信平均:36毫秒,聯(lián)通平均:56毫秒

診斷分析:速度就不解釋了,當(dāng)然是越快越好。

第十一步,快照更新診斷

只有快照更新有規(guī)律的網(wǎng)站,才是搜索引擎喜歡的網(wǎng)站,如果你的網(wǎng)站快照好久都沒(méi)有更新,那你就要想想是不是百度不愛(ài)你啦,百度可能不喜歡你的網(wǎng)站了,我們必須經(jīng)常更新網(wǎng)站內(nèi)容,讓蜘蛛不斷有新東西吃,有新鮮感,

要求:百度快照更新不超過(guò)去3天,網(wǎng)站有經(jīng)常更新版塊,如新聞更新、產(chǎn)品更新、評(píng)論更新等,并適時(shí)更新。

診斷網(wǎng)站狀況:百度第一次快照時(shí)間:2012-9-25,最新快照時(shí)間2012-10-15,更新速度慢,站內(nèi)有新聞更新版塊,無(wú)用戶評(píng)論交互功能。

診斷分析:建議用適當(dāng)提高網(wǎng)站外鏈和網(wǎng)站內(nèi)容更新,改善兩次快照間隔時(shí)間太長(zhǎng)的現(xiàn)象

篇7

面向服務(wù)的體系架構(gòu)(Service-Oriented Architecture, SOA)作為一個(gè)全新的網(wǎng)絡(luò)架構(gòu)和組件模型,在提供便利的同時(shí)也面臨安全方面的挑戰(zhàn)。SOA系統(tǒng)不但會(huì)受到傳統(tǒng)的網(wǎng)絡(luò)攻擊,如重放攻擊、注入攻擊等,也會(huì)受到各種DDoS攻擊。近日有研究表明,假冒搜索引擎爬蟲(chóng)已經(jīng)成為第三大DDoS攻擊工具。本文所介紹的基于SOA架構(gòu)下的DDoS攻擊檢測(cè)方法主要針對(duì)當(dāng)今比較流行的利用網(wǎng)絡(luò)爬蟲(chóng)所發(fā)起的DDoS攻擊。

1 SOA安全問(wèn)題研究

SOA是一個(gè)組件模型,它將應(yīng)用程序的不同功能單元(即服務(wù))通過(guò)這些服務(wù)之間定義良好的接口和契約聯(lián)系起來(lái)。SOA目前在很大程度上還是比較依賴Web服務(wù),特別是一些面向服務(wù)技術(shù)在SOA架構(gòu)上的應(yīng)用,導(dǎo)致SOA在提供了良好的便捷的同時(shí)也避免不了一些安全隱患。而目前來(lái)看SOA往往大多應(yīng)用在企業(yè)級(jí)平臺(tái)之上,它所承擔(dān)的服務(wù)不再單純的是一種技術(shù)能力,而更多的是一種業(yè)務(wù)能力和IT資產(chǎn)。因此研究SOA架構(gòu)下安全問(wèn)題,特別是安全檢測(cè)技術(shù),在風(fēng)險(xiǎn)到來(lái)之前提前預(yù)測(cè)、感知和及時(shí)響應(yīng)具有十分重要的意義。

2 網(wǎng)絡(luò)爬蟲(chóng)技術(shù)

2.1 網(wǎng)絡(luò)爬蟲(chóng)概述

網(wǎng)絡(luò)搜索引擎的主要數(shù)據(jù)來(lái)源就是互聯(lián)網(wǎng)網(wǎng)頁(yè),通用搜索引擎的目司褪薔】贍艿奶岣咄絡(luò)覆蓋率,網(wǎng)絡(luò)爬蟲(chóng)(又稱網(wǎng)頁(yè)蜘蛛或者網(wǎng)絡(luò)機(jī)器人),就是一種按照特定規(guī)則,自動(dòng)抓取互聯(lián)網(wǎng)信息的腳本或者程序。 搜索引擎利用網(wǎng)絡(luò)爬蟲(chóng)技術(shù)爬取Web網(wǎng)頁(yè)、文件甚至圖片、音視頻等多媒體資源,通過(guò)相應(yīng)的索引技術(shù)處理這些信息后提供給用戶查詢。

2.2 網(wǎng)絡(luò)爬蟲(chóng)的安全性問(wèn)題

網(wǎng)絡(luò)爬蟲(chóng)策略就是盡可能多的抓取互聯(lián)網(wǎng)中的高價(jià)值信息,所以爬蟲(chóng)程序會(huì)根據(jù)特定策略盡可能多的訪問(wèn)互聯(lián)網(wǎng)上的網(wǎng)站頁(yè)面,這毫無(wú)疑問(wèn)會(huì)占用目標(biāo)網(wǎng)站的網(wǎng)絡(luò)帶寬和Web服務(wù)器的處理開(kāi)銷,特別是一些小型網(wǎng)站,僅僅處理各種搜索引擎公司的爬蟲(chóng)引擎就會(huì)導(dǎo)致自身服務(wù)器“應(yīng)接不暇”。所以黑客可以假冒爬蟲(chóng)程序?qū)eb站點(diǎn)發(fā)動(dòng)DDoS攻擊,使網(wǎng)站服務(wù)器在大量爬蟲(chóng)程序的訪問(wèn)下,系統(tǒng)資源耗盡而不能及時(shí)響應(yīng)正常用戶的請(qǐng)求甚至徹底崩潰。不僅如此,黑客還可能利用網(wǎng)絡(luò)爬蟲(chóng)抓取各種敏感資料用于不正當(dāng)用途。比如遍歷網(wǎng)站目錄列表;搜索測(cè)試頁(yè)面、手冊(cè)文檔、樣本程序以查找可能存在的缺陷程序;搜索網(wǎng)站管理員登錄頁(yè)面;搜索互聯(lián)網(wǎng)用戶的個(gè)人資料等等。

3 惡意爬蟲(chóng)DDoS攻擊的防范和檢測(cè)

一般情況下,因?yàn)樘囟ňW(wǎng)站的特殊原因,比如有些網(wǎng)站不希望爬蟲(chóng)白天抓取網(wǎng)頁(yè),有些網(wǎng)站不希望爬蟲(chóng)抓取敏感信息等,所以爬蟲(chóng)程序默認(rèn)是需要遵守Robots協(xié)議,所以限制爬蟲(chóng)最簡(jiǎn)單直接的方法就是設(shè)置robots.txt規(guī)則。然而并不是所有的搜索引擎爬蟲(chóng)都會(huì)遵守robots規(guī)則,所以僅僅設(shè)置robots是遠(yuǎn)遠(yuǎn)不夠的。

3.1 日志分析來(lái)檢測(cè)惡意爬蟲(chóng)攻擊

(1)分析服務(wù)器日志統(tǒng)計(jì)訪問(wèn)最多的IP地址段。

grep Processing production.log | awk ’{print $4}’ | awk -F’.’ ’{print $1〃.〃$2〃.〃$3〃.0〃}’ | sort | uniq -c | sort -r -n | head -n 200 > stat_ip.log

(2)把統(tǒng)計(jì)結(jié)果和流量統(tǒng)計(jì)系統(tǒng)記錄的IP地址進(jìn)行對(duì)比,排除真實(shí)用戶訪問(wèn)IP,再排除正常的網(wǎng)頁(yè)爬蟲(chóng),如Google,百度,微軟爬蟲(chóng)等。很容易得到可疑的IP地址。分析可疑ip 的請(qǐng)求時(shí)間、頻率、refer頭等,很容易檢測(cè)是否網(wǎng)絡(luò)爬蟲(chóng),類似如圖1所示日志信息明顯是一個(gè)網(wǎng)絡(luò)爬蟲(chóng)。

3.2 基于訪問(wèn)行為特征檢測(cè)爬蟲(chóng)DDoS

通過(guò)日志分析來(lái)檢測(cè)惡意爬蟲(chóng)攻擊,無(wú)法及時(shí)檢測(cè)并屏蔽這些spider。所以面對(duì)分布式的爬蟲(chóng)DDoS攻擊,網(wǎng)站很有可能無(wú)法訪問(wèn),分析日志無(wú)法及時(shí)解決問(wèn)題。針對(duì)惡意爬蟲(chóng)程序和正常用戶訪問(wèn)之間的行為特征不同,爬蟲(chóng)DDoS程序?yàn)榱诉_(dá)到占用系統(tǒng)資源的目的,其訪問(wèn)往往是頻率很高而且呈明顯規(guī)律性,明顯區(qū)別于真實(shí)正常用戶瀏覽訪問(wèn)時(shí)的低頻率和隨機(jī)性,所以基于統(tǒng)計(jì)數(shù)據(jù)或者其他應(yīng)用識(shí)別或者IPS技術(shù),可以較容易的生成正常情況下的行為模型,通過(guò)采集正常的流量行為可以構(gòu)造一個(gè)正常的網(wǎng)絡(luò)行為模型,我們可以把處于正常模型內(nèi)的流量行為認(rèn)定為正常行為,一旦和正常行為輪廓有了較大的偏離,可以認(rèn)定為異常或者攻擊行為。

4 結(jié)語(yǔ)

由于基于SOA的網(wǎng)絡(luò)系統(tǒng)下的DDoS攻擊的普遍性,以及網(wǎng)絡(luò)爬蟲(chóng)及其對(duì)應(yīng)技術(shù)給現(xiàn)有Web系統(tǒng)帶來(lái)的安全威脅。本文提出了一些反惡意爬蟲(chóng)攻擊的策略和思路,對(duì)網(wǎng)站管理及安全人員,有一定的參考意義。隨著基于網(wǎng)絡(luò)爬蟲(chóng)和搜索引擎技術(shù)的互聯(lián)網(wǎng)應(yīng)用日益增多,我們有必要針對(duì)這些應(yīng)用帶來(lái)的安全問(wèn)題做更深入的研究。

參考文獻(xiàn)

[1]袁志勇.分布式拒絕服務(wù)攻擊的攻擊源追蹤技術(shù)研究[D].長(zhǎng)沙:中南大學(xué),2009.

[2]何遠(yuǎn)超.基于Web的網(wǎng)絡(luò)爬蟲(chóng)的設(shè)計(jì)與實(shí)現(xiàn)[J].網(wǎng)微計(jì)算機(jī)信息,2007,23(21):119-121.

[3]周偉,王麗娜,張煥國(guó),傅建明.一種新的DDoS攻擊方法及對(duì)策[J].計(jì)算機(jī)應(yīng)用,2003.01:144.

[4]王希斌,廉龍穎.網(wǎng)絡(luò)安全實(shí)驗(yàn)中DDoS攻擊實(shí)驗(yàn)的實(shí)現(xiàn)[J].實(shí)驗(yàn)科學(xué)與技術(shù),2016,14(1):68-71.

篇8

1 引言

近年來(lái)機(jī)構(gòu)知識(shí)庫(kù)(Institutional Repository,IR)快速穩(wěn)步增長(zhǎng),已覆蓋了大部分知名高校和科研機(jī)構(gòu)。目前在開(kāi)放獲取機(jī)構(gòu)資源庫(kù)OpenDOAR中注冊(cè)登記的IR已有2163家[1],除此以外還有相當(dāng)一部分?jǐn)?shù)量的IR未在OpenDOAR中注冊(cè)。IR做為支持開(kāi)放獲取的一種重要形式,支持機(jī)構(gòu)實(shí)施數(shù)字知識(shí)資產(chǎn)的長(zhǎng)期保存和管理,提高機(jī)構(gòu)及科研人員智力成果的發(fā)現(xiàn)幾率、傳播范圍和影響,是吸引機(jī)構(gòu)及科研人員重視和參與IR建設(shè)的重要因素。相關(guān)的研究也表明,支持開(kāi)放獲取的論文其引用影響可獲得25%~250%的提升[2]。 而Arlitsch等人[3]的調(diào)查結(jié)果顯示,當(dāng)前IR內(nèi)容被Google Scholar收錄的比率總體上維持在10%~30%的水平,甚至有0%的IR(見(jiàn)圖1)。也就是說(shuō),大部分IR的內(nèi)容沒(méi)有得到充分的發(fā)現(xiàn)和利用,仍然局限在小范圍內(nèi)進(jìn)行交流傳播。

Google Scholar作為一項(xiàng)針對(duì)學(xué)者和科研人員的免費(fèi)學(xué)術(shù)文獻(xiàn)搜索服務(wù),現(xiàn)在已成為學(xué)者、研究人員和學(xué)生查找專業(yè)文獻(xiàn)資料的首選工具[4]。其搜索的范圍涵蓋了幾乎所有知識(shí)領(lǐng)域的高質(zhì)量學(xué)術(shù)研究資料,包括論文、專業(yè)書籍以及技術(shù)報(bào)告等。Google Scholar不但可以過(guò)濾普通網(wǎng)絡(luò)搜索引擎中對(duì)學(xué)術(shù)人士無(wú)用的大量信息,通過(guò)與眾多學(xué)術(shù)文獻(xiàn)出版商的合作,還加入了許多普通搜索引擎無(wú)法搜索到的內(nèi)容。目前,科研用戶通過(guò)網(wǎng)絡(luò)來(lái)獲取資源,第一選擇就是通過(guò)Google等搜索引擎進(jìn)行大范圍搜索,其次考慮利用專業(yè)的學(xué)術(shù)數(shù)據(jù)庫(kù),最后才會(huì)去翻閱學(xué)術(shù)期刊。這種檢索順序已經(jīng)形成了一種社會(huì)習(xí)慣。

因此,如何解決IR被搜索引擎Google Scholar收錄,提升IR中學(xué)術(shù)文章被Google Scholar收錄的比率,已成為增強(qiáng)IR內(nèi)容可發(fā)現(xiàn)性和可見(jiàn)性的關(guān)鍵。本文以中國(guó)科學(xué)院研究所IR平臺(tái)CAS OpenIR[5]為例,采用學(xué)術(shù)搜索引擎優(yōu)化(Academic Search Engine Optimization,ASEO)的策略和方法,通過(guò)提升IR在Google Scholar中的索引比率,進(jìn)而增強(qiáng)IR中內(nèi)容被發(fā)現(xiàn)引用和利用影響力。

[圖1 IR被Google Scholar收錄情況調(diào)查表[3]]

2 ASEO策略和目的

ASEO建立在傳統(tǒng)的SEO[6]基礎(chǔ)之上,是從普通的SEO發(fā)展而來(lái)。由于學(xué)術(shù)搜索引擎Google Scholar與普通搜索引擎有著明確的定位區(qū)別,因此ASEO與SEO有著明顯的不同之處。

SEO指通過(guò)采用易于搜索引擎索引的合理技術(shù)手段和策略,使網(wǎng)站各項(xiàng)要素適合搜索引擎的檢索原則,從而更容易被搜索引擎收錄和優(yōu)先排序。SEO基于網(wǎng)頁(yè)(Web Page),收錄過(guò)程較靈活和容易。IR屬于學(xué)術(shù)產(chǎn)出的數(shù)據(jù)庫(kù)平臺(tái),有著自身的元數(shù)據(jù)元素集,其中的學(xué)術(shù)文章屬于“Academic Invisible Web”[7],不能被Google Scholar直接訪問(wèn)和索引。因此,在被學(xué)術(shù)搜索引擎Google Scholar收錄前,需要對(duì)IR進(jìn)行ASEO改造,使其符合Google Scholar索引標(biāo)準(zhǔn),易于被Google Scholar收錄爬取。即:

(1) 使IR可以被搜索引擎Google Scholar更好地收錄和更新(包括IR的元數(shù)據(jù)和全文);

(2) 使搜索引擎在規(guī)則允許的范圍內(nèi)進(jìn)行索引,明確IR的哪些頁(yè)面可以被索引收錄,哪些頁(yè)面不能被索引收錄;

(3) 在用戶使用Google Scholar搜索時(shí),可以排名靠前的呈現(xiàn)IR中的相關(guān)條目,起到推介IR的作用;

(4) 將IR中開(kāi)放權(quán)限的全文納入Google Scholar的全文檢索中,增加IR中論文的可見(jiàn)性,提高論文的被引用率。

3 Google Scholar收錄原則和排名算法

Google Scholar針對(duì)學(xué)術(shù)性數(shù)據(jù)庫(kù)內(nèi)容的收錄和索引,有明確的收錄原則[8],如:① 被收錄文章需要有唯一的URL;②匿名用戶可免費(fèi)地通過(guò)原文URL進(jìn)入閱讀被收錄文章;③數(shù)據(jù)庫(kù)服務(wù)的Robots.txt協(xié)議正確配置,明確允許及禁止Googlebot爬取的路徑及內(nèi)容范圍;④數(shù)據(jù)記錄的Meta標(biāo)簽符合Google Scholar Meta規(guī)則,并且必須包含DC.title,DC.creator,DCTERMS.issued三項(xiàng)描述元數(shù)據(jù);⑤記錄除了題錄文摘信息外,被收錄記錄必須要有全文;⑥全文格式為PDF格式。

Google Scholar檢索排名繼承了普通Google檢索中應(yīng)用的PageRank算法[9],即主要看某項(xiàng)學(xué)術(shù)內(nèi)容、頁(yè)面被引用的情況,同時(shí)還將文章全文、作者和出版物等因素納入算法,從而保證檢索結(jié)果的高相關(guān)性,提高查準(zhǔn)率。學(xué)術(shù)論文被引述的頻度越多,一般判斷這篇論文的權(quán)威性就越高,它的PageRank值就越高。

4 面向IR的ASEO策略與方法實(shí)現(xiàn)

根據(jù)學(xué)術(shù)搜索引擎Google Scholar收錄、排名的要約特點(diǎn),本文中筆者將選取ASEO中的關(guān)鍵環(huán)節(jié),就設(shè)計(jì)思路和實(shí)現(xiàn)的過(guò)程做一分析說(shuō)明。

4.1 搜索引擎注冊(cè)

在傳統(tǒng)SEO過(guò)程中,網(wǎng)站管理員不用太擔(dān)心網(wǎng)站的收錄情況,在網(wǎng)站運(yùn)行一定時(shí)間后搜索引擎的機(jī)器人會(huì)自動(dòng)通過(guò)已被索引的外部鏈接發(fā)現(xiàn)該網(wǎng)站。而學(xué)術(shù)搜索引擎ASEO過(guò)程中,往往需要通過(guò)管理員在Google Scholar中對(duì)相關(guān)的服務(wù)進(jìn)行注冊(cè),來(lái)通知機(jī)器人將其納入爬取對(duì)象。有鑒于此,在研究所IR部署完成后:

(1)要求或者幫助研究所盡快在Google Scholar中完成其IR的注冊(cè)和。在Google Scholar注冊(cè)IR過(guò)程中,除了聲明Google Scholar要求的收錄原則外,還需要聲明IR所用軟件、論文數(shù)量、語(yǔ)種、訪問(wèn)地址。

(2)由于Google Scholar的PageRank算法對(duì)網(wǎng)絡(luò)分類目錄尤為重視,如果網(wǎng)站被ODP(.

[9]Page,L.,Brin,S.,Motwani,R.andet al.The PageRank Citation Ranking: Bringing Order to the Web[EB/OL].[2012-06-18].http://citeseerxist psu.edu/viewdoc/summary?doi=10.1.1.31.1768.

[10]Dublin Core Collection Description Application Profile[EB/OL].[2012-05-10]. http://ukoln.ac.uk/meta

data/dcmi/collection-application-profile/.

[11]Sitemap[EB/OL].[2012-05-18].http://

/wiki/Sitemap.

篇9

第二確定您所研究的協(xié)議的最新版本的RFC文件。

如前文所述,在RFC-2400中有協(xié)議的完整清單,按照清單找到的RFC一般是協(xié)議的最新版本,如果協(xié)議的STATE是Standard就更好了。如下文所分析的FTP協(xié)議的RFC文件是RFC-959。

第三,獲取RFC文件

根據(jù)RFC文件編號(hào)查看以上站點(diǎn)的RFCs文件索引

在里面您可以很快地找到您要找的RFC文件。

第四,閱讀描述協(xié)議的RFC文件全文

這不用說(shuō)了。

第五,實(shí)踐

實(shí)踐是檢驗(yàn)真理的唯一標(biāo)準(zhǔn),雖然互聯(lián)網(wǎng)協(xié)議不是什么真理,但如果能實(shí)踐一下對(duì)理解和掌握都有好處,許多互聯(lián)網(wǎng)應(yīng)用層的協(xié)議可視程度非常高,協(xié)議中許多控制和參數(shù)用英文短語(yǔ)來(lái)表示,所傳輸?shù)臄?shù)據(jù)如文本也是ASCII碼,如HTTP,F(xiàn)TP等,這類協(xié)議單純用Telnet就可以模擬一下客戶端程序的運(yùn)作,當(dāng)然,編程實(shí)現(xiàn)是最好的鍛煉。

第六,總結(jié)

總結(jié)確實(shí)是不錯(cuò)的學(xué)習(xí)方法,自己的文章是一面鏡子。

3.舉例:FTP協(xié)議分析

FTP協(xié)議的定義在 RFC-959 "FILE TRANSFER PROTOCOL"(Standard,Recommended)。

3.1介紹

FTP 文件傳輸協(xié)議(File Transfer Protocol)

FTP協(xié)議是一個(gè)應(yīng)用層協(xié)議,在TCP上實(shí)現(xiàn)的。

開(kāi)發(fā)FTP的目的是

1)促進(jìn)文件(計(jì)算機(jī)程序和/或數(shù)據(jù))的共享。

2)鼓勵(lì)對(duì)遠(yuǎn)程計(jì)算機(jī)間接或隱式(implicit)(通過(guò)程序)的使用。

3)對(duì)用戶屏蔽不同主機(jī)系統(tǒng)中的文件儲(chǔ)存的細(xì)節(jié)。

4)可靠和高效率地實(shí)現(xiàn)文件的傳送。

用戶雖然可以直接通過(guò)一個(gè)終端使用FTP協(xié)議,但FTP協(xié)議的設(shè)計(jì)主要是給程序使用的。

3.2常用的FTP命令解釋

由于篇幅所限,這里不對(duì)以上每個(gè)FTP命令做解釋,這里僅解釋一下作者認(rèn)為比較重要或常用的FTP命令,如果讀者需要深入了解請(qǐng)參閱 RFC-959 "FILE TRANSFER PROTOCOL"。

USER NAME(USER〈sp〉〈username〉)

本命令的參數(shù)〈username〉標(biāo)識(shí)用戶名,服務(wù)器憑這個(gè)用戶的權(quán)限使用文件系統(tǒng)。這個(gè)命令一般是在控制連接后的第一個(gè)命令。這個(gè)命令成功執(zhí)行后,服務(wù)器會(huì)等待PASS命令,PASS也成功執(zhí)行后,用戶才算等錄成功,可以存取Server-FTP中的文件。

PASSWORD(PASS〈sp〉〈password〉)

這個(gè)命令是USER命令的補(bǔ)充,向Server-FTP發(fā)送由〈password〉所表示的密碼,該命令執(zhí)行成功,USER命令所指示的〈username〉才算成功登錄。這里的〈password〉是明文傳送。

CHANGE WORKING DIRECTORY(CWD〈SP〉〈pathname〉)

令Server-FTP改變當(dāng)前目錄到〈pathname〉。

LOGOUT(QUIT)

這個(gè)命令表示用戶停止使用FTP,Server-FTP會(huì)關(guān)閉控制連接。

DATA PORT(PORT 〈SP〉〈host-port〉)

User-FTP這個(gè)命令告訴Server-FTP,等待Server-DTP連接的DTP(可能是User-DTP或其他的Server-DTP)的地址,〈host-port〉所指示的就是這個(gè)地址,具體的PORT命令形式如下。

PORT h1,h2,h3,h4,p1,p2

以上六個(gè)參數(shù)都是小于256的數(shù)字。

h1,h2,h3,h4表示IP地址,如192,168,0,1 表示IP地址是192.168.0.1的主機(jī)。

p1,p2,表示端口號(hào),注意p1和p2都是小于256,所以1000表示為3,232(1000=3*256+232)

RETRIEVE(RETR〈SP〉〈pathname〉)

這個(gè)命令請(qǐng)求Server-FTP通過(guò)數(shù)據(jù)連接向User-DTP傳送由〈pathname〉指示的文件的數(shù)據(jù)。

STOR(RETR 〈SP〉〈pathname〉)

這個(gè)命令請(qǐng)求Server-FTP通過(guò)數(shù)據(jù)連接接收User-DTP傳送的數(shù)據(jù),數(shù)據(jù)保存在由〈pathname〉指示的文件中。注意〈pathname〉是在Server-FTP的主機(jī)上的。

PRINT WORKING DIRECTORY(PWD)

Server-FTP收到該命令后在回應(yīng)中返回當(dāng)前工作目錄名。

LIST(LIST [〈SP〉〈pathname〉])

Server-FTP收到該命令后向User-DTP發(fā)送目錄〈pathname〉的文件目錄信息。如果沒(méi)有〈pathname〉參數(shù),則返回當(dāng)前目錄的文件目錄信息。

STATUS(STAT [〈SP〉〈pathname〉])

這個(gè)命令的回應(yīng)有兩種情況,沒(méi)有〈pathname〉參數(shù)和有〈pathname〉參數(shù)。

1)沒(méi)有參數(shù),Server-FTP會(huì)在回應(yīng)中返回的一些狀態(tài)信息,如以下是我Linux上的Server-FTP返回的信息:

211-zfm.home FTP server status:

Version wu-2.4.2-VR17(1)Mon Apr 19 09:21:53 EDT 1999

Connected to zfl_k6.home(192.168.0.1)

Logged in as fszfl

TYPE:ASCII,F(xiàn)ORM:Nonprint;STRUcture:File;transfer MODE:Stream

No data connection

0 data bytes received in 0 files

0 data bytes transmitted in 0 files

0 data bytes total in 0 files

145 traffic bytes received in 0 transfers

4306 traffic bytes transmitted in 0 transfers

4501 traffic bytes total in 0 transfers

211 End of status

2)如果有〈pathname〉參數(shù),則在回應(yīng)中返回〈pathname〉的目錄信息,如以下是我發(fā)送STAT . 的結(jié)果:

213-status of .:

total 64

drwxrwxr-x 2 fszfl fszfl 1024 Nov 25 01:37 .

drwx------ 12 fszfl fszfl 1024 Nov 29 00:35 ..

213 End of Status

這個(gè)功能好象和LIST有點(diǎn)相似,但LIST中的目錄信息在數(shù)據(jù)連接中返回的。

HELP [〈SP〉〈string〉]

這是幫助命令,如果沒(méi)有參數(shù)則返回FTP命令列表,如果有參數(shù)則返回〈string〉表示的命令的語(yǔ)法。

3.3 FTP回應(yīng)

3.3.1 回應(yīng)的格式

FTP回應(yīng)有3位數(shù)字編碼和有關(guān)信息的文本組成,編碼后一個(gè)分隔符,如果回應(yīng)中返回信息的長(zhǎng)度大于一行,則編碼后跟減號(hào)(-),否則跟空格(〈sp〉)。多于一行的信息可以參考上面的例子。注意最后還有"213 End of Status"表示信息的結(jié)束。FTP回應(yīng)使用的編碼是約定好的,信息文本可以由具體的Server-FTP設(shè)計(jì)。顯然,編碼為了方便程序設(shè)計(jì),文本信息可以方便閱讀。

為了敘述方便,下文把這3位編碼稱為回應(yīng)碼。

3.3.2 回應(yīng)碼含義

3位回應(yīng)碼的每一位都有確定的含義。第一位表示命令的執(zhí)行結(jié)果,表示成功,失敗,或命令沒(méi)有完成。第二位表示回應(yīng)的類型,第三位一般指第二位的進(jìn)一步細(xì)化,預(yù)留給將來(lái)的發(fā)展。

第1位可能的取值:

1yz 初步確認(rèn)(Positive Preliminary reply)

表示請(qǐng)求的命令已經(jīng)開(kāi)始,請(qǐng)等待進(jìn)一步的回應(yīng),在此之前不要發(fā)送新的FTP命令。

2yz 完成確認(rèn)(Positive Completion reply)

表示請(qǐng)求的命令已經(jīng)成功完成,可以發(fā)送新的請(qǐng)求。

3yz 中間狀態(tài)確認(rèn)(Positive Intermediate reply)

請(qǐng)求的命令已經(jīng)被接受,等待下一條相關(guān)的命令提供進(jìn)一步的信息。這個(gè)回應(yīng)用于一些命令序列中,如USER和PASS,如果USER被接受則可以得到這個(gè)回應(yīng),表明還需要密碼來(lái)完成用戶的登錄。

4yz 暫時(shí)否認(rèn)(Transient Negative Completion reply)

Server-FTP由于一些暫時(shí)的原因沒(méi)有接收命令,User-FTP最好重新請(qǐng)求這個(gè)命令。如果是命令序列,則需要從該序列的第一條指令開(kāi)始。

5yz 命令有錯(cuò)(Permanent Negative Completion reply)

命令沒(méi)有被接收,具體的拒絕原因由回應(yīng)碼第二位指出。

第2位可能的取值,描述回應(yīng)的分類:

x0z 語(yǔ)法(Syntax)- 命令語(yǔ)法不正確,或Server-FTP沒(méi)有實(shí)現(xiàn)這個(gè)功能。

x1z 信息(Information)- 描述如STAT或HELP等命令要求Server-FTP信息的返回。

x2z 連接(Connections)- 描述有關(guān)控制和數(shù)據(jù)連接。

x3z 帳戶和認(rèn)證(Authentication and accounting)- 登錄過(guò)程的回應(yīng)。

x4z 現(xiàn)在還沒(méi)有指定。

x5z 文件系統(tǒng)(File system)- 這個(gè)回應(yīng)反映服務(wù)器的文件系統(tǒng)的狀態(tài)。

第3位的的含義需要根據(jù)第1,2位的值再細(xì)化。

3.3.3 回應(yīng)舉例

3位回應(yīng)碼的不同組合產(chǎn)生了許多不同的含義,篇幅所限不一一列舉,具體請(qǐng)查 RFC-959。下面是幾個(gè)例子:

200 Command okay.

500 Syntax error,command unrecognized.

501 Syntax error in parameters or arguments

篇10

2016年4月11日,浦東法院對(duì)本案進(jìn)行了公開(kāi)開(kāi)庭審理。

據(jù)澎湃新聞報(bào)道,浦東法院在審理后認(rèn)為,百度地圖和大眾點(diǎn)評(píng)在為用戶提供商戶信息和點(diǎn)評(píng)內(nèi)容的服務(wù)模式上近乎一致,雙方存在直接競(jìng)爭(zhēng)關(guān)系。百度地圖大量使用大眾點(diǎn)評(píng)網(wǎng)的用戶點(diǎn)評(píng),替代其向網(wǎng)絡(luò)用戶提供信息,會(huì)導(dǎo)致大眾點(diǎn)評(píng)網(wǎng)的流量減少。與此同時(shí),百度地圖又推介自己的團(tuán)購(gòu)等業(yè)務(wù),攫取了大眾點(diǎn)評(píng)網(wǎng)的部分交易機(jī)會(huì)。而百度知道直接向用戶提供來(lái)自大眾點(diǎn)評(píng)網(wǎng)的點(diǎn)評(píng)信息,將一些想獲取點(diǎn)評(píng)信息的網(wǎng)絡(luò)用戶導(dǎo)流到了百度知道。

法院指出,市場(chǎng)經(jīng)濟(jì)鼓勵(lì)市場(chǎng)主體在信息的生產(chǎn)、搜集和使用等方面進(jìn)行各種形式的自由競(jìng)爭(zhēng),但是這種競(jìng)爭(zhēng)應(yīng)當(dāng)充分尊重競(jìng)爭(zhēng)對(duì)手在信息的生產(chǎn)、搜集和使用過(guò)程中的辛勤付出。本案大眾點(diǎn)評(píng)網(wǎng)的用戶點(diǎn)評(píng)信息是漢濤公司的核心競(jìng)爭(zhēng)資源之一,能給漢濤公司帶來(lái)競(jìng)爭(zhēng)優(yōu)勢(shì),具有商業(yè)價(jià)值。漢濤公司為運(yùn)營(yíng)大眾點(diǎn)評(píng)網(wǎng)付出了巨大的成本,通過(guò)法律維護(hù)點(diǎn)評(píng)信息使用市場(chǎng)的正當(dāng)競(jìng)爭(zhēng)秩序,有利于鼓勵(lì)經(jīng)營(yíng)者創(chuàng)新業(yè)務(wù)模式,投入成本改善消費(fèi)者福祉。百度公司大量、全文使用涉案點(diǎn)評(píng)信息,實(shí)質(zhì)替代大眾點(diǎn)評(píng)網(wǎng)向用戶提供信息,對(duì)漢濤公司造成損害,其行為違反了公認(rèn)的商業(yè)道德和誠(chéng)實(shí)信用原則,具有不正當(dāng)性,構(gòu)成不正當(dāng)競(jìng)爭(zhēng)。

法院同時(shí)指出,本案中百度公司的搜索引擎抓取涉案信息雖未違反Robots協(xié)議,但這并不意味著百度公司可以任意使用搜索引擎抓取的信息,百度公司應(yīng)當(dāng)本著誠(chéng)實(shí)信用的原則和公認(rèn)的商業(yè)道德,合理控制來(lái)源于第三方網(wǎng)站信息的使用范圍和方式。

篇11

美麗說(shuō)遭遇的“危機(jī)”,其實(shí)是淘寶、百度兩大巨頭之間重新合作的一個(gè)結(jié)果,但從這結(jié)果很難倒推回去說(shuō)淘寶存在一個(gè)刻意針對(duì)導(dǎo)購(gòu)網(wǎng)站的打壓計(jì)劃

非刻意的傷害

卻也不介意“假道伐虢”

比“美麗說(shuō)”被截流更大的新聞是淘寶與百度的重新合作。在此之前,從2008年開(kāi)始,馬云就在淘寶的Robots.txt協(xié)議中全面屏蔽百度蜘蛛——禁止百度搜索結(jié)果抓取淘寶內(nèi)容,時(shí)隔5年之后的2013年,淘寶的內(nèi)容又重新出現(xiàn)在百度上。

眾所周知,百度搜索可以為網(wǎng)站導(dǎo)流,而流量就是財(cái)富,但當(dāng)年馬云為什么會(huì)下決心屏蔽百度呢?分析原因應(yīng)有兩個(gè),其一,馬云認(rèn)為淘寶已經(jīng)足夠強(qiáng)大,可以作為一個(gè)單獨(dú)的世界存在,而不必借助百度;其二,馬云認(rèn)為百度太強(qiáng)大,如果用戶漸漸習(xí)慣直接從百度搜索作為購(gòu)物入口,淘寶就很可能被拋棄,而百度當(dāng)時(shí)又對(duì)自有電商野心勃勃,意欲打造一個(gè)“中文互聯(lián)網(wǎng)領(lǐng)域最具規(guī)模的網(wǎng)上個(gè)人交易平臺(tái)”。

時(shí)隔5年,世界卻已經(jīng)發(fā)生變化。百度現(xiàn)在已經(jīng)對(duì)自有電商基本放棄,與日方合資的B2C網(wǎng)站樂(lè)酷天也在去年被徹底關(guān)閉,百度對(duì)淘寶的威脅大幅度降低。而阿里巴巴最近又在籌劃IPO,對(duì)業(yè)績(jī)快速增長(zhǎng)的需求日益迫切。這種情況下,百度、淘寶重新攜手已不是意外。

不僅與百度合作,阿里還同時(shí)與360搜索簽署了相關(guān)協(xié)議。在與360簽署的合作框架中,其商品、購(gòu)物搜索均通過(guò)阿里媽媽旗下一淘網(wǎng)直接向淘寶、天貓等阿里系電商平臺(tái)引流。

淘寶不會(huì)為了對(duì)付美麗說(shuō)才與百度合作,后者的量級(jí)實(shí)在太小了。然而,巨頭一打噴嚏,跟班們就要感冒,淘寶與百度的合作又確確實(shí)實(shí)對(duì)美麗說(shuō)、蘑菇街這樣的淘寶寄生者造成性命之憂。5年前,正因?yàn)樘詫毱帘瘟税俣人阉鳎沤o美麗說(shuō)這樣的第三方導(dǎo)購(gòu)網(wǎng)站創(chuàng)造了更大的生存空間,借助社會(huì)化電商概念,它們不斷壯大,大有成為淘寶最重要流量入口之勢(shì),淘寶聯(lián)盟數(shù)據(jù)顯示,在2012年的30億元分成金額中,蘑菇街、美麗說(shuō)等導(dǎo)購(gòu)網(wǎng)站占比為21%,從淘寶分成超過(guò)6億元。從長(zhǎng)遠(yuǎn)看,這對(duì)淘寶不能不說(shuō)是一大潛在威脅。借助這次與百度恢復(fù)合作,馬云應(yīng)當(dāng)不介意“假道伐虢”。

更何況,馬云在百度的合作中,也是投了巨資的,即便沒(méi)有對(duì)付導(dǎo)購(gòu)網(wǎng)站的確切意圖,它也要購(gòu)買一些關(guān)鍵詞,把目標(biāo)用戶直接導(dǎo)向淘寶,與其從美麗說(shuō)導(dǎo)流再分給美麗說(shuō),還不如自己購(gòu)買“美麗說(shuō)”這樣的關(guān)鍵詞,把流量直接導(dǎo)過(guò)來(lái)。

擺脫對(duì)淘寶的依賴

轉(zhuǎn)型個(gè)性化垂直社區(qū)的機(jī)會(huì)

導(dǎo)購(gòu)網(wǎng)站在巨頭齟齬中漁翁得利,獲得發(fā)展良機(jī),現(xiàn)在巨頭握手,它們蒙受池魚(yú)之殃,這也算是因果循環(huán)了。事實(shí)上,如果美麗說(shuō)們富有遠(yuǎn)見(jiàn)的話,早就該預(yù)料到這一天。因?yàn)樘詫毷站o流量入口,防止養(yǎng)虎為患的姿態(tài)顯露了已不止一天。根據(jù)媒體公開(kāi)報(bào)道,2012年5月,馬云曾針對(duì)電商導(dǎo)購(gòu)、返利類的網(wǎng)站在內(nèi)部做了幾點(diǎn)指示:不扶持上游導(dǎo)購(gòu)網(wǎng)站繼續(xù)做大,不支持返利類的網(wǎng)站。產(chǎn)業(yè)鏈上可以和異業(yè)合作,盡量不和同業(yè)合作。作為信號(hào),去年底淘寶已經(jīng)對(duì)返利網(wǎng)站下手。去年11月20日,一淘旗下淘寶聯(lián)盟公告稱,部分返現(xiàn)類淘寶客在宣傳上夸大返現(xiàn)金額、延長(zhǎng)返現(xiàn)賬期、故意設(shè)定眾多限制不返利,侵害了消費(fèi)者利益,并影響了商家價(jià)格體系。因此,淘寶聯(lián)盟將從2013年1月1日起不再支持針對(duì)淘寶站內(nèi)(包括天貓和淘寶集市)購(gòu)物返現(xiàn)金給會(huì)員或買家的淘寶客模式,只支持返積分、返實(shí)物、優(yōu)惠券等非現(xiàn)金返利方式。

馬云說(shuō),阿里的流量入口應(yīng)該是草原而不是森林。淘寶希望上游有1萬(wàn)個(gè)蘑菇街,每家收入都是2萬(wàn)元/天。

淘寶和“美麗說(shuō)”們?cè)?jīng)相愛(ài),但它最希望的是這些導(dǎo)購(gòu)網(wǎng)站有永遠(yuǎn)“做小”的覺(jué)悟,只要你不奢望登堂入室,那我也不介意一直包養(yǎng),淘寶最介意的是導(dǎo)購(gòu)網(wǎng)站越做越大,控制了淘寶的入口,或者這些與淘寶合作密切的網(wǎng)站被競(jìng)爭(zhēng)對(duì)手買走,進(jìn)而給淘寶來(lái)個(gè)釜底抽薪。

篇12

0 引 言

對(duì)于無(wú)線定位系統(tǒng),已經(jīng)有很多文獻(xiàn)對(duì)此進(jìn)行了分析。無(wú)線定位技術(shù)是一項(xiàng)古老而又年輕的技術(shù)。定位通常是指確定地球表面某種物體在某一參考坐標(biāo)系中的位置。傳統(tǒng)的定位技術(shù)和導(dǎo)航密不可分,導(dǎo)航是指引導(dǎo)交通工具或其他物體從一個(gè)位置移動(dòng)到另一個(gè)位置的過(guò)程,這一過(guò)程通常需要定位進(jìn)行輔助。隨著RFID系統(tǒng)閱讀距離的增長(zhǎng),對(duì)標(biāo)簽的定位需求也變得越來(lái)越緊迫。文獻(xiàn)[1]的蜂窩網(wǎng)無(wú)線定位的各種研究也非常適合RFID系統(tǒng)的定位。文獻(xiàn)[2]重點(diǎn)研究了射頻識(shí)別RFID室內(nèi)算法研究。

射頻識(shí)別系統(tǒng)包括一個(gè)標(biāo)簽和讀寫器。當(dāng)隨著操作距離的增長(zhǎng),在閱讀器閱讀范圍內(nèi)的標(biāo)簽數(shù)量會(huì)隨之增長(zhǎng),并且閱讀器要同時(shí)閱讀多卡。現(xiàn)在市場(chǎng)上很多閱讀器已經(jīng)能夠同時(shí)閱讀和辨識(shí)多卡,但是他們不能在物理上定位標(biāo)簽的具置。隨著閱讀器和標(biāo)簽性能的提升,操作距離的增長(zhǎng)使閱讀器有能力大范圍得到定位信息,位置信息作為辨識(shí)信息的增加變得越來(lái)越重要。為了方便敘述,借鑒文獻(xiàn)[3]將后面待定位的目標(biāo)稱為標(biāo)簽或移動(dòng)臺(tái),將參與定位的射頻識(shí)別讀寫器簡(jiǎn)稱為基站或閱讀器。

無(wú)線及移動(dòng)通信設(shè)備的普及帶動(dòng)了人們對(duì)位置感知服務(wù)的需求,人們需要確定物品的三維坐標(biāo)并跟蹤其變化。現(xiàn)有的定位服務(wù)系統(tǒng)主要包括基于衛(wèi)星定位的GPS 系統(tǒng)、基于紅外線或超聲波的定位系統(tǒng)及基于移動(dòng)網(wǎng)絡(luò)的定位系統(tǒng)。RFID 的普及為人與物體的空間定位與跟蹤服務(wù)提供了一種新的解決方案。RFID 定位與跟蹤系統(tǒng)主要利用標(biāo)簽對(duì)物體的唯一標(biāo)識(shí)特性,依據(jù)讀寫器與安裝在物體上的標(biāo)簽之間射頻通信的信號(hào)強(qiáng)度來(lái)測(cè)量物品的空間位置,主要應(yīng)用于GPS 系統(tǒng)難以應(yīng)用的室內(nèi)定位。典型的RFID 定位與跟蹤系統(tǒng)包括微軟公司的Radar 系統(tǒng)[4]、MIT Oxygen 項(xiàng)目開(kāi)發(fā)的Cricket 系統(tǒng)[5] 、密歇根州立大學(xué)的LANDMARC 系統(tǒng)[6]。日本九州大學(xué)的帶有RFID標(biāo)簽閱讀器的機(jī)器人利用周圍標(biāo)簽位置數(shù)據(jù)進(jìn)行自我定位[7]。這些應(yīng)用針對(duì)RFID 標(biāo)簽價(jià)格低廉的特點(diǎn),通過(guò)引入?yún)⒖紭?biāo)簽,采用RFID 標(biāo)簽作為參考點(diǎn)[6],能夠提高系統(tǒng)定位精度,同時(shí)降低系統(tǒng)成本。

針對(duì)采用副載波通信的RFID系統(tǒng),文獻(xiàn)[8]采用了離散頻譜校正得到相位,操作相對(duì)比較復(fù)雜。我們也可以把副載波看做是基帶,同樣也可以使用本文提出對(duì)標(biāo)簽反射波的跳頻變相檢測(cè)法進(jìn)行距離計(jì)算,該方法能夠快速得到精確的距離數(shù)值。當(dāng)然在這個(gè)頻段中只有反射調(diào)制式射頻系統(tǒng)能夠利用本文介紹的相位檢測(cè)法進(jìn)行精確的距離測(cè)量。相對(duì)其他方法比如時(shí)間差法,場(chǎng)強(qiáng)法等則無(wú)法提供在載波波長(zhǎng)距離內(nèi)的精度[2,3]。

1 射頻識(shí)別相位測(cè)距法

在超高頻射頻識(shí)別系統(tǒng)中,典型的是ISO/IEC18000-6協(xié)議,它有Type A、B、C三種,表1所列為他們工作方式的定義。在超高頻射頻識(shí)別系統(tǒng)中,電子標(biāo)簽從閱讀器發(fā)出的電磁波中獲取能量,閱讀器通過(guò)調(diào)制發(fā)送的載波給標(biāo)簽發(fā)送信息,并且給標(biāo)簽發(fā)送無(wú)調(diào)制的載波并通過(guò)接收標(biāo)簽的后向散射獲取標(biāo)簽返回的信息。由此可見(jiàn),閱讀器和電子標(biāo)簽之間的通信是半雙工的,標(biāo)簽在后向散射的時(shí)候不獲取閱讀器的指令。由于是短距離無(wú)線通信,為了使得標(biāo)簽解調(diào)方便,閱讀器到標(biāo)簽之間的通信方式主要是幅度調(diào)制,而電子標(biāo)鑒的后向散射是通過(guò)調(diào)制閱讀器的無(wú)調(diào)制載波來(lái)返回信息,主要的調(diào)制方式是幅度調(diào)制或者相位調(diào)制。

由于射頻識(shí)別系統(tǒng)利用了如圖1所示的反射調(diào)制技術(shù),系統(tǒng)在標(biāo)簽反射阻抗不變的情況下,反射回來(lái)的信號(hào)幅度和相位跟距離有關(guān)。距離長(zhǎng)了,標(biāo)簽反射到讀寫器的信號(hào)會(huì)減弱,相位會(huì)隨著距離而呈周期變化。反射回來(lái)的信號(hào)幅度往往因天線的方向角,周圍環(huán)境變化(如標(biāo)簽貼近金屬板),反射信號(hào)強(qiáng)度而顯著不同,所以接收信號(hào)的強(qiáng)度很難反應(yīng)標(biāo)簽和讀寫器之間的距離。

由于是短距離通訊,標(biāo)簽和讀寫器之間往往在直視距離,所以,相對(duì)來(lái)說(shuō)相位測(cè)距受環(huán)境變化影響要小很多。根據(jù)天線互易定理,在視距情況下,標(biāo)簽的閱讀距離不會(huì)受收發(fā)天線方向系數(shù)影響,同時(shí)不受極化的影響。標(biāo)簽天線在受外界影響變形時(shí),閱讀距離會(huì)相應(yīng)減小。

圖1 反射調(diào)制射頻識(shí)別系統(tǒng)原理圖

2 跳頻變相位測(cè)距原理

假設(shè)無(wú)源反射調(diào)制標(biāo)簽對(duì)反射信號(hào)是采用OOK調(diào)制的,并且標(biāo)簽天線的阻抗沒(méi)有隨著頻率變化(或者變化非常小可以忽略)。

讀寫器發(fā)射頻率為f的載波信號(hào),標(biāo)簽將一部分載波信號(hào)反射回讀寫器,I/Q解調(diào)器得到標(biāo)簽反射信號(hào)載波和發(fā)射的載波相干得到它的幅度和相位信息。幅度表示反射信號(hào)的強(qiáng)度,相位θ則會(huì)隨著標(biāo)簽和讀寫器的距離而改變,可以由下式求出:

(1)

其中c為光速,L為讀寫器到標(biāo)簽的距離,f為載波頻率。

由于讀寫器檢測(cè)到的θT取值范圍只有0~2π,所以當(dāng)標(biāo)簽和讀寫器距離L比較長(zhǎng)時(shí),θT將會(huì)由下式表示:

(2)

其中[ ]符號(hào)表示取整數(shù)。

由式(2)可以看出,直接用θT來(lái)求標(biāo)簽和讀寫器距離L將會(huì)出現(xiàn)整周模糊度的問(wèn)題。

現(xiàn)在依舊假設(shè)標(biāo)簽和讀寫器距離不變。讀寫器的頻率范圍是860~960 MHz,屬于跳頻系統(tǒng)。令θ1為頻率f1時(shí)標(biāo)簽反射載波在讀寫器的相位,頻率f2時(shí)標(biāo)簽反射載波在讀寫器的相位是θ2。

(3)

由這個(gè)方程組,我們求得

(4)

其中Δθ=θ2-θ1,Δf=f2-f1。

在取f1和f2時(shí)避免-π

3 相位的獲取

讀寫器直接下變頻從I/Q解調(diào)器得到接收信號(hào)的I、Q兩路正交信號(hào)如圖2所示。他們和標(biāo)簽反射波信號(hào)的幅度A和相位θ的關(guān)系是

(5)

所以

(6)

圖2 I/Q星座圖

4 距離測(cè)量值修正

由于前面的推導(dǎo)都是在理想情況下進(jìn)行的,實(shí)際上讀寫器和標(biāo)簽之間的傳輸信道并不一定是理想的。對(duì)于RFID系統(tǒng)來(lái)說(shuō),電磁波的主要方式是視距傳播和非視距傳播。當(dāng)然視距傳播對(duì)信號(hào)做出主要貢獻(xiàn)。這里主要研究L的修正及θ的修正這兩個(gè)問(wèn)題。

4.1 L的修正

由于解調(diào)器離天線還有一定的距離,設(shè)為L(zhǎng)',不考慮色散等問(wèn)題,剛才實(shí)際的讀寫器天線到標(biāo)簽的距離應(yīng)該修正為

LA-T=L-L' (7)

4.2 θ的修正

標(biāo)簽的反射阻抗在各個(gè)頻率上不一定相等,由于是相位檢測(cè)所以我們主要關(guān)心阻抗的相位變化。令f2時(shí)標(biāo)簽的阻抗和f1時(shí)阻抗相位差為θ'(好的標(biāo)簽設(shè)計(jì)這個(gè)值應(yīng)該很小)。故距離使用下式計(jì)算:

(8)

4.3 總的修正

綜合(7)式和(8)式,我們可以得出總的修正式:

(9)

可以令

L修= (10)

這樣就將所有的修正歸結(jié)為一個(gè)修正,所以有

L修 (11)

實(shí)際上,只要把標(biāo)簽貼到讀寫器天線上即令LT-A=0,則這個(gè)時(shí)候由Δθ和Δf可以直接求得L修。

5 相位測(cè)距誤差分析

由(4)可知,標(biāo)簽到閱讀器距離L是相位角Δθ和頻率Δf的函數(shù),記為L(zhǎng)=L(Δθ,Δf)。

(12)

(13)

所以它的全微分為

(14)

L的方差為

(15)

6 結(jié) 語(yǔ)

以上介紹的是利用兩個(gè)頻點(diǎn)(跳頻)的不同相位來(lái)定位的方法,實(shí)際上可以多采集一個(gè)頻點(diǎn)來(lái)進(jìn)行定位計(jì)算得到更精確的距離估計(jì)值,或者和場(chǎng)強(qiáng)法結(jié)合進(jìn)行估計(jì)。圖3為不同頻率間隔下,電子標(biāo)簽反射回來(lái)的相位差和標(biāo)簽距離之間的關(guān)系圖。

圖3 不同頻率間隔下角度和標(biāo)簽距離的坐標(biāo)圖

射頻識(shí)別系統(tǒng)包括一個(gè)標(biāo)簽和讀寫器。當(dāng)隨著操作距離的增長(zhǎng),在閱讀器閱讀范圍內(nèi)的標(biāo)簽數(shù)量會(huì)隨著增長(zhǎng),并且閱讀器要同時(shí)閱讀多卡。現(xiàn)在市場(chǎng)上很多閱讀器已經(jīng)能夠同時(shí)閱讀和辨識(shí)多卡,但是大部分不能在物理上定位標(biāo)簽的具置。隨著閱讀器和標(biāo)簽性能的提升,操作距離的增長(zhǎng)使閱讀器有能力大范圍得到定位信息,位置信息作為辨識(shí)信息的增加變得越來(lái)越重要了。本文提出跳頻變相位檢測(cè)法進(jìn)行距離計(jì)算,能夠快速得到精確的數(shù)值,所有采用反射調(diào)制式的射頻系統(tǒng)都能夠利用本文介紹的跳頻相位檢測(cè)法進(jìn)行精確的距離測(cè)量。

參考文獻(xiàn)

[1] 沈宇超,沈樹(shù)群,樊榮,等.射頻識(shí)別系統(tǒng)中通信協(xié)議的模塊化設(shè)計(jì)[J].通信學(xué)報(bào),2001, 22(2):54-58.

[2] 李科讓.一種實(shí)用的非接觸式IC卡讀寫器系統(tǒng)的設(shè)計(jì)[J].重慶郵電學(xué)院學(xué)報(bào)(自然科學(xué)版),2001,6(S1):141-143.

[3] 范平志,鄧平,劉林.蜂窩網(wǎng)無(wú)線定位[M].北京:電子工業(yè)出版社,2002.

[4] P. Bahl, V. N. Padmanabhan. RADAR:An In-Building RF-based User Location and Tracking System [Z].In Proc. of Joint Conference of the IEEE Computer and Communications Societies (INFOCOM), 2000.

[5] Nissanka B. Priyantha, Anit Chakraborty, Hari Balakrishnan:The Cricket Location-Support System [Z].The 6th ACM International Conference on Mobile Computing and Networking , Boston, MA, August 2000.

篇13

第1章 SEO概述

1.1 SEO簡(jiǎn)介

1.1.1 SEO“何許人也”

1.1.2 為什么要學(xué)習(xí)SEO

1.1.3 SEO適合哪些人

1.1.4 SEO人員應(yīng)該具備哪些素養(yǎng)

1.2 正確理解SEO

1.2.1 SEO不等于作弊

1.2.2 SEO內(nèi)容為王

1.2.3 SEO與SEM的關(guān)系

1.2.4 SEO與付費(fèi)排名的關(guān)系

第2章 網(wǎng)站設(shè)計(jì)影響SEO的因素

2.1 如何選擇搜索引擎喜歡的域名

2.1.1 哪些域名后綴權(quán)重高

2.1.2 域名長(zhǎng)短是否影響SEO

2.1.3 中文域名是否影響SEO

2.1.4 域名存在的時(shí)間對(duì)SEO有什么影響

2.1.5 如何選擇一個(gè)合適的域名

2.1.6 為域名取名的技巧

2.2 如何選擇搜索引擎喜歡的空間

2.2.1 如何選擇空間合適的位置

2.2.2 空間的速度對(duì)SEO的影響

2.2.3 如何保障空間更穩(wěn)定

2.2.4 選擇空間還是選擇服務(wù)器

2.2.5 支持在線人數(shù)為多少

2.2.6 是否支持404錯(cuò)誤頁(yè)面

2.3 如何制定搜索引擎喜歡的網(wǎng)站構(gòu)架

2.3.1 W3C標(biāo)準(zhǔn)對(duì)SEO的影響

2.3.2 DIV+CSS對(duì)SEO的影響

2.3.3 靜態(tài)化頁(yè)面對(duì)SEO的影響

2.3.4 目錄級(jí)別對(duì)SEO的影響

2.3.5 目錄文件名對(duì)SEO的影響

2.3.6 網(wǎng)頁(yè)大小對(duì)SEO的影響

2.3.7 如何使用robots.txt

2.4 如何制定搜索引擎喜歡的網(wǎng)站標(biāo)簽

2.4.1 標(biāo)題(Title)的設(shè)計(jì)技巧

2.4.2 描述(Description)的設(shè)計(jì)技巧

2.4.3 關(guān)鍵詞(Keywords)的設(shè)計(jì)技巧

2.4.4 認(rèn)識(shí)更多Meta

第3章 關(guān)鍵詞與SEO

3.1 關(guān)鍵詞的重要性

3.2 關(guān)鍵詞密度

3.2.1 什么是關(guān)鍵詞密度

3.2.2 糾正對(duì)關(guān)鍵詞密度的錯(cuò)誤看法

3.2.3 什么是適當(dāng)?shù)年P(guān)鍵詞密度

3.2.4 關(guān)鍵詞放在網(wǎng)頁(yè)哪些位置最好

3.2.5 關(guān)鍵詞密度的基本原則

3.2.6 如何增加關(guān)鍵詞密度

3.2.7 如何查詢關(guān)鍵詞密度

3.2.8 谷歌和雅虎的喜好分析

3.3 關(guān)鍵詞趨勢(shì)

3.3.1 什么是關(guān)鍵詞趨勢(shì)

3.3.2 帶你認(rèn)識(shí)谷歌熱榜

3.3.3 帶你認(rèn)識(shí)百度風(fēng)云榜

3.3.4 帶你認(rèn)識(shí)百度指數(shù)

3.3.5 尋找關(guān)鍵詞趨勢(shì)的小竅門

3.4 什么是長(zhǎng)尾關(guān)鍵詞

3.4.1 如何選擇長(zhǎng)尾關(guān)鍵詞

3.4.2 如何制作網(wǎng)站欄目

3.4.3 如何制作網(wǎng)站專題

第4章 內(nèi)容策略

第5章 鏈接策略

第6章 數(shù)據(jù)監(jiān)測(cè)與分析

第7章 SEO進(jìn)階

第8章 網(wǎng)站經(jīng)典SEO案例分析

第9章 如何利用SEO技術(shù)進(jìn)行網(wǎng)絡(luò)創(chuàng)業(yè)與賺錢

附錄1 SEO服務(wù)協(xié)議范本

附錄2 SEO工作進(jìn)度與安排、價(jià)款、交付和驗(yàn)收方式示例

附錄3 網(wǎng)站SEO方案范本

附錄4 需要了解的操作理論

編輯推薦

網(wǎng)絡(luò)SEO世界,在別人看來(lái)可能是玄妙莫測(cè)的異度空間,但在楊帆這里卻如他手中玩轉(zhuǎn)自如的魔方,只需他略施小計(jì)便乖乖受降,排兵布陣任其調(diào)遣,秩序、章法早已自在心中。此次楊帆將其多年實(shí)戰(zhàn)中總結(jié)的經(jīng)驗(yàn)著書分享,實(shí)為中國(guó)互聯(lián)網(wǎng)營(yíng)銷界之幸事!全書深入淺出、注重實(shí)戰(zhàn),即使你是一個(gè)第一次接觸網(wǎng)絡(luò)SEO的新鮮人,亦可按圖索驥,挖到網(wǎng)絡(luò)里屬于你的第一桶金!

——陳墨網(wǎng)絡(luò)營(yíng)銷機(jī)構(gòu)創(chuàng)始人 陳墨

搜索引擎已經(jīng)擁有98%的網(wǎng)民滲透率并占據(jù)78.7%的網(wǎng)民獲取信息途徑。對(duì)于各類網(wǎng)絡(luò)創(chuàng)業(yè)者來(lái)說(shuō),無(wú)論是初期建站推廣、中期商業(yè)運(yùn)營(yíng),還是后期用戶經(jīng)營(yíng),都可謂是“得搜索者方能得網(wǎng)絡(luò)天下”,本書就是一本既實(shí)用又實(shí)惠的親身傳授如何獲得網(wǎng)絡(luò)天下的“寶典”。

——北京億瑪在線科技有限公司(億告、億起發(fā))總裁 柯細(xì)興

目前網(wǎng)站制作的重心已從制作的本身轉(zhuǎn)向網(wǎng)站的推廣運(yùn)營(yíng),網(wǎng)站的流量大小受搜索引擎排名的影響,SEO無(wú)論在行業(yè)網(wǎng)站還是地域網(wǎng)站都已經(jīng)成為必木可少的環(huán)節(jié)。本書從各個(gè)角度,用實(shí)戰(zhàn)和具體的參數(shù)來(lái)定義和指導(dǎo)SEO,講述如何結(jié)合自己網(wǎng)站的實(shí)際情況;結(jié)合網(wǎng)站本身的資源開(kāi)展SEO并進(jìn)行長(zhǎng)期規(guī)劃。讀者可以結(jié)合自身網(wǎng)站,分步進(jìn)行嘗試,不斷總結(jié)升華。

——站長(zhǎng)網(wǎng)admin5.com創(chuàng)始人圖王

SEO這一決定網(wǎng)站流量的關(guān)鍵技術(shù)在此書中得到了具體、全面而細(xì)致的詮釋。楊帆布此書中毫無(wú)保留地闡述了自己為多家知名網(wǎng)站提供SEO服務(wù)的實(shí)戰(zhàn)經(jīng)驗(yàn)。如果你是一個(gè)SEO新人,讀此書后你會(huì)迅速領(lǐng)悟SEO的真諦。如果你對(duì)SEO已經(jīng)有了一定了解,瀆此書后你將進(jìn)入一個(gè)SEO新的境界!

相關(guān)精選