網(wǎng)站維護之搜索引擎優(yōu)化每天需要做的工作
網(wǎng)站維護工作涵蓋的范圍很廣,具體到搜索引擎優(yōu)化,可以每天統(tǒng)計并整理網(wǎng)站訪客日志中搜索引擎爬蟲的如下數(shù)據(jù),依據(jù)統(tǒng)計和數(shù)據(jù),針對各項參數(shù)變動情況作出對應(yīng)的問題排查、頁面優(yōu)化及內(nèi)容更新調(diào)整等操作
以數(shù)據(jù)分析為基礎(chǔ)的網(wǎng)站維護提升
爬蟲總抓取量
統(tǒng)計不重復抓取數(shù)量
統(tǒng)計所有狀態(tài)碼數(shù)量
統(tǒng)計404頁面的抓取數(shù)量
統(tǒng)計404響應(yīng)碼占總響應(yīng)碼比率
統(tǒng)計各個目錄出現(xiàn)404響應(yīng)碼次數(shù)
爬蟲非200狀態(tài)碼抓取占比
統(tǒng)計某個目錄抓取次數(shù)
統(tǒng)計每個ip下對應(yīng)URL的抓取次數(shù)
到訪爬蟲數(shù)量統(tǒng)計
提取蜘蛛訪問數(shù)量前10的網(wǎng)站目錄及訪問次數(shù),并按降序排列
統(tǒng)計首頁抓取的次數(shù)占總體抓取次數(shù)比率
計算抓取總字節(jié)數(shù)
提取某個目錄百度蛛蛛訪問次數(shù)
打印非200狀態(tài)碼的url
爬蟲時間段的情況
計算百度抓取總時間與總抓取次數(shù)
訪問量最大的前20個ip
列出傳輸大小最大的幾個文件
列出最最耗時的頁面(超過60秒的)的以及對應(yīng)頁面發(fā)生
以上參數(shù),對于發(fā)現(xiàn)搜索引擎爬蟲的爬取規(guī)律、找到網(wǎng)站的結(jié)構(gòu)不足、提升網(wǎng)站的用戶體驗等多個角度都能所借鑒。網(wǎng)站維護方面,可以以次為切入點,會發(fā)現(xiàn)很多網(wǎng)站可以優(yōu)化的地方。