当前位置: AiWom > SEO>正文

网站日志如何分析

网站日志是记录web服务器接收处理请求以及运行时错误等各种原始信息的以·log结尾的文件,确切的讲,应该是服务器日志。网站日志最大的意义是记录网站运营中比如空间的运营情况,被访问请求的记录。通过网站日志可以清楚的得知用户在什么IP、什么时间、用什么操作系统、什么浏览器、什么分辨率显示器的情况下访问了你网站的哪个页面,是否访问成功。

SEO的领域,网站日志的作用主要是查看蜘蛛的习性,找到搜索引擎蜘蛛来访的时间,爬取的页面,频次,状态,并能根据蜘蛛的IP,知道自己网站目前在蜘蛛眼里的权重。在网站日志中常见的一些搜索引擎蜘蛛有:baiduspider(百度蜘蛛),googlebot(谷歌蜘蛛),msnbot(MSN蜘蛛),slurp(雅虎蜘蛛),youdaobot(有道蜘蛛),sougou+get(web)+spider(搜狗蜘蛛)。

下面我来给大家举个例子,让大家知道,查询到的网站日志都是什么含义。


一般打开服务器log日志,先是一段版本信息。

#Software: Microsoft Internet Information Services 7.5

#Version: 1.0

#Date: 2010-03-11 00:00:17

#Fields: date time s-sitename s-ip cs-method cs-uri-stem cs-uri-query s-port cs-username c-ip cs(User-Agent) sc-status sc-substatus sc-win32-status sc-bytes cs-bytes


然后是具体的信息,信息是按照Fields进行排列的。

2010-03-11 02:44:37 W3SVC381 211.154.135.217 GET /news/news.asp id=200 80 - 203.208.60.169 Mozilla/5.0+(compatible;+Googlebot/2.1;++http://www.google.com/bot.html) 200 0 0 29057 298

GET——这是服务器的处理动作,一共只有两种:GET和POST。在网站日志中绝大部分都是GET,只有在进行CGI处理的时候才会出现POST,否则绝大多数时间服务器的响应都是GET,也就是用户从服务器上获取了页面或者别的文件。注意了,GET后面还有一个“/”,这里代表的是用户访问的页面,只有一个斜杠自然代表访问的是网站首页。

HTTP/1.1——这个代表用户访问该页面的时候,是通过HTTP1.1协议进行传输的,也就是超文本传输1.1版本协议。这个我们不必理会,因为网站日志中除了你可能用FTP之外,普通用户基本都是通过HTTP协议来进行访问的(个别提供FTP下载的网站除外)。


具体的含义如下:

date表示记录访问日期; 

time访问时间; 

s-sitename表示你的虚拟主机的代称。 

s-ip访问者IP; 

cs-method表示访问方法,常见的有两种,一是GET,就是平常我们打开一个URL访问的动作,二是POST,提交表单时的动作; 

cs-uri-stem就是访问哪一个文件; 

cs-uri-query是指访问地址的附带参数,如asp文件?后面的字符串id=12等等,如果没有参数则用-表示; 

s-port 访问的端口 

cs-username 访问者名称 

c-ip 来源ip 

cs(User-Agent)访问来源; 

sc-status状态,200表示成功,403表示没有权限,404表示打不到该页面,500表示程序有错; 

sc-substatus 服务端传送到客户端的字节大小; 

cs–win32-statu客户端传送到服务端的字节大小; 


关于日志状态的解读,如下:

1**:请求收到,继续处理 

2**:操作成功收到,分析、接受 

3**:完成此请求必须进一步处理 

4**:请求包含一个错误语法或不能完成 

5**:服务器执行一个完全有效请求失败 


100——客户必须继续发出请求 

101——客户要求服务器根据请求转换HTTP协议版本 


200——交易成功 

201——提示知道新文件的URL 

202——接受和处理、但处理未完成 

203——返回信息不确定或不完整 

204——请求收到,但返回信息为空 

205——服务器完成了请求,用户代理必须复位当前已经浏览过的文件 

206——服务器已经完成了部分用户的GET请求 


300——请求的资源可在多处得到 

301——删除请求数据 

302——在其他地址发现了请求数据 

303——建议客户访问其他URL或访问方式 

304——客户端已经执行了GET,但文件未变化 

305——请求的资源必须从服务器指定的地址得到 

306——前一版本HTTP中使用的代码,现行版本中不再使用 

307——申明请求的资源临时性删除 


400——错误请求,如语法错误 

401——请求授权失败 

402——保留有效ChargeTo头响应 

403——请求不允许 

404——没有发现文件、查询或URl 

405——用户在Request-Line字段定义的方法不允许 

406——根据用户发送的Accept拖,请求资源不可访问 

407——类似401,用户必须首先在代理服务器上得到授权 

408——客户端没有在用户指定的饿时间内完成请求 

409——对当前资源状态,请求不能完成 

410——服务器上不再有此资源且无进一步的参考地址 

411——服务器拒绝用户定义的Content-Length属性请求 

412——一个或多个请求头字段在当前请求中错误 

413——请求的资源大于服务器允许的大小 

414——请求的资源URL长于服务器允许的长度 

415——请求资源不支持请求项目格式 

416——请求中包含Range请求头字段,在当前请求资源范围内没有range指示值,请求也不包含If-Range请求头字段 

417——服务器不满足请求Expect头字段指定的期望值,如果是代理服务器,可能是下一级服务器不能满足请求 


500——服务器产生内部错误 

501——服务器不支持请求的函数 

502——服务器暂时不可用,有时是为了防止发生系统过载 

503——服务器过载或暂停维修 

504——关口过载,服务器使用另一个关口或服务来响应用户,等待时间设定值较长 

505——服务器不支持或拒绝支请求头中指定的HTTP版本


有关百度蜘蛛的含义,可以参考我的另一篇文章《百度蜘蛛IP段含义》。

本文来自 AiWom 转载请注明。

« 上一篇下一篇 »

发表评论:

(输入Email可以获得评论回复通知)

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。