欢迎光临
我们一直在努力

Nginx-通过日志查看百度蜘蛛的抓取明细

通过访问nginx日志,你可以得到用户地域来源、跳转来源、使用终端、某个URL访问量等相关信息;通过错误日志,你可以得到系统某个服务或server的性能瓶颈等。因此,将日志好好利用,你可以得到很多有价值的信息,本章节主要给大家介绍下怎么利用日志来查看当日蜘蛛的访问量以及蜘蛛据体都抓取了那些文件,也就是蜘蛛抓取的据体明细,为了方便我们统计当日的数据,这里我每天0点利用脚本自动分割日志,使其每天产生一个日志文件并保留最近30天的数据(若需要这个脚本,可搜索我的相关文章);

  • 通过nginx日志文件access.log,查看当天百度蜘蛛的访问量;
[root@localhost nginx]# cat logs/access.log |grep baidu.com |wc -l
245
#这里的245便是当天百度蜘蛛的访问量,access.log 为分割后当天的日志文件
  • 通过nginx日志文件access.log,查看当天百度蜘蛛详细的访问明细;
[root@localhost nginx]# cat logs/access.log |grep baidu.com
123.125.71.42 - - [03/Jan/2019:10:36:23 +0800] "GET /998.html HTTP/1.1" 200 21516 "-" "Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)" "-"
220.181.108.75 - - [03/Jan/2019:10:39:16 +0800] "GET /560.html HTTP/1.1" 200 20430 "-" "Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)" "-"
123.125.71.14 - - [03/Jan/2019:10:42:10 +0800] "GET /988.html HTTP/1.1" 200 17343 "-" "Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)" "-"
123.125.71.97 - - [03/Jan/2019:10:45:05 +0800] "GET /760.html HTTP/1.1" 200 27471 "-" "Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)" "-"
220.181.108.155 - - [03/Jan/2019:10:47:59 +0800] "GET /149.html HTTP/1.1" 200 19372 "-" "Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)" "-"
123.125.71.52 - - [03/Jan/2019:10:50:53 +0800] "GET /56.html HTTP/1.1" 200 43607 "-" "Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)" "-"
赞(3) 打赏
转载请注明出处:爱编程 » Nginx-通过日志查看百度蜘蛛的抓取明细
分享到: 更多

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址

爱编程、一个运维兼程序员的博客!

联系我们

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏