Nginx服务整理日志分析（shell+python）的两种方法

作者：playingbest | 来源：互联网 | 2017-05-14 02:44

linux下使用awk,wc,sort,uniq,grep对nginx日志进行分析和统计b).字段含义（如下说明）column1：ip_addresscolumn2：log_timecolumn3：requestcolumn4：status_codecolumn5：send_bytescolumn6：referer

python脚本

log_format main ‘$remote_addr – $remote_user [$time_iso8601] “$request” ‘

‘$status $body_bytes_sent “$http_referer” ‘

‘”$http_user_agent” “$http_x_forwarded_for” ‘

‘ “$upstream_addr” “$upstream_status” “$request_time"`;

cat website.access.log| awk ‘{print $(NF)}’ | awk -F “\”” ‘{print $2′}>a.txt

paste -d ” ” website.access.log a.txt > b.txt

cat b.txt |awk ‘($NF>1){print $6$7 ” ” $NF}’>c.txt

linux下使用awk,wc,sort,uniq,grep对nginx日志进行分析和统计

b). 字段含义（如下说明）

column1：ip_address

column2：log_time

column3：request

column4：status_code

column5：send_bytes

column6：referer

需求一：统计总记录数，总成功数，各种失败数：404，403,500

cat data.log|awk -F &＃39;\t&＃39; &＃39;{if($4 > 0) print $4}&＃39;|wc -l|

awk &＃39;{print "Total Items:"$1}&＃39;

2. 提取成功、各种失败总数

cat data.log|awk -F &＃39;\t&＃39; &＃39;{if($4>0 && $4==200) print $4}&＃39;|wc -l

需求二：各种错误中，哪类URL出现的次数最多，要求剔除重复项，并倒叙给出结果

cat data.log|awk -F &＃39;\t&＃39; &＃39;{if($4>0 && $4==500) print $3}&＃39;|awk &＃39;{print $2}&＃39;|sort|uniq -c|sort -k1 nr

需求三：要统计URL中文件名出现的次数，结果中要包含Code 和 Referer。但是 URL和 Referer中都包含 / 字符，对于过滤有干扰，尝试去解决。

cat data.log|awk &＃39;{print $5,$7,$9}&＃39;|grep 200|

sed &＃39;s#.*/$.*$#\1#&＃39;|sort -k1|uniq -c

wc -l access.log |awk &＃39;{print $1}&＃39; 总请求数

awk &＃39;{print $1}&＃39; access.log|sort |uniq |wc -l 独立IP数

awk -F&＃39;[ []&＃39; &＃39;{print $5}&＃39; access.log|sort|uniq -c|sort -rn|head -5 每秒客户端请求数 TOP5

awk &＃39;{print $1}&＃39; access.log|sort |uniq -c | sort -rn |head -5 访问最频繁IP Top5

awk &＃39;{print $7}&＃39; access.log|sort |uniq -c | sort -rn |head -5 访问最频繁的URL TOP5

awk &＃39;{if ($12 > 10){print $7}}&＃39; access.log|sort|uniq -c|sort -rn |head -5

响应大于10秒的URL TOP5

awk &＃39;{if ($13 != 200){print $13}}&＃39; access.log|sort|uniq -c|sort -rn|head -5

分析请求数大于50000的源IP的行为

awk &＃39;{print $1}&＃39; access.log|sort |uniq -c |sort -rn|awk &＃39;{if ($1 > 50000){print $2}}&＃39; > tmp.txt

for i in $(cat tmp.txt)

echo $i >> analysis.txt

echo "访问行为统计" >> analysis.txt

grep $i access.log|awk &＃39;{print $6}&＃39; |sort |uniq -c | sort -rn |head -5 >> analysis.txt

echo "访问接口统计" >> analysis.txt

grep $i access.log|awk &＃39;{print $7}&＃39; |sort |uniq -c | sort -rn |head -5 >> analysis.txt

echo -e "\n" >> /root/analysis/$Ydate.txt

done

如果源IP来自代理服务器，应将第一条命令过滤地址改为$http_x_forwarded_for地址

awk &＃39;{print $NF}&＃39; access.log|sort |uniq -c |sort -rn|awk &＃39;{if ($1 > 50000){print $2}}&＃39; > tmp.txt

5.性能指标

并发连接数

客户端向服务器发起请求，并建立了TCP连接。每秒钟服务器链接的总TCP数量，就是并发连接数

PV（page view） UV（unique visitor）独立IP

6.故障

1.Nginx Connection 不夠用的參數調整

2.nginx+php-fpm出现502

3.线上nginx的一次“no live upstreams while connecting to upstream ”分析

4.nginx proxy_pass末端神奇的斜线

5.nginx+tomcat使用apache的FtpClient上传图片时由于多线程问题导致的文件大小为0的问题

案例一
ip - - [23/Mar/2017:00:17:49 +0800] "GET / HTTP/1.1" 302 0 "-" "PycURL/7.19.7"
 
log_format access &＃39;$HTTP_X_REAL_IP - $remote_user [$time_local] "$request"&＃39;
&＃39;$status $body_bytes_sent "$http_referer" &＃39;
&＃39;"$http_user_agent" $HTTP_X_Forwarded_For&＃39;;
 
192.168.21.1 - - [27/Jan/2014:11:28:53 +0800] "GET /2.php HTTP/1.1" 200 133 "-" "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/33.0.1707.0 Safari/537.36" "-"192.168.21.128 200 127.0.0.1:9000 0.119 0.119
 
#log_format  main  &＃39;$remote_addr - $remote_user [$time_local] "$request" &＃39;    
#                  &＃39;$status $body_bytes_sent "$http_referer" &＃39;
#                  &＃39;"$http_user_agent" "$http_x_forwarded_for"&＃39;;
 
$http_host：用户在浏览器中输入的URL（IP或着域名）地址  192.168.21.128
$upstream_status： upstream状态    200
$upstream_addr： 后端upstream地址及端口  127.0.0.1:9000
$request_time： 页面访问总时间  0.119
$upstream_response_time：页面访问中upstream响应时间   0.119
 
$10 $body_bytes_sent
$1  $remote_addr
$7  $request
$11 $http_referer
$9  $status
$6  http_user_agent
 
1、总访问量
2、总带宽
3、独立访客量
4、访问IP统计
5、访问url统计
6、来源统计
7、404统计
8、搜索引擎访问统计(谷歌，百度)
9、搜索引擎来源统计(谷歌，百度)
 
#!/bin/bash
log_path=/home/www.centos.bz/log/access.log.1
domain="centos.bz"
email="log@centos.bz"
maketime=`date +%Y-%m-%d" "%H":"%M`
logdate=`date -d "yesterday" +%Y-%m-%d`
total_visit=`wc -l ${log_path} | awk &＃39;{print $1}&＃39;`
total_bandwidth=`awk -v total=0 &＃39;{total+=$10}END{print total/1024/1024}&＃39; ${log_path}`
total_unique=`awk &＃39;{ip[$1]++}END{print asort(ip)}&＃39; ${log_path}`
ip_pv=`awk &＃39;{ip[$1]++}END{for (k in ip){print ip[k],k}}&＃39; ${log_path} | sort -rn | head -20`
url_num=`awk &＃39;{url[$7]++}END{for (k in url){print url[k],k}}&＃39; ${log_path} | sort -rn | head -20`
referer=`awk -v domain=$domain &＃39;$11 !~ 
/http:\/\/[^/]*&＃39;"$domain"&＃39;/{url[$11]++}END{for (k in url){print 
url[k],k}}&＃39; ${log_path} | sort -rn | head -20`
notfound=`awk &＃39;$9 == 404 {url[$7]++}END{for (k in url){print url[k],k}}&＃39; ${log_path} | sort -rn | head -20`
spider=`awk -F&＃39;"&＃39; &＃39;$6 ~ /Baiduspider/ {spider["baiduspider"]++} $6 ~
 /Googlebot/ {spider["googlebot"]++}END{for (k in spider){print 
k,spider[k]}}&＃39;  ${log_path}`
search=`awk -F&＃39;"&＃39; &＃39;$4 ~ /http:\/\/www\.baidu\.com/ 
{search["baidu_search"]++} $4 ~ /http:\/\/www\.google\.com/ 
{search["google_search"]++}END{for (k in search){print k,search[k]}}&＃39; 
${log_path}`
#echo -e "概况\n报告生成时间：${maketime}\n总访问量:${total_visit}\n总带宽:${total_bandwidth}M\n独
立访客:${total_unique}\n\n访问IP统计\n${ip_pv}\n\n访问url统计\n${url_num}\n\n来源页面统计
\n${referer}\n\n404统计\n${notfound}\n\n蜘蛛统计\n${spider}\n\n搜索引擎来源统计
\n${search}" | mail -s "$domain $logdate log statistics" ${email}

案例二
# tar zxvf pymongo-1.11.tar.gz
# cd pymongo-1.11
# python setup.py install
python连接mongodb样例
$ cat conn_mongodb.py 
#!/usr/bin/python
   
import pymongo
import random
   
cOnn= pymongo.Connection("127.0.0.1",27017)
db = conn.tage #连接库
db.authenticate("tage","123")
#用户认证
db.user.drop()
#删除集合user
db.user.save({&＃39;id&＃39;:1,&＃39;name&＃39;:&＃39;kaka&＃39;,&＃39;sex&＃39;:&＃39;male&＃39;})
 #插入一个数据
for id in range(2,10):
    name = random.choice([&＃39;steve&＃39;,&＃39;koby&＃39;,&＃39;owen&＃39;,&＃39;tody&＃39;,&＃39;rony&＃39;])
    sex = random.choice([&＃39;male&＃39;,&＃39;female&＃39;])
    db.user.insert({&＃39;id&＃39;:id,&＃39;name&＃39;:name,&＃39;sex&＃39;:sex}) 
#通过循环插入一组数据
cOntent= db.user.find()
#打印所有数据
for i in content:
    print i
 
编写python脚本
#encoding=utf8
   
import re
   
zuidaima_nginx_log_path="/usr/local/nginx/logs/www.zuidaima.com.access.log"
pattern = re.compile(r&＃39;^\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3}&＃39;)
   
def stat_ip_views(log_path):
    ret={}
    f = open(log_path, "r")
    for line in f:
        match = pattern.match(line)
        if match:
            ip=match.group(0)
            if ip in ret:
                views=ret[ip]
            else:
                views=0
            views=views+1
            ret[ip]=views
    return ret
def run():
    ip_views=stat_ip_views(zuidaima_nginx_log_path)
    max_ip_view={}
    for ip in ip_views:
        views=ip_views[ip]
        if len(max_ip_view)==0:
            max_ip_view[ip]=views
        else:
            _ip=max_ip_view.keys()[0]
            _views=max_ip_view[_ip]
            if views>_views:
                max_ip_view[ip]=views
                max_ip_view.pop(_ip)
   
        print "ip:", ip, ",views:", views
    #总共有多少ip
    print "total:", len(ip_views)
    #最大访问的ip
    print "max_ip_view:", max_ip_view
   
run()

以上就是Nginx服务整理日志分析（shell+python）的两种方法的详细内容，更多请关注第一PHP社区其它相关文章！

推荐阅读

html
CentOS 服务器自定义密码策略

随着Linux操作系统的广泛使用，确保用户账户及系统安全变得尤为重要。用户密码的复杂性直接关系到系统的整体安全性。本文将详细介绍如何在CentOS服务器上自定义密码规则，以增强系统的安全性。 ... [详细]

蜡笔小新 2024-11-22 19:15:42
html
PHP版本选择指南：适应不同场景的最佳实践

本文详细探讨了如何根据不同的应用场景选择合适的PHP版本，包括多版本切换技巧、稳定性分析及针对WordPress等特定平台的版本建议。 ... [详细]

蜡笔小新 2024-11-23 17:00:59
rsa
实现Win10与Linux服务器的SSH无密码登录

本文介绍了如何在Windows 10环境下使用Git工具，通过配置SSH密钥对，实现与Linux服务器的无密码登录。主要步骤包括生成本地公钥、上传至服务器以及配置服务器端的信任关系。 ... [详细]

蜡笔小新 2024-11-23 15:50:03
ip
LaTeX高级应用技巧

本文分享了作者在使用LaTeX过程中的几点心得，涵盖了从文档编辑、代码高亮、图形绘制到3D模型展示等多个方面的内容。适合希望深入了解LaTeX高级功能的用户。 ... [详细]

蜡笔小新 2024-11-23 12:47:16
install
搭建个人博客：WordPress安装详解

计划建立个人博客来分享生活与工作的见解和经验，选择WordPress是因为它专为博客设计，功能强大且易于使用。 ... [详细]

蜡笔小新 2024-11-22 11:13:36
function
PHP中Smarty模板引擎自定义函数详解

本文详细介绍了如何在PHP的Smarty模板引擎中自定义函数，并通过具体示例演示了这些函数的使用方法和应用场景。适合PHP后端开发者学习。 ... [详细]

蜡笔小新 2024-11-23 15:39:25
client
深入解析Apache Mina开发指南

本文由chszs撰写，详细介绍了Apache Mina框架的核心开发流程及自定义协议处理方法。文章涵盖从创建IoService实例到协议编解码的具体步骤，适合希望深入了解Mina框架应用的开发者。 ... [详细]

蜡笔小新 2024-11-23 15:02:21
ip
从迷茫到收获：阿里腾讯实习Offer的求取之路

本文回顾了作者在求职阿里和腾讯实习生过程中，从最初的迷茫到最后成功获得Offer的心路历程。文中不仅分享了个人的面试经历，还提供了宝贵的面试准备建议和技巧。 ... [详细]

蜡笔小新 2024-11-22 19:32:32
install
DedeCMS 手机端站点配置与优化指南

本文详细介绍如何安装和配置DedeCMS的移动端站点，包括新版本安装、老版本升级、模板适配以及必要的代码修改，以确保移动站点的正常运行。 ... [详细]

蜡笔小新 2024-11-22 18:44:25
ip
一文详解Linux

Linuxnetfilter与VRF实验环境如下图所示：配置如下：#!binbashsudoipnetnsaddns1sudoiplinkaddns1veth1typevethpe ... [详细]

蜡笔小新 2024-11-22 16:56:09
ip
JavaScript 跨域解决方案详解

本文详细介绍了JavaScript在不同域之间进行数据传输或通信的技术，包括使用JSONP、修改document.domain、利用window.name以及HTML5的postMessage方法等跨域解决方案。 ... [详细]

蜡笔小新 2024-11-22 16:27:56
install
Red Hat Linux 下 GCC 4.4.2 的安装指南

本文详细介绍了在 Red Hat Linux 系统上安装 GCC 4.4.2 的步骤，包括必要的依赖库的安装及常见问题的解决方法。 ... [详细]

蜡笔小新 2024-11-22 10:41:00
install
Android应用调试中的实用命令与实践

在Android应用开发过程中，开发者经常遇到诸如CPU使用率过高、内存泄漏等问题。本文将介绍几种常用的命令及其应用场景，帮助开发者有效定位并解决问题。 ... [详细]

蜡笔小新 2024-11-22 09:50:34
function
PHP与MySQL实现高效分页查询

本文探讨了如何在PHP与MySQL环境中实现高效的分页查询，包括基本的分页实现、性能优化技巧以及高级的分页策略。 ... [详细]

蜡笔小新 2024-11-22 05:45:48
function
H5技术实现经典游戏《贪吃蛇》

本文将分享一个使用HTML5技术实现的经典小游戏——《贪吃蛇》。通过H5技术，我们将探讨如何构建这款游戏的两种主要玩法：积分闯关和无尽模式。 ... [详细]

蜡笔小新 2024-11-21 20:16:59

playingbest

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章