1.需要引用的包如下: from BaseHTTPServer import BaseHTTPRequestHandler from SocketServer import ThreadingTCPServer import gzip from StringIO import StringIO import logging import os from readDataToDic import GenExceptData 2.readDat
1.需要引用的包如下:
from BaseHTTPServer import BaseHTTPRequestHandlerfrom SocketServer import ThreadingTCPServer
import gzip
from StringIO import StringIO
import logging
import os
from readDataToDic import GenExceptData
2.readDataToDic包
该包可以从我的博客链接复制下来,在下面我附上该包最新的代码:
import csv
import logging
import os
'''
Author:ewang
Data:2017/07/12
该模块的主要功能函数:
readDataToList():把csv中的数据,数据项以字典类型存储在列表中。
getAllServiceId():获取所有的serviceId列表
printListData():输出数据list中的每项数据
createDataDic():创建一个数据字典表,以serviceId为key,相同的数据项列表为value
printDicData():输出数据字典中的每项数据
'''
PATH=lambda p:os.path.abspath(os.path.join(
os.path.dirname(__file__), p))
logging.basicConfig(level=logging.DEBUG,
format='%(asctime)s %(filename)s[line:%(lineno)d] %(levelname)s %(message)s',
datefmt='%a, %d %b %Y %H:%M:%S',
filename=PATH('../Log/readDate.log'),
filemode='w')
class GenExceptData(object):
def __init__(self,filePah=PATH("../LastCSV/20170510174450.csv")):
try:
#存放csv中读取的数据
self.mdbuffer=[]
#打开csv文件,设置读的权限
csvHand=open(filePah,"r")
#创建读取csv文件句柄
readcsv=csv.reader(csvHand)
#把csv的数据读取到mdbuffer中
for row in readcsv:
self.mdbuffer.append(row)
#把数据穿件为为字典类型的
except Exception,e:
logging.error("Read Excel error:"+e)
finally:
#关闭csv文件
csvHand.close()
def readDataToList(self):
try:
#在数组最后添加一个空白行
#该行的作用是为了成功获取最后一条json数据
#在数组endLine添加空白字符
endLine=[" " for num in range(len(self.mdbuffer[1])) if num>=0]
#把以空字符的endLine添加到末尾
self.mdbuffer.append(endLine)
#获取mdbuffer中的元素个数
rowNumber=len(self.mdbuffer)
#设置当前行号
currentrow=1
#设置json数据的属性值
propertyJson={}
#读取列表中的元素
dataList=[]
try:
for row in range(1,rowNumber):
#创建一个临时变量用来存取一次循环的属性键值
temp={}
#获取列表中一个元素
item=self.mdbuffer[row]
#获取当前元素,当前元素代表的是每个
#事件起始的位置
currentItem=self.mdbuffer[currentrow]
#获取serviceId并进行解码
serviceId= currentItem[2].decode("gbk")
#获取属性并进行解码,把解码的值存入propertyName
propertyName=item[3].decode("gbk")
#获取属性值并进行解码,把解码的值存入propertyValue
propertyValue=item[4].decode("gbk")
try:
#判断埋点事件与serviceId是否相等
if item[0]==currentItem[0] and item[2]==currentItem[2]:
#把serviceId方式字典propertyJson中
propertyJson["serviceId"]=serviceId
#把属性/值对放入temp字典中
temp[propertyName]=propertyValue
#调用字典的update函数,把temp中的键值对
#添加到 propertyJson字典中
propertyJson.update(temp)
#使用continue,如果为if条件为true则循环执行if语句模块
continue
else:
#把行号设置为当前行
currentrow=row
#把当前的属性解码放入propertyName
propertyName=currentItem[3].decode("gbk")
#把当前的属性值解码放入propertyName
propertyValue=currentItem[4].decode("gbk")
#把serviceId方式字典propertyJson中
propertyJson["serviceId"]=serviceId
#把属性/值对放入propertyJson字典中
propertyJson[propertyName]=propertyValue
#propertyJsonList.append(propertyJson)
dataList.append(propertyJson)
'''
在这说下:
propertyJson.clear()与propertyJson={}的区别:
propertyJson.clear()是删除字典的值,不创建引用,会改变字典本身的值;
propertyJson={}是创建新的引用,字典的中的值不发现变化;
如果想让 self.dataDic.append(propertyJson)该语句执行成功,而且添加每次循环的值,
需要使用propertyJson={}方法;
如果使用propertyJson.clear(),只会把最后一次propertyJson存储的值,添加到self.dataDic中
'''
propertyJson={}
except Exception,e:
logging.error("Get Property Json Error:" +e)
#print "Get Property Json Error:",e
except Exception,e:
logging.error("Get Date Error:"+e)
#print "Get Date Error:",e
#返回dataList
return dataList
except Exception,e:
#把信息写入日志中
logging.error("Reading Data TO Dic Error:"+e)
#print "Reading Data TO Dic Error:",e
def getAllServiceId(self):
try:
#调用readDataToList函数创建一个数据list
dataList=self.readDataToList()
#把数据list中的所有serviceId放入表serList中
serList=[item["serviceId"] for item in dataList if item["serviceId"] ]
#对serList中的数据去重,分为两步:
#第一步把列表转换成集合:set(serList)
#第二步:把集合转换为list:list(set(serList))
#集合和list的区别:集合中的数据是唯一性,不存在相同部分
serList=list(set(serList))
#返回serList
return serList
except Exception,e:
logging.error("Create ServiceId List Error:"+e)
#print "Create ServiceId List Error:"+e
#输出list中的数据信息
def printListData(self):
try:
#调用readDataToList方法获取dataList列表
dataList=self.readDataToList()
#对列表中的数据执行for循环
#并输出类似与json样式的数据
for item in dataList:
print "{"
#输出键值对
for key,val in item.items():
print "\t",key,":",val,","
print "}"
#设置以#格式的分隔符
print "#"*50
except Exception,e:
logging.error("OutPut List Data Error:"+e)
#print "OutPut List Data Error:"+e
#创建一个数据字典
def createDataDic(self):
try:
#定义个数据字典变量
dataDic={}
#调用函数readDataToList创建一个dataList表
dataList=self.readDataToList()
#调用getAllServiceId获取serviceId列表
serviceIdList=self.getAllServiceId()
#判断列表中是否有元素,如果有执行if语句
if len(serviceIdList)>0 and len(dataList)>0:
#对serviceIdList进行循环,以serviceId作为key
for serviceId in serviceIdList:
#创建一个list用来存放serviceId相同的数据项
sameServiceidJosnList=[]
#对数据列表执行循环
for item in dataList:
#获取字典中键为serviceId值,放入变量中
itemServiceId=item["serviceId"]
#如果值不为空,执行if语句
if itemServiceId:
#判断serviceId与数据项中serviceId的值是否相等
#如果相等执行if语句块
if serviceId==itemServiceId:
#把数据项加入sameServiceidJosnList列表中
sameServiceidJosnList.append(item)
else:
logging.debug("ServiceId is null")
#print "ServiceId is null"
#给字典赋值,以serviceId作为key,
#serviceId相同的数据项列表作为值
dataDic[serviceId]=sameServiceidJosnList
else:
logging.debug("seriviceIdList or dataList is null")
#print "seriviceIdList or dataList is null"
#返回字典类型的数据
return dataDic
except Exception,e:
logging.error("Create Data Dictionary Error:"+e)
#print "Create Data Dictionary Error:",e
#打印字典信息
def printDicData(self):
try:
#调用createDataDic创建dataDic字典
dataDic=self.createDataDic()
#对字典中的数据进行循环,获取键值对
for serviceId,dataitem in dataDic.items():
print "{"
print "\t",serviceId,":","["
#由于值是列表,列表中的数据项类型是字典类型
#每一数据项是哈希表
for item in dataitem:
print "\t\t{"
#输出哈希表中的数据
for key,val in item.items():
print "\t\t\t",key,":",val,","
print "\t\t},"
print"\t]"
print "}\n"
print "#"*50
except Exception,e:
logging.error("OutPut Dictionary Data Error:"+e)
#print "OutPut Dictionary Data Error:"+e
def getDicDataValue(self,serviceId="pageview"):
try:
dataDic=self.createDataDic()
if serviceId:
return dataDic[serviceId]
except Exception,e:
logging.error("Get Dic Data Error:"+e)
#print "Get Dic Data Error:",e
def test():
filepath="../LastCSV/20170510174450.csv"
gen =GenExceptData(filepath)
gen.printDicData()
print gen.getDicDataValue()
if __name__=="__main__":
test()
该包较之前的包,新加了getDicDataValue()方法,该方法是返回对应键的值,也就是数据项为字典的列表。
3.代理脚本编写
通过BaseHTTPRequestHandler对该类的继承,代理脚本:proxyHandler.py,该脚本较之前的代码进行了优化,运行速度更快,代码更简洁,可以参考之前的链接:
proxyHandler.py:
#coding=utf8from BaseHTTPServer import BaseHTTPRequestHandler
from SocketServer import ThreadingTCPServer
import gzip
from StringIO import StringIO
import logging
import os
from readDataToDic import GenExceptData
PATH=lambda p:os.path.abspath(os.path.join(
os.path.dirname(__file__), p))
logging.basicConfig(level=logging.DEBUG,
format='%(asctime)s %(filename)s[line:%(lineno)d] %(levelname)s %(message)s',
datefmt='%a, %d %b %Y %H:%M:%S',
filename=PATH('../Log/proxy.log'),
filemode='w')
class proxyHandler(BaseHTTPRequestHandler):
exceptData=GenExceptData()
def do_POST(self):
while True:
try:
path = self.path
if path.split("/")[-1] =="statistics":
#获取post提交的数据
self.datas =gzip.GzipFile(fileobj=StringIO(self.rfile.read())).read()
self.wfile.write(self.datas)
logging.debug(self.datas)
self.cmpJsonKey()
self.printJsonProps()
except Exception,e:
logging.error(e)
finally:
self.finish()
def do_CONNECT(self):
pass
def do_GET(self):
pass
def getJsonProps(self):
try:
#通过eval函数将datas的str类型转换为dict类型
self.datas=eval(self.datas)
#获取字典datas对应属性events的值
#类型为字典类型
events=self.datas["events"][0]
#获取字典events对应属性props的值
#类型为字典类型
props=events["props"]
#删除props字典与期望数据不同的部分
if props["appName"]: del props["appName"]
if props["x_xmly_resource"]:del props["x_xmly_resource"]
if props["x_xmly_tid"]:del props["x_xmly_tid"]
return props
logging.debug(props)
except Exception,e:
logging.error("Get Props Error:"+e)
def printJsonProps(self):
try:
props=self.getJsonProps()
try:
if props:
#获取所有的键,并把键值进行排序
Mdpro=sorted(props.keys())
if Mdpro:
print "{"
for index in Mdpro:
#判断属性值是否是数字
#如果不是数字进行转码
if not isinstance(props[index], int):
props[index]=props[index].decode("utf8")
print "\t",index,":",props[index],","
logging.debug(index+":"+props[index])
print "}"
except Exception,e:
logging.error("Create Props Error:"+e)
except Exception,e:
logging.error("Output Props Error:"+e)
def cmpJsonKey(self):
dataKeys=self.exceptData.getAllServiceId()
props=self.getJsonProps()
realJsonKeys=sorted(props.keys())
if props["serviceId"] in dataKeys:
#print props["serviceId"]
itemList=self.exceptData.getDicDataValue(props["serviceId"])
for item in itemList:
exceptJsonKeys=sorted(item.keys())
print "exceptKey",exceptJsonKeys
print "realKey",realJsonKeys
if cmp(realJsonKeys,exceptJsonKeys)==0:
print exceptJsonKeys
#return True
break
def test():
host='127.0.0.1'
port=8888
try:
server = ThreadingTCPServer((host, port), proxyHandler)
print 'Welcome to the Server HTTP On %s Port %d...' %(host,port)
server.serve_forever()
except KeyboardInterrupt,e:
logging.error(e)
#print '^C received, shutting down server'
server.socket.close()
if __name__ == '__main__':
test()
4.运行结果: