Python操作csv文件源程序

ID:654171 · 发表于 2020-6-9 11:00

# -*- coding:UTF-8 -*-
from sklearn.feature_extraction import DictVectorizer
from sklearn import preprocessing
from sklearn import tree
import csv
import pydotplus
# -*- coding:utf-8 -*-
#以只读的方式打开指定的扩展名为csv的文件，其编码格式为UTF-8-sig，注意这个位置的编码格式不能是utf-8
file = open(r'E:\python\a.csv','r',encoding='utf-8-sig')
#读取文件的内容并将其赋给变量data
data = csv.reader(file)
#读取变量data中的第一行（表头）
header = next(data)
#print('header = ' + str(header))
#创建一个列表attributeList，专门存放数据源的属性值
attributeList = []
#创建一个列表resultList，专门存放对应各行记录的结果值
resultList = []
for row in data:
resultList.append(row[len(row) - 1]) #将每行记录的结果值存入resultList中
rowDictionary = {} #定义一个词典rowDictionary，用来存放每行的属性名称及其对应的属性值
for i in range(1,len(row) - 1):
rowDictionary[header[i]] = row[i] #向词典rowDictionary添加属性名称及其对应的属性值
attributeList.append(rowDictionary) #将每次内层循环产生的词典添加到列表attributeList中
# print(resultList)
vec = DictVectorizer() #创建一个DictVectorizer的实例，DictVectorizer是字典特征提取器，用来将数据的数据类型转化为整型
attributeArray = vec.fit_transform(attributeList).toarray() #利用vec实例将列表attributeList转化成“01”矩阵，函数fit_transform是先拟合数据，再标准化，函数toarray是将转化后的数据转变为数组
title = vec.get_feature_names() #获取vec中所有特征向量的名称和及其能取到的值
#print(title)
#print(array)
lb = preprocessing.LabelBinarizer() #初始化变量lb，preprocessing.LabelBinarizer()的作用是可将分类数据转化为“01”数据，例如可以把yes和no转化为0和1，或是把incident和normal转化为0和1
resultArray = lb.fit_transform(resultList) #将结果值列表resultList转化为“01”矩阵
#print(resultArray)
transformArray = tree.DecisionTreeClassifier(criterion='entropy') #利用分类决策树tree（已引入）模块创建决策树分类器DecisionTreeClassifier，其实现算法是ID3算法(criterion=entropy)
transformArray = transformArray.fit(attributeArray, resultArray) #根据attributeArray和resultArray生成决策树
#利用pip安装graphviz包和pydotplus包
dotData = tree.export_graphviz(transformArray,feature_names=title,out_file=None)#根据transformArray和title生成判定树的节点，同时让输出文件为None（out_file=None）
graph = pydotplus.graph_from_dot_data(dotData) #根据上条语句生成的决策树结点dotData生成判定树的图形结构
graph.write_pdf('E:/python/a.pdf') #将树形结构写入到指定的文件中

复制代码

帐号		自动登录	找回密码
密码			立即注册