Book a Demo!
CoCalc Logo Icon
StoreFeaturesDocsShareSupportNewsAboutPoliciesSign UpSign In
jackfrued
GitHub Repository: jackfrued/Python-100-Days
Path: blob/master/Day21-30/23.Python读写CSV文件.md
3047 views

Python读写CSV文件

CSV 文件介绍

CSV(Comma Separated Values)全称逗号分隔值文件是一种简单、通用的文件格式,被广泛的应用于应用程序(数据库、电子表格等)数据的导入和导出以及异构系统之间的数据交换。因为 CSV 是纯文本文件,不管是什么操作系统和编程语言都是可以处理纯文本的,而且很多编程语言中都提供了对读写 CSV 文件的支持,因此 CSV 格式在数据处理和数据科学中被广泛应用。

CSV 文件有以下特点:

  1. 纯文本,使用某种字符集(如 ASCIIUnicodeGB2312等);

  2. 由一条条的记录组成(典型的是每行一条记录);

  3. 每条记录被分隔符(如逗号、分号、制表符等)分隔为字段(列);

  4. 每条记录都有同样的字段序列。

CSV 文件可以使用文本编辑器或类似于 Excel 电子表格这类工具打开和编辑,当使用 Excel 这类电子表格打开 CSV 文件时,你甚至感觉不到 CSV 和 Excel 文件的区别。很多数据库系统都支持将数据导出到 CSV 文件中,当然也支持从 CSV 文件中读入数据保存到数据库中,这些内容并不是现在要讨论的重点。

将数据写入 CSV 文件

现有五个学生三门课程的考试成绩需要保存到一个 CSV 文件中,要达成这个目标,可以使用 Python 标准库中的csv模块,该模块的writer函数会返回一个csvwriter对象,通过该对象的writerowwriterows方法就可以将数据写入到 CSV 文件中,具体的代码如下所示。

import csv import random with open('scores.csv', 'w') as file: writer = csv.writer(file) writer.writerow(['姓名', '语文', '数学', '英语']) names = ['关羽', '张飞', '赵云', '马超', '黄忠'] for name in names: scores = [random.randrange(50, 101) for _ in range(3)] scores.insert(0, name) writer.writerow(scores)

生成的 CSV 文件的内容。

姓名,语文,数学,英语 关羽,98,86,61 张飞,86,58,80 赵云,95,73,70 马超,83,97,55 黄忠,61,54,87

需要说明的是上面的writer函数,除了传入要写入数据的文件对象外,还可以dialect参数,它表示 CSV 文件的方言,默认值是excel。除此之外,还可以通过delimiterquotecharquoting参数来指定分隔符(默认是逗号)、包围值的字符(默认是双引号)以及包围的方式。其中,包围值的字符主要用于当字段中有特殊符号时,通过添加包围值的字符可以避免二义性。大家可以尝试将上面第5行代码修改为下面的代码,然后查看生成的 CSV 文件。

writer = csv.writer(file, delimiter='|', quoting=csv.QUOTE_ALL)

生成的 CSV 文件的内容。

"姓名"|"语文"|"数学"|"英语" "关羽"|"88"|"64"|"65" "张飞"|"76"|"93"|"79" "赵云"|"78"|"55"|"76" "马超"|"72"|"77"|"68" "黄忠"|"70"|"72"|"51"

从 CSV 文件读取数据

如果要读取刚才创建的 CSV 文件,可以使用下面的代码,通过csv模块的reader函数可以创建出csvreader对象,该对象是一个迭代器,可以通过next函数或for-in循环读取到文件中的数据。

import csv with open('scores.csv', 'r') as file: reader = csv.reader(file, delimiter='|') for data_list in reader: print(reader.line_num, end='\t') for elem in data_list: print(elem, end='\t') print()

注意:上面的代码对csvreader对象做for循环时,每次会取出一个列表对象,该列表对象包含了一行中所有的字段。

总结

将来如果大家使用Python做数据分析,很有可能会用到名为pandas的三方库,它是Python数据分析的神器之一。pandas中封装了名为read_csvto_csv的函数用来读写 CSV 文件,其中read_csv会将读取到的数据变成一个DataFrame对象,而DataFrame就是pandas库中最重要的类型,它封装了一系列用于数据处理的方法(清洗、转换、聚合等);而to_csv会将DataFrame对象中的数据写入 CSV 文件,完成数据的持久化。read_csv函数和to_csv函数远远比原生的csvreadercsvwriter强大。