您当前所在的位置是: 主页 > CARB认证 >
详解 20 个 pandas 读与写函数!
发布日期:2022-02-23 06:43   来源:未知   阅读:

  读取数据以及保存数据的方法,毕竟我们很多时候需要读取各种形式的数据,以及将我们需要将所做的统计分析保存成特定的格式。

  我们一般读取数据都是从数据库中来读取的,因此可以在 read_sql 方法中填入对应的 sql 语句然后来读取我们想要的数据,

  parse_dates: 将某一列日期型字符串传唤为datatime型数据,可以直接提供需要转换的列名以默认的日期形式转换,或者也可以提供字典形式的列名和转换日期的格式,

  parse_dates: 将某一列日期型字符串传唤为datatime型数据,可以直接提供需要转换的列名以默认的日期形式转换,或者也可以提供字典形式的列名和转换日期的格式,

  我们用 PyMysql 这个模块来连接数据库,并且读取数据库当中的数据,首先我们导入所需要的模块,并且建立起与数据库的连接

  我们简单地写一条 SQL 命令来读取数据库当中的数据,并且用read_sql方法来读取数据

  上面提到 read_sql 方法当中 parse_dates 参数可以对日期格式的数据进行处理,那我们来试一下其作用

  正常默认情况下, date_columns 这一列也是被当做是 String 类型的数据,要是我们通过 parse_dates 参数将日期解析应用与该列

  我们来看一下 to_sql 方法,作用是将 DataFrame 当中的数据存放到数据库当中,请看下面的示例代码,我们创建一个基于内存的 SQLite 数据库

  注意到上面的 if_exists 参数上面填的是 append ,意味着添加新数据进去,当然我们也可以将原有的数据替换掉,将 append 替换成 replace

  有时候我们的数据是以字典的形式存储的,有对应的键值对,我们如何根据字典当中的数据来创立 DataFrame ,假设

  这里最值得注意的是 orient 参数,用来指定字典当中的键是用来做行索引还是列索引,请看下面两个例子

  我们将 orient 参数设置为 columns ,将当中的键当做是列名

  我们经常也会在实际工作与学习当中遇到需要去处理 JSON 格式数据的情况,我们用 Pandas 模块当中的 read_json 方法来进行处理,我们来看一下该方法中常用到的参数

  将 DataFrame 数据对象输出成 JSON 字符串,可以使用 to_json 方法来实现,其中 orient 参数可以输出不同格式的字符串,用法和上面的大致相同,这里就不做过多的赘述

  有时候我们需要抓取网页上面的一个表格信息,相比较使用 Xpath 或者是 Beautifulsoup ,我们可以使用 pandas 当中已经封装好的函数 read_html 来快速地进行获取,例如我们通过它来抓取菜鸟教程Python网站上面的一部分内容

  当然 read_html 方法也支持读取 HTML 形式的表格,我们先来生成一个类似这样的表格,通过 to_html 方法

  read_csv 方法是最常被用到的 pandas 读取数据的方法之一,其中我们经常用到的参数有

  filepath_or_buffer: 数据输入的路径,可以是文件的路径的形式,例如

  filepath_or_buffer: 数据输入的路径,可以是文件的路径的形式,例如

  sep: 读取 csv 文件时指定的分隔符,默认为逗号,需要注意的是:“csv文件的分隔符”要和“我们读取csv文件时指定的分隔符”保持一致

  sep: 读取 csv 文件时指定的分隔符,默认为逗号,需要注意的是:“csv文件的分隔符”要和“我们读取csv文件时指定的分隔符”保持一致

  假设我们的数据集, csv 文件当中的分隔符从逗号改成了\t,需要将 sep 参数也做相应的设定

  usecols:如果数据集当中的列很多,而我们并不想要全部的列、而是只要指定的列就可以,就可以使用这个参数

  usecols:如果数据集当中的列很多,而我们并不想要全部的列、而是只要指定的列就可以,就可以使用这个参数

  另外usecols参数还有一个比较好玩的地方在于它能够接收一个函数,将列名作为参数传递到该函数中调用,要是满足条件的,就选中该列,反之则不选择该列

  prefix: 当导入的数据没有header的时候,可以用来给列名添加前缀

  prefix: 当导入的数据没有header的时候,可以用来给列名添加前缀

  上面的代码过滤掉了前两行的数据,直接将第三行与第四行的数据输出,当然我们也可以看到第二行的数据被当成是了表头

  nrows: 该参数设置一次性读入的文件行数,对于读取大文件时非常有用,比如 16G 内存的PC无法容纳几百G的大文件

  nrows: 该参数设置一次性读入的文件行数,对于读取大文件时非常有用,比如 16G 内存的PC无法容纳几百G的大文件

  该方法主要是用于将 DataFrame 写入 csv 文件当中,示例代码如下

  要是我们的数据是存放在 excel 当中就可以使用 read_excel 方法,该方法中的参数和上面提到的 read_csv 方法相差不多,这里就不做过多的赘述,我们直接来看代码

  当然我们要是想一次性读取多个 Sheet 当中的数据也是可以的,最后返回的数据是以 dict 形式返回的

  有时候我们需要将多个 DataFrame 数据集输出到一个 Excel 当中的不同的 Sheet 当中

  对于 txt 文件,既可以用 read_csv 方法来读取,也可以用 read_table 方法来读取,其中的参数和read_csv当中的参数大致相同,这里也就不做过多的赘述

  我们要读取的txt文件当中的数据是以空格隔开的,因此再 sep 参数上面需要设置成空格

  Python 当中的 Pickle 模块实现了对一个 Python 对象结构的二进制序列和反序列化,序列化过程是将文本信息转变为二进制数据流,2019-2025年中国三坐标测量机行业全景调研,同时保存数据类型。

  例如数据处理过程中,突然有事儿要离开,可以直接将数据序列化到本地,这时候处理中的数据是什么类型,保存到本地也是同样的类型,反序列化之后同样也是该数据类型,而不是从头开始处理

  我们先将 DataFrame 数据集生成 pickle 文件,对数据进行永久储存,代码如下

  XML指的是可扩展标记语言,和JSON类似也是用来存储和传输数据的,大兴区教培行业人才专场招聘会(七,还可以用作配置文件

  对XML最好的理解是独立于软件和硬件的信息传输工具,我们先通过 to_xml 方法生成XML数据

  有时候数据获取不太方便,我们可以通过复制的方式,通过 Pandas 当中的 read_clipboard 方法来读取复制成功的数据,例如我们选中一部分数据,然后复制,运行下面的代码

  有复制就会有粘贴,我们可以将 DataFrame 数据集输出至剪贴板中,粘贴到例如 Excel 表格中

上海强竞企业管理咨询有限公司(SCMC),成立于1998年,由资深专家顾问创办,主要致力于提供FSC认证,FSC森林认证,PEFC认证,CARB认证,BSCI认证,有机认证及,职业健康和社会责任验厂等方面的精品咨询和培训服务.联系电话13916209400。