《Python数据分析实战》一书为【意】 Fabio Nelli 著,杜春晓 译,人民邮电出版社。Python简单易学,拥有丰富的库,并且具有极强的包容性。本书展示了如何利用Python语言的强大功能,以最小的编程代价进行数据的提取、处理和分析,主要内容包括:数据分析和Python的基本介绍,Numpy库,pandas库,如何使用pandas读写和提取数据,用matplotlib实现数据可视化。
数据分析
- 定义:
从原始数据中抽取信息的过程叫做数据分析 - 目的:
抽取不易推断的信息,而一旦理解了这些信息,就能够对产生数据的系统的运行机制进行研究和数据建模,从而对系统可能的响应和演变做出预测。
##Scipy
Scipy是一组专门用于科学计算的开源Python库。它里面的库擅长处理数据计算和可视化。
NumPy
NumPy库其名称的含义是“数值Python”(Numerical Python),是用Python进行科学计算的一个基础库。NumPy定义了一种专门用于科学计算的数据结构ndarray。ndarray是一种多维数组,比Python基础包提供的速度更快、效率更高。Pandas
Pandas提供了复杂的数据结构和函数,其目的是降低处理难度,提升速度和效率。Pandas中的数据框(DataFrame),是一个二维表格状数据结构,行和列均有标签。Pandas整合了NumPy库的高性能特性,可处理电子表格或关系型数据库(SQL数据库)中的数据。借助Pandas强大的索引方法,对该类数据结构进行变形、切片、聚合和选取子集等操作比较容易。Matplotlib
Matplotlib是目前绘制2D图像最常用的Python包。