Python Data Analytics--数据分析简介

《Python数据分析实战》一书为【意】 Fabio Nelli 著,杜春晓 译,人民邮电出版社。Python简单易学,拥有丰富的库,并且具有极强的包容性。本书展示了如何利用Python语言的强大功能,以最小的编程代价进行数据的提取、处理和分析,主要内容包括:数据分析和Python的基本介绍,Numpy库,pandas库,如何使用pandas读写和提取数据,用matplotlib实现数据可视化。

数据分析

  • 定义:
    从原始数据中抽取信息的过程叫做数据分析
  • 目的:
    抽取不易推断的信息,而一旦理解了这些信息,就能够对产生数据的系统的运行机制进行研究和数据建模,从而对系统可能的响应和演变做出预测。

##Scipy
Scipy是一组专门用于科学计算的开源Python库。它里面的库擅长处理数据计算和可视化。

  • NumPy
    NumPy库其名称的含义是“数值Python”(Numerical Python),是用Python进行科学计算的一个基础库。NumPy定义了一种专门用于科学计算的数据结构ndarray。ndarray是一种多维数组,比Python基础包提供的速度更快、效率更高。

  • Pandas
    Pandas提供了复杂的数据结构和函数,其目的是降低处理难度,提升速度和效率。Pandas中的数据框(DataFrame),是一个二维表格状数据结构,行和列均有标签。Pandas整合了NumPy库的高性能特性,可处理电子表格或关系型数据库(SQL数据库)中的数据。借助Pandas强大的索引方法,对该类数据结构进行变形、切片、聚合和选取子集等操作比较容易。

  • Matplotlib
    Matplotlib是目前绘制2D图像最常用的Python包。