pandas大熊猫入门


备注

Pandas是一个Python包,提供快速,灵活和富有表现力的数据结构,旨在使“关系”或“标记”数据的使用既简单又直观。它旨在成为在Python中进行实际,真实世界数据分析的基础高级构建块。

官方的Pandas文档可以在这里找到

版本

熊猫

发布日期
0.19.1 2016年11月3日
0.19.0 2016年10月2日
0.18.1 2016年5月3日
0.18.0 2016年3月13日
0.17.1 2015年11月21日
0.17.0或更新版本 2015年10月9日
0.16.2 2015年6月12日
0.16.1 2015年5月11日
0.16.0 2015年3月22日
0.15.2 2014-12-12
0.15.1 2014-11-09
0.15.0 2014年10月18日
0.14.1 2014年7月11日
0.14.0 2014年5月31日
0.13.1 2014年2月3日
0.13.0 2014年1月3日
0.12.0 2013年7月23日

描述性统计

可以使用.describe() 方法计算数值列的描述性统计(平均值,标准偏差,观察数,最小值,最大值和四分位数),该方法返回描述性统计数据的pandas数据帧。

In [1]: df = pd.DataFrame({'A': [1, 2, 1, 4, 3, 5, 2, 3, 4, 1], 
                           'B': [12, 14, 11, 16, 18, 18, 22, 13, 21, 17], 
                           'C': ['a', 'a', 'b', 'a', 'b', 'c', 'b', 'a', 'b', 'a']})

In [2]: df
Out[2]: 
   A   B  C
0  1  12  a
1  2  14  a
2  1  11  b
3  4  16  a
4  3  18  b
5  5  18  c
6  2  22  b
7  3  13  a
8  4  21  b
9  1  17  a

In [3]: df.describe()
Out[3]:
               A          B
count  10.000000  10.000000
mean    2.600000  16.200000
std     1.429841   3.705851
min     1.000000  11.000000
25%     1.250000  13.250000
50%     2.500000  16.500000
75%     3.750000  18.000000
max     5.000000  22.000000
 

请注意,由于C 不是数字列,因此它将从输出中排除。

In [4]: df['C'].describe()
Out[4]:
count     10
unique     3
freq       5
Name: C, dtype: object
 

在这种情况下,该方法通过观察次数,独特元素的数量,模式和模式的频率来总结分类数据。

你好,世界

一旦安装了Pandas,您可以通过创建随机分布值的数据集并绘制其直方图来检查它是否正常工作。

import pandas as pd  # This is always assumed but is included here as an introduction.
import numpy as np
import matplotlib.pyplot as plt

np.random.seed(0)

values = np.random.randn(100) # array of normally distributed random numbers
s = pd.Series(values) # generate a pandas series
s.plot(kind='hist', title='Normally distributed random values') # hist computes distribution
plt.show()   
 

在此处输入图像描述

检查一些数据的统计数据(平均值,标准偏差等)

s.describe()
# Output: count    100.000000
# mean       0.059808
# std        1.012960
# min       -2.552990
# 25%       -0.643857
# 50%        0.094096
# 75%        0.737077
# max        2.269755
# dtype: float64
 

通过anaconda安装

首先从Continuum网站下载anaconda 。通过图形安装程序(Windows / OSX)或运行shell脚本(OSX / Linux)。这包括大熊猫!


如果你不想在anaconda中方便地捆绑150个包,你可以安装miniconda 。通过图形安装程序(Windows)或shell脚本(OSX / Linux)。

使用以下方法在miniconda上安装pandas:

conda install pandas
 

要将大熊猫更新为anaconda或miniconda中的最新版本,请使用:

conda update pandas
 

安装或设置

有关设置或安装pandas的详细说明,请参阅官方文档

用Anaconda安装大熊猫

对于没有经验的用户来说,安装pandas以及NumPySciPy堆栈的其余部分可能会有点困难。

最简单的方法不仅是安装pandas,而是Python和组成SciPy堆栈的最流行的软件包(IPython,NumPy,Matplotlib,......)是Anaconda ,一个跨平台(Linux,Mac OS X,Windows)用于数据分析和科学计算的Python分发。

运行简单的安装程序后,用户可以访问pandas和SciPy堆栈的其余部分,而无需安装任何其他内容,也无需等待任何软件编译。

可在此处找到 Anaconda的安装说明。

可以在此处找到作为Anaconda分发的一部分提供的完整软件包列表。

使用Anaconda进行安装的另一个好处是,您不需要管理员权限来安装它,它将安装在用户的主目录中,这也使得以后删除Anaconda(只删除该文件夹)变得微不足道。

用Miniconda安装熊猫

上一节概述了如何安装作为Anaconda发行版的一部分的pandas。然而,这种方法意味着您将安装超过一百个包,并涉及下载几百兆字节的安装程序。

如果您想要更多地控制哪些软件包,或者具有有限的互联网带宽,那么使用Miniconda安装pandas可能是更好的解决方案。

Conda是Anaconda发行版所基于的软件包管理器。它是一个跨平台和语言无关的包管理器(它可以起到与pip和virtualenv组合类似的作用)。

Miniconda允许您创建最小的自包含Python安装,然后使用Conda命令安装其他软件包。

首先,你需要安装Conda,下载和运行Miniconda将为你做这件事。安装程序可以在这里找到

下一步是创建一个新的conda环境(这些类似于virtualenv,但它们也允许您精确指定要安装的Python版本)。从终端窗口运行以下命令:

conda create -n name_of_my_env python
 

这将创建一个只安装了Python的最小环境。把你自己放在这个环境中运行:

source activate name_of_my_env
 

在Windows上,命令是:

activate name_of_my_env
 

最后一步是安装pandas。这可以使用以下命令完成:

conda install pandas
 

要安装特定的pandas版本:

conda install pandas=0.13.1
 

要安装其他软件包,例如IPython:

conda install ipython
 

要安装完整的Anaconda发行版:

conda install anaconda
 

如果您需要任何可用于pip而不是conda的软件包,只需安装pip,并使用pip安装这些软件包:

conda install pip
pip install django
 

通常,您将使用其中一个数据包管理器安装pandas。

点子示例:

pip install pandas
 

这可能需要安装许多依赖项,包括NumPy,需要编译器来编译所需的代码位,并且可能需要几分钟才能完成。