pandasAan de slag met panda's


Opmerkingen

Pandas is een Python-pakket dat snelle, flexibele en expressieve gegevensstructuren biedt die zijn ontworpen om het werken met "relationele" of "gelabelde" gegevens zowel gemakkelijk als intuïtief te maken. Het wil de fundamentele bouwsteen op hoog niveau zijn voor het uitvoeren van praktische, real-world data-analyse in Python.

De officiële Panda's-documentatie is hier te vinden .

versies

Pandas

Versie Publicatiedatum
0.19.1 2016/11/03
0.19.0 2016/10/02
0.18.1 2016/05/03
0.18.0 2016/03/13
0.17.1 2015/11/21
0.17.0 2015/10/09
0.16.2 2015/06/12
0.16.1 2015/05/11
0.16.0 2015/03/22
0.15.2 2014/12/12
0.15.1 2014/11/09
0.15.0 2014/10/18
0.14.1 2014/07/11
0.14.0 2014/05/31
0.13.1 2014/02/03
0.13.0 2014/01/03
0.12.0 2013/07/23

Beschrijvende statistieken

Beschrijvende statistieken (gemiddelde, standaardafwijking, aantal observaties, minimum, maximum en kwartielen) van numerieke kolommen kunnen worden berekend met behulp van de methode .describe() , die een pandas-gegevensbestand van beschrijvende statistieken retourneert.

In [1]: df = pd.DataFrame({'A': [1, 2, 1, 4, 3, 5, 2, 3, 4, 1], 
                           'B': [12, 14, 11, 16, 18, 18, 22, 13, 21, 17], 
                           'C': ['a', 'a', 'b', 'a', 'b', 'c', 'b', 'a', 'b', 'a']})

In [2]: df
Out[2]: 
   A   B  C
0  1  12  a
1  2  14  a
2  1  11  b
3  4  16  a
4  3  18  b
5  5  18  c
6  2  22  b
7  3  13  a
8  4  21  b
9  1  17  a

In [3]: df.describe()
Out[3]:
               A          B
count  10.000000  10.000000
mean    2.600000  16.200000
std     1.429841   3.705851
min     1.000000  11.000000
25%     1.250000  13.250000
50%     2.500000  16.500000
75%     3.750000  18.000000
max     5.000000  22.000000
 

Merk op dat, aangezien C geen numerieke kolom is, deze is uitgesloten van de uitvoer.

In [4]: df['C'].describe()
Out[4]:
count     10
unique     3
freq       5
Name: C, dtype: object
 

In dit geval vat de methode categorische gegevens samen op basis van het aantal observaties, het aantal unieke elementen, de modus en de frequentie van de modus.

Hallo Wereld

Nadat Panda's is geïnstalleerd, kunt u controleren of het goed werkt door een gegevensset met willekeurig verdeelde waarden te maken en het histogram ervan te plotten.

import pandas as pd  # This is always assumed but is included here as an introduction.
import numpy as np
import matplotlib.pyplot as plt

np.random.seed(0)

values = np.random.randn(100) # array of normally distributed random numbers
s = pd.Series(values) # generate a pandas series
s.plot(kind='hist', title='Normally distributed random values') # hist computes distribution
plt.show()   
 

voer hier de afbeeldingsbeschrijving in

Controleer enkele van de gegevensstatistieken (gemiddelde, standaardafwijking, etc.)

s.describe()
# Output: count    100.000000
# mean       0.059808
# std        1.012960
# min       -2.552990
# 25%       -0.643857
# 50%        0.094096
# 75%        0.737077
# max        2.269755
# dtype: float64
 

Installeren via anaconda

Download eerst anaconda van de Continuum-site. Hetzij via het grafische installatieprogramma (Windows / OSX) of met een shellscript (OSX / Linux). Dit omvat panda's!


Als je niet wilt dat de 150 pakketten handig in anaconda worden gebundeld, kun je miniconda installeren. Hetzij via het grafische installatieprogramma (Windows) of shellscript (OSX / Linux).

Installeer panda's op miniconda met:

conda install pandas
 

Om panda's bij te werken naar de nieuwste versie in anaconda of miniconda gebruik:

conda update pandas
 

Installatie of instellingen

Gedetailleerde instructies voor het instellen of installeren van panda's zijn hier te vinden in de officiële documentatie .

Panda's installeren met Anaconda

Het installeren van panda's en de rest van de NumPy- en SciPy- stack kan een beetje moeilijk zijn voor onervaren gebruikers.

De eenvoudigste manier om niet alleen panda's te installeren, maar Python en de meest populaire pakketten waaruit de SciPy-stapel bestaat (IPython, NumPy, Matplotlib, ...) is met Anaconda , een platformoverschrijdend (Linux, Mac OS X, Windows) Python-distributie voor data-analyse en wetenschappelijk computergebruik.

Na het uitvoeren van een eenvoudig installatieprogramma heeft de gebruiker toegang tot panda's en de rest van de SciPy-stapel zonder iets anders te hoeven installeren en zonder te hoeven wachten tot er software is gecompileerd.

Installatie-instructies voor Anaconda zijn hier te vinden .

Een volledige lijst met beschikbare pakketten als onderdeel van de Anaconda-distributie vind je hier .

Een bijkomend voordeel van installeren met Anaconda is dat je geen beheerdersrechten nodig hebt om het te installeren, het wordt geïnstalleerd in de thuismap van de gebruiker, en dit maakt het ook triviaal om Anaconda op een later tijdstip te verwijderen (verwijder gewoon die map).

Panda's installeren met Miniconda

De vorige sectie schetste hoe panda's geïnstalleerd kunnen worden als onderdeel van de Anaconda-distributie. Deze benadering betekent echter dat u ruim honderd pakketten installeert en het installatieprogramma downloadt dat een paar honderd megabytes groot is.

Als je meer controle wilt hebben over welke pakketten, of een beperkte internetbandbreedte hebt, dan kan het installeren van panda's met Miniconda een betere oplossing zijn.

Conda is de pakketbeheerder waarop de Anaconda-distributie is gebaseerd. Het is een pakketbeheerder die zowel platformonafhankelijk als taal-agnostisch is (het kan een vergelijkbare rol spelen als een pip- en virtualenv-combinatie).

Met Miniconda kunt u een minimale zelfstandige Python-installatie maken en vervolgens de opdracht Conda gebruiken om extra pakketten te installeren.

Eerst moet je Conda installeren en downloaden en uitvoeren van de Miniconda zal dit voor je doen. Het installatieprogramma is hier te vinden .

De volgende stap is het maken van een nieuwe conda-omgeving (deze zijn analoog aan een virtualenv, maar hiermee kunt u ook precies opgeven welke Python-versie u wilt installeren). Voer de volgende opdrachten uit vanuit een terminalvenster:

conda create -n name_of_my_env python
 

Dit zal een minimale omgeving creëren met alleen Python erin geïnstalleerd. Om jezelf in deze omgeving te plaatsen rennen:

source activate name_of_my_env
 

In Windows is de opdracht:

activate name_of_my_env
 

De laatste vereiste stap is het installeren van panda's. Dit kan met het volgende commando:

conda install pandas
 

Om een specifieke panda's-versie te installeren:

conda install pandas=0.13.1
 

Om andere pakketten te installeren, IPython bijvoorbeeld:

conda install ipython
 

Om de volledige Anaconda-distributie te installeren:

conda install anaconda
 

Als je pakketten nodig hebt die beschikbaar zijn voor pip maar niet conda, installeer dan eenvoudig pip en gebruik pip om deze pakketten te installeren:

conda install pip
pip install django
 

Meestal installeer je panda's met een van pakketbeheerders.

pip voorbeeld:

pip install pandas
 

Dit vereist waarschijnlijk de installatie van een aantal afhankelijkheden, waaronder NumPy, vereist een compiler om vereiste stukjes code te compileren en kan enkele minuten duren.