Looking for pandas Keywords? Try Ask4Keywords

pandasErste Schritte mit Pandas


Bemerkungen

Pandas ist ein Python-Paket, das schnelle, flexible und ausdrucksstarke Datenstrukturen bietet, die die Arbeit mit "relationalen" oder "markierten" Daten sowohl einfach als auch intuitiv machen. Ziel ist es, der grundlegende Baustein auf hoher Ebene für die praktische Datenanalyse in Python zu sein.

Die offizielle Pandas-Dokumentation finden Sie hier .

Versionen

Pandas

Ausführung Veröffentlichungsdatum
0,19,1 2016-11-03
0,19,0 2016-10-02
0,18,1 2016-05-03
0,18,0 2016-03-13
0,17,1 2015-11-21
0,17,0 2015-10-09
0,16,2 2015-06-12
0,16,1 2015-05-11
0,16,0 2015-03-22
0,15,2 2014-12-12
0,15,1 2014-11-09
0,15,0 2014-10-18
0,14,1 2014-07-11
0,14,0 2014-05-31
0,13,1 2014-02-03
0,13,0 2014-01-03
0,12,0 2013-07-23

Beschreibende Statistik

Beschreibende Statistiken (Mittelwert, Standardabweichung, Anzahl der Beobachtungen, Minimum, Maximum und Quartile) numerischer Spalten können mit der .describe() -Methode berechnet werden, die einen Pandas-Datenrahmen mit beschreibenden Statistiken zurückgibt.

In [1]: df = pd.DataFrame({'A': [1, 2, 1, 4, 3, 5, 2, 3, 4, 1], 
                           'B': [12, 14, 11, 16, 18, 18, 22, 13, 21, 17], 
                           'C': ['a', 'a', 'b', 'a', 'b', 'c', 'b', 'a', 'b', 'a']})

In [2]: df
Out[2]: 
   A   B  C
0  1  12  a
1  2  14  a
2  1  11  b
3  4  16  a
4  3  18  b
5  5  18  c
6  2  22  b
7  3  13  a
8  4  21  b
9  1  17  a

In [3]: df.describe()
Out[3]:
               A          B
count  10.000000  10.000000
mean    2.600000  16.200000
std     1.429841   3.705851
min     1.000000  11.000000
25%     1.250000  13.250000
50%     2.500000  16.500000
75%     3.750000  18.000000
max     5.000000  22.000000
 

Beachten Sie, dass C keine numerische Spalte ist, sondern von der Ausgabe ausgeschlossen wird.

In [4]: df['C'].describe()
Out[4]:
count     10
unique     3
freq       5
Name: C, dtype: object
 

In diesem Fall fasst das Verfahren kategoriale Daten nach Anzahl der Beobachtungen, Anzahl eindeutiger Elemente, Modus und Häufigkeit des Modus zusammen.

Hallo Welt

Nach der Installation von Pandas können Sie überprüfen, ob es ordnungsgemäß funktioniert, indem Sie ein Dataset mit zufällig verteilten Werten erstellen und das Histogramm zeichnen.

import pandas as pd  # This is always assumed but is included here as an introduction.
import numpy as np
import matplotlib.pyplot as plt

np.random.seed(0)

values = np.random.randn(100) # array of normally distributed random numbers
s = pd.Series(values) # generate a pandas series
s.plot(kind='hist', title='Normally distributed random values') # hist computes distribution
plt.show()   
 

Geben Sie hier die Bildbeschreibung ein

Überprüfen Sie einige Statistiken der Daten (Mittelwert, Standardabweichung usw.).

s.describe()
# Output: count    100.000000
# mean       0.059808
# std        1.012960
# min       -2.552990
# 25%       -0.643857
# 50%        0.094096
# 75%        0.737077
# max        2.269755
# dtype: float64
 

Installation über Anaconda

Laden Sie zunächst Anaconda von der Continuum-Site herunter . Entweder über das grafische Installationsprogramm (Windows / OSX) oder ein Shell-Skript (OSX / Linux). Dazu gehören Pandas!


Wenn Sie nicht möchten, dass die 150 Pakete bequem in Anaconda gebündelt werden, können Sie Miniconda installieren. Entweder über das grafische Installationsprogramm (Windows) oder über das Shell-Skript (OSX / Linux).

Installieren Sie Pandas auf Miniconda mit:

conda install pandas
 

Um Pandas auf die neueste Version in Anaconda oder Miniconda zu aktualisieren, verwenden Sie:

conda update pandas
 

Installation oder Setup

Detaillierte Anweisungen zum Einrichten oder Installieren von Pandas finden Sie hier in der offiziellen Dokumentation .

Pandas mit Anaconda installieren

Die Installation von Pandas und des restlichen NumPy- und SciPy- Stacks kann für unerfahrene Benutzer etwas schwierig sein.

Der einfachste Weg, nicht nur Pandas zu installieren, sondern Python und die beliebtesten Pakete, aus denen der SciPy-Stack (IPython, NumPy, Matplotlib, ...) besteht, sind mit Anaconda eine plattformübergreifende Plattform (Linux, Mac OS X, Windows) Python-Distribution für Datenanalyse und Scientific Computing.

Nach dem Ausführen eines einfachen Installationsprogramms hat der Benutzer Zugriff auf Pandas und den Rest des SciPy-Stapels, ohne dass etwas anderes installiert werden muss, und ohne auf die Kompilierung von Software warten zu müssen.

Installationsanleitungen für Anaconda finden Sie hier .

Eine vollständige Liste der Pakete, die als Teil der Anaconda-Distribution verfügbar sind, finden Sie hier .

Ein weiterer Vorteil der Installation mit Anaconda ist, dass Sie für die Installation keine Administratorrechte benötigen. Die Installation erfolgt im Home-Verzeichnis des Benutzers. Dies macht es auch einfach, Anaconda zu einem späteren Zeitpunkt zu löschen (einfach diesen Ordner löschen).

Pandas mit Miniconda installieren

Im vorherigen Abschnitt wurde beschrieben, wie Pandas als Teil der Anaconda-Distribution installiert werden. Dieser Ansatz bedeutet jedoch, dass Sie weit über einhundert Pakete installieren und das Installationsprogramm herunterladen müssen, das einige hundert Megabyte groß ist.

Wenn Sie mehr Kontrolle über die Pakete haben oder eine begrenzte Internet-Bandbreite haben möchten, ist die Installation von Pandas mit Miniconda möglicherweise eine bessere Lösung.

Conda ist der Paketmanager, auf dem die Anaconda-Distribution aufbaut. Es ist ein Paketmanager, der plattform- und sprachunabhängig ist (er kann eine ähnliche Rolle spielen wie eine Kombination aus Pip und Virtualenv).

Mit Miniconda können Sie eine minimale, eigenständige Python-Installation erstellen und anschließend den Befehl Conda verwenden , um zusätzliche Pakete zu installieren.

Zuerst müssen Sie Conda installieren, und das Herunterladen und Ausführen der Miniconda wird dies für Sie tun. Den Installer finden Sie hier .

Der nächste Schritt ist das Erstellen einer neuen Conda-Umgebung (diese entspricht einer virtualenv, kann aber auch genau angeben, welche Python-Version ebenfalls installiert werden soll). Führen Sie die folgenden Befehle in einem Terminalfenster aus:

conda create -n name_of_my_env python
 

Dadurch wird eine minimale Umgebung erstellt, in der nur Python installiert ist. Um dich selbst in diese Umgebung zu bringen:

source activate name_of_my_env
 

Unter Windows lautet der Befehl:

activate name_of_my_env
 

Der letzte Schritt ist die Installation von Pandas. Dies kann mit dem folgenden Befehl erfolgen:

conda install pandas
 

So installieren Sie eine bestimmte Pandas-Version:

conda install pandas=0.13.1
 

Um andere Pakete zu installieren, beispielsweise IPython:

conda install ipython
 

So installieren Sie die vollständige Anaconda-Distribution:

conda install anaconda
 

Wenn Sie Pakete benötigen, die für pip, aber nicht für conda verfügbar sind, installieren Sie einfach pip und verwenden Sie pip, um diese Pakete zu installieren:

conda install pip
pip install django
 

Normalerweise installieren Sie Pandas mit einem Paketmanager.

pip Beispiel:

pip install pandas
 

Dies erfordert wahrscheinlich die Installation einer Reihe von Abhängigkeiten, einschließlich NumPy, und erfordert einen Compiler, um die erforderlichen Codebits zu kompilieren. Dies kann einige Minuten dauern.