pandasपंडों के साथ शुरुआत हो रही है


टिप्पणियों

पंडस एक पायथन पैकेज है जो "संबंधपरक" या "लेबल" डेटा को आसान और सहज दोनों के साथ काम करने के लिए डिज़ाइन किया गया तेज, लचीला और अभिव्यंजक डेटा संरचना प्रदान करता है। इसका उद्देश्य पायथन में व्यावहारिक, वास्तविक दुनिया डेटा विश्लेषण करने के लिए मौलिक उच्च-स्तरीय बिल्डिंग ब्लॉक होना है।

आधिकारिक पंडों के दस्तावेज यहां देखे जा सकते हैं

संस्करण

पांडा

संस्करण रिलीज़ की तारीख
0.19.1 2016/11/03
0.19.0 2016/10/02
0.18.1 2016/05/03
0.18.0 2016/03/13
0.17.1 2015/11/21
0.17.0 2015/10/09
0.16.2 2015/06/12
0.16.1 2015/05/11
0.16.0 2015/03/22
0.15.2 2014-12-12
0.15.1 2014-11-09
0.15.0 2014-10-18
0.14.1 2014-07-11
0.14.0 2014-05-31
0.13.1 2014-02-03
0.13.0 2014-01-03
0.12.0 2013-07-23

वर्णनात्मक आँकड़े

संख्यात्मक स्तंभों के वर्णनात्मक आँकड़े (मतलब, मानक विचलन, अवलोकनों की संख्या, न्यूनतम, अधिकतम और चतुर्थक) की गणना .describe() विधि का उपयोग करके की जा सकती है, जो वर्णनात्मक आँकड़ों की एक पांडा .describe() लौटाता है।

In [1]: df = pd.DataFrame({'A': [1, 2, 1, 4, 3, 5, 2, 3, 4, 1], 
                           'B': [12, 14, 11, 16, 18, 18, 22, 13, 21, 17], 
                           'C': ['a', 'a', 'b', 'a', 'b', 'c', 'b', 'a', 'b', 'a']})

In [2]: df
Out[2]: 
   A   B  C
0  1  12  a
1  2  14  a
2  1  11  b
3  4  16  a
4  3  18  b
5  5  18  c
6  2  22  b
7  3  13  a
8  4  21  b
9  1  17  a

In [3]: df.describe()
Out[3]:
               A          B
count  10.000000  10.000000
mean    2.600000  16.200000
std     1.429841   3.705851
min     1.000000  11.000000
25%     1.250000  13.250000
50%     2.500000  16.500000
75%     3.750000  18.000000
max     5.000000  22.000000
 

ध्यान दें कि चूंकि C एक संख्यात्मक कॉलम नहीं है, इसलिए इसे आउटपुट से बाहर रखा गया है।

In [4]: df['C'].describe()
Out[4]:
count     10
unique     3
freq       5
Name: C, dtype: object
 

इस मामले में विधि टिप्पणियों की संख्या, अद्वितीय तत्वों की संख्या, मोड, और मोड की आवृत्ति द्वारा श्रेणीबद्ध डेटा को सारांशित करती है।

नमस्ते दुनिया

एक बार पंडों को स्थापित करने के बाद, आप यह जांच सकते हैं कि क्या यह बेतरतीब ढंग से वितरित मूल्यों का डेटासेट बनाकर काम कर रहा है या इसके हिस्टोग्राम की साजिश रच रहा है।

import pandas as pd  # This is always assumed but is included here as an introduction.
import numpy as np
import matplotlib.pyplot as plt

np.random.seed(0)

values = np.random.randn(100) # array of normally distributed random numbers
s = pd.Series(values) # generate a pandas series
s.plot(kind='hist', title='Normally distributed random values') # hist computes distribution
plt.show()   
 

यहाँ छवि विवरण दर्ज करें

डेटा के कुछ आँकड़ों की जाँच करें (मतलब, मानक विचलन, आदि)

s.describe()
# Output: count    100.000000
# mean       0.059808
# std        1.012960
# min       -2.552990
# 25%       -0.643857
# 50%        0.094096
# 75%        0.737077
# max        2.269755
# dtype: float64
 

एनाकोंडा के माध्यम से स्थापित करें

कॉन्टिनम साइट से सबसे पहले एनाकोंडा डाउनलोड करें । या तो ग्राफिकल इंस्टॉलर (विंडोज / ओएसएक्स) या शेल स्क्रिप्ट (ओएसएक्स / लिनक्स) चलाने के माध्यम से। इसमें पांडा शामिल हैं!


यदि आप 150 पैकेजों को आसानी से एनाकोंडा में नहीं बांधना चाहते हैं, तो आप मिनीकोन्डा को स्थापित कर सकते हैं। या तो ग्राफिकल इंस्टॉलर (विंडोज) या शेल स्क्रिप्ट (ओएसएक्स / लिनक्स) के माध्यम से।

उपयोग कर मिनिकोंडा पर पांडा स्थापित करें:

conda install pandas
 

एनाकोंडा या मिनिकोंडा उपयोग में नवीनतम संस्करण के लिए पांडा को अद्यतन करने के लिए:

conda update pandas
 

स्थापना या सेटअप

पांडा को स्थापित करने या स्थापित करने के बारे में विस्तृत निर्देश आधिकारिक दस्तावेज में यहां देखे जा सकते हैं।

एनाकोंडा के साथ पांडा स्थापित करना

पांडा और बाकी न्यूपी और साइपी स्टैक को स्थापित करना अनुभवहीन उपयोगकर्ताओं के लिए थोड़ा मुश्किल हो सकता है।

न केवल पांडा, बल्कि पायथन और सबसे लोकप्रिय पैकेज स्थापित करने का सबसे सरल तरीका, जो कि SciPy स्टैक (IPython, NumPy, Matplotlib, ...) बनाता है, एनाकोंडा , एक क्रॉस-प्लेटफॉर्म (लिनक्स, मैक ओएस एक्स, विंडोज) के साथ है। डेटा एनालिटिक्स और वैज्ञानिक कंप्यूटिंग के लिए पायथन वितरण।

एक साधारण इंस्टॉलर को चलाने के बाद, उपयोगकर्ता के पास पांडा और बाकी SciPy स्टैक तक कुछ भी स्थापित करने की आवश्यकता के बिना एक्सेस होगा, और किसी भी सॉफ़्टवेयर के संकलन के लिए प्रतीक्षा करने की आवश्यकता के बिना।

एनाकोंडा के लिए इंस्टॉलेशन निर्देश यहां देखे जा सकते हैं

एनाकोंडा वितरण के हिस्से के रूप में उपलब्ध पैकेजों की एक पूरी सूची यहां पाई जा सकती है

एनाकोंडा के साथ स्थापित करने का एक अतिरिक्त लाभ यह है कि इसे स्थापित करने के लिए आपको व्यवस्थापक अधिकारों की आवश्यकता नहीं होती है, यह उपयोगकर्ता के होम डायरेक्टरी में स्थापित हो जाएगा, और यह एनाकोंडा को बाद की तारीख में हटाने के लिए तुच्छ बनाता है (बस उस फ़ोल्डर को हटा दें)।

मिनिकोंडा के साथ पंडों को स्थापित करना

पिछले खंड में बताया गया था कि एनाकोंडा वितरण के हिस्से के रूप में पांडा को कैसे स्थापित किया जाए। हालाँकि इस दृष्टिकोण का मतलब है कि आप एक सौ से अधिक पैकेजों को अच्छी तरह से स्थापित करेंगे और इसमें इंस्टॉलर डाउनलोड करना शामिल है जो आकार में कुछ सौ मेगाबाइट्स है।

यदि आप चाहते हैं कि किस पैकेज पर अधिक नियंत्रण हो, या एक सीमित इंटरनेट बैंडविड्थ हो, तो मिनिकोंडा के साथ पांडा स्थापित करना एक बेहतर समाधान हो सकता है।

कोंडा पैकेज मैनेजर है जिसे एनाकोंडा वितरण बनाया गया है। यह एक पैकेज मैनेजर है जो क्रॉस-प्लेटफॉर्म और भाषा अज्ञेय दोनों है (यह एक पाइप और वर्चुअन संयोजन के लिए एक समान भूमिका निभा सकता है)।

मिनिकोंडा आपको एक न्यूनतम स्व-निहित पायथन इंस्टॉलेशन बनाने की अनुमति देता है, और फिर अतिरिक्त पैकेज स्थापित करने के लिए कोंडा कमांड का उपयोग करता है।

सबसे पहले आपको Conda को स्थापित करने और डाउनलोड करने की आवश्यकता होगी और Miniconda को चलाना आपके लिए यह काम करेगा। इंस्टॉलर यहाँ पाया जा सकता है

अगला चरण एक नया कोंडा वातावरण बनाने के लिए है (ये एक वर्चुअन के अनुरूप हैं लेकिन ये आपको ठीक-ठीक निर्दिष्ट करने की अनुमति देते हैं कि कौन सा पायथन संस्करण भी स्थापित करना है)। टर्मिनल विंडो से निम्न कमांड चलाएँ:

conda create -n name_of_my_env python
 

यह केवल पायथन में स्थापित होने के साथ एक न्यूनतम वातावरण तैयार करेगा। इस वातावरण को चलाने के लिए अपने आप को अंदर रखना:

source activate name_of_my_env
 

विंडोज पर कमांड है:

activate name_of_my_env
 

पांडा को स्थापित करने के लिए आवश्यक अंतिम चरण है। यह निम्नलिखित कमांड के साथ किया जा सकता है:

conda install pandas
 

एक विशिष्ट पांडा संस्करण स्थापित करने के लिए:

conda install pandas=0.13.1
 

अन्य पैकेजों को स्थापित करने के लिए, उदाहरण के लिए IPython:

conda install ipython
 

पूर्ण एनाकोंडा वितरण स्थापित करने के लिए:

conda install anaconda
 

यदि आपको किसी ऐसे पैकेज की आवश्यकता है जो पाइप के लिए उपलब्ध हो, लेकिन कोंडा नहीं है, तो बस पाइप स्थापित करें, और इन पैकेजों को स्थापित करने के लिए पाइप का उपयोग करें:

conda install pip
pip install django
 

आमतौर पर, आप एक पैकेट मैनेजर के साथ पांडा स्थापित करेंगे।

पाइप उदाहरण:

pip install pandas
 

यह संभवत: NumPy सहित कई निर्भरताओं की स्थापना की आवश्यकता होगी, कोड के आवश्यक बिट्स को संकलित करने के लिए एक कंपाइलर की आवश्यकता होगी, और पूरा होने में कुछ मिनट लग सकते हैं।