pandas Lettura file CSV in DataFrame


Esempio

Esempio per leggere il file data_file.csv come:

File:

index,header1,header2,header3
1,str_data,12,1.4
3,str_data,22,42.33
4,str_data,2,3.44
2,str_data,43,43.34

7, str_data, 25, 23.32

Codice:

pd.read_csv('data_file.csv')

Produzione:

   index    header1  header2  header3
0      1   str_data       12     1.40
1      3   str_data       22    42.33
2      4   str_data        2     3.44
3      2   str_data       43    43.34
4      7   str_data       25    23.32

Alcuni argomenti utili:

  • sep Il delimitatore di campo predefinito è una virgola , . Usa questa opzione se hai bisogno di un delimitatore diverso, ad esempio pd.read_csv('data_file.csv', sep=';')

  • index_col Con index_col = n ( n un intero) dici ai panda di utilizzare la colonna n per indicizzare il DataFrame. Nell'esempio sopra:

    pd.read_csv('data_file.csv',  index_col=0)
    

    Produzione:

              header1  header2  header3
    index
     1       str_data       12     1.40
     3       str_data       22    42.33
     4       str_data        2     3.44
     2       str_data       43    43.34
     7       str_data       25    23.32
    
  • skip_blank_lines Per impostazione predefinita, le righe vuote vengono saltate. Usa skip_blank_lines=False per includere righe vuote (saranno riempite con valori NaN )

    pd.read_csv('data_file.csv',  index_col=0,skip_blank_lines=False)
    

    Produzione:

             header1  header2  header3
    index
     1      str_data       12     1.40
     3      str_data       22    42.33
     4      str_data        2     3.44
     2      str_data       43    43.34
    NaN          NaN      NaN      NaN
     7      str_data       25    23.32
    
  • parse_dates Utilizzare questa opzione per analizzare i dati della data.

    File:

    date_begin;date_end;header3;header4;header5
    1/1/2017;1/10/2017;str_data;1001;123,45
    2/1/2017;2/10/2017;str_data;1001;67,89
    3/1/2017;3/10/2017;str_data;1001;0
    

    Codice per analizzare le colonne 0 e 1 come date:

    pd.read_csv('f.csv', sep=';', parse_dates=[0,1])
    

    Produzione:

      date_begin   date_end   header3  header4 header5
    0 2017-01-01 2017-01-10  str_data     1001  123,45
    1 2017-02-01 2017-02-10  str_data     1001   67,89
    2 2017-03-01 2017-03-10  str_data     1001       0
    

    Per impostazione predefinita, il formato della data viene dedotto. Se si desidera specificare un formato di data che è possibile utilizzare per esempio

    dateparse = lambda x: pd.datetime.strptime(x, '%d/%m/%Y')
    pd.read_csv('f.csv', sep=';',parse_dates=[0,1],date_parser=dateparse)
    

    Produzione:

      date_begin   date_end   header3  header4 header5
    0 2017-01-01 2017-10-01  str_data     1001  123,45
    1 2017-01-02 2017-10-02  str_data     1001   67,89
    2 2017-01-03 2017-10-03  str_data     1001       0   
    

Ulteriori informazioni sui parametri della funzione sono disponibili nella documentazione ufficiale .