Importa le librerie
import numpy as np import pandas as pd
Carica il file dei dati
data=pd.read_csv("president_heights.csv")
Dai un’occhiata
print(data) order name height(cm) 0 1 George Washington 189 1 2 John Adams 170 2 3 Thomas Jefferson 189 3 4 James Madison 163 4 5 James Monroe 183 .. .. ... ... 37 40 Ronald Reagan 185 38 41 George H. W. Bush 188 39 42 Bill Clinton 188 40 43 George W. Bush 182 41 44 Barack Obama 185
Estrai le altezze
heights=np.array(data["height(cm)"]) print(heights) [189 170 189 163 183 171 185 168 173 183 173 173 175 178 183 193 178 173 174 183 183 168 170 178 182 180 183 178 182 188 175 179 183 193 182 183 177 185 188 188 182 185]
Informazioni statistiche
print("Altezza minima :", heights.min()) print("Altezza media :", heights.mean()) print("Altezza massima :", heights.max()) print("Deviazione standard:", heights.std()) Altezza minima : 163 Altezza media : 179.73809523809524 Altezza massima : 193 Deviazione standard: 6.931843442745892
Ancora…
print("Primo quartile (25%):", np.percentile(heights, 25)) print("Mediana :", np.median(heights) ) print("Terzo quartile (75%):", np.percentile(heights, 75)) Primo quartile (25%): 174.25 Mediana : 182.0 Terzo quartile (75%): 183.0
Grafici
import matplotlib.pyplot as plt plt.hist(heights) plt.title('Distribuzione delle altezze') plt.xlabel('Altezza (cm)') plt.ylabel('Numero'); plt.show()
Aggiungi le impostazioni grafiche di seaborn
import matplotlib.pyplot as plt import seaborn as snc snc.set() plt.hist(heights) plt.title('Distribuzione delle altezze') plt.xlabel('Altezza (cm)') plt.ylabel('Numero'); plt.show()
Vedi: https://jakevdp.github.io/PythonDataScienceHandbook/02.04-computation-on-arrays-aggregates.html