Importa le librerie
1 2 |
import numpy as np import pandas as pd |
Carica il file dei dati
1 |
data=pd.read_csv("president_heights.csv") |
Dai un’occhiata
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 |
print(data) order name height(cm) 0 1 George Washington 189 1 2 John Adams 170 2 3 Thomas Jefferson 189 3 4 James Madison 163 4 5 James Monroe 183 .. .. ... ... 37 40 Ronald Reagan 185 38 41 George H. W. Bush 188 39 42 Bill Clinton 188 40 43 George W. Bush 182 41 44 Barack Obama 185 |
Estrai le altezze
1 2 3 4 5 6 |
heights=np.array(data["height(cm)"]) print(heights) [189 170 189 163 183 171 185 168 173 183 173 173 175 178 183 193 178 173 174 183 183 168 170 178 182 180 183 178 182 188 175 179 183 193 182 183 177 185 188 188 182 185] |
Informazioni statistiche
1 2 3 4 5 6 7 8 9 |
print("Altezza minima :", heights.min()) print("Altezza media :", heights.mean()) print("Altezza massima :", heights.max()) print("Deviazione standard:", heights.std()) Altezza minima : 163 Altezza media : 179.73809523809524 Altezza massima : 193 Deviazione standard: 6.931843442745892 |
Ancora…
1 2 3 4 5 6 7 |
print("Primo quartile (25%):", np.percentile(heights, 25)) print("Mediana :", np.median(heights) ) print("Terzo quartile (75%):", np.percentile(heights, 75)) Primo quartile (25%): 174.25 Mediana : 182.0 Terzo quartile (75%): 183.0 |
Grafici
1 2 3 4 5 6 7 8 |
import matplotlib.pyplot as plt plt.hist(heights) plt.title('Distribuzione delle altezze') plt.xlabel('Altezza (cm)') plt.ylabel('Numero'); plt.show() |
Aggiungi le impostazioni grafiche di seaborn
1 2 3 4 5 6 7 8 9 10 11 |
import matplotlib.pyplot as plt import seaborn as snc snc.set() plt.hist(heights) plt.title('Distribuzione delle altezze') plt.xlabel('Altezza (cm)') plt.ylabel('Numero'); plt.show() |
Vedi: https://jakevdp.github.io/PythonDataScienceHandbook/02.04-computation-on-arrays-aggregates.html