l laboratorio “Machine Learning: email e classificatori di Bayes” ha come focus quello di mostrare in che modo la matematica e l’informatica possano dialogare per portare alla risoluzione di problemi complessi e di introdurre il concetto di machine learning di tipo supervisionato.
Problema: classificare le email in arrivo in spam e ham (non spam).
- Introduzione al problema della classificazione delle email e prima modellizzazione matematica di un caso semplice con sole due parole chiave.
- Introduzione al software e prima implementazione del codice per il modello trovato.
Ampliamento del modello con tre parole chiave per avvicinarsi al caso reale.
Modellizzazione matematica e informatica del problema ampliato con 47 parole. - Implementazione del codice per il modello finale e discussione sulla validazione dello stesso.
Eventi
: c’è la parola dollars
: non c’è la parola dollars
: la mail è spam
: la mail è ham, ovvero non spam
Probabilità
- Dati due eventi A e B,
è la probabilità che avvenga B sapendo che è avvenuto A.
PRIMO QUESITO
Vogliamo calcolare la probabilità che un messaggio sia di spam sapendo che contiene la parola dollars.
Supponiamo che la casella di posta suddivida le email in spam e ham con la stessa probabilità.
Sappiamo che l’85% delle email di spam contiene la parola dollars e che la stessa è contenuta nel 5% dei messaggi ham.
Qual è la probabilità che un’email sia di spam sapendo che contiene la parola dollars?
Osserva
=
=
= 94,44… %
=
=
= 5,55… %
=
=
= 13,6363… %
=
=
= 86,3636… %
SECONDO QUESITO
Cosa succede se invece siamo interessati a calcolare la probabilità che un messaggio sia di spam sapendo che contiene due parole (es. dollars e congratulations)?
Ci aspettiamo che tale probabilità risulti più alta o più bassa?
Calcoliamo allora la probabilità che una certa email sia di spam sapendo che contiene le parole dollars e congratulations.
Questa volta sappiamo che il 92% delle email di spam contiene la parola congratulations e che la stessa è contenuta nel 12% dei messaggi ham.
Supponiamo ancora che la casella di posta suddivida le email in spam e ham con la stessa probabilità.
I dati della parola dollars sono gli stessi del problema precedente.

- …
- …

- …
- …
https://sites.google.com/unitn.it/emaileclassificatoridibayes