Quali sono i criteri per valutare la reale efficacia di un sistema anti-spam? Purtroppo il numero di messaggi rilevati non è sufficiente: dati 1000 messaggi, il sistema ne ha identificati X e persi per strada Y. Questo dato, per quanto significativo, valuta solo una parte del meccanismo.

Un dato fondamentale è quello dei “falsi positivi”: si ha un falso positivo quando un messaggio buono (normalmente chiamato HAM, prosciutto, in contrapposizione a SPAM, carne in scatola) viene considerato spam e gestito come tale.

Più è efficace un sistema anti-spam, più è pericoloso un falso positivo: se il filtro è efficiente, l’utente sarà portato a non verificare i messaggi considerati come spam e fidarsi del sistema stesso.

Normalmente è possibile tarare l’aggressività del filtro: ad esempio, nel caso di Thunderbird il filtro Baesyano associa al messaggio un punteggio, se questo punteggio supera la soglia 90 il messaggio viene marcato come posta indesiderata.
L’utente può, a suo rischio e pericolo, modificare questo valore agendo sul parametro mail.adaptivefilters.junk_threshold. Riducendo il valore aumenterà la quantità di spam rilevato ma anche la possibilità di avere falsi positivi.

Se siete interessati all’argomento, date un’occhiata alla serie di articoli che Casper sta dedicando alla questione: valutazione dei filtri anti-spam e dei falsi positivi in alcuni tra i più diffusi client e-mail.

Tag Technorati:

15 commenti/trackback a “Valutare un sistema anti-spam”

  1. Barbara scrive:

    mah io uso Thunderbird in ufficio ma avendo a che fare con lavoro con l’Asia e vista la mole di spam da qualche mese sto addestrando anche Spamhilator e devo dire apprende bene

  2. flod scrive:

    Io per il momento riesco a lavorare tranquillamente con il solo antispam di Thunderbird 😉

  3. Andrea scrive:

    Molto interessanti gli articoli di Casper: certo che ne aveva di mail spazzatura coi quali fare i test!
    Mi ha fatto sorridere il commento del fan di Windows Mail.

    Ehm…non è che ci forniresti il tuo training.dat?

    Andrea

  4. Andrea scrive:

    certo che ne aveva di mail spazzatura coi quali fare i test!

    Vabbè…devo riattivare il correttore

  5. flod scrive:

    Prima faccio fare da cavia al buon Casper: se ne vale la pena (ossia i risultati migliorano), vedrò di metterli a disposizione 😉

  6. flod scrive:

    Giusto per i più curiosi: sembra che il mio training.dat abbia influenzato di poco o nulla le prestazioni di Thunderbird nelle prove di Casper 😉

    In ogni caso se qualcuno lo volesse provare il mio training.dat (dicembre 2004) è disponibile qui 😉

  7. flod scrive:

    Update: mi sono accorto (grazie a lucasali per la segnalazione) che il file training.dat contiene indirizzi di posta elettronica del sottoscritto (il che non sarebbe un problema insormontabile) ma anche indirizzi di alcuni destinatari dei miei messaggi 🙁

    Anche oggi ho imparato qualcosa di nuovo: evidentemente il filtro baesyano usa in qualche modo anche gli indirizzi di posta elettronica, non solo i termini contenuti nel messaggio (come si era sempre letto)

    Se avete intenzione di fare qualche prova in stile Casper e volete questo file, contattatemi via e-mail 😉

  8. miki64 scrive:

    Sì, PseudoTecnico è proprio così.
    Il filtro, infatti, confronta non solo i termini nel messaggio, ma anche il mittente.
    Se io ti inoltrassi un mio messaggio di spam, infatti, il tuo filtro dovrebbe farmelo passare, visto che dovrebbe sapere che io non sono uno spammatore.

    Una prova del genere la feci ai miei esordi sul Forum di Mozilla Italia, molto empiricamente… autospedendomi volutamente dello spam dalle altre mie caselle di posta elettronica.

    Causa tempo limitato non feci tutte le prove che avevo in mente, ma fu un test interessante.

    Se vai sul sito http://www.attivissimo.net dovrebbe esserci un articolo di Paolo Attivissimo che spiega nel dettaglio il funzionamento di tali filtri (io – come al solito – non ti fornisco il link perché non l’ho trovato…)

  9. Casper scrive:

    Quindi implementano whitelist e blacklist? Davvero, questa non l’avevo mai letta… complimenti a lucasali per l’occhio di lince. Dentro quel file avrebbe potuto esserci in chiaro un account da 15 milioni di dollari alle Cayman e non me ne sarei mai accorto. Very well done.

  10. wtf scrive:

    Io uso un sistema particolare se ho VERAMENTE MOLTO SPAM, ma proprio molto, e funziona da SPETTACOLO!

    Da quando gmail è aperta a tutti poi è ancora meglio.

    Facciamo un esempio:

    il mio indirizzo è cipeciop@dominio.it

    se il fornitore dominio.it lo supporta, redirigo tutta la posta che arriva verso nomeutente@gmail.com che mi sono creato apposta e di cui non comunico a nessuno l’esistenza.

    Poi col mio client di posta vado a leggere la posta su gmail.com

    Il mio client di posta ha impostato come smtp quello dell’account cipeciop@dominio.it , come pop3 smtp.gmail.com e come “Reply Address” si mette cipeciop@dominio.it

    in questo modo si sfrutta l’antispam di gmail che come più o meno tutti sanno, fa IMPRESSIONE.

    Almeno per me lo spam è ai livelli di una e-mail alla settimana.

    Fatemi sapere se funziona anche per voi.

  11. wtf scrive:

    ovviamente il pop3 non è smtp.gmail.com ma pop.gmail.com

  12. Casper scrive:

    Ci ho provato appena hanno attivato il servizio di “ciucciamento” POP3 da server a server… ma ho dovuto abbandonarlo: se incontrava un errore temporaneo nella risposta del server POP3 remoto, poi ci metteva due o anche tre giorni prima di riprovare. Non è accettabile, purtroppo. Non so se fossero pecche di gioventù, magari si riprova prossimamente.

  13. wtf scrive:

    Non ne ho idea perchè per quanto mi riguarda sarò fortunato ma non mi è mai successo.

    Qualche server in particolare che non fa il bravo?

    Io ho usato la famiglia virgilio.it (tin, alice, virgilio) e la famiglia libero.it (pensa che ha funzionato, strano eh?)

    Comunque sul mio sito ho fatto un articolo che vorrebbe velleitariamente spiegare qualcosa sui filtri bayesiani.

  14. lucasali scrive:

    non ho idea del perché nel file ci siano anche degli indirizzi ma sicuramente non ha una whitelist e blacklist. io ogni giorno ricevo centinaia di email con la stessa intestazione (From, To e Subject) e tb mi filtra tutto regolarmente, se avesse le liste sarebbe tutto buono o tutto spam.

Trackback e pingback

  1. La palma del falso positivo : Casperize
    [...] disponibilità di PseudoTecnico mi ha permesso di accedere al suo file di training, ininterrottamente aggiornato dal Dicembre 2004. Ho…

Non è possibile inserire nuovi commenti. I commenti vengono disattivati automaticamente dopo 60 giorni.