Villa PC

Wiskunde in de strijd tegen spam

4

Mensen herkennen ongewenste e-mail of spam zonder problemen. Als je iemand zou inhuren om je e-mail te controleren op spam dan zou je definitief van dit vervelende probleem verlost zijn.
Misschien hebben we binnenkort geen keuze. Zoals ik enkele weken geleden al schreef neemt de spam exponentieel toe. De tijd is niet ver af meer dat iedereen dagelijks gemiddeld honderden, zo
niet duizenden ongewenste e-mailberichten zal ontvangen. Dit zal zoveel productiviteitsverlies veroorzaken dat sommige bedrijven ongetwijfeld bereid zullen zijn om hun e-mail te laten controleren door
menselijke operatoren.

Off-shore
Het lijkt me een interessant zakelijk idee voor een off-shore dienstenbedrijf. Omdat de meeste spam toch in het Engels is, kan een dergelijk dienstenbedrijf zich overal ter wereld vestigen waar er een
arbeidsmarkt bestaat van goedkope, Engelstalige “spambestrijders”. Natuurlijk heeft deze benadering ook nadelen. Afgezien van de kosten kan ik me voorstellen dat nogal wat bedrijven er niet happig op
zullen zijn om hun vertrouwelijke e-mail toe te vertrouwen aan een extern bedrijf.
SpamNet, de benadering van CloudMark waarover ik mijn vorige stukje over spam schreef, is een variant van de hiervoor beschreven benadering. Ieder lid van SpamNet kan een e-mail als spam
markeren, waardoor de bron geblokkeerd wordt voor alle leden van het antispamnetwerk. Die benadering werkt redelijk, maar tien of meer procent van alle spam komt er toch nog door. Vervelender is dat
sommige mensen ook valabele e-mail blokkeren, bijvoorbeeld rondzendlijsten waarop men is geabonneerd en waarvoor men te lui is om het abonnement op te zeggen. Een spamfilter die valabele e-mail
blokkeert, is erger dan de remedie. De mensen achter CloudMark verwijderen manueel onterecht geblokkeerde adressen uit SpamNet, maar naarmate er meer mensen lid worden van het netwerk, gaat dit
probleem alleen maar erger worden. Statistisch staat het vast dat de effectiviteit van SpamNet met de tijd zal afnemen, zelfs in die mate dat het onderhoud ervan evenveel inspanning zal kosten als de
eerder geschetste menselijke oplossing.

Virussen
Spam vertoont overeenkomsten met virussen, echte zowel als de computervariant. Hoe mee tegenwerkende stoffen we erop loslaten, hoe slimmer en moeilijker te bestrijden de nieuwe varianten zijn. Daarom
is het zo moeilijk om een effectieve spamfilter te ontwikkelen. Paul Graham, auteur van een aantal standaardwerken over Lisp, denkt de oplossing gevonden te hebben. In het webartikel
“A Plan for Spam” beschrijft hij het theoretische kader voor een spamfilter die hij ontwikkelt voor een webgebaseerde mailreader die
gebouwd wordt in het nieuwe Lisp-dialect Arc, waarvan Graham de uitvinder is.
Graham merkt op dat de achilleshiel van een spambericht de inhoud ervan is. Hij pleit dus voor het filteren van de inhoud. Nieuw daarbij is dat hij een specifieke statistische methode gebruikt die
oorspronkelijk ontwikkeld werd door de 18-de eeuwse Britse theoloog en wiskundige Thomas Bayes. Ik kan hier niet in het kort uitleggen wat het theorema van Bayes inhoudt, maar het heeft te maken met
de kansberekening van de distributie van verzamelingen van data. Graham gebruikt een Bayesiaanse spamfilter en beweert op die manier minder dan vijf per duizend spamberichten te missen. Belangrijker
nog is dat hij hierbij zero correcte berichten tegenhoudt. De filter probeert datapatronen te identificeren die typisch zijn voor spam. Een bericht met het woordje “teen” heeft tachtig procent kans om
een spambericht te zijn. Maar ook de HTML-code voor de kleur helderrood blijkt een zeer goede indicator voor spam te zijn. Spammers proberen klassieke filters er in te luizen door in plaats van
“penis” bijvoorbeeld “p*nis” te schrijven. Graham’s filter houdt ook met dat trucje rekening.
Ook CloudMark werkt aan een Bayesaanse spamfilter, als aanvulling voor SpamNet.

4 REACTIES

  1. René,

    Ben ik het volkomen mee eens. Zolang je maar zelf een eindcontrole kan doen, ben je zeker dat er geen gewenste mail naar ongewenste gaat. Als deze mail daarentegen bij de bron wordt weggefilterd, denk ik dat er in de toekomst nog veel problemen met gaan ontstaan. Heet maar eens VansTEENbergen of zo

  2. Een eerder psychologisch nevenverschijnsel van spamfilters is dat onbehaaglijk gevoel van ongerustheid: is er niet teveel weggegooid?
    Ik heb een collega die in De Steenstraat woont. Die mag zijn adres nooit meer op een mailtje zetten, want in zijn straatnaam komt de lettercombinatie “teens” voor, en nogal wat spamfilters triggeren op dat woord. Gezien ik in Outlook de regel “ongewenste post definitief verwijderen” had opstaan, ontving ik dus nooit zijn mailtjes!
    Gevolg: ik laat die ongewenste post nu maar afvloeien in een apparte folder “rommel”, met dan weer als gevolg dat ik mails over leningen, beleggingen, viagra en erger, toch nog onder ogen krijg.
    En maar goed ook. Onlangs kreeg ik een uitnodiging voor het toneelstuk “Une liaison pornographique” van het Arsenaal (het vroegere MMT), waar buiten in de titel geen porno in voorkomt overigens, maar ik moest het mailtje toch uit die rommelhoop opvissen. Bovendien worden die mails uiteraard verstuurd met een verzendlijst, maak daar maar eens een goede filter voor…
    De enige betrouwbare methode is naar mijn mening dan ook degene die Jozef aangeeft: visueel. Zelfs al zou die wiskundige benadering een erg betrouwbare filter blijken, dat onbehaaglijke gevoel zal hij toch nooit volledig kunnen wegnemen…

  3. Ik ben ook altijd voorzichtig geweest met het achterlaten van mijn e-mailadres, maar na bijna 15 jaar internetten (nog van voor de tijd dat het algemeen beschikbaar was) zit ik nu toch in genoeg databases met mijn normale e-mailadres om vaak spam te krijgen. Het is slechts een kwestie van tijd… en dat kun je wellicht ook in een wiskundige formule gieten.

  4. ’t is wel echt een HOT topic, he? Ik moet zeggen dat ik tot op heden eigenlijk weinig of geen spam gestuurd krijg. Ik laat dan ook niet mijn e-mailadres “rondslingeren” op eender welke (dubieuze) site. Ik moet daar wel bij toegeven dat ik mij ook terdege bewust ben van de eventuele gevolgen ervan.
    Maar blijkbaar is het gros van de e-mailgebruikers zich NIET bewust van het feit dat niet elk in te vullen e-mailveld even mooie bedoelingen heeft.

Comments are closed.