Over Bayesiaanse Technieken

MailWasher gebruikt Bayesiaanse statistieken bij het bepalen of een E-mail al dan niet spam is. Deze statistieken worden opgebouwd gedurende een trainingsperiode, waarbij het programma "leert" van de beslissingen die de gebruiker (jij dus) neemt bij het beoordelen van zijn of haar mail.

Nadeel van deze Bayesiaanse technieken is, dat er een redelijke trainingsperiode nodig is voordat ze werken. Pas als de gebruiker een flinke hoeveelheid mail als spam of goed heeft beoordeeld, kan een betrouwbaar resultaat worden verwacht. Door op het "duim omhoog" of "duim omlaag" pictogram in de kolom "beoordeling" te klikken, train je het Bayesiaanse filter. Onder Instellingen >> SpamGereedschap >> Zelflerend filter kun je een aantal instellingen aanpassen aan je eigen behoefte.

Hier volgt een sterk versimpelde uitleg over de werking van Bayesiaanse technieken binnen MailWasherPro. Als je meer wilt weten, zoek dan eens op internet naar "Bayesiaans".... ;-)

De Bayesiaanse "engine" (dat is de softwaremodule die binnen MailWasher wordt gebruikt) is in de eerste plaats ontworpen om statistisch te bepalen of een E-mail als spam (=waarde 1) of als goed (=waarde 0) moet worden beschouwd. De waarde 0,5 geldt logischerwijs als neutraal of onbeslist.

Om een bericht te kunnen classificeren, wordt de inhoud opgeknipt in delen, die "tokens" worden genoemd. Een token kan bestaan uit één enkel woord, maar ook uit een zinsdeel.

Vervolgens wordt in drie speciale referentietabellen bijgehouden, welke tokens er voorkomen in berichten die de gebruiker heeft beoordeeld: één tabel voor de tokens uit "goede" berichten, één tabel voor de tokens uit "spam", en één tabel waarin wordt bijgehouden hoe vaak bepaalde tokens door de gebruiker als spam of goed zijn beoordeeld.

In deze laatste tabel krijgen de tokens een waarschijnlijkheidsscore, afhankelijk van het aantal keren dat ze zijn waargenomen in goede mail en hoe vaak in spam. Het token "Viagra" zal in de meeste gevallen zal al snel als "nogal spammig" worden beschouwd en een waarde krijgen van bijvoorbeeld 0.821818 terwijl het token ".HTML" min of meer neutraal beoordeeld zal worden, met een score van rond 0.5

Tokens die het verst van de als neutraal beschouwde 0,5 scoren, krijgen het label "bijzonder interessant".

Van nieuw binnengekomen berichten wordt gecontroleerd, welke tokens daarin voorkomen. De 20 interessantste tokens worden er vervolgens uitgelicht; naar aanleiding daarvan wordt berekend hoe dit bericht scoort op de waarschijnlijkheidsschaal van goed tot spam. MailWasher rekent de uitkomst hiervan om naar een waarde die kan worden gebruikt om tesamen met de andere SpamGereedschappen tot een totaal- spamscore te komen.

Als de Bayesiaanse gevoeligheid op "laag" wordt ingesteld:

Wordt de invloed van het Bayesiaanse filter beperkt en zal de Bayesiaanse score liggen tussen de -99 (spam) en +99 (goed).

Als de Bayesiaanse score tussen de -50 en + 50 ligt, en de totaalscore van alle spamgereedchappen bij elkaar een uitkomst heeft buiten dit bereik, zal MailWasher de waarschijnlijkheidsscore (zie hierboven) van de gevonden tokens bijstellen en daarvan dus ook weer "leren".

Als de Bayesiaanse gevoeligheid op "hoog" wordt ingesteld:

Wordt de invloed van het Bayesiaanse filter niet beperkt en zal de Bayesiaanse score liggen tussen de -149 (spam) en +149 (goed).

Als de Bayesiaanse score tussen de -75 en + 75 ligt, en de totaalscore van alle spamgereedchappen bij elkaar een uitkomst heeft buiten dit bereik, zal MailWasher de waarschijnlijkheidsscore (zie hierboven) van de gevonden tokens bijstellen en daarvan dus ook weer "leren".

Minimale woordlengte - Stelt het minimum aantal letters voor een woord (token) in, voordat dit meetelt bij bij de Bayesiaanse evaluatie. Algemene woorden als "en", "of", "voor" of "je" kunnen zo worden uitgesloten. De standaardwaarde is 4.

Maximale woordlengte - Stelt het maximum aantal letters voor een woord (token) in, om nog mee te mogen tellen bij de Bayesiaanse evaluatie. De standaardwaarde is 30; een hogere waarde kan de evaluatie al snel vertragen.

Negeer hoofdletters - Standaard staat deze optie aan. MailWasher negeert dan hoofdletters bij het evalueren van woorden; 'Aap' wordt daardoor bijvoorbeeld hetzelfde gezien als 'aap'.

Schakel deze optie uit als je wel onderscheid wilt maken tussen hoofd- en kleine letters.

Gewicht goed token - Deze instelling geeft meer gewicht aan tokens (woorden of zinsdelen) die geacht worden goed te zijn en vermindert daarmee de kans dat berichten met een gemengde inhoud als spam worden geclassificeerd.

De standaardwaarde is 2,0; deze verdubbelt het "gewicht".

Minimum voor meetelling - Stel hier in hoe vaak een bepaald woord of token, verdeeld over verschillende door de gebruiker beoordeelde mails, minimaal moet zijn aangetroffen voordat dit meetelt voor de beoordeling.

Bij een hogere instelling zal een woord later meetellen en bij een lagere instelling juist eerder. Standaard instelling is 5 maal.

ZekerSpam score - Als een E-mail nul goede tokens en meer dan het hier gespecificeerde aantal slechte tokens bevat, zal MailWasher het bericht definitief als spam aanmerken en de Zeker Spam Score melden, ongeacht de Bayesiaanse 'waarde'.

NB: Als hier een negatief getal wordt ingesteld, wordt deze optie uitgeschakeld; standaard is -1 (dus uitgeschakeld). Om te voorkomen dat in het begin veel goede E-mail als spam wordt gemarkeerd, kan deze standaardwaarde het beste pas na een ruime "leerperiode" worden verhoogd; '10' is dan een gebruikelijke waarde.

Interessante woorden totaal - 'Interessante woorden' zijn woorden of tokens, waarvan het filter al eerder heeft geleerd dat ze 'goed' of 'slecht' zijn. Stel hier het aantal 'interessante woorden' in, dat beoordeeld moet worden bij de evaluatie van E-mail. De standaard instelling is 20, omdat een hogere instelling de Bayesiaanse evaluatie tijdens de 'leerperiode' te veel zou gezag geven.

Zodra er meer E-mail beoordeeld is, kan deze waarde worden aangepast. De ervaring leert, dat een instelling tussen de 15 en 25 te controleren 'interessante woorden', goede resultaten geeft.

Tweaks voor de nerds:

Hele woorden kunnen, met een tekst- editor, handmatig worden uitgesloten via het bestand 'mwp_exw.dat'. Woorden, waarop je juist altijd wilt controleren, onafhankelijk van de instellingen hierboven, kunnen op dezelfde manier handmatig worden ingesloten bij de evaluatie via het bestand mwp_inw.dat.

Beide bestanden zijn standaard terug te vinden is in de map C:\Documents and Settings\****\Application Data\Firetrust\MailWasher\cache. ( vul bij **** jouw inlognaam in) op je computer. Woorden kunnen ook worden omgezet naar een ander woord via het bestand 'mwp_conv.dat' in dezelfde map; op de volgende wijze:

v1agra viagra

\/iagra viagra

/iagra viagra

vi@gra viagra

/i@gra viagra

Hiermee laat je al deze varianten omzetten naar het woord "viagra".

Waarschuwing: Wijzig deze bestanden alleen handmatig als je absoluut zeker weet wat je doet; maak altijd vooraf een backup!

Andere bestanden:

mwp_nswl.dat - De tabel met "goede" tokens; deze wordt iedere keer na het wassen van de mail opnieuw opgebouwd.

mwp_swl.dat - De tabel met "spammige" tokens; ook deze wordt iedere keer na het wassen van de mail opnieuw opgebouwd.

mwp_pmap.dat - Hierin wordt de waarschijnlijkheidsscore bijgehouden

MWP.db3 - De centrale database van MailWasher met daarin de witte lijst, de zwarte lijst, gewiste mail enzovoort.

Op vrijblijvende basis vertaald uit het engels door Racker, met dank aan Peter V en Tony K. Deze vertaling dient uitsluitend ter ondersteuning; hieraan kunnen geen rechten worden ontleend. Klik hier voor de originele engelse tekst.