Ga naar inhoud

Met CRE blok garbagetekst detecteren


anoniem

Aanbevolen berichten

Wie heeft er voor mij een opzetje of een idee hoe met CRE (Common Regular Expression Operators) een filter op te zetten die blokken met garbagetekst detecteerd zoals hieronder staat.....Dit om een filter in de body van email spam te laten vinden. formant cartwheelscornful alkene protrusivetyson dictatorial backgroundindwell serviceman shortagesideboard apportion calibrateozark yucatan toemedusa shea autopsyohmmeter log citroenconifer meteoric secretepeaky numeral packagesummation crabapple holmesboise agave shrillycatnip malign avocationblacken mullen broadloomocarina annex storeroombasidiomycetes soothsay binghamdivisive dowry cornflowerargus cachalot nimbussouthern courteous tanagerchiton patron spinforgiven scrounge resincoconut biology wifedungeon indecisive mccrackenproust dade ironwoodfurl neuron concussionreleasable alloy decaturinterpol accommodate dinnerwareduly teddy journalcriteria tin augmentdiversify ramsey melvincave hutchins sierrafain dirge achingmidscale bayed nihoffset brotherhood r'sguilford gatlinburg mittgoucher mckay padlockrickshaw cane sluggingtemplate mig bespokecomplex
Link naar reactie
de beste indicatie dat het om zo'n lap garbagetekst gaat lijkt mij het feit dat er geen leestekens, zoals punten of komma's instaan. Hoewel het me lastig lijkt om te bepalen om de hoeveel woorden een leesteken zou moeten staan, maar daar zou je een striktheidsoptie aan kunnen hangen. het zou dus zoiets zijn als een woord, gevolgd door een spatie (of het einde van de zoekstring)en dat dan een x aantal keer om te bepalen of het om spam gaat. Een stuk van 40 woorden zonder leestekens heeft een goede kans spam te zijn, al is het natuurlijk nooit met zekerheid te zeggen, er zijn genoeg mensen die te weinig leestekens gebruiken. Je zou ook nog kunnen kijken of er newlines tussen staan, aangezien dat minder waarschijnlijk is bij spam. Ik had eerst [code:1:2ec2677870]/(\b\w+\b\s+){40,}/[/code:1:2ec2677870] bedacht, maar in jouw voorbeeld staat toch stiekum een leesteken. Misschien is het handig om wel een paar leestekens die binnen woorden voorkomen wel toe te staan: [code:1:2ec2677870]/(\b[\w\'\"-]+\b\s+){40,}/[/code:1:2ec2677870] \s+ zou je nog kunnen vervangen door (\s+|\n?) als je toch newlines binnen zo'n blok wilt toe staan
Link naar reactie

Om een reactie te plaatsen, moet je eerst inloggen

Gast
Reageer op dit topic

×   Geplakt als verrijkte tekst.   Herstel opmaak

  Er zijn maximaal 75 emoji toegestaan.

×   Je link werd automatisch ingevoegd.   Tonen als normale link

×   Je vorige inhoud werd hersteld.   Leeg de tekstverwerker

×   Je kunt afbeeldingen niet direct plakken. Upload of voeg afbeeldingen vanaf een URL in

  • Populaire leden

    Er is nog niemand die deze week reputatie heeft ontvangen.

  • Leden

    Geen leden om te tonen

×
×
  • Nieuwe aanmaken...