Overleg Etymologiewiki:Spam
Spam op de Etymologie-Wiki
Op dit moment zijn er meer dan 1600 pagina's op deze wiki die snood gebruik maken van de vrije toegang op deze site. In een korte mailwisseling met Nicoline wees ik erop dat je rechtstreeks in de database kunt werken en daar de gewraakte panina's rucksichtloos kunt deleten. Dat is wat ik eerder heb gedaan met een aantal wiki-sites die ik zelf in eigen beheer had. De probleem daarbij is dat je wel heel goed naar het datamodel moet kijken omdat er allerlei onderlinge relaties tussen de diverse tabellen onderhouden worden. Het werk is zo wel te automatiseren, maar nog niet bijzonder gemakkelijk.
Kort daarna ontdekte ik dat MediaWiki's tegenwoordig (?) over een API beschikken die geautomatiseerd onderhoud enorm veel makkelijker maken. Daarmee heb ik een simpel programma (een bot) gemaakt dat pagina's scoort op een aantal kenmerken:
- gebruikersnaam volgt een kenmerkend patroon (AaaaBbbb1234)
- er zit een getal in de gebruikersnaam
- gebruiker is geblokkeerd
- pagina is aangemaakt binnen 15 seconden nadat de gebruiker is geregistreerd
- de eerste lengte van het artikel is meteen meer dan 5000 tekens
- de titel bevat meer dan 5 woorden
- relatief veel vreemde tekens in de titel (geen latijs schrift dus)
- de taal is niet Nederlands (automatisch gedetecteerd maar niet perfect)
- de pagina was al handmatig door mij gemarkeerd
In de praktijk blijkt dat het filter vrij zuiver werkt als ik het criterium leg bij '2 of meer van deze stigmata'. De aldus verkregen lijst is hier te zien: Gebruiker:WdeWinter/spamArtikelen.
Graag reageren, vooral als ik fout-positieven over het hoofd heb gezien (=goede bijdragen ten onrechte aangemerkt als spam). Als er een aantal pagina's ten onrechte door de mazen glippen is dat minder erg; die kunnen later nog verwijderd worden.