Overleg Etymologiewiki:Spam
Spam op de Etymologie-Wiki
Op dit moment zijn er meer dan 1600 pagina's op deze wiki die snood gebruik maken van de vrije toegang op deze site. In een korte mailwisseling met Nicoline wees ik erop dat je rechtstreeks in de database kunt werken en daar de gewraakte panina's rucksichtloos kunt deleten. Dat is wat ik eerder heb gedaan met een aantal wiki-sites die ik zelf in eigen beheer had. De probleem daarbij is dat je wel heel goed naar het datamodel moet kijken omdat er allerlei onderlinge relaties tussen de diverse tabellen onderhouden worden. Het werk is zo wel te automatiseren, maar nog niet bijzonder gemakkelijk.
Kort daarna ontdekte ik dat MediaWiki's tegenwoordig (?) over een API beschikken die geautomatiseerd onderhoud enorm veel makkelijker maken. Daarmee heb ik een simpel programma (een bot) gemaakt dat pagina's scoort op een aantal kenmerken:
- gebruikersnaam volgt een kenmerkend patroon (AaaaBbbb1234)
- er zit een getal in de gebruikersnaam
- gebruiker is geblokkeerd
- pagina is aangemaakt binnen 15 seconden nadat de gebruiker is geregistreerd
- de eerste lengte van het artikel is meteen meer dan 5000 tekens
- de titel bevat meer dan 5 woorden
- relatief veel vreemde tekens in de titel (geen latijs schrift dus)
- de taal is niet Nederlands (automatisch gedetecteerd maar niet perfect)
- de pagina was al handmatig door mij gemarkeerd
In de praktijk blijkt dat het filter vrij zuiver werkt als ik het criterium leg bij '2 of meer van deze stigmata'. De aldus verkregen lijst is hier te zien: Gebruiker:WdeWinter/spamArtikelen.
Graag reageren, vooral als ik fout-positieven over het hoofd heb gezien (=goede bijdragen ten onrechte aangemerkt als spam). Als er een aantal pagina's ten onrechte door de mazen glippen is dat minder erg; die kunnen later nog verwijderd worden.
WdeWinter (overleg) 25 apr 2026 22:51 (CEST)
wat nu te doen?
Ik kan als gewone gebruiker de pagina's niet verwijderen. Het enige wat ik ermee kan doen is de inhoud verwijderen en vervangen door het spam-sjabloon. Maar de titels zullen in de zoekresultaten blijven opduiken. De titel wijzigen heeft geen zin tenzij iemand een manier kent om de automatische aanmaak van doorverwijspagina's te voorkomen. Dus ofwel een van de sysops pakt dit verder op, ofwel ik krijg tijdelijk het recht toegekend om zelf de pagina's te deleten. Ik wacht een aantal dagen op jullie reacties.
Ik kan niet genoeg benadrukken dat het dweilen onder de waterval is, zolang de beveiliging niet geregeld wordt. Daar zijn tal van opties voor, gebruik die dan ook. Alleen al in de anderhalve dag dag ik mijn filter optimaliseerde zijn er alweer tal van nieuwe spam-pagina's bijgekomen. WdeWinter (overleg) 25 apr 2026 22:51 (CEST)
spookgebruikers
De wiki kent op dit moment bijna tienduizend 'gebruikers'. Een handvol daarvan is legitiem. De anderen zijn aangemaakt om de spam-pagina's een ghost-writer toe te kennen (spoken) of hebben helemaal nooit iets geproduceerd (een verrassend groot aantal: zombies).
Google raadt me aan om voor dit doel de extensie userMerge te gebruiken: alle troep in een account samenvoegen en dat account vervlgens te verwijderen. ik heb daar zelf geen ervaring mee:
Dit is de veiligste manier om accounts echt uit de user-tabel te krijgen zonder de database te beschadigen.
- Installeer Extension:UserMerge.
- Gebruik het meegeleverde onderhoudsscript deleteUsers.php (te vinden in de maintenance map van de extensie).
- Hiermee kun je via de opdrachtregel bulk-verwijderingen doen. Je kunt bijvoorbeeld alle gebruikers die aan een bepaald patroon voldoen samenvoegen naar één "Spam-container" account en de originelen wissen.