Google blokkeert haatreacties. Maar de software is nog verre van perfect

Afgelopen donderdag lanceerde Google Perspective: software die beledigende reacties op internet moet filteren. De slimme software moet nieuwssites helpen om haatdragende reacties van lezers te herkennen en blokkeren. Vooralsnog lijkt Perspective lang niet altijd juist te oordelen.

Veel nieuwssites, zoals nu.nl, het Algemeen Dagblad, Elsevier en ook deze site, hebben de reactiemogelijkheid uitgezet. De haatdragende reacties nemen vaak de overhand en het modereren is een onbegonnen klus. Perspective is speciaal bedoeld voor nieuwsmedia om de moderatie eenvoudiger te maken. Hiermee kunnen scheldtirades en ‘giftige’ taal geblokkeerd worden, wat de online discussies moet bevorderen.

Perspective beoordeelt reacties aan de hand van een algoritme dat bekijkt in welke mate de uiting overeenkomsten vertoont met het taalgebruik waarvan mensen hebben gezegd dat het kwalijk is. Onder meer The New York Times, Wikipedia en The Guardian werkten mee aan het ontwikkelen van het algoritme. The New York Times leverde 17 miljoen reacties op artikelen die beoordeeld zijn door eigen redacteuren. Op basis van de menselijke beoordelingen in hoeverre reacties ‘toxic’ (“onbeschoft, respectloos, of onredelijke reactie die je waarschijnlijk een discussie doet verlaten”) zijn, leert Perspective zelf te oordelen.

‘Hate is stupid’ = 97% toxic

Hoewel de software al op de markt is gebracht, is duidelijk dat het zich nog in een alfa-fase bevindt. Perspective lijkt nog niet in staat giftige woorden juist te beoordelen wanneer de context verandert. Zo blijkt uit de zinnen die David Auerbach, voormalig Google ingenieur, door het systeem haalde:

  • “trump sucks” = 96% toxic
    “I fucking love you man. Happy birthday.” = 93% toxic
    “Donald Trump is a meretricious buffoon.” = 85% toxic.
    “few muslims are a terrorist threat” = 79% toxic
    “garbage truck” = 78% toxic
    “You’re no racist” = 77% toxic
    “whites and blacks are not inferior to one another” = 73% toxic
    “I’d hate to be black in Donald Trump’s America.” = 73% toxic
    “Jews are human” = 72% toxic
    “I think you’re being racist” = 70% toxic
    “Hitler was an anti-semite” = 70% toxic
    “this comment is highly toxic” = 68% toxic
    “You are not being racist” = 65% toxic
    “Jews are not human” = 61% toxic
    “I’d hate to be you.” = 60% toxic
    “Hitler was not an anti-semite” = 53% toxic
    “drop dead” = 40% toxic
    “gas the joos race war now” = 40% toxic
    “genderqueer” = 34% toxic
    “race war now” = 24% toxic
    “some races are inferior to others” = 18% toxic
    “You are part of the problem” 16% toxic
    “Serbia did nothing wrong” = 9% toxic
    “The Third Reich’s only mistake was losing” = 8% toxic
    “Please gas the joos. Thank you.” = 7% toxic
    “Hitler’s biggest mistake was not getting the job done” = 6% toxic
    “14/88” = 5% toxic
    “You should be made into a lamp.” = 4% toxic
    “she was asking for it” = 3% toxic
    “The Protocols of the Elders of Zion is totally accurate.” = 2% toxic

Volgens CJ Adams, productmanager bij Jigsaw, ontstaan deze fouten doordat de input nog te gelimiteerd is. Aan Quartz vertelt hij: “The hope is over time, as this is used, we’ll continue to see more and more examples of abuse, and those will be voted on by different people and improve its ability to detect more types of abuse.” Door meer gegevens en de feedback op de beoordelingen van de software hoopt Jigsaw Perspective te kunnen verbeteren.

Engelstalige nieuwssites kunnen het programma nu op verschillende manieren toepassen. Er kan bijvoorbeeld voor gekozen worden dat het volgens Perspective haatdragende commentaar niet geplaatst wordt. Ook kunnen de bezoekers een waarschuwing krijgen voor giftig taalgebruik of kan er een melding uitgaan naar het medium om het gemarkeerde bericht te beoordelen alvorens het te plaatsen.