Stel, je bent al jaren lang aan het bloggen of anderszins aan het publiceren. Je bent bijvoorbeeld een columinst voor de krant of een auteur met vele boeken op haar naam. Bereid je dan maar voor op een nieuw scenario: binnenkort kan jouw unieke stijl niet alleen nagebootst worden, maar ook herkend.
Zoals je misschien weet is een systeem als ChatGPT gebaseerd op een LLM, een large language model.
Dat bestaat uit een AI-systeem dat uit belachelijk grote hoeveelheden online teksten een database heeft opgebouwd. Die wordt gebruikt als ’trainingsdata’ op basis waarvan het systeem leert voorspellen welke woorden bij elkaar horen.
Als je chatGPT een vraag stelt, bestaat het antwoord uit de meest plausibele combinatie van woorden die het systeem kan voorspellen. Op basis van die miljoenen (?) pagina’s webteksten die het systeem ‘geschraapt’ heeft.
Zonder toestemming.
Maar dat is misschien nog niet het ergste.
We know who you are
In de podcast Dithering, een podcast van tech analist Ben Thompson, kwam een raar fenomeen ter sprake: chatGPT kon zijn stijl herkennen.
Schijnbaar had iemand drie alinea’s van een van zijn recente teksten door ChatGPT gehaald en gevraagd door wie die alinea’s waren geschreven. En het systeem kon dat herkennen (of eigenlijk: voorspellen):
Het opmerkelijke is niet alleen dat het systeem weet wie de tekst geschreven heeft – en dat de trainingsdata die GPT-4 heeft gevoed kennelijk de teksten van Ben heeft bevat (anders kon het deze stijl niet duiden).
Het opmerkelijke is dat dit systeem, dat getraind is met teksten die tot en met 2021 van het web geschraapt zijn, toch de stijl van de auteur herkent in teksten uit 2023.
Je kunt zeggen: wauw!
Maar ik zeg: brrr.
Technologie achterhaalt anonimiteit
In gesprekken met mensen over ChatGPT en generatieve AI, merk ik dat vrijwel niemand mijn zorg als blogger en auteur begrijpt.
Maar laten we eerlijk zijn: vrijwel niemand die ik spreek heeft een website met meer dan 2400 pagina’s tekst uit eigen hand online staan. En daarnaast ook nog eens duizenden tweets, Instagramberichten en LinkedIn posts gepubliceerd.
Niet om het een of ander, maar ik heb online een enorm gedachtegoed staan. Niet dat ik er van uitgang dat iemand het leest. Maar het staat er wel, in de publieke ruimte.
Dat betekent dat ik heb ervaren wat het is om publiekelijk je gedachten te delen, jaren en jaren lang. Om gevonden te worden in zoekmachines door mensen die antwoorden zoeken (maar je naam niet kennen). Om je geld te verdienen met je schrijfstijl (boeken, blog, social media berichten, nieuwsbrieven).
Het is een fundamentele shift, als wat je dacht dat jou uniek maakte door een gratis systeem gratis en zonder toestemming gekopieerd kan worden, voor en door wie dat maar wil. Als de technologie iets dat belangrijk voor je was – je authenticiteit – doet verdwijnen.
En het betekent feitelijk ook nog eens dat je eventuele anonimitiet verdwijnt.
(nogmaals: ik heb gelukkig niet stiekem een anoniem blog of Instagramaccount)
Technologie zorgt voor een situatie die ondenkbaar is en die we niet hebben kunnen voorzien op het moment dat we besloten tot een bepaalde koers.
Dat zag je met de anonieme of geheime Instagram accounts (‘finsta’s’) die plotseling werden aanbevolen door Instagram onder de vriendenkring van de eigenaren van die accounts.
Dat zag je met spermadoneren die dachten dat hun biologische kinderen hen nooit zouden kunnen ontdekken (en/of waarvan de ouders dachten dat de herkomst van hun kineren altijd geheim zou blijven). En die nu gevonden worden via commerciële DNA-databases.
Dat zie je aan de manier hoe TikTokkers deze mevrouw uitdagen om achter hun persoonsgegevens te komen met als startpunt hun anonieme TikTok accounts (hint: ze heeft ze zo gevonden).
De techniek kan soms onrechtvaardige situaties oplossen en rechtzetten.
Maar de techniek kan ook ongewenste gevolgen hebben.
Wat is daar nou zo erg aan?
Mijn blog bestaat uit duizenden pagina’s aan tekst. Mijn tekst. Mijn ideeën. Mijn gedachten. Mijn tijdsinvestering. Mijn intellectuele eigendom. Mijn positie in de zoekmachines.
Die heb ik altijd gratis en voor niets met de wereld gedeeld. Wie de moeite nam om mij te zoeken, kon er kennis van nemen.
Het idee dat de hele wereld – iedereen die het geld heeft en de computercapaciteit – mijn blog kan scrapen om een systeem te trainen om teksten te herkennen en te genereren, is al vrij irritant. Omdat ik er niets over te zeggen heb en niet kan bewijzen dat mijn blog als input is gebruikt. Laat staan dat ik deel in de opbrengsten van dat systeem.
Maar dat mijn gratis gescrapte content dan ook nog gebruikt kan worden om mijn schrijfstijl overal te herkennen, zelfs als ik ergens anoniem zou publiceren of reageren; en iets te genereren in mijn stijl … dat is toch wel beklemmend te noemen.
Misschien dat je dat alleen begrijpt als je iets te verliezen hebt.
Dubbel
Ik zit er dubbel in, natuurlijk. Ik heb oog voor zowel de kansen als de bedreigingen van AI, inclusief generatieve AI. Moet ook. Is mijn werk.
En dat is ook echt zo: ik zie ze allebei, die kansen en die risico’s. Daarom ben ik dat werk uberhaupt gaan doen.
Maar toen ik dat verhaal van Ben hoorde, schrok ik.
Als ik heel eerlijk ben zou ik deze hele website on-scrape-baar willen maken. Met terugwerkende kracht.
Ook al is dat misschien niet sociaal.
En ook al gun ik de wereld goede, mensgerichte, ethisch ingerichte AI-systemen die fantastische dingen kunnen met al die (Nederlandstalige) LLM’s.
Dubbel, is het.
- Vrij zijn van verandering - 26 maart 2025
- Blog of column? Over wat je wel en niet mag bloggen van jezelf - 24 maart 2025
- Raar - 23 maart 2025
Een tijdje geleden moesten we ons nog druk maken over deep fake. Iets dat handige Harry’s ook al zelf konden met wat knippen en plakken in fotobewerkingsprogramma’s.
Een jaar of 5 geleden had ik uitgevist waar een anonieme blogster woonde. Ze had een foto geplaatst van haar achtertuin met rondom een hoge schutting. Daar was een dakkapel van de achterburen op te zien. Dergelijk type dakkapel ken ik hier maar in 1 buurt. Met de Google-luchtfoto’s had ik binnen notime haar straat en huisnummer gevonden. Ik heb dat ook wel eens gedaan voor iemand die bij mij anoniem reageerde met een opvallend taalgebruik. Het kan volgens mij dus allemaal al, maar dergelijke software maakt het alleen eenvoudiger en toegankelijker voor een grotere groep.
Zelf blog ik al jaren anoniem en ik zou het wel grappig vinden als ChatGPT daar mij achternaam aan kan koppelen. Voor alle duidelijkheid; ik kan het wel. Anderen is het nog niet gelukt.
Mij gaat het er om dat ik op het web m’n ei kwijt kan en dat sommigen dat ei oppakken. Prima als de verspreiding van mijn eieren beter gaat door zoiets. De opbrengst van die eieren wilde ik toch al niet. Dan was ik wel aan betaalde nieuwsbrieven begonnen. 😉
Haha, dat is een goede relativering! Veel kon natuurlijk ook al, als je maar technisch onderlegd was. Ik weet ook niet waarom het me zo dwars zit. Vooral, denk ik, omdat die LLM’s gebouwd worden met onze input, zonder toestemming, zonder deling in de opbrengsten, zonder credits en zonder dat er een duidelijke ethische code gehanteerd wordt (voor zo ver we weten).
Maar je hebt gelijk. Mij raakt het feitelijk niet echt. En zo bijzonder is mijn blog nou ook weer niet, dus de kans op fake is niet zo groot 🙂