Innledning
For trening av ChatGPT bruker OpenAI (eieren av ChatGPT) en såkalt “web crawler” kalt GPTBot. Dette fungerer vet at GPTBot samler inn data fra nettsteder, og analyserer disse for å oppnå en bedre modell for kunstig intelligens. Også andre tilbydere av KI-tjenester, søkemotorer o.l. “crawler” nettsider for å forbedre sine egne tjenester.
Grunner til å ville hindre crawling kan være relatert til personvern, sikkerhet og/eller eierskap til data. Særlig i forbindelse med ChatGPT og andre typer generativ KI kommer også spørsmål om etterligning på spissen. Eksempelvis hvorvidt ChatGPT kan lære seg stilen til en forfatter, blogger e.l. (tone of voice), og deretter muliggjøre at andre plagierer dem, eller i alle fall får en form for urimelig fordel.
Frempek: Ja, det er mulig å hindre at ChatGPT kan utnytte ditt nettsted – gjennom å justere “robots.txt”-filen din.
Hva er crawling?
Crawling av nettsider utføres av søkemotorer og andre “roboter”/”boter” for å samle inn data fra nettsteder og analysere dem for å oppnå bedre søkeresultater eller trene KI-modeller.
Crawling utføres ved å følge lenker fra en side til en annen, og her er det et viktig poeng å være klar over at nettsider har en fil kalt “robots.txt”, som inneholder regler for nettopp crawing av boter.
Robot.txt er altså en fil som forteller søkemotorer og andre roboter hvilke sider de kan og ikke kan crawle, og denne filen kan endres slik at preferansene viser at eieren av nettstedet ikke vil tillate OpenAI, eller andres boter, å crawle nettstedet.
Merk at selv om man endrer den nevnte robots.txt-filen har man ingen garanti for at dataene dine ikke vil bli brukt til å trene KI-modeller i fremtiden. Det kan jo være mulig å crawle nettstedet, selv om du i robots.txt-filen har gitt uttrykk for at du ikke ønsker dette. Hvor du har behov for sterkere vern enn som så bør du vurdere andre metoder for å beskytte nettsiden din, som å bruke passordbeskyttelse eller blokkere indeksering av visse deler av nettsiden – men det skal vi ikke gå nærmere inn på her.
Hvordan endrer man robot.txt-filen slik at OpenAI eller andre ikke kan crawle nettstedet ditt?
Trinn 1: Åpne robots.txt-filen på nettsiden din
Først må du åpne robots.txt-filen på nettsiden din. Hvis du bruker et CMS, kan du sannsynligvis finne en robots.txt-generator i administrasjonspanelet. Se eks. nærmere her.
Hvis du ikke har en robots.txt-fil, kan du opprette en ved å følge disse trinnene:
- Åpne en teksteditor (for eksempel Notepad på Windows eller TextEdit på Mac).
- Lagre en ny fil med navnet “robots.txt”.
Trinn 2: Legg til tekst for å hindre crawling
For å blokkere alle, blant annet OpenAI, fra å crawle nettsiden din, kan du legge til følgende to linjer i robots.txt-filen din:
“User-agent: *
Disallow: /”
Dette vil forby alle roboter å crawle alle sider på nettstedet ditt. Dette vil også kunne hindre boter som sørger for “ranking” i søkemotorer, så det kan være greit å heller spesifisere akkurat hvilke boter som ikke skal ha lov til å crawle nettstedet.
Trinn 3: Legg til OpenAI i robots.txt-filen
Hvis du bare vil blokkere OpenAI fra å crawle visse sider, kan du bruke følgende linjer:
“User-agent: OpenAI
Disallow: /”
Dette vil forby kun OpenAI-roboter å crawle alle sider på nettstedet ditt. Tilsvarende kan naturligvis justeres til å gjelde andre konkrete boter.
Trinn 4: Lagre og last opp filen
Når du har lagt til linjene for å blokkere OpenAI i robots.txt-filen, må du lagre filen og laste den opp til nettsiden din. Hvis du allerede har en robots.txt-fil, kan du bare legge til linjene for å blokkere OpenAI og lagre filen.
Konklusjon
Et voila! Ved å følge trinnene ovenfor vil du (i alle fall i utgangspunktet) hindre OpenAI eller andre å crawle nettstedet ditt.