Kui oled kulutanud päevi ja tunde, kirjutades oma kodulehele põhjalikke tekste, teinud ise pildid ja pannud kokku hoolikalt läbimõeldud sisu, siis ühel hetkel võib tekkida põhjendatud hirm: mis siis, kui tehisintellekt (AI) näppab kogu sinu töö ja kasutab seda ilma luba küsimata?

Kõik ei tervitagi tehisintellekti tormilist arengut avasüli. On inimesi, kellel tekib selle suhtes hirm, sest nad ei tea täpselt, kuidas see töötab või milliseid tagajärgi võib endaga kaasa tuua. Küll kardetakse nii töökohtade kadumist, autoriõiguste rikkumist kui ka seda, et masinad pöörduvad meie vastu. Just teadmatus ja kontrolli puudumise tunne tekitavadki paljudes ebakindlust.

Seda muret ei tohi alahinnata. Tehisintellekti mudeleid treenitakse tohutul hulgal andmetel, mis on pärit just avalikust internetist, sealhulgas blogidest, artiklitest, firmade kodulehtedelt ja e-poodide tootekirjeldustest. See aga tähendab, et sinu loodud originaalsed tekstid või pildid võivad sattuda mudelite õppeandmete hulka, ilma et keegi selleks nõusolekut küsiks.

Nii kerkib küsimus: kuidas kaitsta oma sisu ja autorlust, et tehisaru seda ära ei näppaks?

Sellest räägib täpsemalt Kodulehta eestvedaja Reet Tarang.

Kas AI varastabki mu sisu?

Tehisaru mudelid õpivad sageli avalikult kättesaadavatest andmetest ning veebilehtede sisu on osa sellest tohutust infomassist. Kuid oluline on mõista: AI ei "röövi" sinu kodulehte, vaid kasutab olemasolevat internetti erinevate mustrite äratundmiseks.

Teisest küljest ei tasu unustada, et kui tehisintellekti targalt kasutada, võib see toetada sinu äri nähtavust ja kasvu, näiteks soovitades sinu pakutavaid teenuseid vastuste kaudu küsijatele või aidates sul ise kiiremini uusi ideid genereerida. Kindlasti peaksid end ka selle teise küljega kurssi viima.

Selle postituse eesmärk ongi anda praktilisi ja rakendatavaid nõuandeid, kuidas kaitsta oma kodulehte AI eest nii, et sinu töö püsiks sinu kontrolli all ja samas oleks tehisintellektist kasu.

Miks inimesed kardavad AI-d?

Enne kui küsid endalt, kuidas kaitsta oma kodulehte AI eest, tasub korraks mõelda: mida ma tegelikult kardan? Kas mu kodulehel on midagi, mille puhul ma ei taha, et see laiemalt rändama läheks?

Illustratsioon: BrownMantis, Pixabay

1. hirm: kontrolli kaotamise tunne. Üks suurimaid hirme on mõte, et sinu loodut kasutatakse ilma sinu teadmata või loata.

Arvesta, et kui midagi on internetis avalik, saab seda kasutada nii inimene kui ka tehisintellekt. Tegelikult ei ole vahet, kas su kodulehte loeb konkurent, kopeerija või tehisaru, kõik võivad sinu mõtteid sealt kasutada ja omal moel edasi anda.
Tõeline probleem tekib aga siis, kui jagatakse tundlikke või salajasi andmeid. Ärisaladusi, klientide isikuandmeid või muud delikaatset infot ei tohikski kodulehel avalikustada. See on osa küberhügieenist ning reguleeritud isikuandmete kaitse seadusega (GDPR).

Sega osa hirmust pole seotud mitte AI-ga, vaid hoopis küberhügieeniga.

2. hirm: koduleht jääb AI varju. SEO (otsingumootori optimeerimine) on paljude ettevõtete jaoks oluline, mis tähendab, et koduleht peab olema leitav, et kliendid jõuaksid teenusteni. AI tulekuga tekib aga siin uus hirm: kas inimesed enam üldse minu kodulehele jõuavadki, kui nad saavad vastuse juba otse AI vestlusaknast?

Näiteks kui kasutaja küsib ChatGPT-lt "mis on üheleheline koduleht", võib ta saada vastuse ilma, et peaks minema minu artiklit lugema. Samamoodi võib Google anda otsitulemustes esimesena tehisintellekti koostatud vastuse. See tekitab tunde, et orgaaniline liiklus veebi väheneb.

Tegelikult ei ole see olukord aga nii must-valge.

AI kasutajad, kes otsivad üldteadmisi, võivad tõesti leppida vaid vastusega tehisarult.

Kliendid, kes tahavad päriselt teenust kasutada, otsivad lõpuks ikkagi usaldusväärset allikat, kontaktinfot ja tõendeid kogemusest. Seda ei saa AI nende eest ära otsustada. Kui kasutaja esitab oma küsimuse piisavalt konkreetselt (näiteks „Leia mulle Tallinnas ettevõte, mis pakub auto kliimaseadmete täitmist“), siis mitmed AI tööriistad lisavad oma vastustele juba ka viiteid kodulehtedele, lahtiolekuajad, hinnakirja, juhised kohalejõudmiseks jne. Just sel juhul võib sinu koduleht hoopis esile kerkida ja tuua sulle positiivset nähtavust. Seega AI ei pruugi olla mitte ainult konkurent sinu veebiliiklusele, vaid ka uus kanal, mis aitab sinu sisu õigel hetkel õigete inimesteni viia.

3. hirm: plagiaat. kardetakse, et AI loob sinu töö põhjal midagi väga sarnast. Kuigi juriidiliselt ei saa tehisintellekti pidada autoriks (puuduvad autoriõigused), võib see siiski toota teksti, pilte või muid materjale, mis meenutavad liialt originaali. See jätab mulje, justkui oleks tegemist loata kasutamise või sisuliselt plagiaadiga.

See pole ainult teoreetiline probleem. Juba täna on maailmas käimas kohtuvaidlused, kus kirjanikud, kunstnikud ja fotograafid süüdistavad AI arendajaid autoriõiguste rikkumises. Näiteks New York Times esitas hagi OpenAI ja Microsofti vastu, väites, et nende artikleid on kasutatud ilma loata AI mudelite treenimiseks. Getty Images esitas aga hagi Stability AI vastu, sest AI mudel kasutas nende fotosid ilma loata ja isegi jättis mõnedele piltidele alles Getty vesimärgid.

Kohalik meedia ja loomekogukond on küll arutanud, et tehisaru võib "õppida" Eesti autorite loomingust (näiteks laulutekstidest, kunstist, ajakirjandusest), kuid ametlikke hagisid pole minu viimase teadmise järgi esitatud.

Loe selle kohta lisaks siit:

4. hirm: tehniline turvarisk. AI on võimeline analüüsima tohutul hulgal andmeid, sealhulgas nii kodulehtede struktuuri, koodi kui metainfot. See tähendab, et sama tehnoloogia, mis aitab turundajal konkurentide kodulehti uurida, võib sattuda ka pahatahtlike kasutajate kätte.

See ei tähenda, et iga tehisaru on automaatselt turvaoht, kuid risk seisneb selles, et ühed ja samad võimsad tööriistad on kättesaadavad nii headele kui halbadele kasutajatele.

Seepärast muutub aina olulisemaks elementaarne kodulehe turvalisus:

regulaarsed tarkvarauuendused (pluginate ja teemade värskendused)
tugevate paroolide kasutamine, kahefaktoriline autentimine
ligipääsude piiramine
turvapluginad, mis tuvastavad ebatavalise tegevuse ja panevad haavatavale kohale kiirelt turvapaiga (Näiteks Patchstack).

Mida teha, et oma kodulehte AI eest kaitsta?

Täielikku kaitset ei ole võimalik paraku kunagi tagada, kuid saad teha samme, mis vähendavad oluliselt riske ja annavad sulle asjade üle parema kontrolli.

1. Lisa oma veebilehele kasutustingimused. Paljud suured portaalid on juba selgelt välja toonud, et nende sisu ei tohi kasutada AI mudelite treenimiseks. Sa saad sama teha, lisades kasutustingimuste või privaatsuspoliitika lehele klausli, et sisu ei tohi kasutada AI treeninguks ilma loata.

Kuigi see ei pruugi muidugi tehniliselt AI-d peatada, kuid annab juriidilise aluse oma töö kaitsmiseks.

2. Autoriõiguse teade. Lisa oma veebisaidile selge autoriõiguse teade, et tehisarul oleks võimalik sinu sisu allikas tuvastada. Seegi ei takista AI-d, kuid annab sulle taas juriidilise aluse oma loomingu kaitsmiseks.

3. Kasuta robots.txt faili. Robots.txt on tekstifail, mis asub sinu veebilehe juurkataloogis. See annab robotitele juhiseid, milliseid lehti, pilte või faile nad tohivad ja milliseid ei tohi indekseerida. Kui sa tahad takistada tehisintellektil indekseerimast sinu veebilehel olevat sisu, siis saad oma kodulehe juurkausta lisada sellise robots.txt faili, mis keelab neil sellele ligi pääsemise.

Tuntumad sisuhaldussüsteemid (nagu WordPress) teevad selle faili juba sinu eest ära. Enda veebilehe praegust faili näed aadressil sinudomeen.ee/robots.txt.

Näide:

# Blokeerib OpenAI GPTBot AI roboti

User-agent: GPTBot

Disallow: /

# Blokeerib Common Crawl (CCBot), mida AI tihti treeninguks kasutab

User-agent: CCBot

Disallow: /

# Blokeerib Google Gemini / Vertex AI andmete kogumise (Google-Extended)

User-agent: Google-Extended

Disallow: /

# Blokeerib Anthropic Claude (AnthropicBot)

User-agent: anthropic-ai

Disallow: /

# Blokeerib Perplexity AI

User-agent: PerplexityBot

Disallow: /

# Blokeerib Stability AI pildimudelite andmekoguja

User-agent: StabilityAI

Disallow: /

See ei peata kõiki botte ehk tehisaru jaoks andmeid otsivaid roboteid, aga on siiski mõistlik samm selles suunas.

4. Lisa meta-tag. Mõned AI tööriistad arvestavad noAI meta-siltidega. Meta-tag noAI on loodud just selleks, et takistada tehisintellektil sisu treenimiseks kasutamist.

Kuid see pole siiski standardiseeritud lahendus, mis tähendab, et mitte kõik tehisintellekti ettevõtted peavad sellest kinni. Mõned suured tehnoloogiafirmad, nagu näiteks Google ja Microsoft, ignoreerivad seda märgendit täielikult. Sellepärast pole noAI märgendit alati otstarbekas kasutada.

Meta-tagid on peamiselt loodud selleks, et anda otsingumootoritele (nagu Google) juhiseid, kuidas lehte indekseerida ja kuvada, mitte selleks, et kontrollida andmete kogumist. Robotid, mis on loodud spetsiaalselt andmete kaevandamiseks, ignoreerivad tihti neid juhiseid. Sellepärast on vaja ka teisi kaitsemeetmeid.

5. Lisa piltidele vesimärk. Kui su koduleht sisaldab visuaale, lisa neile vesimärk või väikene logo. AI pildigeneraatorid võivad küll pilti kasutada, kuid vesimärk annab sulle võimaluse hiljem oma omandiõigust tõestada.

Automaatsed lahendused on selle jaoks ka olemas. WordPressi jaoks on olemas mitmeid pluginaid, mis lisavad piltidele automaatselt vesimärgi. Need on mugavad, sest sa ei pea iga pildiga eraldi tegelema, vaid plugin teeb kõik automaatselt sinu eest ära.

Üks selline populaarne lahendus on plugin nimega Image Watermark.

Käsitsi saab vesimärgi piltidele lisada samuti, kasutades näiteks Adobe Photoshopi või teisi pilditöötlusprogramme.

Kuigi vesimärgi lisamine on hea viis oma piltide kaitsmiseks, siis on oluline teada, et seegi ei anna 100% kaitset. Mõned andmete kaevandamisega tegelevad robotid on sedavõrd arenenud, et suudavad vesimärgi eemaldada, kuid see on siiski hea täiendus teistele kaitsemeetmetele.

Alternatiiv: muuda tehisaru enda turunduspartneriks!

Tehisintellekti treenimine on paratamatu. Parem on see oma kasuks pöörata, kui püüda seda takistada. Üks võimsamaid strateegiaid on tagada, et kui AI kasutab sinu sisu, siis viitab sinu brändile. See muudab tehisintellekti automaatseks turunduskanaliks, mis suunab potentsiaalseid kliente sinu veebilehele.

Illustratsioon: Mohamed Hassan, Pixabay

Kasuta oma sisus brändiga seotud märksõnu ja fraase, et AI-l oleks võimalik viidata just sinu ettevõttele või kodulehele, nagu näiteks "Meie ettevõte [Ettevõtte nimi] soovitab ...".

See ei piira tehisintellektil sinu kodulehel käimist, küll aga võib aidata sinu brändi või ettevõtte nime soovitamist AI poolt genereeritavates vastustes, seega saad sealt rohkem liiklust.

Ära piirdu pelgalt piltide ja tekstiga. Loo unikaalset sisu, mida on raske kopeerida ja mis on seotud just sinu brändiga, näiteks interaktiivseid teste või kalkulaatoreid.

Kasuta veebilehel struktureeritud andmeid (schema markup), mis aitavad AI-l paremini mõista sinu veebi sisu olemust ja allikat. See suurendab tõenäosust, et AI lisab vastusesse sinu lingi.

AI loodud vastused on sageli küsimuste ja vastuste vormis. Loo ka oma veebilehele vastavaid osasid, mis vastavad potentsiaalsete klientide küsimustele ja optimeeri need. See annab tehisarule eesmärgi ja vastab lugejate küsimustele, mis omakorda suunab kliente sinu veebilehele.

Millal peaks muretsema hakkama?

Muretsemiseks on põhjust, kui

sinu sisu on ainulaadne (näiteks uurimistöö, originaalfotod, spetsiifilised tekstid);
tegutsed nišis, kus AI kopeerimine võib kahjustada su äri (näiteks koolitusmaterjalid, kursuste sisu);
ärimudel sõltub sisu eksklusiivsusest.

Kui su koduleht on pigem turunduslik (teenuste kirjeldused, kontaktinfo), on risk väiksem, sest AI ei saa sinu teenust pakkuda sinu eest.

Tehisaru pole vaenlane, kui õpid seda tundma

Hirm tehisintellekti ees on mõistetav – me ei taha, et me töö muutuks masinate kütuseks ilma meie loata. Kuid paanikaks pole põhjust. Kodulehe kaitsmine AI eest tähendab pigem nutikate sammude astumist. Kõige kindlam viis tehisaru treenimise vältimiseks on kasutada standardiseeritud lahendusi, mida enamik roboteid järgib:

blokeeri AI botid robots.txt abil;
kasuta autoriõiguse teadet ehk juriidilist teadet, mis annab robotitele juhise, et sinu sisu on autoriõigusega kaitstud;
avalda kasutamistingimused, mis on samuti juriidiline dokument, mis annab robotitele juhise, et sinu sisu ei tohi ilma loata kasutada AI koolitamiseks.

Kui otsustad AI-treeningu robotid täielikult blokeerida, tasub arvestada ühe olulise tagajärjega: sinu sisu ei jõua AI-põhistesse otsingutesse. See tähendab, et ChatGPT, Bing Chat või Google’i uued tehisintellektil põhinevad otsingutulemused ei kasuta sinu kodulehe infot. Klassikalises Google’i otsingus oled küll nähtav, aga AI-vastused võivad jätta sinu brändi mainimata.

Praktilises plaanis tähendab see, et kui keegi küsib tehisarult näiteks “parimad massaažiteenused Tallinnas”, siis sinu kodulehte ei mainita, kui GPTBot või Google-Extended pole saanud su sisu kasutada. AI SEO töötab ainult siis, kui lubad vähemalt osaliselt oma sisu AI süsteemidele kättesaadavaks teha.

Tehisintellekt ei kao seega kuhugi. Küll aga saad sina otsustada, kuidas oma veebilehte ja sisu sellega seoses targalt hallata. Hirmust kunstmõistuse ees ei pea halvatud olema, kuid teadlikult tegutsedes saab kõigega hakkama.

Mõned korduma kippuvad küsimused (KKK)

Kas AI võib mu kodulehe teksti varastada?

AI ei varasta sinu sisu, kuid võib kasutada avalikult kättesaadavat infot mudelite treenimiseks. Seda saab piirata robots.txt, meta-tägide ja juriidiliste klauslitega.

Kas robots.txt kaitseb mu kodulehte AI eest?

Mitte täielikult. See töötab ainult siis, kui AI arendajad reegleid järgivad. Suuremad teenused arvestavad sellega, aga kõiki see ei peata.

Kuidas kaitsta oma pilte AI eest?

Lisa piltidele vesimärk või piira pildikataloogide ligipääsu robots.txt failiga. See ei välista täielikult AI kasutust, kuid annab sulle kaitsevahendi autorluse tõestamiseks.

Kas AI mõjutab mu kodulehe SEO-d?

Jah, kuid pigem positiivses võtmes, kui lood originaalset ja isikupärast sisu. Google hindab pärisautorit ja kogemusi rohkem kui üldsõnalist infot.

Kas ma saan takistada AI-l minu sisu kasutamast?

Kuigi 100% kaitset ei ole olemas, saad oluliselt vähendada tõenäosust, et sinu sisu kasutatakse. Parim viis on blokeerida AI-robotid robots.txt failiga. See annab neile juhised, mida nad tohivad ja ei tohi indekseerida.

Kas noindex tag aitab kaitsta minu sisu AI eest?

Ei, noindex tag ei kaitse sinu sisu tehisaru eest. See on mõeldud ainult otsingumootoritele, et nad ei kuvaks sinu lehte otsingutulemustes. AI robotid võivad seda märgendit ignoreerida ja sinu sisu ikkagi kasutada.

Kas ma peaksin AI-robotid blokeerima?

See sõltub sinu eesmärkidest. Kui sa tahad, et sinu sisu jõuaks rohkemate inimesteni, siis AI-robotite blokeerimine ei ole parim lahendus. Selle asemel saad kasutada strateegilist märgistamist, mis aitab tehisintellektil sinu brändile viidata.

Kas ma saan blokeerida kõik robotid korraga?

Jah, saad. robots.txt failis saad kasutada juhist User-agent: *, mis kehtib kõigile robotitele, kuid sealhulgas ka otsingumootoritele. Mis tähendab, et su lehte ei saa indekseerida ja selle tulemusel pole see otsingus leitav.

Kas ma peaksin AI-robotid blokeerima, kui ma tahan, et minu sisu oleks nähtav?

See on kahe otsaga mõõk. Kui sa soovid, et sinu sisu oleks nähtav, siis ei tohiks sa AI-roboteid blokeerida. Kui sa tahad kaitsta oma sisu tehisaru treenimise eest, siis sa pead blokeerima AI-robotid. Sinu parim variant on leida kompromiss ja kaitsta oma kõige tundlikumat sisu.

Mida teha, kui AI-robotid ikkagi kasutavad mu sisu, isegi kui ma olen need blokeerinud?

Kuigi enamik roboteid järgib robots.txt reegleid, võivad pahatahtlikud robotid neid ignoreerida. Sel juhul on sul võimalik kasutada juriidilist kaitset. Pane oma lehele autoriõiguse teade ja kasutamistingimused, mis annavad sulle aluse, et võtta tarvitusele juriidilisi meetmeid, kui sinu sisu on ilma loata kasutatud.

Tabel: millised botid on liikvel?

Boti nimi	Milleks kasutab	Soovituslik tegevus AI treenimise keelamiseks	User-agent robots.txt-s
Googlebot	Klassikaline Google’i otsing ja SEO	Lubada	User-agent: Googlebot
Bingbot	Bing otsing, toob külastusi	Lubada	User-agent: Bingbot
DuckDuckBot	DuckDuckGo otsing	Lubada	User-agent: DuckDuckBot
GPTBot (OpenAI)	Kasutab sisu ChatGPT ja teiste mudelite treenimiseks	Keelata	User-agent: GPTBot
CCBot (Common Crawl)	Avatud andmete kogumine, mida AI-d kasutavad treeninguks	Keelata	User-agent: CCBot
Google-Extended	Kasutab ainult AI treeninguks (Bard, Vertex AI)	Keelata	User-agent: Google-Extended
Anthropic-AI	Claude mudelite treening	Keelata	User-agent: anthropic-ai
PerplexityBot	AI otsinguagent, võib kuvada vastuseid ilma klikkideta	Keelata	User-agent: PerplexityBot
StabilityAI	Pildimudelite (nt Stable Diffusion) treening	Keelata	User-agent: StabilityAI