Google gali atpažinti ChatGPT parašytą tekstą analizuojant kalbos struktūrą, žodyną ir pasikartojančius rašymo modelius. Sistema naudoja natūralios kalbos apdorojimo (NLP) ir mašininio mokymosi (ML) algoritmus, kad identifikuotų dirbtiniam intelektui būdingus šablonus.

Google taip pat aptinka paslėptus frazių dėsningumus, statistinius „watermark“ ženklus ir stilistinius neatitikimus, kurie skiria AI sukurtą turinį nuo žmogaus parašyto teksto.

Pateikiame pagrindinius metodus, kuriais Google analizuoja ir atpažįsta dirbtinio intelekto sukurtą turinį, įskaitant ChatGPT generuotus tekstus.

Google naudoja natūralios kalbos apdorojimą (NLP) teksto kilmei nustatyti

Google naudoja NLP algoritmus semantiniams ryšiams tarp žodžių ir sakinių identifikuoti. NLP padeda nustatyti, ar tekstas seka žmogišką minties eigą, ar algoritminę logiką.

Pavyzdys: DI sugeneruotas tekstas nuosekliai vartoja frazes kaip „Taip pat svarbu paminėti“ arba „Be to, svarbu pažymėti“, kas atskleidžia pasikartojančią loginę struktūrą.

Google analizuoja sakinių sintaksę, žodyną ir frazių struktūrą

Google tikrina, ar tekstas sudarytas iš gramatiniu požiūriu teisingų, bet stilistiškai pasikartojančių sakinių. DI tekstuose dažnai kartojasi tos pačios konstrukcijos: dalyviniai posakiai, loginės jungtys, identiškos pastraipų struktūros.

Pavyzdys: ChatGPT dažnai naudoja struktūras „X yra svarbus dėl Y“, „Vienas iš pagrindinių veiksnių yra Z“. Tokie modeliai lengviau atpažinami automatizuotomis priemonėmis.

Google taiko mašininio mokymosi (ML) modelius stilistikos atpažinimui

ML algoritmai mokomi atskirti žmogaus ir DI parašytą tekstą pagal statistinius stiliaus parametrus. Jie analizuoja sakinių ilgį, žodžių dažnumą ir retorinių konstrukcijų įvairovę.

Pavyzdys: ChatGPT paprastai vengia šnekamosios kalbos, idiomų ar metaforų. Žmogaus tekstas gali naudoti tokias frazes kaip „Tai buvo kaip šaltas dušas“, o DI dažniausiai laikys neutralų toną.

Google identifikuoja pasikartojančius šablonus, būdingus DI kurtam turiniui

DI tekstai turi pasikartojančius kalbos modelius, kuriuos galima aptikti statistine analize. Šie modeliai apima ne tik žodyną, bet ir pastraipų sandarą.

Pavyzdys: ChatGPT parašytos pastraipos dažnai turi 2–3 logiškai susijusius sakinius, kurie yra labai panašios struktūros: teiginys – paaiškinimas – pavyzdys. Žmogaus tekstas dažniau būna nenuoseklus, stilistiškai įvairesnis.

Google gali aptikti paslėptus šablonus ir frazių struktūras, kurios būdingos DI kalbai

Google analizuoja „deep syntax“ — giluminę sakinių sandarą. Net jei sakinys atrodo natūralus, pasikartojančios sakinio dalys išduoda automatizuotą kilmę.

Pavyzdys: DI modeliai dažnai vartoja frazes kaip „Šiame straipsnyje aptarsime…“, „Svarbu pabrėžti, kad…“, kurios kartojasi nepriklausomai nuo temos. Tokios frazės identifikuojamos kaip DI šablonai.

Daugiau pavyzdžių:

  • Šiame straipsnyje aptarsime…
  • Svarbu pabrėžti, kad…
  • Be to, verta pažymėti, jog…
  • Apibendrinant, galima teigti, kad…
  • Viena vertus, kita vertus…
  • Galima daryti išvadą, kad…
  • Toliau nagrinėsime…
  • Atsižvelgiant į tai, galima sakyti, kad…
  • Reikėtų atkreipti dėmesį į tai, kad…
  • Remiantis pateikta informacija, galima manyti, kad…

DI modeliai gali palikti nematomus „watermark“ ženklus tekste

Kai kurios DI sistemos gali įterpti nematomus statistinius ženklus – t.y. „watermarks“. Tai yra struktūriniai raštai sakinių lygyje, kurie pasikartoja tam tikru dažniu ir yra atpažįstami analizuojant tekstų turinį dideliais kiekiais.

Pavyzdys: Statistinė analizė gali parodyti, kad 70 % sakinių prasideda tam tikro tipo žodžiais ar struktūromis. Tokie dėsningumai būdingi tik DI tekstams.

Google kombinuoja įvairius signalus teksto kilmei nustatyti

Google netaiko vieno parametro teksto analizei – yra naudojama daugybė signalų: kalbos stilius, struktūra, žodyno įvairovė, kontekstiniai ryšiai ir net turinio paskirtis.

Pavyzdys: Jei straipsnyje yra daug sakinių kurie yra kaip sinonimai, jame mažai originalių įžvalgų ir yra pastovus sakinių formatas, Google tai gali priskirti DI turiniui. Net jei tekstas korektiškas, bendras signalų rinkinys rodo nenatūralumą.

Google neskelbia tikslių dirbtinio intelekto atpažinimo algoritmų

Google neatskleidžia, kaip tiksliai veikia jų DI turinio atpažinimas. Tai apsaugo nuo manipuliacijų ir leidžia sistemai veikti efektyviai.

Pavyzdys: SEO specialistai negali tiksliai žinoti, kiek frazių ar sakinių struktūrų gali reikšti „nuobaudą“ svetainės reitingams. Tai verčia kurti turinį DI instrumentų pagalba kur kas atsargiau.

Daugiau apie SEO, DI ir rinkodarą: