Na obranu plagiátorov. 3. časť: Ako merať plagiátorov.

Názov blogu je čiastočná provokácia, pretože v dôsledku hysterickej reakcie diskusia o plagiátorstve smeruje podľa mňa nesprávnym smerom. V tretej časti sa snažím nielen upozorniť na identifikáciu plagiátorstva a možné riešenie.

Písmo: A- | A+
Diskusia  (1)

Rád vnímam problémy ako šancu a nie ako prekážku. Preto ak, konečne, plagiátorstvo niektorých prác vytvorilo diskusiu o kvalite vzdelávania, záverečných prácach a celkovej publikačnej činnosti, vidím to ako príležitosť, bolo by škoda túto šancu nevyužiť a nediskutovať.
Žiaľ po zverejnených informáciách ako aj reakciách obvinených je zrejmé, že ide o politické hry a spoločenská diskusia je opäť na vedľajšej koľaji. Dokonca hrozí, že výsledné riešenia budú smerovať ešte horším smerom ako súčasný stav. Najväčší problém je fakt, že drvivá časť diskusie sa koncentruje na jediný ukazovateľ a to výsledok elektronickej kontroly originality.

SkryťVypnúť reklamu
SkryťVypnúť reklamu
Článok pokračuje pod video reklamou

Nie som IT expert, ale užívateľ výsledkov systému. Možno by bolo dobré zopakovať pre ľudí, ktorí sú na základe prečítaného oprávnene rozhorčený, ako systém overovania zhody pracuje. Systém porovnáva postupnosť znakov zadaného textu s postupnosťou znakov v dokumentoch, ktoré má vo svojej databáze. Ak nájde nejakú štatisticky významnú podobnosť alebo zhodu vykáže tieto dokumenty ako zhodné a kalkuje ich početnosť. Na základe celkového výpočtu zhody znakov s celkovým počtom znakov práce vypočíta percentuálnu zhodu, ktorá na viacerých školách môže rozhodovať o pripustení k obhajobe alebo môže výrazne ovplyvniť hodnotenie práce a výslednú známku.

SkryťVypnúť reklamu

V čom je problém?

Jeden veľký problém spočíva v tom, že tieto znaky sleduje v celej práci. Sám som našiel v protokoloch svojich študentov ako súčasť potenciálne plagiátorského textu časti zoznamu použitej literatúry, kedy stačilo ak rovnaké práce sa ocitli v rovnakom poradí (napríklad dve práce rovnakého autora s rovnakými, podľa smernice uvedenými údajmi, systém pravdepodobne identifikuje ako potenciálny plagiát). Takisto sa ako zhoda boli nájdené poďakovania vedúcemu práce, ktoré skutočne študenti neformulujú, ale kopírujú napriek tomu, že ich od toho opakovane odhováram.

Jeden z problémov súvisí s tým, že vlastne nikto neviem, čo je v databáze posudzovaných údajov. Pôvodne boli posudzované iba rôzne záverečné práce. Jedna moja práca, práve v Skalici sa stala obeťou situácie keď to prestalo platiť. Študent vtedy prevzal viaceré analýzy a dokumenty neziskových organizácií až mu napokon vyšla zhoda vyše 60% a prácu neobhájil. Žiaden vedúci nemá možnosť poznať všetky dokumenty v oblasti práce a preto som ho na to neupozornil a zistil som to až keď práca bola vložená do centrálneho registra.

SkryťVypnúť reklamu

Aj keď tento prípad je niekedy z dôb, keď ešte ani Boris Kollár neštudoval, ani i v súčasnosti nie je celkom jasné, aké texty sú predmetom kontroly. Pritom pri časti dokumentov je takmer nemožné meniť text, pretože text je záväzný. Meniť texty zákonov, smerníc, produktových charakteristík nie je možné bez toho, aby zmenili charakter ich obsahu. Ak však práca využíva vo väčšej miere tieto dokumenty ako sekundárne zdroje údajov pre výskum, dostáva sa do riskantnej situácie, že na konci práce zistí zhodu nad požadovanú mieru.

Samozrejme systém sa dá obísť. Tak ako sa využíva SEO na to, aby sa dokument dostal na lepšie pozície vo vyhľadávaní, je možné použiť triky aj pri obchádzaní softvéru pre overovanie zhody. To je to, čo spôsobuje rozdiel medzi zhodou, ktorou operuje Boris Kollár a údajmi, ktorými operuje Juraj Hipš a Miroslav Beblavý. Oni si totiž dali tú prácu, že formálne narušenia systému nahradili obsahovou kontrolou. Pre tých, ktorým sa to zdá príliš sofistikované, stačí ak nahradíte slovo environmentálny v originálnom texte striedavo slovom ekologický a zelený v plagiáte, dokážete v časti textu zabrániť aby systém identifikoval tieto texty ako kópie.

SkryťVypnúť reklamu

Kolegyňa mi pred pár rokmi ukazovala dve práce na podobnú tému. V oboch prácach boli celé strany rovnakého textu. Nebolo to plagiátorstvo, pretože išlo o citované dokumenty, dokonca v niektorých prípadoch od rôznych autorov. Ale texty technických noriem, definície, vymedzenia v rozsahu celých odstavcov alebo delenia s niekoľkými prvkami boli presne rovnaké. Napriek tomu obe práce mali protokol zhody na 0,0%.

V princípe systém je urobený tak, aby nútil venovať čas na spracovanie témy. Ak sa predpokladá, že študent venuje príprave práce povedzme 300 hodín práce, systém má zabezpečiť, aby podvodník nemohol venovať príprave práce iba 30 hodín. Fakt, že musí plagiátorské dokumenty preformulovať, formálne upraviť alebo inak pozmeniť, aby nebol odhalený zvyšuje výrazne časovú náročnosť plagiátu a robí ho pre prípadných podvodníkov menej atraktívnym.

Prečo je to problém?

Problémom začína vtedy, ak celý výsledok posudzovania zhody sa viaže na výsledné číslo a dokonca v prípade niektorých škôl je toto číslo záväzné podľa interných smerníc. Študent napríklad podľa interných predpisov nemôže byť pripustení na obhajobu ak prekročí nejakú hranicu v kontrole originality. Dokonca som nielen v diskusii počul hlasy, že tieto hranice by mali byť ešte znížené oproti súčasným hraniciam.

Dôsledky takéhoto zníženia nebude celkom určite zvýšenie kvality výsledných prác. Študenti sa budú oveľa viac báť používať cudzie zdroje, u ktorých je väčšie riziko zhody a radšej budú tvoriť vlastné omáčky prázdnych vyjadrení namiesto používania citácií. Budú oveľa viac venovať formálnej úprave práce, hľadanie špecifických znakov, formátovania prác a podobných spôsobov obchádzania systému. Nebudú to robiť iba podvodníci, ale aj študenti, ktorí pocítia riziko, že by sa mohli dostať do problémov nie vlastnou vinou, ale tým, že pracujú na téme, ktorá využíva sekundárne údaje.

Mal so teraz podobný prípad, Študent pri hľadaní zamerania práce prezentoval podobnú predstavu ako som riešil pred niekoľkými rokmi realizoval s iným študentom. Mne samému sa zdalo byť zaujímavé overiť ako sa vo vnímaní daného procesu zmenila situácia za cca desať rokov. Preto som študentovi ponúkol starú diplomovku a presvedčil ho, aby do pripravovaného dotazníka zahrnul aj otázky, ktoré položila ona. Cieľom bolo nielen vyhodnotiť jeho prácu, ale ako pridaná hodnota porovnať aj vývoj za určité časové obdobie. Celý čas som však trnul, či sa použitie jej výsledkov, teda možno aj použitie jej formulácií neprejaví na výslednej hodnote kontroly originality. Možno aj vďaka tomu, že jeho porovnanie s predchádzajúcom prácou bolo skôr povrchné ako hĺbkové, sa táto obava neprejavila. Ja som mu však za to znížil hodnotenie.

Veľa akademikov nevníma sprísnenie požiadaviek ako problém. Argumentujú tým, že použitie cudzích zdrojov sa týka najmú súčasného stavu skúmanej problematiky ako teoretického základu práce. Ako správne argumentujú väčšina práce by mal byť študentov vklad nejaký jeho prínos a zistenia.

Zabúdajú však, že aj v tejto časti môže vzniknúť prekrývanie pri veľmi veľa typoch prípadov. Zďaleka nie všetky práce a nie vo všetkých vedných odboroch pracujú pri všetkých prácach s primárnymi zdrojmi údajov. Často sa v prácach využívajú, musia využívať aj sekundárne údaje, napríklad analógia, porovnanie rôznych javov a rôznych hodnotení a podobne. Ak však nie je presne definované, aké dokumenty sú predmetom porovnania a overovanie, študent ani vedúci nedokáže zabezpečiť, že tieto sekundárne údaje nezhoršia celkový výsledok posudzovanej práce.

„Rozumný“ vedúci to vyrieši tým, že zameria témy práce na primárne zdroje údajov, (merajte, dotazníkujte, hodnoťte!) aj keď tieto údaje nemusia mať žiadnu výpovednú hodnotu (pri existujúcich časových a finančných možnostiach). Pritom práca so sekundárnymi údajmi by mohla znamenať oveľa väčší prínos nielen pre vedúceho, ale aj pre študenta. 

Aj pre výskumníka podobné skúmanie „originality“ bude viesť k tomu, že hľadanie „originality“ nahradia formálnou originalitou. Namiesto opakovaného výskumu, pri ktorom každých pár rokov pridajú k predchádzajúcemu poznaniu malé percento nových poznatkov a vynechajú zastaralé sa budú radšej orientovať na neustále nové poznatky bez hľadania kontinuity. Pretože kto by riskoval, že o pár rokov ho niekto bude kritizovať, že 40% jeho článku spred piatich rokov je totožných sú súčasným článkom, ktorý bol doplnený o nový výskum rovnakého javu.

Existuje riešenie?

Nemám rád kritiku, ktorá nehovorí o riešenia, Aj tieto blogy by som nenapísal, ak by som nemal riešenia. Tie riešenia sú veľmi jednoduché. Nahradiť celkovú mieru originality hodnotením kľúčových dokumentov.

Tento rok som mal diplomovú prácu, ktorej vyšla kontrola originality na hornej hranici povolenej úrovne, niekde okolo 35% v práci ktorá mala okolo 60 strán textu. Pre mnohých puristov jasný dôkaz nekalého správania a niečo, čo má byť predmetom ostrej kritiky. Pretože ak ide o posudzovanie zhody, nie je rozdiel medzi predsedom vlády, ministrom a obyčajným študentom.

V skutočnosti však najvyššia zhoda s dokumentom bola na úrovni niekde okolo 1,8%. Keď som to spočítal na počet znakov vyšlo mi to asi tri štvrte strany textu, teda asi tri odstavce. Nemusí pritom znamenať, že z dokumentu s najvyššou zhodou bol skutočne prevzatý aj najdlhší text. Okrem záverečných prác tam boli ako zdroje uvedené konferenčné či vedecké zborníky a elektronické časopisy. Bola tam dokonca aj jedna moja prednáška z roku 2012, ktorú som študentom sprostredkoval cez internet na stránke, ktorú už niekoľko rokov nepoužívam. Takže som si takmer 100% istý, že z uvedeného zdroja nemohla študentka čerpať. Celkom v protokole je napísané, že práca vykazuje zhodu s 1079 dokumentami.

Preto považujem za oveľa dôležitejšie ako stanoviť celkovú zhodu stanoviť maximálnu zhodu s jednotlivým dokumentom. Ak by napríklad bola stanovená maximálna zhoda s jedným vlastným dokumentom na úrovni 40% je to dostatočná hranica, ktorá umožňuje pokračovať v začatom výskume na vyššej úrovni spracovania. Celková miera na vyššej úrovni by pritom mohla byť aj oveľa vyššia, napr. 35% doktorandská práca a tri krát 10% články vedeckých článkov by mohli tvoriť veľmi kvalitnú komplexnú habilitačnú prácu, aj keď celková miera prekrývania by bola na úrovni 60%.

Pri ostatných prácach by stačilo stanoviť maximálnu hranicu pre jednotlivý dokument na úrovni 2% celkového počtu znakov. To je dostatočná veľkosť na to, aby autorovi nebránil používať doslovné citácia pôvodných zdrojov a nestrácal čas nezmyselným preformulovaním fungujúcich formulácií. V prípade väčšej zhody s jednotlivým dokumentom by musel autor dať písomné vysvetlenie ako dodatok k práci, aké dôvody ho viedli k väčšej miere prekrývania s uvedeným dokumentom. Takýto prípad by odstránil strašiaka, ktorý kontrola originality tvorí pri porovnávací prácach, napríklad porovnanie výsledkov s inými podobnými prácami, analytických prehľadoch, ale aj v prípade prác využívajúcich sekundárne údaje, pri ktorých nie je jasné či sú alebo nie sú súčasťou posudzovaných kritérií.

Je mi zrejme, že mnohí tu budú oponovať, že v technických, prírodných vedách takéto prekrývanie nehrozí. Majú čiastočne pravdu. Čiastočne preto, že dôvodov nie je len vždy vyššia úroveň a výpovedná hodnota prác v týchto oblastiach ako napríklad v spoločenských vedách, ktoré s týmto problémom zápasia oveľa viac. Jeden objektívny dôvod je, že v odboroch, ktoré študuje 10-20 študentov ročne je riziko prekrývania oveľa menšie ako v študijných odboroch, ktoré študujú stovky študentov. Druhý objektívny dôvod je, že softvér oveľa ťažšie zachytí plagiátorstvo v odboroch s veľmi pestrých formálnym spracovaním. Kopírovaním textu zostáva text formálne rovnaký, prevzatie matematickej rovnice alebo algoritmu umožňuje oveľa jednoduchšie skrytie plagiátu za zmenu formálnej úpravy.

Samozrejme máloktorí politik pôjde vo voľnom čase popri podnikaní alebo štátnej funkcii študovať jadrovú fyziku alebo teoretickú matematiku. Ak však máme hovoriť o probléme nemáme hovoriť o osobách, ale o systéme. Aj preto si myslím, že tento blog má všeobecnú platnosť. 

Rastislav Strhan

Rastislav Strhan

Bloger 
  • Počet článkov:  69
  •  | 
  • Páči sa:  339x

Tento blog má dva "zdroje" ..... môjho otca, ktorý, ako historik, mi neustále zdôrazňoval, že "všetko už tu bolo" a že ľudstvo nerobí nové chyby iba opakuje tie staré .... a Isaaca Asimova, ktorého kniha Nadácia a sci-fi teória psychohistórie pre mňa bola úplným zjavením. Posudzovať súčasnosť a svet ako výsledok posledných 2-10-20 rokov je pre mňa iba výroba zrkadla, ktorým sa tvorí "správne PR"... V novej energii tohto blogu budem "psychohistoricky" opisovať našu súčasnosť. Zoznam autorových rubrík:  Paradoxy modernej dobyDomáca spoločnosť a politikaSvet a globálna spoločnosťO vzdelávaní a učeníCestovanie a dopravaSúkromnéKvalita v rôznej podobeNápady a vízieNezaradené

Prémioví blogeri

Pavel Macko

Pavel Macko

188 článkov
Karol Galek

Karol Galek

115 článkov
Pavol Koprda

Pavol Koprda

10 článkov
Lucia Šicková

Lucia Šicková

4 články
reklama
reklama
SkryťZatvoriť reklamu