Plágium észlelése

A plágiumelemzés (a plágium definíciója, a plágium kimutatása) számítógépes módszerek a plágium felkutatására és felderítésére [1] .

A plágium ( angolul  plagiarism ) a mű bármilyen formában történő felhasználása, átfogalmazása és összefoglalása, forráshivatkozással történő megerősítés nélkül és saját műként való bemutatása [2] .

A plágium  valaki más művének – akár szándékosan, akár nem szándékosan – kölcsönzése, mintha az a sajátja lenne, saját javára [3] .

Jelenleg meglehetősen sok szolgáltatás és program létezik, amelyek lehetővé teszik a plágium észlelését . Számos számítógép-alapú plágiumészlelési módszer is létezik .

A plágium problémája

A plágium az internet megjelenésével komoly problémává vált . Az internetre kerülve a tudás mindenki tulajdonává válik, a szerzői jogok tiszteletben tartása egyre nehezebbé, sőt lehetetlenné válik [4] . Fokozatosan nehezebb azonosítani az eredeti szerzőt.

Az internet rohamos fejlődése, valamint a számítógépes műveltség növekedése hozzájárul a plágium behatolásához az emberi tevékenység különböző területeire: a plágium akut probléma az oktatásban, az iparban és a tudományos közösségben [5] .

A plágium bűncselekmény. Ez félrevezeti az olvasókat, árt a szerzőnek, és méltatlan előnyökkel jár a plágiumozónak [6] .

Széles körű hozzáférés a hazai és külföldi szakirodalomhoz, a szakmai publikációk számának többszörös növekedése, az interneten megjelenő publikációk – mindez gyakorlatilag semmissé tesz minden olyan szerkesztői törekvést, hogy „ellenőrizzék” vagy „megállapítsák” a szakirodalomban felhasznált érvek, tények hitelességét, eredetiségét. kiadásra javasolt kéziratok [7] .

Plágiumfelderítési módszerek

Az ábra a számítógépes plágiumészlelési módszerek osztályozását mutatja be technikai szempontból.

A módszereket a hasonlóságértékelés típusa jellemzi.

A globális pontozás nagy szövegrészeket vagy dokumentumot használ az általános hasonlóság megállapításához, míg a helyi beviteli módszerek a szöveg korlátozott szegmensét ellenőrzik.

Jelenleg a leggyakoribb módszer az ujjlenyomatvétel :

Számos dokumentumból több részkarakterláncból álló készlet kerül kiválasztásra, amelyek az "ujjlenyomatok". A szóban forgó dokumentumot a gyűjteményben lévő összes dokumentum ujjlenyomataival összehasonlítják. A más dokumentumokkal talált egyezések a szöveg közös szegmenseit jelzik [8] .

A dokumentumok szó szerinti átfedéssel történő ellenőrzése klasszikus karakterlánc-összehasonlítás.

A gyanús dokumentumok kereséséhez ebben a helyzetben ki kell számítani és el kell tárolni a referenciagyűjteményben található összes dokumentum hatékonyan összehasonlítható reprezentációit, amelyeket páronként hasonlítanak össze. Általában olyan modelleket használnak, mint az utótagfa vagy az utótagtömb , amelyeket ennek a feladatnak a számítógépes plágiumészlelés keretében történő végrehajtására adaptáltak. A részkarakterlánc-illesztés azonban nem életképes megoldás nagy dokumentumgyűjtemények ellenőrzésére (az algoritmus átlagosan 2 órás összehasonlítást végez, ahol h a keresett karakterlánc hossza) [9] .

A "sok szó" elemzésea természetes nyelvi feldolgozásban és információkeresésben használt reprezentáció leegyszerűsítése. Ebben a modellben a szöveg rendezetlen szavak halmazaként jelenik meg. A dokumentumokat egy vagy több vektorként ábrázolják, amelyeket a páronkénti hasonlóság kiszámításához használnak [10] [11] [12] .

Az idézet  egy számítógépes plágiumészlelési módszer, amelyet tudományos közleményekben való használatra terveztek, és lehetővé teszi az idézetek és referenciaanyagok használatát. Két tudományos közlemény gyakori hivatkozásait azonosítja.

Az idézési minta egy olyan részsorozat, amely nem csak két dokumentum közös hivatkozásait tartalmazza, hanem a szövegben az idézetek hasonló sorrendjét és hasonlóságát is, amelyek a hivatkozási minta meghatározásának fő kritériumai [13] [14] [15] [16] .

A stiliometria vagy a nyelvi stílusok tanulmányozása  egy statisztikai módszer a névtelen dokumentumok szerzőiségének azonosítására és a plágium számítógépes ellenőrzésére.

A stilometrikus modellek különféle szövegtöredékekre , olyan szakaszokra épülnek, amelyek stilisztikailag különböznek a többitől. A modellek összehasonlításával pedig kimutatható a plágium [17] .

Például a beszédrészek sorozatain alapuló elemzés . Megfontolandó egy módszer a szöveg homogenitás töredékekre való felosztására. A beszédrészek különböző sorozatait particionálási paraméterekként veszik. A következő lépés a töredékek elemzése. Ennek eredményeként a szöveghez olyan szekvenciákat találnak, amelyek töredékeket vonnak ki a szövegekből, vagyis az algoritmus olyan heterogenitású töredékeket választ ki a szövegből, amelyeknél a beszédrészek kiválasztott sorozatának eltérő előfordulási gyakorisága van, ami azt jelzi, hogy lehetséges. plágium ezen a helyen [18] .

A meglévő rendszerek áttekintése

Jelenleg meglehetősen sok szolgáltatás és program létezik, amelyek lehetővé teszik a kölcsönök azonosítását. [19] Ezek közé tartozik: az Antiplagiarism rendszer , Advego Plagiatus, Unplag , miratools.ru, istio.com, Praide Unique Content Analyzer II, Plagiatinform, Copyscape .

Plágiumellenes rendszer

A rendszert a Forexis fejlesztette ki [20] . A rendszer online keresést végez a rendszer saját adatbázisában tárolt nagyszámú dokumentumban, partneradatbázisokon keresztül, többek között: az Orosz Állami Könyvtáron, az ELibrary.ru Tudományos Elektronikus Könyvtáron, a Lexpro-n, valamint a felhasználói adatbázison keresztül. A „plágiumellenes” a saját eszközeivel keres az interneten, ezért kevésbé hatékony, mint a Yandexet használó rendszerek. xml. A rendszer ingyenes verziójában a jelentésnek csak egy rövidített formája érhető el.

Advego Plagiatus program

A program online ellenőrzést végez keresőmotorok segítségével [21] . A hasonló rendszerekkel ellentétben az Advego Plagiatus nem használja a Yandex.XML-t (egy ingyenes szolgáltatás, amely lehetővé teszi, hogy automatikus keresési lekérdezéseket hajtson végre a Yandex számára , és közzétegye a kimenetét az erőforráson).

A program megadja a szövegillesztés százalékos arányát és megjeleníti a talált forrásokat. A program nem konvertálja át a betűket, vagyis nincs kisbetű -konverzió, nincs az orosz szavak latin betűinek feldolgozása és megváltoztatása az orosz ábécé hasonló betűire az orosz nyelvű szövegeknél.

A saját adatbázisban való keresés szintén nem támogatott; a munka jellegéből adódóan előfordulnak olyan helyzetek, amikor az ellenőrzés eredménye időnként eltérő.

Unplag szolgáltatás

Az Unplag plágiumellenőrző szolgáltatás [22] valós időben online is képes ellenőrizni a plágiumot, és összehasonlítani a dokumentumot a felhasználó könyvtárában lévő mentett dokumentumadatbázissal. Támogatja a különböző típusú dokumentumokkal való munkát. Vannak személyes és céges programok. A Moodle , Canvas, Blackboard, Sakai tanfolyamkezelő rendszerrel is működik .

Szolgáltatás www.miratools.ru

A szolgáltatás lehetővé teszi a szöveg plagizálásának online ellenőrzését [23] . A rendszer a keresőmotorok kiadásának eredményeit használja fel. Lehetőség van az angol betűk orosz betűkkel való helyettesítésére. Lehetőség van a hitelesítéshez használt zsindely hosszának és dőlésszögének megváltoztatására is. Az ellenőrzés eredménye alapján megadják az egyezések százalékos arányát és a talált forrásokat. A rendszer nem működik saját adatbázissal, a szöveg hosszára 3000 karakter, illetve a napi ellenőrzések számának korlátozása van.

Szolgáltatás www.istio.com

A szolgáltatás a Yandex.XML és a Yahoo.com keresőmotorok segítségével ellenőrzi a szövegben kölcsönzött tartalom jelenlétét . [24] . Az ellenőrzés eredménye alapján megjelenik egy üzenet, hogy a szöveg egyedi-e vagy sem, és megjelenik a hasonló oldalak listája. A szolgáltatás további eszközöket biztosít a szövegelemzéshez, mint például a helyesírás-ellenőrzés, a leggyakrabban előforduló szavak elemzése stb. A rendszernek nincs saját adatbázisában betűkonvertálása és keresése.

Parade egyedi tartalomelemző II

A program keresőmotorok segítségével ellenőrzi a szövegeket [25] . Lehetőség van a használt keresőmotorok kiválasztására, tartalmazza az új keresők hozzáadásának eszközeit. Az ellenőrzést zsindelyek végzik, amelyek hossza változtatható. Beállíthatja a zsindelyt átfedő szavak számát. Az egyes keresőmotorokban részletes jelentés jelenik meg az ellenőrzésről. A program nem helyettesíti a betűket, nem dolgozza fel a stopszavakat, és nem támogatja a saját adatbázissal való munkát.

Plagiatinform rendszer

A rendszer a helyi adatbázisban és az interneten is ellenőrzi a dokumentumokat kölcsönzés szempontjából [ 26 ] . A rendszer képes kimutatni a plágiumot több forrásból származó "vegyes" szövegrészekből álló dokumentumok formájában. Az ellenőrzés gyors vagy mélykereséssel is elvégezhető. A vizsgálati eredményeket vizuális jelentés formájában mutatjuk be. Nincs betűátalakítás. A rendszer ingyenes használatára vagy tesztelésére nincs lehetőség.

Copyscape szolgáltatás

A Copyscape rendszer lehetővé teszi weboldalak másolatainak keresését az interneten [27] . A rendszer visszaadja a hasonló tartalmú weboldalak listáját. A szolgáltatás ellenőrzi a kölcsönzött tartalmat a Google és a Yahoo!

Csak a weboldal tartalmát ellenőrzik, vagyis a szöveg egyediségének megállapításához szükséges a szöveg közzététele az oldalon és az oldal címének megadása a rendszerben. Regisztráció nélkül korlátozva van a havi ellenőrzések száma és a megjelenített eredmények száma - 10 oldal. A regisztrált felhasználók számára nincs korlátozva az ellenőrzések száma és a kimeneti eredmények, de minden kérés 5 centbe kerül.

Plágiumverseny

A plágium felderítése (különösen átfogalmazva) aktívan tanulmányozott mérnöki és tudományos probléma. A PAN kezdeményezés [28] égisze alatt rendszeresen rendeznek versenyeket a plágiumok automatikus felismerésére . Az orosz nyelvű dokumentumokban előforduló plágium azonosítására szolgáló első versenyt 2017-ben rendezték meg a Számítógépes nyelvészetről szóló Dialogue konferencia [29] részeként .

Lásd még

Jegyzetek

  1. Stein, Koppel, 2011 .
  2. ACT BSSS, 2011 .
  3. Johnston, 2008 .
  4. Aushra, 2006 .
  5. Diaghilev, Tskhai, Butakov, 2011 , pp. 23.
  6. Bouville, 2008 , pp. 331.
  7. Ushakin, 2001 .
  8. Brin, Davis, Garcia-Molina, 2001 , pp. 36-41.
  9. Monostori, Zaslavsky, Schmidt, 2000 , pp. 226–227.
  10. Leong, Lau, Rynson, 1997 , pp. 70-77.
  11. Dreher, 2007 , pp. 601-614.
  12. Muhr, Zechner, 2009 , pp. 47-55.
  13. Gipp, Beel, 2009 , pp. 571–575.
  14. Gipp, Beel, 2010 , pp. 273–274.
  15. Gipp, Meuschke, Beel, 2011 , pp. 255–258.
  16. Gipp, Meuschke, 2011 , pp. 249–258.
  17. Meyer zu Eissen, Stein, 2006 , pp. 565–569.
  18. Szedov, Rogov, 2013 .
  19. Sharapov, Sharapova, 2011 .
  20. antiplagiat.ru - Plagizálás elleni 2012. október 13-i archivált példány a Wayback Machine -n
  21. advego.ru - a szöveg egyediségének ellenőrzése . Letöltve: 2012. december 9. Az eredetiből archiválva : 2012. december 11..
  22. A Plágium-ellenőrző Unplag valós idejű  jelentést tesz lehetővé . unplag.com. Letöltve: 2016. július 21. Az eredetiből archiválva : 2016. július 14.
  23. miratools.ru – A tartalom egyediségének ellenőrzésére szolgáló szolgáltatás Archivált 2012. december 9. a Wayback Machine -en
  24. istio.com - Szolgáltatás szövegek és webhelyek elemzéséhez . Letöltve: 2012. december 9. Az eredetiből archiválva : 2012. december 9..
  25. Praide egyedi tartalomelemző - Szöveg egyediségének ellenőrzése az interneten (downlink) . Hozzáférés dátuma: 2012. december 9. Az eredetiből archiválva : 2012. november 20. 
  26. plagiatinform.ru – Rendszer a dokumentumokban található plágium észlelésére Archiválva : 2012. július 29. a Wayback Machine -nél
  27. copyscape.com - Copyscape Plagiarism Checker . Letöltve: 2012. december 9. Az eredetiből archiválva : 2012. december 8..
  28. A PAN tudományos események és megosztott feladatok sorozata a digitális szöveg kriminalisztika területén (lefelé mutató kapcsolat) . Letöltve: 2017. szeptember 5. Az eredetiből archiválva : 2017. szeptember 15. 
  29. Verseny az orosz szövegek kölcsönzéséért . Letöltve: 2017. szeptember 5. Az eredetiből archiválva : 2017. szeptember 5..

Irodalom

oroszul más nyelveken