Strukturálatlan adatok

A strukturálatlan adatok olyan adatok , amelyek nem felelnek meg egy előre meghatározott adatmodellnek , és általában szöveg formájában jelennek meg dátumokkal, számokkal, tényekkel tetszőleges formában [1] [2] . Az ilyen adatokat nehéz elemezni, különösen a hagyományos programokkal , amelyeket úgy terveztek, hogy strukturált adatokkal dolgozzanak ( annotált vagy adatbázisokban tárolt ).

Merrill Lynch 1998-ban úgy becsülte , hogy az összes potenciálisan hasznos üzleti információ mintegy 80-90%-a strukturálatlan formában került bemutatásra [1] , de ez az arány nem statisztikákon vagy kvantitatív kutatásokon alapult, hanem feltételezés volt [2] . A Computerworld az összes adat 70-80%-ára becsüli a strukturálatlan adatok mennyiségét a szervezetekben [3] .

Történelem

Az üzleti intelligencia legkorábbi kutatásai nem a numerikus adatokra, hanem a strukturálatlan szöveges adatokra összpontosítottak. Az információtechnológiai kutatók, például H. P. Lun már 1958-ban azt vizsgálták, hogyan lehet strukturálatlan szövegben kinyerni és osztályozni az adatokat. [3] A rendelkezésre álló technológia azonban csak a 2000-es évek eleje óta utolérte a kutatási érdeklődést. 2004-ben a SAS Institute kifejlesztette a SAS Text Miner-t, amely szinguláris értékbontást használ a nagydimenziós szövegterek kisebb dimenziójú alterekké való faktorizálására, hogy nagymértékben leegyszerűsítse a gépi elemzést [4]. . A matematika és a szövegfeldolgozási technológiák fejlődése ösztönözte a kereskedelmi szervezetek kutatását olyan területeken, mint a szöveges hangulatelemzés (hangulatelemzés), a fogyasztói vélemények gyűjtése és elemzése, a call center automatizálása [5]. . A big data technológiák megjelenése a 2000-es évek végén felkeltette az érdeklődést a strukturálatlan adatokat elemző programok iránt olyan modern területeken, mint az előrejelzés és a kiváltó okok elemzése [6] .

Terminológiai nehézségek

A "strukturálatlan adatok" kifejezés több okból is pontatlannak tekinthető:

a szerkezet, még ha nem is formálisan definiált, utalhat rá;
a valamilyen formájú szerkezetű adat továbbra is strukturálatlannak minősíthető, ha szerkezetét nem gépi feldolgozásra szánják;
a strukturálatlan információnak lehet valamilyen szerkezete (az ilyen információt félig strukturáltnak nevezzük), vagy akár jól strukturált is lehet, de olyan módon, amely előzetes egyeztetés nélkül nem nyilvánvaló.

Strukturálatlan adatok kezelése

Az olyan technikák, mint az adatbányászat , a természetes nyelvi feldolgozás és a szövegbányászat módszereket kínálnak a minták megtalálására a strukturálatlan információk valamilyen értelmezése érdekében.

A szöveg strukturálására szolgáló technikák általában magukban foglalják a kézi címkézést (metaadatokat) vagy a szórészletek jelölését a szöveg további strukturálására. A strukturálatlan információkezelési architektúra (UIMA) közös keretet biztosít ezen információk feldolgozásához, hogy értékeket nyerjen ki és strukturált adatokat hozzon létre a strukturálatlan információkból [4] . A géppel olvasható adatstruktúrát létrehozó szoftverek az emberi kommunikáció minden formájában létező nyelvi, auditív és vizuális struktúrákat használják fel [5] . Speciális algoritmusok például morfológiát , mondatszintaxist és így tovább elemezve kikövetkezhetnek a szövegből a szerkezetre. A strukturálatlan információkat ezután meg lehet jelölni az egyértelműség érdekében, és relevanciapontozási technikákat alkalmaznak a keresés javítására.

A „strukturálatlan adatok” példái közé tartoznak a könyvek, folyóiratok, dokumentumok, metaadatok, egészségügyi feljegyzések, hang-, videó-, analóg adatok, képek és strukturálatlan szövegen alapuló fájlok: e-mail üzenetek, weboldalak, szövegfeldolgozókkal létrehozott dokumentumok . A strukturálatlan információk strukturált objektumok formájában tárolhatók (pl. fájlok vagy dokumentumok formájában), amelyek maguk is szerkezettel rendelkeznek. Ebben az esetben a strukturált és strukturálatlan adatok kombinációját az aggregátumban "strukturálatlan adatoknak" is nevezik [6] . Például a HTML weboldalak már rendelkeznek jelöléssel, de csak megjelenítésre használhatók. Nem tartalmaz automatikus feldolgozásra alkalmas formában információt egyes jelölőelemek jelentéséről vagy funkciójáról. Az XHTML jelölést könnyebb automatikusan kezelni, de jellemzően nem tartalmazza a kifejezések szemantikai jelentését.

Mivel a strukturálatlan adatokat általában elektronikus dokumentumok formájában tárolják, a tartalomelemző vagy dokumentumkezelő programok szívesebben osztályozzák a teljes dokumentumokat, semmint a dokumentumokon belüli manipulációt. Így az ilyen típusú adatok feldolgozására szolgáló programok általában strukturálatlan információkat tartalmazó dokumentumgyűjtemények létrehozásának eszközei. Ma már azonban léteznek olyan megoldások is, amelyek az egész dokumentumnál kisebb atomelemekkel dolgoznak [7] .

A keresőmotorok a strukturálatlan adatok indexelésének és keresésének egyik népszerű eszközévé váltak.

Jegyzetek

↑ Strukturálatlan adatok archiválva 2020. szeptember 21-én a Wayback Machine -nél // geeksforgeeks.org
↑ [https://web.archive.org/web/20171020135110/https://www.pcmag.com/encyclopedia/term/unstructured-data Archiválva : 2017. október 20., a Wayback Machine Unstructured data] // PC Magazine Encyclopedia
↑ Grimes, Seth A szövegelemzés rövid története . B Eye Network . Letöltve: 2016. június 24. Az eredetiből archiválva : 2017. december 8.. (határozatlan)
↑ Albright, Russ Szöveg megszelídítése az SVD-vel . S.A.S. _ Letöltve: 2016. június 24. Az eredetiből archiválva : 2017. szeptember 21.. (határozatlan)
↑ Desai, Manish Applications of Text Analytics . My Business Analytics @ Blogspot . Letöltve: 2016. június 24. Az eredetiből archiválva : 2016. október 13.. (határozatlan)
↑ Chakraborty, Goutam A strukturálatlan adatok elemzése: A szövegelemzés és a hangulatbányászat alkalmazásai . S.A.S. _ Letöltve: 2016. június 24. Az eredetiből archiválva : 2017. január 13.. (határozatlan)
↑ Datagrav: A tudásmegosztás keretrendszere az átültetést lehetővé tevő együttműködési médiával | Sergey Kochuguev – Academia.edu . Letöltve: 2016. szeptember 21. Az eredetiből archiválva : 2019. december 15. (határozatlan)

Linkek

Artak Hovhannisyan . Strukturálatlan adatok 2.0 archiválva : 2016. december 11. a Wayback Machine -nél // Open Systems. DBMS, 2012, 04. sz
Leonyid Csernyak . Strukturálatlan adatelemzés archiválva : 2017. január 16. a Wayback Machine -nél // Open Systems. DBMS, 2012, 06. sz
Anton Ivanov . Strukturálatlan adatok átfogó elemzése archiválva 2016. november 15-én a Wayback Machine -nél // Open Systems. DBMS, 2013, 06. sz
Artem Grishkovsky . Integrált strukturálatlan adatfeldolgozás archiválva : 2016. december 11. a Wayback Machine -nél // Open Systems. DBMS, 2013, 06. sz
Struktúra, modellek és jelentés: A "strukturálatlan" adatok egyszerűen nem modellezhetők? Archiválva : 2009. február 11., a Wayback Machine , Intelligent Enterprise , 2005. március 1.
Strukturálatlan adatok strukturálása Archiválva : 2016. november 30., a Wayback Machine , Forbes , 2007. április 5.
Christopher C. Shilakes és Julie Tylman, "Enterprise Information Portals" , Merrill Lynch , 1998. november 16.
Holzinger, Andreas; Stocker, Christof; Ofner, Bernard; Prohaska, Gottfried; Brabenetz, Alberto; Hofmann-Wellenhof, Rainer. A HCI, a természetes nyelvi feldolgozás és a tudásfelfedezés ötvözése – Az IBM Content Analytics mint segítő technológia lehetősége az orvosbiológiai területen // Human-Computer Interaction and Knowledge Discovery in Complex, Unstructured, Big Data (angol) / Holzinger, Andreas; Pasi, Gabriella. - Springer, 2013. - P. 13-24 . — (Számítástechnikai előadásjegyzetek). - ISBN 978-3-642-39146-0 . - doi : 10.1007/978-3-642-39146-0_2 .
Strukturálatlan adatok és a 80 százalékos szabály archiválva : 2014. szeptember 12., a Wayback Machine , Seth Grimes, Clarabridge Bridgepoints, 2008 3. negyedéve.
Napjaink kihívása a kormányzatban: mit kezdjünk a strukturálatlan információval, és miért nem megoldás a semmittevés, Noel Yuhanna, vezető elemző, Forrester Research , 2010. nov.
Az új digitális univerzum-tanulmány nagy adathiányt tár fel: a világ adatainak kevesebb, mint 1%-át elemzik; Kevesebb, mint 20% védett , archiválva 2016. április 18-án a Wayback Machine -nél , EMC sajtóközlemény, 2012. december.
Félig és strukturálatlan adatfeldolgozás/előkészítés az IRI CoSortban Archiválva : 2016. október 16., a Wayback Machine -nél , 2014. május.

Szótárak és enciklopédiák	nagy kínai Britannica (online)