A strukturálatlan adatok olyan adatok , amelyek nem felelnek meg egy előre meghatározott adatmodellnek , és általában szöveg formájában jelennek meg dátumokkal, számokkal, tényekkel tetszőleges formában [1] [2] . Az ilyen adatokat nehéz elemezni, különösen a hagyományos programokkal , amelyeket úgy terveztek, hogy strukturált adatokkal dolgozzanak ( annotált vagy adatbázisokban tárolt ).
Merrill Lynch 1998-ban úgy becsülte , hogy az összes potenciálisan hasznos üzleti információ mintegy 80-90%-a strukturálatlan formában került bemutatásra [1] , de ez az arány nem statisztikákon vagy kvantitatív kutatásokon alapult, hanem feltételezés volt [2] . A Computerworld az összes adat 70-80%-ára becsüli a strukturálatlan adatok mennyiségét a szervezetekben [3] .
Az üzleti intelligencia legkorábbi kutatásai nem a numerikus adatokra, hanem a strukturálatlan szöveges adatokra összpontosítottak. Az információtechnológiai kutatók, például H. P. Lun már 1958-ban azt vizsgálták, hogyan lehet strukturálatlan szövegben kinyerni és osztályozni az adatokat. [3] A rendelkezésre álló technológia azonban csak a 2000-es évek eleje óta utolérte a kutatási érdeklődést. 2004-ben a SAS Institute kifejlesztette a SAS Text Miner-t, amely szinguláris értékbontást használ a nagydimenziós szövegterek kisebb dimenziójú alterekké való faktorizálására, hogy nagymértékben leegyszerűsítse a gépi elemzést [4]. . A matematika és a szövegfeldolgozási technológiák fejlődése ösztönözte a kereskedelmi szervezetek kutatását olyan területeken, mint a szöveges hangulatelemzés (hangulatelemzés), a fogyasztói vélemények gyűjtése és elemzése, a call center automatizálása [5]. . A big data technológiák megjelenése a 2000-es évek végén felkeltette az érdeklődést a strukturálatlan adatokat elemző programok iránt olyan modern területeken, mint az előrejelzés és a kiváltó okok elemzése [6] .
A "strukturálatlan adatok" kifejezés több okból is pontatlannak tekinthető:
Az olyan technikák, mint az adatbányászat , a természetes nyelvi feldolgozás és a szövegbányászat módszereket kínálnak a minták megtalálására a strukturálatlan információk valamilyen értelmezése érdekében.
A szöveg strukturálására szolgáló technikák általában magukban foglalják a kézi címkézést (metaadatokat) vagy a szórészletek jelölését a szöveg további strukturálására. A strukturálatlan információkezelési architektúra (UIMA) közös keretet biztosít ezen információk feldolgozásához, hogy értékeket nyerjen ki és strukturált adatokat hozzon létre a strukturálatlan információkból [4] . A géppel olvasható adatstruktúrát létrehozó szoftverek az emberi kommunikáció minden formájában létező nyelvi, auditív és vizuális struktúrákat használják fel [5] . Speciális algoritmusok például morfológiát , mondatszintaxist és így tovább elemezve kikövetkezhetnek a szövegből a szerkezetre. A strukturálatlan információkat ezután meg lehet jelölni az egyértelműség érdekében, és relevanciapontozási technikákat alkalmaznak a keresés javítására.
A „strukturálatlan adatok” példái közé tartoznak a könyvek, folyóiratok, dokumentumok, metaadatok, egészségügyi feljegyzések, hang-, videó-, analóg adatok, képek és strukturálatlan szövegen alapuló fájlok: e-mail üzenetek, weboldalak, szövegfeldolgozókkal létrehozott dokumentumok . A strukturálatlan információk strukturált objektumok formájában tárolhatók (pl. fájlok vagy dokumentumok formájában), amelyek maguk is szerkezettel rendelkeznek. Ebben az esetben a strukturált és strukturálatlan adatok kombinációját az aggregátumban "strukturálatlan adatoknak" is nevezik [6] . Például a HTML weboldalak már rendelkeznek jelöléssel, de csak megjelenítésre használhatók. Nem tartalmaz automatikus feldolgozásra alkalmas formában információt egyes jelölőelemek jelentéséről vagy funkciójáról. Az XHTML jelölést könnyebb automatikusan kezelni, de jellemzően nem tartalmazza a kifejezések szemantikai jelentését.
Mivel a strukturálatlan adatokat általában elektronikus dokumentumok formájában tárolják, a tartalomelemző vagy dokumentumkezelő programok szívesebben osztályozzák a teljes dokumentumokat, semmint a dokumentumokon belüli manipulációt. Így az ilyen típusú adatok feldolgozására szolgáló programok általában strukturálatlan információkat tartalmazó dokumentumgyűjtemények létrehozásának eszközei. Ma már azonban léteznek olyan megoldások is, amelyek az egész dokumentumnál kisebb atomelemekkel dolgoznak [7] .
A keresőmotorok a strukturálatlan adatok indexelésének és keresésének egyik népszerű eszközévé váltak.
Szótárak és enciklopédiák |
---|