A sötét adatok olyan adatok , amelyeket automatikusan gyűjtenek a számítógépes hálózatokban végzett rutin tevékenységek során, de semmilyen módon nem használják fel információszerzésre vagy döntéshozatalra [1] [2] . Egy szervezet adatgyűjtési képessége meghaladhatja az adatok elemzésére alkalmas átviteli sebességet . Egyes esetekben a szervezet nem is tud arról, hogy adatgyűjtés folyik [3] . Az IBM becslése szerint az érzékelők és A/D konverterek által generált adatok nagyjából 90 százalékát soha nem használják fel [4] .
Ipari környezetben a sötét adatok tartalmazhatnak érzékelők és telematika által gyűjtött információkat [5] .
A szervezetek különféle okokból rejtett adatokat tárolnak, és a becslések szerint a legtöbb vállalat csak adatainak 1%-át elemzi [6] . A fel nem használt adatok tárolásának oka lehet a szabályozási megfelelés [7] és az archívum [1] . Egyes szervezetek úgy vélik, hogy a rejtett adatok hasznosak lehetnek számukra a jövőben, amikor fejlettebb elemzési és üzleti intelligencia technológiák válnak elérhetővé [3] . Mivel a tárolás olcsó, az adatok tárolása egyszerű. Az adatok tárolása és védelme azonban általában magasabb költségekkel jár, mint a potenciális haszon.
David Hand , az Imperial College London professzora a "sötét adatok" kifejezést használja a hiányzó adatokra: "a sötét adatok olyan adatok, amelyekkel nem rendelkezel" [8] [a] .
Sok sötét adat strukturálatlan, ami azt jelenti, hogy az információ olyan formátumban jelenik meg, amelyet nehéz lehet kategorizálni, számítógéppel beolvasni és így elemezni. Gyakran az oka annak, hogy egy vállalkozás nem elemzi sötét adatait, a szükséges erőforrások mennyisége és az adatok elemzésének nehézsége. A Computer Weekly szerint a szervezetek 60%-a állítja, hogy saját BI-képességei "nem megfelelőek ", 65%-uk pedig "valamelyest szervezetlen megközelítést alkalmaz a tartalomkezeléshez" 10] .
Az idő múlásával relevanciáját vesztett hasznos adatok is a sötét adatok kategóriájába eshetnek. Ennek oka a nem megfelelő adatfeldolgozási sebesség. Például, ha a vállalkozás ismeri az ügyfél földrajzi elhelyezkedését, a cég a hely alapján tehet ajánlatot, azonban ha ezeket az adatokat nem dolgozzák fel azonnal, akkor előfordulhat, hogy a jövőben nem lesz jelentősége. Az IBM szerint az összegyűjtött adatok mintegy 60 százaléka azonnal veszít értékéből [4] .
A New York Times szerint az adatközpontok által felhasznált energia 90%-a kárba megy [11] . A redundáns adattárolás elkerülése energiaköltségeket takarítana meg. Emellett költségek is járnak az információ kihasználatlanságával, és ennek eredményeként a lehetőségek elvesztésével. A Datamation szerint "az EMEA tagszervezetekben tárolt adatok 54%-a sötét adat, 32%-a redundáns, elavult és triviális adat, és az értéknek csak 14%-a. 2020-tól a redundáns adatok tárolása körülbelül 900 milliárd dollárba kerül [12] ] .
A sötét adatok állandó tárolása veszélybe sodorhatja a szervezetet, különösen akkor, ha az adatok érzékenyek. Az adatok kiszivárogtatása súlyos következményekkel járhat: pénzügyi, jogi és hírnévvel kapcsolatos. Például az ügyfelek személyes adatainak kiszivárogtatása tömeges személyazonosság-lopáshoz vezethet . Egy másik példa egy vállalat saját érzékeny információinak kiszivárogtatása, például a kutatással és fejlesztéssel kapcsolatos információk . Ezek a kockázatok mérsékelhetők a szervezet adatigényének felmérésével és ellenőrzésével, valamint erős titkosítás és egyéb biztonsági intézkedések alkalmazásával [13] . A szükségtelen adatok törlését úgy kell végrehajtani, hogy azokat ne lehessen visszaállítani [14] .
Általánosan elfogadott, hogy a fejlettebb számítástechnikai rendszerek létrehozásával a sötét adatok értéke növekedni fog. Az a vélemény, hogy az adatok és elemzésük egy új ipari forradalom alapja lesz [5] . A potenciálisan hasznos adatok közé tartoznak azok is, amelyek jelenleg "sötét adatnak" számítanak, mivel nincs elegendő erőforrás a feldolgozásához. Mindezek az adatok a jövőben felhasználhatók a maximális teljesítmény és a szervezetek azon képességének biztosítására, hogy megfeleljenek az ügyfelek igényeinek. A nagy mennyiségű adattal foglalkozó egészségügyi és oktatási szervezetek számára különösen előnyös lehet a fel nem használt adatok feldolgozása a jövőben [15] .