Különböző adatvédelem

Az oldal jelenlegi verzióját még nem ellenőrizték tapasztalt közreműködők, és jelentősen eltérhet a 2022. február 15-én felülvizsgált verziótól ; az ellenőrzések 2 szerkesztést igényelnek .

A differenciális adatvédelem  olyan módszerek összessége, amelyek a legpontosabb lekérdezéseket biztosítják egy statisztikai adatbázishoz , miközben minimálisra csökkentik az egyes rekordok azonosításának lehetőségét abban.

Bevezetés

A differenciális adatvédelem az egyének érzékeny adatainak elvesztésének matematikai meghatározása, amikor személyes adataikat termék létrehozásához használják fel. A kifejezést Cynthia Dwork alkotta meg 2006-ban [1] , de Dwork, Frank McSherry , Kobe Nissim és Adam D. Smith [2] korábbi publikációjában is használják . A munka különösen Nissim és Irit Dinur [3] [4] kutatásán alapul, akik kimutatták, hogy lehetetlen egy privát statikus adatbázisból információkat közzétenni anélkül, hogy a magánjellegű információk egy részét feltárnák, és hogy a teljes adatbázis nyilvánosságra hozható. meglehetősen kis számú kérés eredményének közzétételével [4] .

A vizsgálatot követően világossá vált, hogy a statisztikai adatbázisok bizalmas kezelését a meglévő módszerekkel nem lehet biztosítani, és ennek eredményeként új adatbázisokra van szükség, amelyek korlátozzák a statisztikai adatban foglalt személyes adatok elvesztésével járó kockázatokat. adatbázis. Ennek eredményeként olyan új módszerek születtek, amelyek a legtöbb esetben lehetővé teszik az adatbázisból származó pontos statisztikák készítését, miközben magas szintű bizalmasságot biztosítanak [5] [6] .

Alapelv és illusztráció

A differenciált adatvédelem azon alapul, hogy véletlenszerűséget viszünk be az adatokba.

A társadalomtudományokban kifejlesztett egyszerű példa [7] az, hogy megkérünk egy személyt, hogy válaszoljon arra a kérdésre: „Van Önnek A tulajdonsága?” a következő eljárás szerint:

  1. feldobni egy érmét
  2. Ha feljönnek a fejek, válaszolj őszintén a kérdésre.
  3. Ellenkező esetben dobja újra, ha feljön, válaszoljon "Igen", ha farok - "Nem"

A bizalmasság azért merül fel, mert a válaszból nem lehet biztosan tudni, hogy egy személy rendelkezik-e adott tulajdonsággal. Mindazonáltal ezek az adatok jelentősek, hiszen azoknak az embereknek a negyedétől érkezik pozitív válasz, akik nem rendelkeznek ezzel a tulajdonsággal, és háromnegyedétől azok, akik valóban rendelkeznek ezzel. Így, ha p az A-val rendelkező emberek valós aránya, akkor (1/4) (1- p) + (3/4) p = (1/4) + p / 2 pozitív válaszokat várunk. Ezért lehet becsülni R.

Formális definíció és használati példa

Legyen ε  egy pozitív valós szám, A  pedig egy valószínűségi algoritmus , amely egy adathalmazt vesz be bemenetként (az adatok birtokában lévő megbízható fél tevékenységét jelöli). Jelölje A képét im A - val . Az A algoritmus ε - differenciálisan privát , ha az összes adathalmaz esetében , amelyek egy elemben (azaz egy személy adataiban) különböznek, valamint az im A halmaz összes S részhalmaza :

ahol P a valószínűség.

E definíció szerint a differenciált adatvédelem az adatközzétételi mechanizmus feltétele (azaz az adatkészletről információt kiadó megbízható fél határozza meg), nem maga az adatkészlet. Ez intuitív módon azt jelenti, hogy bármely két hasonló adatkészlet esetén a differenciális privát algoritmus megközelítőleg ugyanúgy fog viselkedni mindkét adatkészleten. A definíció erős garanciát ad arra is, hogy egy egyén jelenléte vagy hiánya nem befolyásolja az algoritmus végső kimenetét.

Tegyük fel például, hogy van egy orvosi feljegyzések adatbázisa, ahol minden rekord egy pár ( Név , X ), ahol nulla vagy egy, amely azt jelzi, hogy a személynek gyomorhurutja van-e vagy sem :

Név Gastritis jelenléte (X)
Ivan egy
Péter 0
Vasilisa egy
Michael egy
Maria 0

Tegyük fel most, hogy egy rosszindulatú felhasználó (amelyet gyakran támadónak neveznek) ki akarja deríteni, hogy Mihailnak gyomorhurutja van-e vagy sem. Tételezzük fel azt is, hogy tudja, melyik sor tartalmaz információkat Mikhailról az adatbázisban. Most tegyük fel, hogy a támadó csak egy adott lekérdezési formát használhat, amely az adatbázisban lévő oszlop első sorainak részösszegét adja vissza . Annak megállapítására, hogy Mihailnak gyomorhurutja van-e, a támadó lekérdezéseket hajt végre: és , majd kiszámítja a különbséget. Ebben a példában , és , tehát különbségük . Ez azt jelenti, hogy a "Gastritis jelenléte" mezőnek Mikhail sorában egyenlőnek kell lennie . Ez a példa bemutatja, hogyan kerülhet veszélybe az egyes információk, még akkor is, ha egy adott személy adataira nem kérnek kifejezett kérést.

Folytatva ezzel a példával, ha úgy építjük fel az adatkészletet , hogy (Mikhail, 1) lecseréljük (Mikhail, 0), akkor a támadó meg tudja különböztetni az adathalmazt az egyes adatkészletek kiszámításával . Ha egy támadó egy ε-differenciális privát algoritmuson keresztül szerezne értékeket, kellően kis ε-hoz, akkor nem tudna különbséget tenni a két adatkészlet között.

A fent leírt érmepélda -differentially private [8] .

Határesetek

Az az eset, amikor ε = 0, ideális a titoktartás megőrzéséhez, mivel az adatbázisban szereplő személyről információ megléte vagy hiánya nem befolyásolja az algoritmus eredményét, azonban egy ilyen algoritmus értelmetlen a hasznos információk szempontjából, mivel még nulla emberszámmal ugyanazt vagy hasonló eredményt ad.

Ha ε a végtelenbe hajlik, akkor bármely valószínűségi algoritmus megfelel a definíciónak, mivel az egyenlőtlenség  mindig teljesül.

Érzékenység

Legyen  pozitív egész szám,  legyen adathalmaz és  függvény. A függvény érzékenységét [9] -vel jelöljük - a képlet határozza meg

az összes adatkészletpáron és in , legfeljebb egy elemben különbözik egymástól, és ahol a normát jelöli .

Az orvosi adatbázis fenti példájában, ha figyelembe vesszük a függvény érzékenységét , akkor egyenlő a -val , mivel az adatbázis bármely rekordjának megváltoztatása olyasmihez vezet, ami vagy megváltozik, vagy nem változik.

Laplace mechanizmus

Tekintettel arra, hogy a differenciális adatvédelem valószínűségi fogalom, bármely módszere szükségszerűen véletlenszerű összetevőt tartalmaz. Némelyikük, mint például a Laplace-módszer, a szabályozott zaj hozzáadását használja a kiszámítandó függvényhez.

A Laplace-módszer hozzáadja a Laplace-zajt, vagyis a Laplace-eloszlásból származó zajt, amely valószínűségi sűrűségfüggvényként fejezhető ki, és amelynek nulla az átlaga és a szórása . Határozzuk meg a kimeneti függvényt valós értékű függvényként, ahol , és  az a lekérdezés, amelyet az adatbázisban terveztünk végrehajtani. Így folytonos valószínűségi változónak tekinthető , ahol

ami nem több, mint (pdf - valószínűségi sűrűségfüggvény vagy valószínűségi sűrűségfüggvény). Ebben az esetben az ε adatvédelmi tényezőt jelölhetjük . Így a definíció szerint ε-differenciálisan privát. Ha ezt a fogalmat próbáljuk használni a fenti példában a gyomorhurut jelenlétére vonatkozóan, akkor ahhoz, hogy ε-differenciális magánfüggvény legyen, teljesülnie kell , mivel ).

A Laplace-zajon kívül más típusú zaj (például Gauss) is használható, de ezekhez szükség lehet a differenciális magánélet definíciójának enyhe lazítására [10] .

Összetétel

Következetes alkalmazás

Ha egy lekérdezést ε-differenciálisan biztonságos időkben hajtunk végre, és a bevitt véletlenszerű zaj minden lekérdezésnél független, akkor a teljes adatvédelem (εt)-differenciális lesz. Általánosabban szólva, ha léteznek független mechanizmusok: , amelyeknek az adatvédelmi garanciái rendre azonosak , akkor bármely funkció -különbözõen privát lesz [11] .

Párhuzamos kompozíció

Továbbá, ha a lekérdezéseket az adatbázis nem átfedő részhalmazaira hajtják végre, akkor a függvény -differenciálisan privát lesz [11] .

Csoport adatvédelem

A differenciált adatvédelmet általában arra tervezték, hogy megvédje az olyan adatbázisok adatait, amelyek csak egy sorral különböznek egymástól. Ez azt jelenti, hogy egy tetszőleges segédinformációval rendelkező ellenfél sem tudhatja, hogy valamelyik résztvevő megadta-e az adatait. Ez a fogalom azonban kiterjeszthető egy csoportra, ha meg akarjuk védeni a sorokban eltérő adatbázisokat, hogy a támadó tetszőleges támogató információval ne tudhassa, hogy az egyes tagok megadták-e az adataikat. Ez akkor érhető el, ha a definícióból a képletet [12] -re cseréljük , akkor D 1 és D 2 esetén soronként eltérő

Így az (ε/c) paraméter használata ε helyett lehetővé teszi a kívánt eredmény elérését és a karakterláncok védelmét. Más szóval, ahelyett, hogy minden elem ε-differenciálisan privát lenne, most minden elemcsoport ε-differenciálisan privát, és minden elem (ε/c)-különbözetileg privát.

Különböző adatvédelem alkalmazása valós alkalmazásokra

A mai napig számos felhasználási terület létezik az eltérő adatvédelemre:

Jegyzetek

  1. Dwork Cynthia, 2006 , p. nyolc.
  2. Cynthia Dwork, Frank McSherry, Kobbi Nissim és Adam Smith=. Zaj-érzékenység kalibrálása privát adatelemzésben // Proceedings of the Third Conference on Theory of Cryptography (TCC'06), Shai Halevi és Tal Rabin (szerk.). - Springer-Verlag, Berlin, Heidelberg, 2006. - 266. o . - doi : 10.1007/11681878_14 .
  3. Dwork Cynthia, 2006 , p. 12.
  4. 12 Nissim et al, 2003 , pp. 202-206.
  5. HILTON, MICHAEL. Különböző adatvédelem: történelmi felmérés  (határozatlan idejű) . , 1. o
  6. Dwork, 2008 , pp. 3-13.
  7. Roth et al, 2014 , p. tizenöt.
  8. Roth et al, 2014 , p. harminc.
  9. Dwork et al, 2006 , pp. 271-272.
  10. Dwork, 2008 , p. 16.
  11. 12 McSherry , 2009 , p. 6.
  12. Dwork Cynthia, 2006 , p. 9.
  13. Machanavajjhala et al, 2008 , p. egy.
  14. Erlingsson et al, 2014 , p. egy.
  15. A városi mobilitás kezelése technológiával – Andrew Eland . Google Policy Europe Blog . Hozzáférés időpontja: 2017. december 19. Az eredetiből archiválva : 2017. december 10.
  16. Apple – Sajtóinformáció – Az Apple bemutatja az iOS 10-et, a valaha volt legnagyobb iOS-kiadást . Apple . Hozzáférés időpontja: 2016. június 16. Az eredetiből archiválva : 2017. április 29.

Irodalom