Data Protection Impact Assessment (DPIA) keretrendszer fejlesztése

Topics: Privacy, Risk management, Machine Learning

A 2018 májusában érvénybe lépő általános európai adatvédelmi rendelet (GDPR) [1] előírja, hogy a személyes adatokat kezelő cégeknek hatásanalízist (Data Protection Impact Assessment) kell készíteniük, amiben elemzik a személyes adatokat érhető magas kockázatú fenyegetettségeket (adatlopás, de-anonimizáció, inferencia, stb.) és azokat megfelelően kezelik (pl. adatok rejtjelezése, access control, felhasználók megfelelő informálása és beleegyezés kérése, anonimizáció, stb.) valamint ezek kockázatcsökkentő hatásának mérése. Ezt kérés esetén be kell tudni mutatni bármely európai adatvédelmi hivatalnak (magyarországon a NAIH [2]), máskülönben a cégnek súlyos bírságot kell fizetnie. A nagy igény ellenére olyan rendszer nem érhető el széles körben, ami támogatja a jogi és technikai megfelelőség vizsgálatát egyaránt.
A hallgató feladatai (hallgatónként 1-2 feladat választható):
- front-end fejlesztése egy, a CrySyS laborban fejlesztett keretrendszerhez (web-programozás)
- adat személyességének/érzékenységének mérése és implementációja
- jogi megfelelőségi teszt implementációja
- hatásanalízis automatizálása gépi tanulással (machine learning)
- egy létező keretrendszer magyarítása [3]
[1] GDPR
[2] NAIH honlapja
[3] CNIL DPIA tool

Maximum number of students: 3 students

Contact: Gergely Ács (CrySyS Lab)

Fairness problémák gépi tanulásban

Topics: Privacy, Machine Learning, Fairness

A mesterséges intelligencia és gépi tanulás térnyerése vitathatatlan. Az automatizált döntéseket alkalmazó rendszerek száma rohamosan növekszik (önjáró autók, egészségügyi alkalmazások, felhasználói hitelesítés, döntéstámogatás, profilozás, stb.). Ugyanakkor az ilyen rendszerek adatvédelmi és biztonsági problémái jelentősek, szerteágazók, és megoldatlanok.
A fairness problémák többnyire a tanulási halmazokban már jelenlevő alulreprezentáltság és előítéletek (bias) okozzák [1][2]. Például sok tanulási adatban felülreprezentáltak bizonyos embercsoportok, rasszok, ami miatt a modell emberek bizonyos csoportjára pontosabban működik mint másokra. Valóban, sok arcfelismerő rendszer színesbőrűekre pontatlanabb mint fehérekre, hasonlóan a hitelképesség automatikus felmérése során hátrányba kerülhetnek a színesbőrűek ha a tanulási adat szerint sok színesbőrű nem fizette vissza a hitelét a múltban. Kérdés, hogy építhető-e olyan modell, ami "immunis" a tanulási adathalmazban található alulreprezentáltságra és előítéletekre.
A hallgató feladata a különböző fairness fogalmak áttekintése és rendszerezése, illetve egy választott tanulási algoritmus implementálása valamely fairness garanciával.
Elvárás: irodalomkutatás és/vagy programozási hajlandóság
[1] www.bbc.com/news/technology-39533308
[2] www.theguardian.com/technology/2017/apr/13/ai-programs-exhibit-racist-and-sexist-biases-research-reveals

Maximum number of students: 1 student

Contact: Gergely Ács (CrySyS Lab)

CAN mintafelismeres Long-Short Term Memory Neural Networks-szel

Topics: Privacy, Machine Learning, Cars

A neurális hálózatok (artifical neural networks) mára már az egyik legszélesebb körben alkalmazott gépi tanulási módszernek számít. A már-már klasszikusnak számító arcfelismerés, képfelismerés, orvosi diagnózisok (és még sok egyéb) mellett nap mint nap új alkalmazási területeit ismerhetjük meg. Rengeteg fajtája ismert, ezek közül egyik az LSTM hálózatok (long-short term memory), melyek képesek meghatározott időintervallumon adatokat megjegyezni. Arra lettek tervezve, hogy egy adatsor bizonyos mintáit fel tudják ismerni (pl: kézírás, beszéd). Tegyük fel, hogy képek sorozatából szeretnénk meghatározni, hogy hol készült/ játszódik (rövid video). Egy emlékezet nélküli algoritmus, ha az egyik képen felismer egy amerikai zászlót, akkor megmondja, hogy Amerikában vagyunk, ha a következőn éppen sushit esznek, akkor arra következtet, hogy Japánban és így tovább. Az LSTM hálózatok az ilyen jellegű kaotikus viselkedést hivatottak elkerülni. A feladatban ezeket a neurális hálókat kell alkalmazni autók CAN adatain (ld: en.wikipedia.org/wiki/CAN_bus). A feladat célja, hogy ezekből az adatokbol (mint idősor) meghatározzuk, hogy ki vezette az autót a lehetséges vezetők közül. Teszt és tanítási halmaz a hallgató rendelkezésére áll.
A hallgató feladatai:
- az LSTM hálózatok megismerése és megértése
- az algoritmus alkalmazása autók CAN bus idősorain
- az algoritmus implementálása

Maximum number of students: 1-2 student

Contact: Szilvia Lestyán (CrySyS Lab)