Személyes adatok visszafejtése

Topics: Privacy, Anonymization

Számos cég/szervezet/kormány oszt meg egymással adatokat, amelyek vagy "anonimizáltak" vagy aggregált (statisztikai) adatok. Sajnos az adatok megfelelő anonimizációja nehéz, és gyakran anonimnak vélt adatokból konkrét személyek adatai visszafejthetők [1] [2]. Hasonlóan, aggregált adatokból is visszafejthetők személyes adatok, ha túl sok aggregált adatot adunk ki, vagy az adat jellege lehetővé teszi konkrét személyek adatainak visszafejtését [3] A kérdés gyakorlati fontosságát a közelgő általános európai adatvédelmi rendelet (GDPR) adja, ami előírja az adatok megfelelő anonimizációját.
A hallgató feladata támadások tervezése és implementációja amelyekkel anonimizált illetve aggregált adatok személyes jellegét lehet tesztelni (vagyis, hogy konkrét személyek adatai nem visszafejthetők belőlük, és így többé nem minősülnek-e személyes adatoknak).
A projektben van lehetőség egy létező rendszer (AirCloak [4]) bug bounty programjában részt venni ( https://aircloak.com/downloads/Aircloak-Challenge.pdf)
Elvárás: programozási hajlandóság
[1] bits.blogs.nytimes.com/2010/03/12/netflix-cancels-contest-plans-and-settles-suit/
[2] blog.crysys.hu/2017/07/628/
[3] blog.crysys.hu/2017/08/gdpr2/
[4] Aircloak challenge

Maximum number of students: 2 students

Contact: Gergely Ács (CrySyS Lab)

Data Protection Impact Assessment (DPIA) keretrendszer fejlesztése

Topics: Privacy, Risk management, Machine Learning

A 2018 májusában érvénybe lépő általános európai adatvédelmi rendelet (GDPR) [1] előírja, hogy a személyes adatokat kezelő cégeknek hatásanalízist (Data Protection Impact Assessment) kell készíteniük, amiben elemzik a személyes adatokat érhető magas kockázatú fenyegetettségeket (adatlopás, de-anonimizáció, inferencia, stb.) és azokat megfelelően kezelik (pl. adatok rejtjelezése, access control, felhasználók megfelelő informálása és beleegyezés kérése, anonimizáció, stb.) valamint ezek kockázatcsökkentő hatásának mérése. Ezt kérés esetén be kell tudni mutatni bármely európai adatvédelmi hivatalnak (magyarországon a NAIH [2]), máskülönben a cégnek súlyos bírságot kell fizetnie. A nagy igény ellenére olyan rendszer nem érhető el széles körben, ami támogatja a jogi és technikai megfelelőség vizsgálatát egyaránt.
A hallgató feladatai (hallgatónként 1-2 feladat választható):
- front-end fejlesztése egy, a CrySyS laborban fejlesztett keretrendszerhez (web-programozás)
- adat személyességének/érzékenységének mérése és implementációja
- jogi megfelelőségi teszt implementációja
- hatásanalízis automatizálása gépi tanulással (machine learning)
- egy létező keretrendszer magyarítása [3]
[1] GDPR
[2] NAIH honlapja
[3] CNIL DPIA tool

Maximum number of students: 3 students

Contact: Gergely Ács (CrySyS Lab)

Érzékeny adatok inferenciája

Topics: Privacy, Anonymization

Napjainkban sok felhasználó osztja meg a személyes adatát harmadik féllel (cég/kormány/szervezetek), anélkül, hogy tudnák érzékeny adatot osztanak meg. Honnan tudná valaki, hogy a saját áramfogyasztásából kitalálható a vallása, vagy a lakóhelyéből esetleg a pénzügyi helyzete esetleg rassza? Az ilyen "rejtett" információk felfedése diszkriminációra adhat okot.
A hallgató feladata bizonyos adat (pl. fotók, elektromos fogyasztás, GPS adatok, stb.) érzékeny jellegének automatikus felfedése publikusan elérhető tudásbázist felhasználva (pl. Wikipedia); annak mérése, hogy a megosztandó adat szemantikailag mennyire hasonló érzékeny információk csoportjaihoz (pl. vallás, szexuális beállítottság, pénzügyi adatok, egészségügyi adatok, stb.)
Elvárás: programozási hajlandóság

Maximum number of students: 1 student

Contact: Gergely Ács (CrySyS Lab)

Fairness problémák gépi tanulásban

Topics: Privacy, Machine Learning, Fairness

A mesterséges intelligencia és gépi tanulás térnyerése vitathatatlan. Az automatizált döntéseket alkalmazó rendszerek száma rohamosan növekszik (önjáró autók, egészségügyi alkalmazások, felhasználói hitelesítés, döntéstámogatás, profilozás, stb.). Ugyanakkor az ilyen rendszerek adatvédelmi és biztonsági problémái jelentősek, szerteágazók, és megoldatlanok.
A fairness problémák többnyire a tanulási halmazokban már jelenlevő alulreprezentáltság és előítéletek (bias) okozzák [1][2]. Például sok tanulási adatban felülreprezentáltak bizonyos embercsoportok, rasszok, ami miatt a modell emberek bizonyos csoportjára pontosabban működik mint másokra. Valóban, sok arcfelismerő rendszer színesbőrűekre pontatlanabb mint fehérekre, hasonlóan a hitelképesség automatikus felmérése során hátrányba kerülhetnek a színesbőrűek ha a tanulási adat szerint sok színesbőrű nem fizette vissza a hitelét a múltban. Kérdés, hogy építhető-e olyan modell, ami "immunis" a tanulási adathalmazban található alulreprezentáltságra és előítéletekre.
A hallgató feladata a különböző fairness fogalmak áttekintése és rendszerezése, illetve egy választott tanulási algoritmus implementálása valamely fairness garanciával.
Elvárás: irodalomkutatás és/vagy programozási hajlandóság
[1] www.bbc.com/news/technology-39533308
[2] www.theguardian.com/technology/2017/apr/13/ai-programs-exhibit-racist-and-sexist-biases-research-reveals

Maximum number of students: 1 student

Contact: Gergely Ács (CrySyS Lab)

CAN mintafelismeres Long-Short Term Memory Neural Networks-szel

Topics: Privacy, Machine Learning, Cars

A neurális hálózatok (artifical neural networks) mára már az egyik legszélesebb körben alkalmazott gépi tanulási módszernek számít. A már-már klasszikusnak számító arcfelismerés, képfelismerés, orvosi diagnózisok (és még sok egyéb) mellett nap mint nap új alkalmazási területeit ismerhetjük meg. Rengeteg fajtája ismert, ezek közül egyik az LSTM hálózatok (long-short term memory), melyek képesek meghatározott időintervallumon adatokat megjegyezni. Arra lettek tervezve, hogy egy adatsor bizonyos mintáit fel tudják ismerni (pl: kézírás, beszéd). Tegyük fel, hogy képek sorozatából szeretnénk meghatározni, hogy hol készült/ játszódik (rövid video). Egy emlékezet nélküli algoritmus, ha az egyik képen felismer egy amerikai zászlót, akkor megmondja, hogy Amerikában vagyunk, ha a következőn éppen sushit esznek, akkor arra következtet, hogy Japánban és így tovább. Az LSTM hálózatok az ilyen jellegű kaotikus viselkedést hivatottak elkerülni. A feladatban ezeket a neurális hálókat kell alkalmazni autók CAN adatain (ld: en.wikipedia.org/wiki/CAN_bus). A feladat célja, hogy ezekből az adatokbol (mint idősor) meghatározzuk, hogy ki vezette az autót a lehetséges vezetők közül. Teszt és tanítási halmaz a hallgató rendelkezésére áll.
A hallgató feladatai:
- az LSTM hálózatok megismerése és megértése
- az algoritmus alkalmazása autók CAN bus idősorain
- az algoritmus implementálása

Maximum number of students: 1-2 student

Contact: Szilvia Lestyán (CrySyS Lab)

Interdependent privacy

Topics: Privacy, Economics

Privacy concerns arise naturally along with sharing or releasing personal data. Due to logical connections among individuals (e.g., online social networks) and/or correlation between individuals' data stemming from similar personal (e.g., DNA) or behavioral traits (e.g., individual mobility), privacy breaches and data holder malpractice could potentially jeopardize the privacy of many who may not even be aware of the act of sharing and its impact; not to mention consenting to the sharing. We refer to this phenomenon as interdependent privacy [1].
The prospective student will first briefly get to know the technical, economic and legal background of the topic. Building on that knowledge the student will design and evaluate a simple game-theoretic model capturing the essence of interdependent privacy.
Required skills: analytic thinking, good command of English
Preferred skills: basic knowledge of game theory
[1] Biczók, Gergely, and Pern Hui Chia. "Interdependent privacy: Let me share your data." International Conference on Financial Cryptography and Data Security. Springer, Berlin, Heidelberg, 2013.

Maximum number of students: 2 students

Contact: Gergely Biczók (CrySyS Lab)

Cross-platform privacy leaks in apps

Topics: Privacy, Mobile

There are a number of popular platforms available for third-party app development, such as Android, iOS, Facebook, Google Drive and Dropbox. Each platform has its own access control mechanisms and its corresponding privacy issues. While each one is interesting in its own right, a sneaky and data-hungry application provider can potentially combine the personal information gathered by multiple apps over different platforms in order to compile a detailed user profile, without consent from or even knowledge by the user themselves. Furthermore, single sign-on technologies by Facebook or Google may escalate the problem.
The prospective student will first briefly get to know the access control mechanisms of popular app platforms, and map out the potential for sneaky cross-platform data collection. Then, the student will gather permission request data of apps on different platforms, and attempt to find evidence of cross-platform privacy leaks and estimate its likelihood and significance.
Required skills: good command of English
Preferred skills: basic programming skills (e.g., python), familiarity with app platforms
[1] Chia, Pern Hui, Yusuke Yamamoto, and N. Asokan. " Is this app safe?: a large scale study on application permissions and risk signals." Proceedings of the 21st international conference on World Wide Web. ACM, 2012.

Maximum number of students: 2 students

Contact: Gergely Biczók (CrySyS Lab)

Threat analysis in Open Banking

Topics: Privacy, Mobile, Economics

The European Union have ruled that traditional banks are uncompetitive and slow, and innovative financial services have a hard time breaking into the market. Thus, the EU has passed a new legislation (Payment Services Directive, PSD2), which requires banks to open up their information systems through a new type of API. This API allows third party Fintech apps and services to get information directly from your bank. It is obvious that such an API poses significant information security and privacy threats to banks and their end-customers.
The prospective student will first briefly get to know the idea of Open Banking and the PSD2 directive. Then, focusing on the newest version of the Open Bank API, the student will do a systematic security and privacy threat analysis. The student will learn how to apply the STRIDE and LINDDUN threat analysis methodologies.
Required skills: adequate command of English
Preferred skills: basic programming skills (e.g., python), familiarity with REST APIs
[1] Mansfield-Devine, Steve. "Open banking: opportunity and danger." Computer Fraud & Security, 2016.

Maximum number of students: 2 students

Contact: Gergely Biczók (CrySyS Lab)