Small cell risk analysis (SCRA)

Wat is een ‘small cell risk analysis’ (SCRA)

Een small cell risk analysis (SCRA) is een analyse van het risico van het optreden van ‘small cells’ in een gegevensset die wordt overgemaakt aan derden, doorgaans voor wetenschappelijke of statistische doeleinden (hierna genoemd ‘secondary use’), vooraleer de gegevensset aan de derde wordt overgemaakt. Een ‘small cell’ treedt op wanneer door combinatie van de informatie in de gegevensset één enkel individu of een beperkt aantal individuen kunnen worden geïsoleerd en daardoor het risico bestaat dat de betrokken gegevens in verband kunnen worden gebracht met een geïdentificeerd of identificeerbaar persoon.

De SCRA is dus een methode, naast andere methoden, om erover te waken dat niet-anonieme of niet-gepseudonimiseerde persoonsgegevens worden meegedeeld aan derden. De uitvoering ervan wordt in heel wat beraadslagingen m.b.t. secondary use opgelegd door het Informatieveiligheidscomité.

Anonieme gegevens versus gepseudonimiseerde persoonsgegevens

Anonieme gegevens zijn gegevens die door niemand kunnen worden gekoppeld aan een geïdentificeerde of identificeerbare persoon. Het gaat bijvoorbeeld om kruistabellen zonder small cells.

Artikel 4, 5) van de AVG definieert pseudonimisering als “het verwerken van persoonsgegevens op zodanige wijze dat de persoonsgegevens niet meer aan een specifieke betrokkene kunnen worden gekoppeld zonder dat er aanvullende gegevens worden gebruikt, mits deze aanvullende gegevens apart worden bewaard en technische en organisatorische maatregelen worden genomen om ervoor te zorgen dat de persoonsgegevens niet aan een geïdentificeerde of identificeerbare natuurlijke persoon worden gekoppeld“.

Er moet dus aan 4 voorwaarden worden voldaan om van gepseudonimiseerde gegevens te kunnen gewagen:

  1. de gepseudonimiseerde gegevens mogen geen rechtstreeks identificerende persoonsgegevens (bv. INSZ, naam, precies adres, …) omvatten;
  2. het geheel van gepseudonimiseerde gegevens mag op zich redelijkerwijs niet toelaten af te leiden over welke geïdentificeerde of identificeerbare persoon het gaat;
  3. het mag voor de ontvangende instantie redelijkerwijs niet mogelijk zijn om de gepseudonimiseerde gegevens te koppelen aan aanvullende gegevens waardoor kan worden afgeleid over welke geïdentificeerde of identificeerbare persoon het gaat;
  4. de aanvullende gegevens waarmee kan worden afgeleid over welke geïdentificeerde of identificeerbare persoon het gaat, dienen dus apart te worden bewaard van de gepseudonimiseerde gegevens, waarbij de passende technische en organisatorische maatregelen worden genomen om ervoor te zorgen dat de ontvangende partij de gepseudonimiseerde gegevens redelijkerwijs niet (terug) kan linken aan de geïdentificeerde of identificeerbare persoon.

De AVG is niet van toepassing op de verwerking van anonieme gegevens, maar wel van toepassing op de verwerking van gepseudonimiseerde persoonsgegevens.

Het juridisch kader

De verdere verwerking van persoonsgegevens voor wetenschappelijke of statistische doeleinden is krachtens de artikelen 5, 1. b) en e), en 89, 1. van de Algemene Verordening Gegevensbescherming (AVG) toegestaan mits ze is onderworpen aan “passende waarborgen in overeenstemming met de AVG voor de rechten en vrijheden van de betrokkene. Die waarborgen zorgen ervoor dat er technische en organisatorische maatregelen zijn getroffen om de inachtneming van het beginsel van minimale gegevensverwerking te garanderen. Deze maatregelen kunnen pseudonimisering omvatten, mits aldus die doeleinden in kwestie kunnen worden verwezenlijkt. Wanneer die doeleinden kunnen worden verwezenlijkt door verdere verwerking die de identificatie van betrokkenen niet of niet langer toelaat, moeten zij aldus worden verwezenlijkt.

Artikel 197 van de Belgische Wet Verwerking Persoonsgegevens stelt ter concretisering van de AVG een zgn. cascadesysteem in: “De verantwoordelijke voor de verwerking met het oog op onderzoek of statistische doeleinden gebruikt anonieme gegevens. Indien het niet mogelijk is om met een verwerking van anonieme gegevens het onderzoeksdoel of statistische doel te bereiken, gebruikt de verwerkingsverantwoordelijke gepseudonimiseerde gegevens. Indien het niet mogelijk is om met een verwerking van gepseudonimiseerde gegevens het onderzoeksdoel of het statistische doel te bereiken, gebruikt de verwerkingsverantwoordelijke niet-gepseudonimiseerde gegevens.” Secondary use gebeurt dus waar mogelijk met anonieme gegevens of minstens gepseudonimiseerde persoonsgegevens. Enkel indien dit niet mogelijk is, kunnen voor secondary use niet-gepseudonimiseerde gegevens worden verwerkt. Dan gelden uiteraard alle bepalingen van de AVG die van toepassing zijn op niet-gepseudonimiseerde persoonsgegevens. De ervaring leert dat er quasi nooit kan worden aangetoond dat secondary use niet mogelijk is met anonieme of gepseudonimiseerde gegevens.

In de Belgische Wet Verwerking Persoonsgegevens wordt in artikel 198 e.v. verder aangegeven door wie er moet worden geanonimiseerd of gepseudonimiseerd. Wanneer er gegevens vanuit één bron worden verwerkt voor secondary use geschiedt de anonimisering of pseudonimisering door die bron. Wanneer er gegevens vanuit verschillende bronnen worden gekoppeld, geschiedt de anonimisering of pseudonimisering door één van de bronnen of door een derde vertrouwenspersoon (hierna genoemd ‘TTP’ (Trusted Third Party)). In de sociale en gezondheidssector is geopteerd om, in geval gegevens vanuit verschillende bronnen worden gekoppeld, voor de pseudonimisering beroep te doen op één of meerdere TTPs, zoals de Kruispuntbank van de Sociale Zekerheid, het eHealth-platform of HealthData.be.

Wie voert een small cell risk analysis (SCRA) best wanneer uit ?

De SCRA moet worden uitgevoerd door een instantie die onafhankelijk is van de verwerker van de gegevens voor secondary use om belangenvermenging te vermijden. Daarenboven vereist het uitvoeren van de SCRA een voldoende kennis van het domein waarop de gegevens betrekking hebben. Anders kan het risico op het optreden van small cells niet goed worden ingeschat. Indien men bv. bij de mededeling van nomenclatuurcodes van verstrekte geneesmiddelen geen inzicht heeft welke nomenclatuurcodes betrekking hebben op welke geneesmiddelen en welke geneesmiddelen worden gebruikt voor de bestrijding van zeldzame ziekten (waarbij door het beperkte aantal patiënten een verhoogd risico bestaat op small cells), kan men geen degelijke SCRA uitvoeren.

Een SCRA dient bovendien worden uitgevoerd op de hele gegevensset, dus na de eventuele koppeling van gegevens uit verschillende bronnen, en vóór de mededeling van de gegevensset aan de verwerker van de gegevens voor secondary use.

Welke maatregelen kunnen worden genomen indien uit de small cell risk analysis (SCRA) een (onaanvaardbaar) risico op small cells blijkt ?

Geen exacte datums meedelen

Datums worden teruggebracht tot jaar, jaar en kwartaal of jaar en maand. Kwartaal en maand worden slechts meegedeeld indien het beoogde secondary use dit vereist.

Een andere mogelijkheid is om het aantal dagen te bepalen tussen 2 datums en dat aantal in te delen in klassen.

I.p.v. geboortedatums kan de leeftijd worden meegedeeld.

Geen exacte bedragen meedelen

Bedragen (bv. lonen, leeftijden, …) worden ingedeeld in klassen.

Geen precieze plaatsen meedelen

Er worden geen adressen van woonplaatsen, geen precieze ziekenhuizen waar zorgen zijn verstrekt, … meegedeeld. De plaatsen worden bij voorkeur zo hoog mogelijk geaggregeerd (land, gewest, provincie, arrondissement, gemeente, statistische wijk). Hoe lager het niveau, hoe meer moet worden aangetoond waarom dit niveau noodzakelijk is.

Een andere mogelijkheid is de om de afstand te bepalen tussen 2 plaatsen en eventueel mee te delen in klassen, bv. de woonplaats en het ziekenhuis waar zorgen zijn verstrekt.

Grotere precisie in situering in de tijd vergt lagere precisie in situering in de ruimte en vice versa

Hoe preciezer datums worden meegedeeld, hoe minder precies plaatsen worden meegedeeld en vice versa.

Variabelen in ruimere klassen indelen

Leeftijdsklassen, loonklassen, … kunnen verruimd worden.

Toepassen van de 1 tot 3-regel of 1 tot 9-regel (herkomst)

Deze regel wordt toegepast in het geval er kruistabellen worden gevraagd. Indien een bepaalde cel (een bepaalde combinatie van variabelen) een te klein aantal personen vertegenwoordigt, i.e. minder dan 3 of minder dan 9, dan wordt het effectief aantal vervangen door resp. 1 tot 3 of 1 tot 9.

Van één kruistabel meerdere maken, waarbij telkens een deel van de variabelen gekruist wordt

Wanneer blijkt dat een kruistabel te veel kleine cellen bevat met kleine waarden, dan kan het een oplossing zijn om van één kruistabel meerdere te maken, waarbij telkens een deel van de variabelen gekruist wordt.

I.p.v. deze tabel

WoonplaatsGeslachtLeeftijdsklasseNationaliteitSocio-economische positieAantal
Aalstm35-49Afrikawerkloos1
...
Bruggem18-24Belgwerkend1
...
Gentv25-34EUwerkloos2
...
Kortrijkv25-34EUwerkend1
...

deze 2 tabellen

WoonplaatsGeslachtLeeftijdsklasseAantal|WoonplaatsNationaliteitSocio-economische positieAantal
Aalstm35-4920|AalstAfrikawerkloos54
...|...
Bruggem18-2414|BruggeBelgwerkend37
...|...
Gentv25-3419|GentEUwerkloos26
...|...
Kortrijkv25-3424|KortrijkEUwerkend18
...|

2-fasen methode

De gebruiker voor secondary use krijgt een kleine, representatieve steekproef van gepseudonimiseerde gegevens of krijgt synthetische gegevens om de toepassingen te ontwikkelen en uit te testen. Wanneer dit is gebeurd, wordt de toepassing gedraaid op de gehele gegevensbank met werkelijke gegevens in een beveiligde omgeving, bv. bij de Kruispuntbank van de Sociale Zekerheid, waarbij de gebruiker voor secondary use geen toegang heeft tot de gegevens in de gegevensbank, maar enkel de anonieme resultaten krijgt.

Voorbeelden van een small cell risk analysis (SCRA)

SCRA in het kader van beraadslaging 24-036 van het Informatieveiligheidscomité