Analyse op kleine cellen IVC 24-036

Auteur

KCE

Datum

29 november 2024

Introductie

In de beraadslaging nr. 24/036 van 5 maart 2024 van de Kamer Sociale Zekerheid en Gezondheid van het Informatieveiligheidscomité rond het ter beschikking stellen van gegevens afkomstig van het Intermutualistisch Agentschap, Externe Dienst voor Preventie en Bescherming op het Werk IDEWE, Federale Overheidsdienst Volksgezondheid en de Kruispuntbank van de Sociale Zekerheid voorziet artikel 37 een small cell risico analyse.

Onderhavig document analyseert het risico op kleine cellen en gaat na of bijkomende restricties dan opgelegd in de beraadslaging deze risico’s verder kunnen afdekken.

In deze analyse wordt geen controle uitgevoerd op de beginselen inzake verwerking van persoonsgegevens zoals bepaald in artikel 5 van de Algemene Verordening Gegevensbescherming (rechtmatigheid, behoorlijkheid en transparantie; doelbinding; minimale gegevensverwerking; juistheid; opslagbeperking; verantwoordingsplicht). Deze analyse kan wel bijdragen aan het realiseren van het beginsel van minimale gegevensverwerking door de verwerkingsverantwoordelijken.

Definities

In dit document worden een aantal begrippen gehanteerd die in onderstaande tabel 1 gedefinieerd worden.

Definities

Begrip Definitie
Gecodeerd De waarde van een variabele wordt omgezet in een andere die betekenisloos is voor de eindgebruiker en door deze - op basis van de huidige stand van zaken in het domein van de encryptie-hashing technologie - quasi onmogelijk kan terug omgezet worden naar de oorspronkelijke waarde.
Geaggregeerd Verschillende waardes van een variabele worden vervangen door één waarde.
Formeel ID Elke variabele of set van variabelen die uniek zijn voor elke populatie-eenheid, en dus expliciet toelaten om een individu rechtstreeks te identificeren. Deze persoonlijke gegevens die rechtstreekse identificatie toelaten van de individuen in de gegevens, en die nodig zijn voor de inzameling, controle en het afstemmen van de gegevens, maar vervolgens niet zijn gebruikt voor het opstellen van statistische resultaten: bv., INSZ, paspoortnummer, volledige naam enz. Sommige combinaties van variabelen, zoals naam en adres zijn de facto formele ID, waarbij niet-unieke gevallen theoretisch kunnen voorkomen, maar in de praktijk uniek zijn. Als het formeel ID bekend is, dan is identificatie van een individu rechtstreeks, zonder de noodzaak te beschikken over extra kennis.
Quasi ID Kenmerken die in combinatie kunnen worden gebruikt ter identificatie van een individu. Bijvoorbeeld, het land, postcode, geslacht, leeftijd, geboortedatum, enz. Het risico van identificatie hangt af van het aantal en aard van quasi ID in de gegevens en van de a priori kennis.
Sensitief Elke variabele of set van variabelen (uitgezonderd formeel ID en quasi ID) waarvan sommige waarden behoren tot de privésfeer van individuen die niet zouden willen dat ze zouden worden onthuld, inclusief de bijzondere categorieën van persoonsgegevens zoals beschreven in artikel 9 van de Algemene Verordening Gegevensbescherming (AVG).
Directe identificatie Identificatie van een individu aan de hand van een formeel ID, zonder de noodzaak te beschikken over extra kennis.
Indirecte identificatie De identiteit van één of meerdere individuen afleiden op een andere wijze dan uit directe identificatie. Bijvoorbeeld: in een databank met zeer gedetailleerde informatie (o.a. veel quasi ID), het zou wellicht mogelijk zijn met “a priori kennis” van een bijzonder geval één of meerdere individuen te identificeren zonder beroep te doen op formele ID (gecodeerd of niet).
Kwalitatief De waarden van een variabele zijn kwalitatief wanneer zij bestaan uit categorieën. Het gaat om variabelen met een nominale (waarden zonder ordening; bv land) of ordinale schaal (waarden met ordening; bv laag-middelmatig-hoog).
Kwantitatief De waarden van een variabele zijn kwantitatief wanneer zij bestaan uit hoeveelheden, bedragen of andere grootheden. Het gaat om variabelen met een interval (arbitrair nulpunt) of ratio (absoluut nulpunt) schaal.
Kleine cel (""small cell"") Een ‘small cell’ treedt op in een database wanneer door combinatie van de informatie vervat in de database één enkel individu of een beperkt aantal individuen kunnen geïsoleerd worden.

Classificatie variabelen

In de tabel in deze sectie worden de gegevens van het Intermutualistisch Agentschap, Externe Dienst voor Preventie en Bescherming op het Werk IDEWE, Federale Overheidsdienst Volksgezondheid en de Kruispuntbank van de Sociale Zekerheid geclassificeerd naar kenmerken van de ID variabelen. Eventuele variabelen die enkel nodig zijn voor koppeling maar niet opgenomen worden in de finale gegevens set, worden niet meegenomen in deze analyse.

Analyse kleine cellen

Kleine cellen

Bron Dataset Naam1 Beschrijving Aantal waarden Cumulatief
IDEWE IDEWE BMI  BMI  40 40
IDEWE IDEWE Classificatie werk (ISCO 08) Classificatie werk (ISCO 08) 436 17 440
IDEWE IDEWE Werknemers die op medisch onderzoek komen omwille van beroepsrisico  Werknemers die op medisch onderzoek komen omwille van beroepsrisico  2 34 880
IDEWE IDEWE Zwaar beroep / Beroepsrisico Zwaar beroep / Beroepsrisico 28 976 640
IMA-AIM GEZO/PHARMA SS00020 RIZIV-INAMI nomenclatuurcode 4127 4.03 × 109
IMA-AIM GEZO/PHARMA SS00070B Voorschrijver kwalificatie 195 7.86 × 1011
IMA-AIM GEZO/PHARMA SS00135 Nummer product 29825 2.34 × 1016
IMA-AIM POPULATIE AGE05_CAT  GEZO 15 3.52 × 1017
IMA-AIM POPULATIE MAJOR_COVERAGE_YN Recht op verhoogde tegemoetkoming op het moment van inclusie 2 7.03 × 1017
IMA-AIM POPULATIE NIS code Provincie en arrondissement 44 3.09 × 1019
IMA-AIM POPULATIE PP0020 Geslacht 2 6.19 × 1019
IMA-AIM POPULATIE PP1002 Gerechtigde of persoon ten laste  4 2.48 × 1020
IMA-AIM POPULATIE PP1003 Sociaal statuut van de gerechtigde  16 3.96 × 1021
IMA-AIM POPULATIE PP1004 Type werkloosheidsuitkering  20 7.92 × 1022
IMA-AIM POPULATIE PP1008 Inkomen op moment van inclusie 5 3.96 × 1023
IMA-AIM POPULATIE PP1009 Oorsprong erkenning als mindervalide  8 3.17 × 1024
IMA-AIM POPULATIE PP1010 Voorwaarde recht verhoogde tegemoetkoming  3 9.51 × 1024
KSZ DWH_AHOVOKS_LED Activering RVA Activation_ONEm (Activering RVA) 2 1.9 × 1025
KSZ DWH_AHOVOKS_LED ISCED ISCED_niveau 12 2.28 × 1026
KSZ DWH_CIN  Samenst_gezin Samenstelling gezin  (Samenst_gezin)  9 2.05 × 1027
KSZ DWH_CIN  soort dagen Srt_dagen (soort dagen) 9 1.85 × 1028
KSZ DWH_INASTI_RGTI Nacec NACE-code (Nacec) 81 1.5 × 1030
KSZ DWH_ONSS_StatbaseDMFA (tot 2016)  DWH_ONSS_UniStatbaseDMFA (vanaf 2017)  NaceEtab NaceEtab 946 1.42 × 1033
KSZ DWH_ONSS_StatbaseDMFA (tot 2016)  DWH_ONSS_UniStatbaseDMFA (vanaf 2017)  R_exclus Indicatorveld arbeidsprestatie R_exclus Indicatorveld arbeidsprestatie 2 2.83 × 1033
KSZ DWH_ONSS_StatbaseDMFA (tot 2016)  DWH_ONSS_UniStatbaseDMFA (vanaf 2017)  T_Prest Prestatietype (T_Prest) 5 1.42 × 1034
KSZ DWH_ONSS_StatbaseDMFA (tot 2016)  DWH_ONSS_UniStatbaseDMFA (vanaf 2017)  Werknemerscode Codtra (Werknemerscode) 32 4.53 × 1035
KSZ DWH_ONSS_StatbaseDMFA (tot 2016)  DWH_ONSS_UniStatbaseDMFA (vanaf 2017)  Werknemersklasse Clatra (Werknemersklasse) 4 1.81 × 1036
KSZ DWH_ONSS_StatbaseDMFA (tot 2016)  DWH_ONSS_UniStatbaseDMFA (vanaf 2017)  Werknemersklasse speciaal Clatr2 (Werknemersklasse speciaal) 47 8.52 × 1037
KSZ DWH_ONSS_StatbaseDMFA (tot 2016)  DWH_ONSS_UniStatbaseDMFA (vanaf 2017)  sector Secemp (sector) 2 1.7 × 1038
KSZ DWH_RN_BCSS_BisTer  LIPRO-positie LIPRO (LIPRO-positie) 12 2.04 × 1039
KSZ DWH_RN_BCSS_BisTer  Type_huishouden Type huishouden (Type_huishouden)  8 1.64 × 1040
KSZ DWH_RN_EtatCivil  Burgerlijke_staat Burgerlijke staat (Burgerlijke_staat)  17 2.78 × 1041
KSZ DWH_STATBEL_Education  EDU Onderwijsniveau (EDU)  11 3.06 × 1042
MZG DIAGNOSE CODE_DIAGNOSE Code diagnose 11363 3.48 × 1046
MZG PATHOSPI A1_YEAR_BIRTH geboortejaar 110 3.82 × 1048
MZG STAYHOSP A2_CODE_ADM  Type opname 15 5.73 × 1049
MZG STAYHOSP A2_CODE_DESTINATE  Type bestemming 14 8.03 × 1050
MZG STAYHOSP A2_CODE_DISCHARGE  Type ontslag 14 1.12 × 1052
MZG STAYHOSP A2_CODE_INDIC_NAT Nationaliteit 13 1.46 × 1053
MZG STAYHOSP A2_CODE_PLACE_BEFORE_ADM  Plaats voor opname 20 2.92 × 1054
MZG STAYHOSP A2_CODE_SEX  Geslacht 4 1.17 × 1055
1 Variabelen die als dubbel te beschouwen zijn, worden niet vermeld

In de praktijk zal het aantal unieke combinaties van quasi ID variabelen lager zijn dan het aantal theoretische mogelijke unieke combinaties uit de tabel hierboven omdat niet alle combinaties zullen voorkomen. Echter het risico op het voorkomen van small cells blijft zeer reëel. Om het risico op indirecte identificatie te mitigeren, worden volgende maatregelen vooropgesteld:

  • Het daadwerkelijk indirect identificeren van individuen door de eindgebruiker vereist ofwel toevallige of beroepsmatige kennis van de eindgebruiker van gelijksoortige aanvullende informatie niet vervat in de database over bepaalde individuen. Ofwel moeten andere databronnen met deels overlappende informatie op heuristische wijze gekoppeld worden met de ter beschikking gestelde gegevens a.d.h.v. bijvoorbeeld machinaal leeralgoritmes. De bepalingen van de beraadslaging impliceren een verbod op mogelijke poging tot identificatie.
  • Het aantal eindgebruikers met toegang is beperkt (i.c. onderzoekers van de ontvanger van de gegevens). Deze onderzoekers dienen gebonden te zijn door een vertrouwelijkheidsverbintenis, conform de bepalingen van de beraadslaging.
  • Het aantal gevraagde variabelen en hun detailniveau en bewaartermijn is zo beperkt mogelijk gehouden tot wat strikt noodzakelijk voor de analyse is, zoals gespecificeerd in de beraadslaging.

De impact van de eventuele indirecte identificatie van één of meerdere individuen wordt gemitigeerd:

  • De eindgebruikers zijn juridisch gebonden aan het respecteren van de maatregelen opgelegd in de beraadslaging.
  • De eindgebruikers zijn juridisch en contractueel gebonden aan het respecteren van het informatieveiligheidsbeleid van hun instelling en te garanderen dat de gegevensverwerking vertrouwelijk en veilig verloopt, conform de beraadslaging.
  • De publicatie van de analyses mag enkel anonieme gegevens bevatten (publicatie restrictie: eventuele kleine cellen in resultaten worden niet weergegeven).

Conclusie

De uiteindelijke verantwoordelijkheid m.b.t. de rechtmatigheid, behoorlijkheid en transparantie, doelbinding, minimale gegevensverwerking, juistheid, opslagbeperking, en verantwoordingsplicht van de verwerking van gevraagde gegevens voor het voorgestelde onderzoek ligt bij de verwerkingsverantwoordelijke, zoals beschreven in de beraadslaging het Informatieveiligheidscomité – Kamer Sociale Zekerheid en Gezondheid. In de beraadslaging m.b.t. dit project wordt de rechtmatigheid, doelbinding, minimale gegevensverwerking, opslagbeperking en informatieveiligheid van de gegevensverwerking als voldoende aangetoond beschouwd, mits wordt voldaan aan de in de beraadslaging vastgestelde maatregelen ter waarborging van de gegevensbescherming.

Bovenstaande theoretische analyse toont aan dat voor de gevraagde gegevens het risico op kleine cellen theoretisch zeer reëel is maar dat het zich manifesteren van het risico op indirecte identificatie in de praktijk gemitigeerd wordt.

Volgende bijkomende acties worden aanbevolen voor het verminderen van het aantal kleine cellen en zo het risico op indirecte identificatie verder te beperken.

Bewerking Oude waarden Nieuwe waarde
Vervang SS00135 (cnk code) door ATC Alle cnk codes ATC niveau 4 codes
BMI categorieën Alle mogelijke waarden Ondergewicht(BMI < 18,5) - gezond gewicht (18,5 ≤ BMI < 25)- overgewicht (25 ≤ BMI < 30) - obesitas (BMI ≥ 30)
Classificatie werk (ISCO 08) Alle mogelijke waarden ISCO level 3
A2_CODE_PLACE_BEFORE_ADM  Alle mogelijke waarden 0 (onbekend) - 1 (thuis) - 2,M,L (administratie langdurig verblijf) - 3,4,5 (ander ziekenhuis)-6,7 (woon-zorg instelling) - 9 (andere) - A,B,C,D (werk/ school-gerelateerd)- E,F,G (verkeer, sport, openbare plaats) - Z (ongepland klassiek verblijf volgend op daghospitalistie)
A2_CODE_ADM  Alle mogelijke waarden 0 (onbekend)-3 (geplande opname) - 4(vanuit daghospitalisatie)- 5 (terugplaatsing) - 6 (Plaatsing) - A,B,C,D,E,G (opgeplande opname) - M,L (administratie langdurig verblijf) - Z (ongepland klassiek verblijf volgend op daghospitalistie)
A2_CODE_DESTINATE  Alle mogelijke waarden 0 (onbekend) - 1 (thuis) - 2,M,F (administratie langdurig verblijf) - 3,4,5 (ander ziekenhuis)-6,7 (woon-zorg instelling)- 8(overleden) - 9 (andere) - A (transfer binnen ziekenhuis)- Z (ongepland klassiek verblijf volgend op daghospitalistie)
A2_CODE_DISCHARGE  Alle mogelijke waarden 0 (onbekend)- 1(op medisch advies)-2(tegen medisch advies)- 3,4 (overleden) - 5 (doorverwezen naar andere instelling)- 6 (doorverwezen naar instelling voor revalidatie - 7,8 (doorverwijzing ander ziekenhuis door praktische reden) - 9 (Doorverwijzing naar andere dienst binnen zelfde ziekenhuis) - D (ontslag na daghospitalisatie - F,M (adinistratie langdurige verblijven)- Z (ongepland klassiek verblijf aansluitend op daghospitalisatie)
A2_CODE_INDIC_NAT Alle mogelijke waarden OO - BE - EU - ER - Non-ER
Werknemersklasse speciaal Alle mogelijke waarden 1. Arbeiders (O-codes) 1.1 Algemeen: OO, OP, OS, OQ 1.2 Bijzondere statuten: OM, OT, OF 1.3 Flexibele arbeidsvormen: OW, OX, OY 1.4 Tijdelijke/Interim functies: OI, OJ, OK 1.5 Specifieke doelgroepen: OA, OE, OH 1.6 Andere: OC, OB 2. Bedienden (E-codes) 2.1 Algemeen: EO, EP, ES, EQ 2.2 Flexibele arbeidsvormen: EW, EX 2.3 Tijdelijke/Interim functies: EI, EJ, EK 2.4 Specifieke doelgroepen: EA, EE, EU, ER, EN 2.5 Bijzondere statuten: ET, EF 2.6 Overige functies: EC, EZ, FZ, EM, EY 3. Studenten (S-codes) 3.1 SE 3.2 SO 4. Specifieke beroepsgroepen (XA-, XP-, XS-, XT-codes) 4.1 XA, 4,2 XP 4.3 XS 4.4 XT 5. Overige en anomalieën ZZ 6. Mandaten en specifieke posities EH, EL
NaceEtab Alle mogelijke waarden “intermediate SNA/ISIC aggregation A*38” zie: https://ec.europa.eu/eurostat/documents/3859598/5902521/KS-RA-07-015-EN.PDF.pdf/dd5443f5-b886-40e4-920d-9df03590ff91?t=1414781457000 (p46)