Analyse op kleine cellen IVC 24-036
Introductie
In de beraadslaging nr. 24/036 van 5 maart 2024 van de Kamer Sociale Zekerheid en Gezondheid van het Informatieveiligheidscomité rond het ter beschikking stellen van gegevens afkomstig van het Intermutualistisch Agentschap, Externe Dienst voor Preventie en Bescherming op het Werk IDEWE, Federale Overheidsdienst Volksgezondheid en de Kruispuntbank van de Sociale Zekerheid voorziet artikel 37 een small cell risico analyse.
Onderhavig document analyseert het risico op kleine cellen en gaat na of bijkomende restricties dan opgelegd in de beraadslaging deze risico’s verder kunnen afdekken.
In deze analyse wordt geen controle uitgevoerd op de beginselen inzake verwerking van persoonsgegevens zoals bepaald in artikel 5 van de Algemene Verordening Gegevensbescherming (rechtmatigheid, behoorlijkheid en transparantie; doelbinding; minimale gegevensverwerking; juistheid; opslagbeperking; verantwoordingsplicht). Deze analyse kan wel bijdragen aan het realiseren van het beginsel van minimale gegevensverwerking door de verwerkingsverantwoordelijken.
Definities
In dit document worden een aantal begrippen gehanteerd die in onderstaande tabel 1 gedefinieerd worden.
Begrip | Definitie |
---|---|
Gecodeerd | De waarde van een variabele wordt omgezet in een andere die betekenisloos is voor de eindgebruiker en door deze - op basis van de huidige stand van zaken in het domein van de encryptie-hashing technologie - quasi onmogelijk kan terug omgezet worden naar de oorspronkelijke waarde. |
Geaggregeerd | Verschillende waardes van een variabele worden vervangen door één waarde. |
Formeel ID | Elke variabele of set van variabelen die uniek zijn voor elke populatie-eenheid, en dus expliciet toelaten om een individu rechtstreeks te identificeren. Deze persoonlijke gegevens die rechtstreekse identificatie toelaten van de individuen in de gegevens, en die nodig zijn voor de inzameling, controle en het afstemmen van de gegevens, maar vervolgens niet zijn gebruikt voor het opstellen van statistische resultaten: bv., INSZ, paspoortnummer, volledige naam enz. Sommige combinaties van variabelen, zoals naam en adres zijn de facto formele ID, waarbij niet-unieke gevallen theoretisch kunnen voorkomen, maar in de praktijk uniek zijn. Als het formeel ID bekend is, dan is identificatie van een individu rechtstreeks, zonder de noodzaak te beschikken over extra kennis. |
Quasi ID | Kenmerken die in combinatie kunnen worden gebruikt ter identificatie van een individu. Bijvoorbeeld, het land, postcode, geslacht, leeftijd, geboortedatum, enz. Het risico van identificatie hangt af van het aantal en aard van quasi ID in de gegevens en van de a priori kennis. |
Sensitief | Elke variabele of set van variabelen (uitgezonderd formeel ID en quasi ID) waarvan sommige waarden behoren tot de privésfeer van individuen die niet zouden willen dat ze zouden worden onthuld, inclusief de bijzondere categorieën van persoonsgegevens zoals beschreven in artikel 9 van de Algemene Verordening Gegevensbescherming (AVG). |
Directe identificatie | Identificatie van een individu aan de hand van een formeel ID, zonder de noodzaak te beschikken over extra kennis. |
Indirecte identificatie | De identiteit van één of meerdere individuen afleiden op een andere wijze dan uit directe identificatie. Bijvoorbeeld: in een databank met zeer gedetailleerde informatie (o.a. veel quasi ID), het zou wellicht mogelijk zijn met “a priori kennis” van een bijzonder geval één of meerdere individuen te identificeren zonder beroep te doen op formele ID (gecodeerd of niet). |
Kwalitatief | De waarden van een variabele zijn kwalitatief wanneer zij bestaan uit categorieën. Het gaat om variabelen met een nominale (waarden zonder ordening; bv land) of ordinale schaal (waarden met ordening; bv laag-middelmatig-hoog). |
Kwantitatief | De waarden van een variabele zijn kwantitatief wanneer zij bestaan uit hoeveelheden, bedragen of andere grootheden. Het gaat om variabelen met een interval (arbitrair nulpunt) of ratio (absoluut nulpunt) schaal. |
Kleine cel (""small cell"") | Een ‘small cell’ treedt op in een database wanneer door combinatie van de informatie vervat in de database één enkel individu of een beperkt aantal individuen kunnen geïsoleerd worden. |
Classificatie variabelen
In de tabel in deze sectie worden de gegevens van het Intermutualistisch Agentschap, Externe Dienst voor Preventie en Bescherming op het Werk IDEWE, Federale Overheidsdienst Volksgezondheid en de Kruispuntbank van de Sociale Zekerheid geclassificeerd naar kenmerken van de ID variabelen. Eventuele variabelen die enkel nodig zijn voor koppeling maar niet opgenomen worden in de finale gegevens set, worden niet meegenomen in deze analyse.
Analyse kleine cellen
Bron | Dataset | Naam1 | Beschrijving | Aantal waarden | Cumulatief |
---|---|---|---|---|---|
IDEWE | IDEWE | BMI | BMI | 40 | 40 |
IDEWE | IDEWE | Classificatie werk (ISCO 08) | Classificatie werk (ISCO 08) | 436 | 17 440 |
IDEWE | IDEWE | Werknemers die op medisch onderzoek komen omwille van beroepsrisico | Werknemers die op medisch onderzoek komen omwille van beroepsrisico | 2 | 34 880 |
IDEWE | IDEWE | Zwaar beroep / Beroepsrisico | Zwaar beroep / Beroepsrisico | 28 | 976 640 |
IMA-AIM | GEZO/PHARMA | SS00020 | RIZIV-INAMI nomenclatuurcode | 4127 | 4.03 × 109 |
IMA-AIM | GEZO/PHARMA | SS00070B | Voorschrijver kwalificatie | 195 | 7.86 × 1011 |
IMA-AIM | GEZO/PHARMA | SS00135 | Nummer product | 29825 | 2.34 × 1016 |
IMA-AIM | POPULATIE | AGE05_CAT | GEZO | 15 | 3.52 × 1017 |
IMA-AIM | POPULATIE | MAJOR_COVERAGE_YN | Recht op verhoogde tegemoetkoming op het moment van inclusie | 2 | 7.03 × 1017 |
IMA-AIM | POPULATIE | NIS code | Provincie en arrondissement | 44 | 3.09 × 1019 |
IMA-AIM | POPULATIE | PP0020 | Geslacht | 2 | 6.19 × 1019 |
IMA-AIM | POPULATIE | PP1002 | Gerechtigde of persoon ten laste | 4 | 2.48 × 1020 |
IMA-AIM | POPULATIE | PP1003 | Sociaal statuut van de gerechtigde | 16 | 3.96 × 1021 |
IMA-AIM | POPULATIE | PP1004 | Type werkloosheidsuitkering | 20 | 7.92 × 1022 |
IMA-AIM | POPULATIE | PP1008 | Inkomen op moment van inclusie | 5 | 3.96 × 1023 |
IMA-AIM | POPULATIE | PP1009 | Oorsprong erkenning als mindervalide | 8 | 3.17 × 1024 |
IMA-AIM | POPULATIE | PP1010 | Voorwaarde recht verhoogde tegemoetkoming | 3 | 9.51 × 1024 |
KSZ | DWH_AHOVOKS_LED | Activering RVA | Activation_ONEm (Activering RVA) | 2 | 1.9 × 1025 |
KSZ | DWH_AHOVOKS_LED | ISCED | ISCED_niveau | 12 | 2.28 × 1026 |
KSZ | DWH_CIN | Samenst_gezin | Samenstelling gezin (Samenst_gezin) | 9 | 2.05 × 1027 |
KSZ | DWH_CIN | soort dagen | Srt_dagen (soort dagen) | 9 | 1.85 × 1028 |
KSZ | DWH_INASTI_RGTI | Nacec | NACE-code (Nacec) | 81 | 1.5 × 1030 |
KSZ | DWH_ONSS_StatbaseDMFA (tot 2016) DWH_ONSS_UniStatbaseDMFA (vanaf 2017) | NaceEtab | NaceEtab | 946 | 1.42 × 1033 |
KSZ | DWH_ONSS_StatbaseDMFA (tot 2016) DWH_ONSS_UniStatbaseDMFA (vanaf 2017) | R_exclus Indicatorveld arbeidsprestatie | R_exclus Indicatorveld arbeidsprestatie | 2 | 2.83 × 1033 |
KSZ | DWH_ONSS_StatbaseDMFA (tot 2016) DWH_ONSS_UniStatbaseDMFA (vanaf 2017) | T_Prest | Prestatietype (T_Prest) | 5 | 1.42 × 1034 |
KSZ | DWH_ONSS_StatbaseDMFA (tot 2016) DWH_ONSS_UniStatbaseDMFA (vanaf 2017) | Werknemerscode | Codtra (Werknemerscode) | 32 | 4.53 × 1035 |
KSZ | DWH_ONSS_StatbaseDMFA (tot 2016) DWH_ONSS_UniStatbaseDMFA (vanaf 2017) | Werknemersklasse | Clatra (Werknemersklasse) | 4 | 1.81 × 1036 |
KSZ | DWH_ONSS_StatbaseDMFA (tot 2016) DWH_ONSS_UniStatbaseDMFA (vanaf 2017) | Werknemersklasse speciaal | Clatr2 (Werknemersklasse speciaal) | 47 | 8.52 × 1037 |
KSZ | DWH_ONSS_StatbaseDMFA (tot 2016) DWH_ONSS_UniStatbaseDMFA (vanaf 2017) | sector | Secemp (sector) | 2 | 1.7 × 1038 |
KSZ | DWH_RN_BCSS_BisTer | LIPRO-positie | LIPRO (LIPRO-positie) | 12 | 2.04 × 1039 |
KSZ | DWH_RN_BCSS_BisTer | Type_huishouden | Type huishouden (Type_huishouden) | 8 | 1.64 × 1040 |
KSZ | DWH_RN_EtatCivil | Burgerlijke_staat | Burgerlijke staat (Burgerlijke_staat) | 17 | 2.78 × 1041 |
KSZ | DWH_STATBEL_Education | EDU | Onderwijsniveau (EDU) | 11 | 3.06 × 1042 |
MZG | DIAGNOSE | CODE_DIAGNOSE | Code diagnose | 11363 | 3.48 × 1046 |
MZG | PATHOSPI | A1_YEAR_BIRTH | geboortejaar | 110 | 3.82 × 1048 |
MZG | STAYHOSP | A2_CODE_ADM | Type opname | 15 | 5.73 × 1049 |
MZG | STAYHOSP | A2_CODE_DESTINATE | Type bestemming | 14 | 8.03 × 1050 |
MZG | STAYHOSP | A2_CODE_DISCHARGE | Type ontslag | 14 | 1.12 × 1052 |
MZG | STAYHOSP | A2_CODE_INDIC_NAT | Nationaliteit | 13 | 1.46 × 1053 |
MZG | STAYHOSP | A2_CODE_PLACE_BEFORE_ADM | Plaats voor opname | 20 | 2.92 × 1054 |
MZG | STAYHOSP | A2_CODE_SEX | Geslacht | 4 | 1.17 × 1055 |
1 Variabelen die als dubbel te beschouwen zijn, worden niet vermeld |
In de praktijk zal het aantal unieke combinaties van quasi ID variabelen lager zijn dan het aantal theoretische mogelijke unieke combinaties uit de tabel hierboven omdat niet alle combinaties zullen voorkomen. Echter het risico op het voorkomen van small cells blijft zeer reëel. Om het risico op indirecte identificatie te mitigeren, worden volgende maatregelen vooropgesteld:
- Het daadwerkelijk indirect identificeren van individuen door de eindgebruiker vereist ofwel toevallige of beroepsmatige kennis van de eindgebruiker van gelijksoortige aanvullende informatie niet vervat in de database over bepaalde individuen. Ofwel moeten andere databronnen met deels overlappende informatie op heuristische wijze gekoppeld worden met de ter beschikking gestelde gegevens a.d.h.v. bijvoorbeeld machinaal leeralgoritmes. De bepalingen van de beraadslaging impliceren een verbod op mogelijke poging tot identificatie.
- Het aantal eindgebruikers met toegang is beperkt (i.c. onderzoekers van de ontvanger van de gegevens). Deze onderzoekers dienen gebonden te zijn door een vertrouwelijkheidsverbintenis, conform de bepalingen van de beraadslaging.
- Het aantal gevraagde variabelen en hun detailniveau en bewaartermijn is zo beperkt mogelijk gehouden tot wat strikt noodzakelijk voor de analyse is, zoals gespecificeerd in de beraadslaging.
De impact van de eventuele indirecte identificatie van één of meerdere individuen wordt gemitigeerd:
- De eindgebruikers zijn juridisch gebonden aan het respecteren van de maatregelen opgelegd in de beraadslaging.
- De eindgebruikers zijn juridisch en contractueel gebonden aan het respecteren van het informatieveiligheidsbeleid van hun instelling en te garanderen dat de gegevensverwerking vertrouwelijk en veilig verloopt, conform de beraadslaging.
- De publicatie van de analyses mag enkel anonieme gegevens bevatten (publicatie restrictie: eventuele kleine cellen in resultaten worden niet weergegeven).
Conclusie
De uiteindelijke verantwoordelijkheid m.b.t. de rechtmatigheid, behoorlijkheid en transparantie, doelbinding, minimale gegevensverwerking, juistheid, opslagbeperking, en verantwoordingsplicht van de verwerking van gevraagde gegevens voor het voorgestelde onderzoek ligt bij de verwerkingsverantwoordelijke, zoals beschreven in de beraadslaging het Informatieveiligheidscomité – Kamer Sociale Zekerheid en Gezondheid. In de beraadslaging m.b.t. dit project wordt de rechtmatigheid, doelbinding, minimale gegevensverwerking, opslagbeperking en informatieveiligheid van de gegevensverwerking als voldoende aangetoond beschouwd, mits wordt voldaan aan de in de beraadslaging vastgestelde maatregelen ter waarborging van de gegevensbescherming.
Bovenstaande theoretische analyse toont aan dat voor de gevraagde gegevens het risico op kleine cellen theoretisch zeer reëel is maar dat het zich manifesteren van het risico op indirecte identificatie in de praktijk gemitigeerd wordt.
Volgende bijkomende acties worden aanbevolen voor het verminderen van het aantal kleine cellen en zo het risico op indirecte identificatie verder te beperken.
Bewerking | Oude waarden | Nieuwe waarde |
---|---|---|
Vervang SS00135 (cnk code) door ATC | Alle cnk codes | ATC niveau 4 codes |
BMI categorieën | Alle mogelijke waarden | Ondergewicht(BMI < 18,5) - gezond gewicht (18,5 ≤ BMI < 25)- overgewicht (25 ≤ BMI < 30) - obesitas (BMI ≥ 30) |
Classificatie werk (ISCO 08) | Alle mogelijke waarden | ISCO level 3 |
A2_CODE_PLACE_BEFORE_ADM | Alle mogelijke waarden | 0 (onbekend) - 1 (thuis) - 2,M,L (administratie langdurig verblijf) - 3,4,5 (ander ziekenhuis)-6,7 (woon-zorg instelling) - 9 (andere) - A,B,C,D (werk/ school-gerelateerd)- E,F,G (verkeer, sport, openbare plaats) - Z (ongepland klassiek verblijf volgend op daghospitalistie) |
A2_CODE_ADM | Alle mogelijke waarden | 0 (onbekend)-3 (geplande opname) - 4(vanuit daghospitalisatie)- 5 (terugplaatsing) - 6 (Plaatsing) - A,B,C,D,E,G (opgeplande opname) - M,L (administratie langdurig verblijf) - Z (ongepland klassiek verblijf volgend op daghospitalistie) |
A2_CODE_DESTINATE | Alle mogelijke waarden | 0 (onbekend) - 1 (thuis) - 2,M,F (administratie langdurig verblijf) - 3,4,5 (ander ziekenhuis)-6,7 (woon-zorg instelling)- 8(overleden) - 9 (andere) - A (transfer binnen ziekenhuis)- Z (ongepland klassiek verblijf volgend op daghospitalistie) |
A2_CODE_DISCHARGE | Alle mogelijke waarden | 0 (onbekend)- 1(op medisch advies)-2(tegen medisch advies)- 3,4 (overleden) - 5 (doorverwezen naar andere instelling)- 6 (doorverwezen naar instelling voor revalidatie - 7,8 (doorverwijzing ander ziekenhuis door praktische reden) - 9 (Doorverwijzing naar andere dienst binnen zelfde ziekenhuis) - D (ontslag na daghospitalisatie - F,M (adinistratie langdurige verblijven)- Z (ongepland klassiek verblijf aansluitend op daghospitalisatie) |
A2_CODE_INDIC_NAT | Alle mogelijke waarden | OO - BE - EU - ER - Non-ER |
Werknemersklasse speciaal | Alle mogelijke waarden | 1. Arbeiders (O-codes) 1.1 Algemeen: OO, OP, OS, OQ 1.2 Bijzondere statuten: OM, OT, OF 1.3 Flexibele arbeidsvormen: OW, OX, OY 1.4 Tijdelijke/Interim functies: OI, OJ, OK 1.5 Specifieke doelgroepen: OA, OE, OH 1.6 Andere: OC, OB 2. Bedienden (E-codes) 2.1 Algemeen: EO, EP, ES, EQ 2.2 Flexibele arbeidsvormen: EW, EX 2.3 Tijdelijke/Interim functies: EI, EJ, EK 2.4 Specifieke doelgroepen: EA, EE, EU, ER, EN 2.5 Bijzondere statuten: ET, EF 2.6 Overige functies: EC, EZ, FZ, EM, EY 3. Studenten (S-codes) 3.1 SE 3.2 SO 4. Specifieke beroepsgroepen (XA-, XP-, XS-, XT-codes) 4.1 XA, 4,2 XP 4.3 XS 4.4 XT 5. Overige en anomalieën ZZ 6. Mandaten en specifieke posities EH, EL |
NaceEtab | Alle mogelijke waarden | “intermediate SNA/ISIC aggregation A*38” zie: https://ec.europa.eu/eurostat/documents/3859598/5902521/KS-RA-07-015-EN.PDF.pdf/dd5443f5-b886-40e4-920d-9df03590ff91?t=1414781457000 (p46) |