L'UTILIZZO DEGLI ARCHIVI AMMINISTRATIVI NELLE RICERCHE EPIDEMIOLOGICHE (*)

R&P ha recentemente collaborato con l'Agenzia Regionale per la Protezione Ambientale del Piemonte (Area di Epidemiologia Ambientale) al programma ReSò (Rete di Sorveglianza della Mortalità Occupazionale).

Il programma ReSò, promosso dal Ministero della Sanità e dalla Regione Piemonte si propone di sperimentare le varie possibilità che i sistemi informativi dell'Amministrazione Pubblica italiana offrono per arricchire gli archivi sanitari con informazioni sulla professione delle persone.

Sono state analizzate varie fonti informative statistiche e amministrative (Istat, Anagrafe Tributaria, INAIL, INPS). L’INPS rappresenta l'unica fonte che dispone direttamente di dati longitudinali retrospettivi sulla storia lavorativa.

 Per valutare la praticabilità e la validità della fonte informativa INPS, il programma Resò ha provato a:

 R&P ha collaborato ad entrambe le fasi di studio.

 1. ABBINAMENTO TRA LE FONTI

 Il progetto congiunto Istat, INPS, Arpa Piemonte, si propone di associare agli archivi dell'ISTAT sui morti nel 1992 i dati INPS sui lavoratori per stimare le differenze professionali nella mortalità proporzionale per causa e nella speranza di vita. Dopo un primo abbinamento occorre valutare quante persone non sono state trovate nell'INPS perché non presenti in quegli archivi ovvero, pur essendo presenti, non sono state trovate per errori e differenze nei campi identificativi.

La procedura del primo abbinamento ha unito gli archivi sorgente:

Si generano gli archivi di "abbinati Istat-INPS" che contengono i record delle persone presenti in entrambi gli archivi, classificabili per sesso ed età. Di queste persone viene ricostruita la carriera lavorativa e pensionistica. Si conosce in quali anni sono attive e in quale settore.

Se l'abbinamento fosse valido, a tutti i morti nel 1992 dovrebbero risultare abbinati tutti i record di quella persona presenti negli archivi INPS.

Una possibile via per valutare il risultato dell'abbinamento consiste nello stimare quanti lavoratori presenti in un anno negli archivi INPS, nota la composizione per sesso ed età, sono probabilmente morti nel 1992 e quindi inclusi nel file ISTAT. Il numero atteso, confrontato con il numero di persone effettivamente associate con INPS, fornisce una valutazione sull'esito dell'abbinamento, a condizione che siano corrette le tavole di mortalità utilizzate.

 Metodologia

Sia nota la composizione per sesso ed età delle persone presenti in un archivio (sorgente) INPS nell'anno t, per esempio il 1986.

Date opportune tavole di mortalità, si calcola la probabilità, per una persona di età x, di morire passati p anni, nell'anno successivo: in simboli p / 1q x. Essendo l'anno di morte il 1992, scelto l'anno t si ottiene p=91-t. (Nell'esempio, si calcola, per gli attivi nel 1986, la probabilità di morte, passati 5 anni, nell'anno successivo: il 1992).

Applicando alla distribuzione delle persone attive le probabilità 91-t / 1q x si ottiene il numero atteso di persone morte nel 92, che dovrebbe corrispondere, grosso modo, al numero di persone presenti nel file "abbinati Istat-INPS" attive nell'anno t.

Se, ad esempio, nel 1986 sono presenti, nell'archivio sorgente O1M, 100 lavoratori di 40 anni e questi lavoratori hanno una probabilità pari a 0.1 di morire nel 92 (ossia di morire passati 5 anni entro l'anno successivo) allora, nell'archivio estratto dall'INPS, si dovrebbero trovare circa 10 lavoratori attivi nell'86 e morti nel 1992 a 46 anni. Se nell'archivio esistono effettivamente 10 persone allora l'abbinamento sarà del 100%, se ne esistono solamente 2 (8 non si sono abbinate) sarà del 20%.

Grosse differenze tra le due quantità rivelano quindi eventuali problemi in fase di abbinamento.

Lo stesso schema può essere utilizzato per stimare, invece del numero atteso di morti, le probabilità di morte, per una data percentuale di abbinamento.

Invece del numero atteso di morti si possono stimare le probabilità di morte. Se dei 100 lavoratori attivi dell'esempio precedente ne osservo 10, la probabilità di morte (passati 5 anni) è pari a 0.1, se ne osservo 2 è pari a 0.02. Se ne osservo 2 ma ipotizzo una percentuale di abbinamento del 20%, allora il numero corretto di morti è 10 e la probabilità 0.1.

Dalla stima della probabilità di morte a t anni è possibile ricalcolare la funzione di sopravvivenza e confrontarla con quelle disponibili da altre fonti, per valutare se queste sono adatte allo scopo.

 Risultati

La figura che segue riporta i grafici delle funzioni di sopravvivenza della popolazione maschile del 1981 (1), 1992 (2), degli attivi del 1989 (3) e 1992 (4) e quelle stimate utilizzando i morti del 1992 con una storia lavorativa in INPS nel 1986 (solo archivio dei dipendenti 01M) e ipotizzando un esito dell'abbinamento pari al 100% (S86 1.0) e al 70% (S86 0.7)Le stime sono state effettuate facendo riferimento, per la composizione per sesso ed età delle persone, ai dati del panel dei dipendenti (fonte INPS-01M) costruito da R&P dell'anno 1986 (5). Trattandosi di un campione casuale di lavoratori il riporto alla popolazione presenta una inevitabile variabilità.

 Si nota innanzitutto l'effetto dell'allungamento delle attese di vita nel corso del decennio 81-91 (Cfr. curve pop81 e pop92). Ma quello che più interessa, ai fini dello studio, è la forma delle funzioni di sopravvivenza delle persone attive fornite esternamente e quelle stimate. La forma della funzione stimata per un abbinamento del 70% ripercorre fedelmente quella della popolazione in generale del 92 (Cfr. curve pop92 e S86 0.7), mentre la forma delle altre curve degli attivi risulta profondamente diversa da quella stimata (Cfr. curve attivi89 e attivi92 con S86 0.7), e la distanza è particolarmente sensibile dopo i 60 anni (dove tra l'altro, incomincia a verificarsi la maggior parte degli eventi analizzati).

Queste considerazioni inducono a ritenere che le tavole di mortalità fornite non siano adeguate per verificare esattamente l’esito dell’abbinamento secondo questo schema (gli attivi presentano probabilità di morte presumibilmente diverse dalla popolazione in generale ma le tavole disponibili per gli attivi lasciano spazio a inevitabili perplessità).

 Figura 1 Funzione di sopravvivenza, maschi

 

 2. CONFRONTO TRA INTERVISTE E FONTE INPS

 Scopo primario del lavoro è stabilire la concordanza tra ricostruzione "soggettiva" (da intervista) e "oggettiva" (dai citati archivi INPS). Questo obiettivo necessita di alcune qualificazioni. In primo luogo, non è indagato sistematicamente il rilievo epidemiologico di divergenze tra fonti negli attributi osservabili delle storie lavorative; giudizi in materia spettano ai ricercatori competenti. In secondo luogo, le discordanze non implicano necessariamente errori. Anzitutto l'informazione registrata nelle due fonti non è sempre omogenea. Inoltre, non è "certo" - in senso probabilistico - che la fonte INPS sia "sempre esente da errore". L'inferenza sulla precisione dei ricordi soggettivi deve quindi essere accolta con cautela.

L'analisi svolta da R&P si articola lungo due direttrici:

  1. motivi di mancato riscontro di alcuni individui nella fonte INPS;

  2. incidenza e caratteristiche delle divergenze tra le due fonti nelle restanti storie lavorative.

 Cause di mancato abbinamento

I mancati abbinamenti sono verosimilmente imputabili a due fattori "strutturali".

L'archivio sorgente INPS (O1M):

Nel complesso, meno di metà delle persone intervistate trova riscontro nella fonte INPS; le donne (56%) sono più frequenti nei "residui" che nell'insieme "abbinato" (28%); considerazioni analoghe valgono per gli anziani . Eliminando la causa (b), considerando cioè solamente le interviste con periodi lavorativi dopo il 1973, l'incidenza degli abbinamenti sale a 80%. Gli effetti del fattore (a) non possono essere quantificati con precisione, poiché l'intervista non fornisce informazioni circa la forma del rapporto di lavoro (autonomo, dipendente, ecc.).

Vi sono tuttavia indicazioni probanti che l'assenza di periodi di lavoro dipendente posteriori al 1973 e l'esercizio dell'attività lavorativa nelle professioni e nei settori dove tradizionalmente è più forte la presenza di lavoro autonomo rappresentano due cause importanti di mancato riscontro.

Per esempio, se l'unità di analisi è costituita dalla persona/anno, fatti 100 gli anni caratterizzati da attività terziarie (commercio, trasporti, servizi alle persone) e da talune figure occupazionali (liberi professionisti, addetti alle vendite, ecc.), 78 non trovano riscontro nell'archivio del lavoro dipendente.

Fatte 100 le persone non abbinate, 78 hanno almeno un periodo di lavoro in attività terziarie, 37 hanno periodi di lavoro solo in queste attività. Fatti 100 gli abbinati, queste due tipologie annoverano, rispettivamente, 54 e 20 persone.

 Cause di discordanza nelle storie lavorative

Nelle storie lavorative delle persone che trovano qualche riscontro nella fonte INPS si registrano divergenze:

I risultati, precisati sotto, provengono dall'analisi di 394 storie lavorative "abbinate" in cui si osservano anni di tipo A (riscontrati anche nella fonte INPS), I (presenti solo nella fonte INPS), U (presenti solo nell'intervista).

 Discordanze nei periodi lavorativi

Nella figura sottostante sono riprodotte sequenze tipiche di anni lavorati; per esempio, partendo da "U", la visita più probabile è nello stato A (soggiorno medio di 6 anni). Su 100 sequenze di anni "I", registrati solo dalla fonte INPS, ben 83 si situano alla fine della storia; la durata media di queste sequenze è pari a circa 2 anni. Inoltre, gli anni "omessi" si concentrano tra le persone anziane.

 Figura 2 Sequenze di anni lavorati

 

tra () è indicata la probabilità di transizione

tra [] è indicata la durata media della sequenza di anni

"F" indica la fine della storia

"M" indica che tra l'inizio e la fine della storia non esistono riscontri nell'intervista né nella fonte INPS

 Si può escludere, con test appropriati, che le omissioni siano riconducibili a contaminazioni in fase di abbinamento. Ci si può quindi chiedere se siano giustificabili e quanto siano importanti ai fini ultimi degli studi epidemiologici.

In primo luogo, l'intervistato può commettere "piccoli" errori nella datazione della storia lavorativa: se termina l'attività a gennaio del 1982 potrebbe legittimamente dichiarare di aver lavorato fino al 1981; poiché l'archivio INPS contiene un modulo per l'anno 1982, nell'intervista risulta una omissione. Benché i mesi coperti da assicurazione siano disponibili nell'archivio INPS sorgente, l'informazione non è presente nel dataset trasmesso.

In secondo luogo, se un individuo ha ricevuto, in un certo anno, solo integrazioni salariali su cui il datore di lavoro è tenuto a pagare contributi assicurativi, esisterà un modulo O1M che ne attesta il versamento. Nell'intervista, la persona ignorerà legittimamente questo periodo "contributivo" - ma non lavorativo: da qui, l'osservata omissione. Solo dal 1990 i moduli O1M contengono dati sufficienti a identificare questi eventi.

Per questi motivi, per la loro modesta entità (6% degli anni), per la durata e la posizione nella storia lavorativa, le "omissioni" sembrano trascurabili sotto il profilo della validità epidemiologica (durata dell'esposizione a fattori di rischio).

 Discordanze nell'attività economica

Le divergenze - definite da tavole Istat di corrispondenza tra codici CITI (intervista) e ATECO (INPS) - nell'attività economica sono riconducibili a:

L'intervistato "classifica" lo "stabilimento" presso cui ha lavorato, con probabile enfasi sulla mansione svolta; nella fonte INPS, il riferimento è all'impresa, in cui possono ovviamente coesistere attività ("stabilimenti") diverse. Se questa differenza "semantica" fosse rilevante, le incompatibilità dovrebbero scemare con la dimensione dell'impresa, ossia con la probabilità che vi si svolgano più attività. Il dato dimensionale non è fornito né dall'intervistato né dalla fonte INPS, dove è tuttavia presente.

L'analisi dettagliata dei casi più frequenti di divergenza evidenzia gli altri fattori "sistematici" di divergenza, acuita da enfasi possibilmente diverse che l'intervistato oggi, il funzionario INPS molti anni fa - pongono su peculiarità dell'attività economica. Si notano evidenti scambi tra attività di produzione e di commercializzazione e tra attività manifatturiere e di installazione di impianti, nonché differenze dovute al sistema "storico" di codifica (per esempio classificazione delle imprese siderurgiche, ecc.).

Allentando i vincoli di incompatibilità - in modo da minimizzare il rischio di false incoerenze - le discordanze scendono da 19% a 8% (degli anni lavorati); una piccola parte di queste è, in effetti dovuta, a errori di codifica dell'intervista.

 NOTE

!Si ringraziano il Dott. Giuseppe Costa (Agenzia Regionale per la Protezione Ambientale del Piemonte), il Registro Tumori del Piemonte e l'Unità di Epidemiologia dei Tumori del CMO della Toscana per i dati degli studi analitici resi disponibili per la sperimentazione. (cliccare sulla nota per tornare al testo)

(1)Popolazione 81 (mortalità della popolazione in generale - 1981- fonte ISTAT)

(2) Popolazione 92 (mortalità della popolazione in generale - 1992- fonte ISTAT)

(3) Attivi 89 (mortalità della popolazione attiva - 1989 - fonte INPS)

(4) Attivi 92 (mortalità della popolazione attiva - 1992 - fonte Ministero del Tesoro)

(5) Si veda "Il panel INPS su lavoratori e imprese" in Notizie R&P Anno 3, n. 1 - 1996 per maggiori dettagli sulla costruzione del panel

(6) Secondo altri dati resi disponibili dall'Inps (province di Torino, Parma, Caserta e Bari), su 100 imprese considerate come manifatturiere dalla fonte Inps, 6 appartengono all'edilizia e 18 al settore terziario, secondo il Ministero delle Finanze. I travasi tra edilizia e manifattura dipendono da ambiguità dei sistemi di codifica; le altre discrepanze traggono origine da incentivi e norme "contributive".


Notizie R&P - Ricerche e Progetti, semestrale di informazione, registrazione del tribunale di Torino, n.4685 del 3/6/94

Direttore Responsabile: Ruggero Cominotti


vai all'indice di R&P