1
Cap. 1 Introduzione allo studio dell'epidemiologia 1.1.Epidemiologia e malattie dell'uomo negli ultimi 100 anni OBIETTIVI: apprendere una comune forma di espressione grafica dei dati; constatare i progressi compiuti dalla medicina umana - per alcune malattie - nell'arco di un secolo; porre l'attenzione sull'importanza dell'interpretazione dei dati.
Questa prima unità didattica ha una funzione introduttiva e in essa vengono proposti, per sommi capi, alcuni concetti di base per fornire una idea approssimativa riguardo all'approccio «epidemiologico» ai problemi sanitari. Più in particolare, vi si parla delle malattie nelle popolazioni, della mortalità nell'uomo e negli animali, dei progressi della medicina, dell'importanza dei dati e della loro presentazione e interpretazione. I «dati» Cominciamo col dire metaforicamente che la materia prima - malta, cemento, mattoni - di ogni edificio epidemiologico è costituita dai dati. Che cosa sono i dati? Una risposta un po' più esauriente a questa domanda si trova nella prossima unità didattica; per ora basta dire che i "dati" sono numeri o valori o attributi inseriti in un particolare contesto, e che portano con sé una dose di informazione. I dati rappresentano il «raccolto» di ogni studio epidemiologico, ed anche il mezzo per giungere a conclusioni scientificamente valide. "Dati" sono contenuti, ad esempio, nel grafico (più precisamente: diagramma a barre) che segue.
2
I dati del diagramma sono stati raccolti dal più importante Ente internazionale che si occupa di sanità pubblica: l'Organizzazione Mondiale della Sanità (World Health Organization); essi rappresentano il numero di morti per alcune forme morbose nel 1900 e nel 1984. In primo luogo è da rilevare l'espressione dei dati numerici sotto forma di diagramma a barre; questo è un tipo di espressione molto utile perché consente di cogliere le caratteristiche salienti e di effettuare raffronti direttamente «a colpo d'occhio» (prova per un attimo a immaginare la minor immediatezza se gli stessi dati fossero presentati in forma tabulare, e clicca sull'immagine a destra per vedere corrispondente la tabella). La scala dell'asse orizzontale indica i tassi di mortalità per 100.000 persone e per anno (cioè il numero di morti ogni 100.000 persone in 1 anno per ogni causa considerata). Questo tipo di espressione (morti/100.000/anno), molto comune in medicina umana, può essere usato anche in medicina veterinaria, eventualmente modificando arbitrariamente la scala (es. morti/1000/anno oppure morti/10.000/mese ecc.) in rapporto alla dimensione numerica della popolazione di animali in studio e ad altri fattori. I progressi della medicina Nel diagramma, le barre rosse forniscono i valori osservati nel 1900, quelle verdi i valori del 1984. Ad esempio, dal diagramma si desume che nel 1984 sono morte per cancro circa 190 persone su 100.000, mentre nel 1900 ne sono morte - per la stessa causa - soltanto 60 su 100.000. Ora prova a confrontare le differenze fra barre rosse (anno 1900) e verdi (anno 1984) per ciascuna delle cause riportate nel diagramma, tenendo presente che nella porzione alta sono riportate le malattie infettive, mentre in basso vi sono le malattie non-infettive (per comodità il grafico è riprodotto rimpicciolito qui a destra, clicca per ingrandirlo).
3
Puoi facilmente notare che, per le malattie infettive, le barre verdi indicanti la frequenza di morti nel 1984 sono pressoché inesistenti. In altre parole, oggi le malattie infettive rappresentano soltanto una causa di morte trascurabile. In particolare, enormi progressi sono stati ottenuti soprattutto per quelle malattie infettive che, in passato, hanno rappresentato un flagello per l'umanità. Basti evocare, fra gli altri, morbi terribili quali: peste, vaiolo, colera; queste malattie non vengono nemmeno considerate nel grafico, in quanto già ai primi del '900 non rappresentavano più un problema. Spiccano invece i progressi per altre temibili malattie infettive: tubercolosi, influenza, polmonite, difterite, gastroenteriti infettive e tutte le malattie dell'infanzia. Molte di queste malattie sono attualmente pressoché scomparse, almeno nei paesi industrializzati cui il diagramma si riferisce. Quelle che ancora persistono (es. alcune malattie infantili) non rappresentano più una causa di morte. Ben diversa è la situazione in paesi meno sviluppati, come si intuisce facilmente se si considera che le malattie infettive causano annualmente nel mondo quasi 20 milioni di morti, cioè oltre 1/3 di tutti i decessi. Una parte importante di questi progressi è da attribuire alla epidemiologia ed alla preventiva
medicina
I progressi nella Medicina e nelle condizioni di vita dell'uomo nei Paesi industrializzati sono da attribuire ad una serie di fattori, fra i quali emergono per importanza: miglioramento dell'alimentazione, disponibilità di acqua pura, controllo dei vettori, pastorizzazione del latte, educazione delle madri riguardo all'allevamento dei figli, vaccinazioni, utilizzo di antibiotici, miglioramento generale dell'igiene e delle condizioni di vita. In questo scenario, il contributo della medicina veterinaria non è stato trascurabile: basti pensare ai miglioramenti dell'igiene degli alimenti di origine animale ed alla lotta alle malattie che possono essere trasmesse dagli animali all'uomo. Anche in Italia la mortalità dell'uomo per malattie infettive e parassitarie, particolarmente elevata agli inizi del secolo, è andata progressivamente riducendosi nel tempo, grazie al miglioramento delle condizioni igieniche e, recentemente, a una maggiore diffusione delle vaccinazioni ed all'utilizzo di farmaci sempre più efficaci. Nel 1998 si sono registrati, a causa di malattie infettive, solo 0.6 decessi ogni 10.000 uomini e 0.5 decessi per ogni 10.000 donne. A scopo di raffronto, considera che nello stesso anno i morti per malattie cardiovascolari sono stati 48 (maschi) e 32 (femmine), sempre ogni 10.000 individui. L'interesse per la mortalità per malattie infettive e parassitarie oggi è, quindi, limitato ad alcuni fenomeni emergenti, quali la recrudescenza della tubercolosi, favorita anche dalla resistenza ai farmaci tradizionali di alcuni ceppi del batterio (Mycobacterium tuberculosis) agente della malattia. [Fonte dei dati: ISTAT, Istituto Nazionale di Statistica, www.istat.it]. Come si avrà modo di imparare durante il corso degli studi, la diminuzione della mortalità per malattie infettive è avvenuta, seppure in misura più limitata, anche nel settore veterinario relativamente agli animali "da compagnia" (i cosiddetti pets); al contrario, un analogo miglioramento non sembra essersi verificato nel settore dell'allevamento industriale degli animali "da reddito", ossia quelli allevati come fonte di guadagno (bovini, suini, pollame ecc.) per i quali le malattie infettive continuano a rappresentare fra le più importanti cause di danni economici o di mortalità.
4
Progressi o regressi? Un'altra osservazione: esaminando il diagramma, si potrebbe dedurre che ai progressi ottenuti nel caso delle malattie infettive si siano associati dei regressi per altre forme morbose (cancro e malattie cardiache, per le quali la maggiore lunghezza della barra verde rispetto alla rossa testimonia che si è avuto un incremento della frequenza nel periodo 1900-1984). Questi regressi sono soltanto apparenti e sono dovuti all'allungamento della vita media della popolazione avvenuto nel corso del XX secolo. Infatti, per una corretta interpretazione dei dati, bisogna tener conto che in una popolazione con molti anziani saranno più frequenti le malattie tipiche della senilità, quali appunto le neoplasie o le malattie di cuore. La scienza medica ha fatto molti progressi ed ha prolungato la durata della vita dell'uomo; tuttavia non si vive in eterno e quindi... di qualche malattia bisogna pur morire! È quindi del tutto logico che le patologie tipiche degli anziani rappresentino una importante causa di morte in popolazioni composte da molti individui in età avanzata. Per effettuare un confronto preciso che annulli l'effetto dell'età, i dati andrebbero standardizzati in base all'età (più avanti verrà proposto un esempio di standardizzazione delle misure).
riportato l'incremento delle nell'arco del XX secolo.
Ad ulteriore dimostrazione dei progressi compiuti nel campo della sanità in tutto il mondo, nel diagramma a sinistra è speranze di vita delle popolazioni dei paesi sviluppati e non-sviluppati
Una breve digressione: salute dei ricchi e salute dei poveri Nonostante i progressi compiuti, ancora molto resta da fare. Dovrebbe essere costantemente presente, nella nostra coscienza di popoli di Paesi ricchi economicamente (ma forse non altrettanto ricchi sul piano morale e spirituale), la triste condizione in cui ancora versa una parte considerevole dell'umanità. Dati emblematici sono rappresentati nel grafico a destra, che illustra l'andamento della mortalità infantile nel mondo. Dal 1960 al 2000 nei Paesi industrializzati la mortalità infantile è diminuita dell'80% circa (da 31 a 5.5); nell'Africa sub-sahariana, la diminuzione è stata molto più modesta (da 153 a 108, ossia circa il 30%). Deve far riflettere anche il fatto che nei Paesi non industrializzati la mortalità infantile è causata non da malattie intrinsecamente gravi o incurabili, bensì da patologie che potrebbero essere facilmente prevenute, quali semplice malnutrizione o disidratazione per diarrea. NELLA PROSSIMA UNITÀ: viene ampliato l'argomento riguardante i dati e la loro interpretazione, e vengono elencati, in maniera essenziale, gli obiettivi pratici che si possono conseguire attraverso l'applicazione dei metodi epidemiologici. Interpretazione dei dati... arte o scienza?
5
Cap. 1. Introduzione allo studio dell'epidemiologia 1.2 Interpretazione dei dati... arte o scienza? OBIETTIVI: apprendere l'impostazione di uno studio scientifico osservare delle strutture fondamentali di uno studio epidemiologico; riflettere sull'importanza dell'interpretazione dei dati
L'epidemiologia viene considerata una scienza "eclettica" con molti punti di contatto con altri settori di studio: le scienze biomediche di base, le scienze cliniche, la statistica ed anche, relativamente alla epidemiologia umana, la antropologia, la demografia e la sociologia. In ogni caso, l'epidemiologia (così come molte altre discipline scientifiche) si basa sul metodo scientifico. Il metodo scientifico viene usato nelle scienze naturali a partire dalla "rivoluzione scientifica" del XVII secolo ed è rimasto concettualmente invariato; esso si basa sull'osservazione dei fenomeni naturali e, in buona sostanza, consiste in un procedimento che avanza per passi successivi (vedi schema) dalle osservazioni fino alle conclusioni utilizzando un rigoroso sistema di generazione e verifica della ipotesi.
Rappresentazione schematica del metodo scientifico
6
Non sempre i risultati degli esperimenti conducono nella giusta direzione: occasionalmente i risultati ingannano, e si traggono conclusioni errate. Però la scienza è saggia, si accontenta delle umane limitazioni degli scienziati e non ne teme gli errori individuali, perché il suo incessante processo di verifica collettiva le permette col tempo di individuarli ed emendarli. Il metodo scientifico si basa non soltanto sull'osservazione, ma su un processo chiamato «ragionamento ipotetico-deduttivo», che è un processo di generazione dell'ipotesi seguito da tentativi di negare l'ipotesi stessa - cioè un processo basato sulla «falsificazione dell'ipotesi». In sostanza, l'impossibilità di rifiutare l'ipotesi rappresenta la prova migliore della sua veridicità. Pertanto, la forza di una ipotesi dipende dal grado con cui essa può essere confutata. Questo concetto è stato espresso magistralmente dalla famosa frase di Sherlock Holmes (il detective creato da sir Arthur Conan Doyle): «È una mia vecchia massima che, una volta escluso l'impossibile, ciò che resta, per quanto improbabile, non può che essere la verità». Anche fra le famose «Leggi di Murphy» si trova qualcosa di adatto: la Legge di Bates sulla ricerca, che recita: «La ricerca consiste nel percorrere vicoli per vedere se sono ciechi». Comunemente, quando si effettuano indagini epidemiologiche "di routine" nella pratica clinica e su argomenti già ampiamente noti, alcuni dei passi del classico metodo scientifico vengono omessi, e lo schema dell'indagine può essere riassunto in sole 3 fasi: • • •
raccolta dei dati elaborazione dei dati interpretazione dei dati (conclusioni)
ESEMPIO. Veniamo interpellati per accertare la frequenza di mastite subclinica in un grande allevamento di bovine da latte. Conosciamo già bene questa patologia, e quindi non è necessario formulare alcuna teoria né ri-studiare quanto già conosciamo sull'argomento, né dobbiamo formulare alcuna ipotesi sulle cause di mastite, o sulle modalità di trasmissione ecc.. Passiamo quindi direttamente alla raccolta dei dati (ad esempio sottoponendo tutte le vacche in lattazione ad un test idoneo a rivelare la presenza di mastite). Successivamente elaboriamo i dati (ad esempio: calcoliamo la proporzione di animali positivi; evidenziamo eventuali correlazioni fra mastite ed età o altri fattori; calcoliamo gli intervalli di confidenza ecc.). Finalmente, possiamo trarre le debite conclusioni. I DATI sono numeri (oppure valori non numerici, come ad esempio sì o no, malato o sano ecc.), ma non sono soltanto numeri. I dati sono numeri in un contesto. Ad esempio, il numero "3.8" o il valore "3.8 kg" in sé non portano alcuna informazione. Ma se veniamo a sapere che una conoscente ha dato alla luce un bambino del peso di 3.8 kg, allora questo numero assume significato in uno specifico contesto e, ad esempio, possiamo congratularci per il buon peso del bambino, indice di presumibile buona salute. Il contesto implica il possesso di conoscenze sull'argomento, le quali ci consentono di formulare giudizi. Ad esempio, sappiamo che un bambino alla nascita non può pesare 450 grammi, né 45 kg. Il contesto fa sì che il numero contenga informazione.
7
I dati nella pratica La struttura logica ora descritta (cioè i processi di raccolta-elaborazione-interpretazione dei dati) non è peculiare dell'epidemiologia, ma è comune anche ad altri settori della professione veterinaria. Per esempio, nel procedimento diagnostico di fronte ad un animale ammalato, il veterinario raccoglie dati ( anamnesi, visita dell'animale con evidenziazione dei sintomi, esami di laboratorio ecc.); questi dati vengono «elaborati» (spesso quasi inconsciamente!) nella mente del veterinario che infine, interpretandoli anche in base al suo «buon senso clinico», arriverà alla diagnosi. Durante la visita clinica di un animale, alcuni dei dati raccolti non sono esprimibili in forma numerica. Ad esempio, è impossibile (o molto difficile) misurare e rappresentare con precisione attraverso un numero fenomeni come l'entità di una zoppicatura o il dolore provocato da una manovra di palpazione addominale. In altri casi, invece, i dati sono esprimibili in forma numerica; ad esempio, il numero di pulsazioni cardiache al minuto. Quasi sempre, le osservazioni non quantificabili numericamente possono essere trasformate in un numero in base a criteri più o meno arbitrari. Ad esempio, una zoppicatura potrebbe essere codificata con i valori 0, 1, 2, 3, 4, dove 0 corrisponde ad andatura normale, 1 a zoppicatura appena percettibile, 2 a zoppicatura lieve ecc. Questo tipo di trasformazione è molto utile quando i dati devono essere sottoposti ad una elaborazione. In epidemiologia i dati sono sempre rappresentati da numeri. Ad esempio, uno studio epidemiologico potrebbe mirare a stabilire QUANTI animali sono affetti da una malattia in un determinato momento, oppure QUANTI nuovi casi si sono verificati in un lasso di tempo, oppure QUANTI animali esposti ad un certo fattore vengono colpiti dalla malattia, ecc. Ecco perché l'epidemiologia, servendosi di dati numerici, ricorre più di altre discipline a tabelle o grafici in cui riportare i dati numerici. Per lo stesso motivo, l'epidemiologia si serve frequentemente di due altre discipline: la matematica e, soprattutto, la statistica. Quest'ultima comprende i metodi di studio dei fenomeni collettivi e quindi rappresenta logicamente la compagna ideale dell'epidemiologia (e di altre discipline). I dati purtroppo non parlano da soli, ma vanno interpretati. L'interpretazione, però, non deve essere lasciata al buon senso soggettivo dello sperimentatore. È necessario definire una serie di metodi formali, accettati dal mondo degli scienziati; questi metodi devono essere usati per l'analisi dei dati, allo scopo di trarre conclusioni il più possibili veritiere. La statistica comprende appunto questi metodi. Riassumendo: la statistica è l'interfaccia tra la matematica e la scienza medica:
Attraverso procedimenti statistici di "analisi", i dati possono essere convertiti dalla forma grezza iniziale (poco o nulla interpretabile) ad una forma più comprensibile. Il fatto è che, per tutte le discipline scientifiche che studiano gli organismi viventi, i dati ottenuti attraverso gli esperimenti oppure raccolti «in campo» (ossia in natura) non consentono mai di giungere ad una conclusione con una certezza del 100%. La statistica ci aiuta in maniera oggettiva, numericamente, ad analizzare
8
le diverse ipotesi ed a valutare il grado di incertezza delle conclusioni cui siamo giunti. Ciò significa che lo studio e l'interpretazione dei fenomeni biologici dipendono imprescindibilmente dalla statistica.
Inoltre, come vedrai più avanti, attraverso i metodi statistici le osservazioni effettuate su un campione possono essere generalizzate all'intera popolazione, attraverso un processo logico detto di «inferenza» (statistica inferenziale). D'altra parte, già secoli or sono, due fra i più grandi studiosi di tutti i tempi, padri delle scienze e del metodo sperimentale, si erano resi conto che l'analisi dei dati è parte inscindibile del processo di ampliamento delle conoscenze umane:
Non devi pensare, però, che il processo di raccolta-elaborazione-interpretazione dei dati sia puramente meccanico o possa essere in qualche modo automatizzato in tutte le sue fasi. Infatti, sia nella raccolta che nell'elaborazione che - soprattutto - nell'interpretazione dei dati è necessario ingegno, acume e discernimento, associati ad una profonda conoscenza della storia naturale della malattia (cioè come essa si manifesta e decorre in natura, senza intervento del medico) nonché di tutte le altre discipline mediche di base (anatomia, fisiologia, patologia generale ecc.). Ed è forse anche per questo che i sistemi di diagnosi computerizzata - ossia i cosiddetti «sistemi esperti» che certo costituiscono un utilissimo ausilio diagnostico per casi particolari, come ad esempio gli avvelenamenti - non possono (ancora?) competere con un buon clinico. Gli obiettivi pratici dell'epidemiologia veterinaria A questo punto potresti chiederti quali sono gli obiettivi pratici ottenibili attraverso la raccolta, l'elaborazione e l'interpretazione dei dati. La risposta a questa domanda racchiude l'essenza stessa di tutta l'attività epidemiologica, e quindi non può essere esaurita in poche righe. In seguito, verrà accennato ai compiti specifici ed agli scopi pratici della disciplina. Tuttavia, possiamo già anticipare che le informazioni sullo stato sanitario di popolazioni animali sono utili ad una ampia gamma di soggetti, a partire dai semplici proprietari degli animali o allevatori, fino alle Autorità
9
sanitarie periferiche e centrali (nazionali ed internazionali) ed ai centri di ricerca. Per ora, basterà ricordare che le informazioni raccolte sono utili a: • • •
• • • • •
identificare la causa e l'origine delle malattie, soprattutto (ma non soltanto) di quelle diffusibili; identificare la presenza di determinate malattie in un territorio; accertare l'assenza di determinate malattie; questo è spesso richiesto dai partner commerciali (che non intendono correre il rischio di importare nuove malattie in territori indenni attraverso l'acquisto di animali o di loro prodotti) e vale soprattutto per le malattie trasmissibili; individuare la frequenza, o la localizzazione geografica, o l'andamento nel tempo delle malattie; valutare l'importanza (sanitaria, economica, zoonosica ecc.) delle malattie esistenti in un territorio; determinare le priorità di intervento, tenuto conto delle risorse disponibili; pianificare ed implementare piani di controllo e sorvegliarne l'andamento; soddisfare le richieste di informazioni provenienti da organismi internazionali (es. Office International des Épizooties, OIE).
10
Cap. 1. Introduzione allo studio dell'epidemiologia 2.1 Eventi-chiave nella storia dell'epidemiologia OBIETTIVO a scopo di cultura generale, conoscere alcuni eventi e personaggi celebri fra i tanti che hanno caratterizzato la scienza medica ed hanno gettato le basi della epidemiologia moderna.
•
Nato a Kos (Grecia) nel IV secolo A.C., Ippocrate affrancò la medicina dalla speculazione filosofica e dalla superstizione, basando la pratica medica sullo studio del corpo umano. Ritenendo che ogni malattia avesse una spiegazione razionale, riconobbe l'importanza dell'ambiente sulla comparsa e sull'evoluzione delle malattie. Per primo descrisse con precisione i sintomi di alcune affezioni (come la polmonite e l'epilessia nei bambini) e fu sostenitore di rimedi semplici, quali il sonno, il riposo ed una buona alimentazione. Egli dimostrò che i pensieri ed i sentimenti avevano origine dal cervello e non dal cuore, come allora si credeva. Ippocrate fu anche brillante studioso di matematica e geometria; egli venne e viene ancora riconosciuto come "padre della medicina".
• Girolamo Fracastoro (Verona 1478 - Affi 1553), fisico, poeta, astronomo e geologo, propose un abbozzo della teoria scientifica dei microrganismi come agenti di malattia ben 300 anni prima della formulazione avvenuta ad opera di Pasteur e Koch. Fracastoro raccolse la sua visione sulle epidemie nell'opera "De Contagione et Contagiosis Morbis" (Sul Contagio e le Malattie Contagiose), nella quale si affermava che ogni malattia era provocata da un diverso tipo di corpuscoli in grado di moltiplicarsi rapidamente e di trasmettersi dagli ammalati ai sani in 3 modalità: per contatto diretto, per il tramite di materiali diversi (es. indumenti) ed attraverso l'aria. La teoria di Fracastoro fu molto apprezzata, ma venne ben presto offuscata dalle dottrine mistiche del medico rinascimentale Paracelso.
•
Durante le spaventose epidemie di peste che colpirono l'Europa negli anni fra il 1346 ed il 1352, e che portarono a morte un quarto degli abitanti dell'Europa, si cominciò a tener conto delle persone morte ogni settimana. Fu tuttavia soltanto 3 secoli più tardi, per merito di John Graunt (1620-1674), che prese corpo l'idea dell'utilità di disporre di statistiche epidemiologiche sulla durata della vita e sulle cause di morte. Graunt è autore di una delle prime opere di statistica venute alla luce in Europa ("Natural and political observations upon the bill of
11
mortality"), in cui i dati dei certificati di morte stilati dai ministri del culto vengono riassunti sotto forma di tavole, percentuali e probabilità. Da esse si evince, ad esempio, l'alta frequenza di morte nei bambini (1/3 di essi moriva in età <5 anni). E' curioso osservare che, nonostante gli enormi mutamenti nel modo di vivere, allora come oggi i maschi erano soggetti a mortalità più elevata ed a più bassa morbosità rispetto alle femmine.
• Nel 1714 la peste bovina comparve in Inghilterra. Thomas Bates, il medico del re Giorgio I, escogitò una strategia di lotta che, nella sostanza, può essere considerata ancora attuale: fumigazione dei ricoveri degli animali; abbattimento e distruzione per seppellimento degli animali colpiti; riposo dei pascoli contaminati. Gli allevatori venivano compensati delle perdite a spese dello Stato.
•
Nel 1775 Percival Pott, chirurgo inglese noto per i suoi studi sulla tubercolosi nonché sulla colonna vertebrale, effettuò quello che viene ritenuto il primo studio di "epidemiologia occupazionale" o di "medicina del lavoro" riguardante l'alta frequenza di cancro dello scroto negli spazzacamini. In precedenza, le malattie legate alle condizioni di lavoro in 50 diversi mestieri erano stati studiate da Bernardo Ramazzini (1633-1714) (laureato in medicina a Parma nel 1659) e pubblicate nella sua opera fondamentale, il De morbis artificum diatriba.
•
Edward Jenner (1749-1823) aveva constatato che tutti coloro che contraevano il "cow pox" (in italiano: vaiolo vaccino, che significa letteralmente vaiolo delle vacche, ossia dei bovini), una forma di vaiolo che colpiva i bovini, erano immuni del vaiolo umano. Dopo oltre 20 anni di studi, nel 1796 egli inoculò ad un bambino del pus prelevato dalle pustole di individui colpiti da vaiolo vaccino; il paziente, al quale venne inoculato in seguito del pus vaioloso umano, non contrasse la malattia. Questo rappresenta il primo caso documentato di prevenzione attiva di una malattia attraverso immunizzazione. Il termine odierno di "vaccino" trae origine proprio dal metodo di Jenner che prevedeva l'inoculazione appunto del virus del vaiolo vaccino. Da allora il metodo della vaccinazione jenneriana ebbe grande diffusione ovunque; in Italia fu introdotto nel 1799.
•
Jacob Henle (1809-1885?), Louis Pasteur (18221895) e Robert Kock (1843-1910) rappresentano le figure chiave accreditate dello sviluppo della teoria dei microrganismi quali
12
agenti di malattia, e dei principi basilari della medicina moderna.
•
John Snow compie a Londra, in occasione di due (1849 e 1853) studi con metodi epidemiologici tempi e ancor oggi attuali. L'opera di Snow viene dettagliatamente e commentata in una apposita
•
Peter Panum (1820-1885), medico danese, applica i moderni principi delle malattie infettive ad uno studio di un violento focolaio di morbillo verificatosi nel 1846 nelle Isole Faroe, situate fra la Scozia e l'Islanda. Favorito in tale attività dall'isolamento geografico e commerciale delle Isole, egli effettua raffronti fra la popolazione semi-immune della Danimarca e quella delle Isole, individuando elementi essenziali quali la "infettività" dell'agente e la "recettività" dell'ospite. Calcola anche il periodo tipico di incubazione della malattia (13-14 giorni). La sua opera occupa un posto importante fra i "classici" della storia dell'epidemiologia.
•
epidemie di colera rivoluzionari per quei trattata unità didattica.
Nel 1880 Daniel Salmon e Frederick Kilborne negli U.S.A. osservano che la presenza di una zecca (Boophilus annulatus, che funge da vettore) era associata ad una malattia dei bovini detta «Febbre del Texas», il cui vero agente causale (un protozoo parassita: Babesia bigemina) venne identificato molti anni dopo. Attraverso il loro lavoro, basato soprattutto sulla similarità della distribuzione geografica del vettore e della malattia, fu possibile controllare (controllare = tenere sotto controllo, ossia ridurre la frequenza dei casi) la malattia prima di conoscerne la vera causa. Nello stesso periodo in Inghilterra vengono eradicate due temibili malattie del bovino: la peste bovina (1877) e la pleuropolmonite nel 1898; sei anni prima, nel 1892, la pleuropolmonite contagiosa del bovino era stata eradicata negli Stati Uniti, dopo una campagna di lotta durata 5 anni.
•
La seconda metà del '900 segna l'inizio della moderna epidemiologia. Fra gli eventi importanti nel settore della medicina umana, sono da ricordare: la vaccinazione di massa contro la poliomielite, l'eradicazione del vaiolo, la dimostrazione del rapporto causaeffetto fra tabacco e malattie cardiache e respiratorie, l'emergenza di malattia nuove (AIDS). Nel settore veterinario, prendono l'avvio i piani di lotta alle "grandi" malattie: pullorosi aviare, tubercolosi bovina, brucellosi bovina e ovi-caprina, afta epizootica, peste suina classica, leucosi
13
enzootica del bovino ecc.. Inoltre, compaiono nuove malattie o infezioni degli animali, spesso con caratteri zoonosici (es. infezioni da Salmonella enteritidis del pollame, encefalite spongiforme del bovino); in qualche caso si assiste alla ricomparsa di malattie diffusibili ben note e che da anni erano state eradicate da intere nazioni (es. epidemia di afta epizootica in Gran Bretagna nel 2001). È soprattutto grazie all'applicazione di metodi epidemiologici che le suddette malattie sono state studiate e controllate con la massima tempestività possibile, in rapporto alle diverse situazioni ed alle risorse disponibili. In tempi recenti si registra la nascita della «epidemiologia molecolare» che - attraverso l'interazione con la biologia molecolare - opera soprattutto nel campo delle malattie croniche, neoplastiche ed infettive; per queste ultime, identifica la sorgente degli agenti di malattia, le loro relazioni biologiche, i geni responsabili della virulenza, gli antigeni importanti per la profilassi vaccinale, ed i fenomeni di antibiotico-resistenza. NELLA PROSSIMA UNITÀ: viene illustrato uno studio storico che rappresenta un «classico» dell'epidemiologia e che riguarda le epidemie di colera sviluppatesi a Londra attorno alla metà dell'800. L'impostazione di questo studio è ancora attuale e dimostra, fra l'altro, come si possano ottenere risultati sorprendenti studiando la malattia a livello di popolazione anziché di singolo individuo.
14
Cap. 1. Introduzione allo studio dell'epidemiologia 2.2 Uno studio epidemiologico storico: le epidemie di Colera a Londra nel 1849 e 1853 OBIETTIVI prendere conoscenza con uno dei principali campi d'azione dell'epidemiologia; apprendere qualche dettaglio su un famoso studio epidemiologico storico; constatare come - contrariamente al senso comune - le malattie possano essere combattute e prevenute senza conoscerne la causa; Epidemiologi pionieri della medicina Uno dei più importanti obiettivi dell'epidemiologia è l'individuazione delle CAUSE di malattia; tuttavia, questo stesso obiettivo è perseguito da numerose altre discipline mediche, in quanto si ritiene che la conoscenza della causa di malattia sia utile - se non indispensabile - per le azioni di prevenzione e per la terapia. L'epidemiologia ha anche un altro obiettivo, ancor più ambizioso: quello di prevenire o ridurre la frequenza di malattia in una popolazione ancor prima di conoscerne le cause. Perciò, in alcune situazioni gli epidemiologi possono essere considerati alla stregua di pionieri che per primi entrano in azione quando compare una malattia 'nuova'.
ESEMPIO. I recenti episodi di quella nuova malattia indicata dai mass-media con la brutta denominazione di "mucca pazza" (la denominazione corretta è: encefalopatia spongiforme del bovino) sono stati circoscritti tempestivamente e con efficacia - ancor prima di conoscerne l'agente causale - attraverso misure di controllo scaturite da studi epidemiologici. Anche se non mancano esempi di studi epidemiologici compiuti in un passato ormai lontano, l'epidemiologia può essere senz'altro ritenuta scienza medica giovane. Nel campo della medicina umana l'epidemiologia è considerata scienza a sé stante da alcuni decenni; ancor più recente è l'acquisizione di una «mentalità epidemiologica» in medicina veterinaria. Si parla qui di «mentalità» o di «approccio» epidemiologico poiché non è facile stabilire la vera natura dell'epidemiologia, cioè si tratti di disciplina o teoria o di metodologia o addirittura di ideologia. In effetti, come si vedrà in seguito, l'epidemiologia spazia in diversi campi dello scibile umano, adottando anche schemi derivati dal settore logico-filosofico (per esempio le regole del filosofo John Stuart Mill riguardo alle cause di malattia).
15
Uno dei più famosi studi del passato, impostato - in buona sostanza con metodo epidemiologico razionale ancor oggi valido, è quello compiuto dal dottor J. Snow (raffigurato nel ritratto a lato), un medico ostetrico che ottenne popolarità attorno alla metà del XIX secolo per aver per primo utilizzato l'anestesia durante gli interventi chirurgici. Egli fu pioniere anche nel campo delle malattie trasmissibili, come dimostrano gli studi eseguiti a Londra in occasione di due focolai di colera. Tali studi sono universalmente riconosciuti come un "classico" nella storia dell'epidemiologia, per l'ingegnosità delle osservazioni e per la modernità dell'impostazione metodologica. Essi vengono qui sommariamente riassunti nei punti essenziali.
Il colera a Londra Il momento storico corrisponde alla metà del XIX secolo, prima del "periodo d'oro" della Microbiologia (1879-1900), prima che i batteri venissero riconosciuti come agenti di malattia e prima della "scoperta" dell'agente del colera dell'uomo (un batterio oggi denominato Vibrio cholerae). In quel periodo il colera compariva regolarmente in Europa, causando elevata mortalità oltre a drammatici problemi sociali. Nonostante le conoscenze mediche a quel tempo fossero assai più limitate di quelle odierne, era tuttavia noto che: • • •
la principale manifestazione clinica era la diarrea acquosa profusa; venivano spesso coinvolti interi nuclei familiari; la malattia colpiva raramente medici e infermiere, benché essi fossero a costante contatto con ammalati; ciò contrastava con la visione corrente secondo cui le malattia contagiose venivano contratte attraverso l'inalazione di "miasmi" o "esalazioni" provenienti dagli individui affetti.
La prima epidemia di colera: 1848-49 Dopo una violenta epidemia nel 1832, lo spettro del colera ricomparve a Londra nel 1848, provocando oltre 15.000 morti. Vennero colpite soprattutto le persone che abitavano nelle povere case situate al di sotto del livello del Tamigi, lungo le banchine del fiume. La malattia colpì con violenza i quartieri londinesi situati a sud del Tamigi, ed in particolare - così notò Snow - quelli serviti da due Società di approvvigionamento idrico: la "Southwark & Vauxhall Water Company" e la "Lambeth Water Company". L'acqua distribuita da entrambe le società veniva prelevata direttamente dal fiume, in una zona prossima al centro della città. Vale la pena di ricordare che in quel periodo erano già relativamente diffusi nella città i servizi igienici dotati di acqua corrente, e che fin dal 1830 erano stati messi in funzione i primi impianti fognari. L'acqua veniva portata alle abitazioni attraverso una fitta rete gestita da alcune aziende private. Ogni azienda ampliava a propria discrezione la propria rete, anche in concorrenza con altre aziende, e quindi si era venuta a creare una sovrapposizione di reti idriche tale che lo stesso quartiere, od anche lo stesso edificio, era sovente servito da due o più società.
16
Durante l'epidemia, Snow lavorò intensamente a raccogliere dati ed osservazioni riguardanti soprattutto le abitudini di coloro che erano stati colpiti e di quelli che erano rimasti sani, e continuò la raccolta retrospettiva dei dati anche dopo l'estinzione dell'epidemia. In base alle informazioni raccolte, Snow fu in grado di avanzare le seguenti ipotesi, per quel tempo molto innovative se non addirittura rivoluzionarie: 1. il colera veniva certamente trasmesso dagli individui ammalati a quelli sani; 2. la trasmissione doveva avvenire attraverso un qualche "veleno" (poison) che era in grado di "moltiplicarsi" nell'individuo ammalato; 3. il "veleno" poteva essere portato attraverso qualche via, e quindi provocare malattia a distanza; cioè, non era necessario avere uno stretto contatto con l'ammalato né tanto meno inalare le sue "emanazioni"; 4. il "veleno" doveva essere introdotto nell'organismo per ingestione di qualche sostanza, cioè per via digerente, e non per altra via, essendo la diarrea la prima e principale manifestazione della malattia; 5. l'acqua potabile rappresentava la peculiare, ma non esclusiva, via di diffusione del "veleno" alle persone sane.
Snow anticipava di 32 anni la "scoperta" del batterio agente del colera (Vibrio cholerae) e di un decennio la dimostrazione, avvenuta ad opera di Pasteur, che organismi viventi microscopici sono causa di epidemie. Inoltre, la teoria di Snow contrastava con quella corrente all'epoca, secondo la quale le malattie venivano trasmesse dall'inalazione di esalazioni (miasmi). Ecco perché le ipotesi di Snow vennero accolte freddamente dal mondo scientifico e caddero nel vuoto, alla stregua della miriade di idee disparate, e per lo più prive di fondamento scientifico, che a quel tempo si propagavano in occasione di ogni epidemia di colera. La seconda epidemia di colera: 1853-54 Fra il 1849 ed il 1853 a Londra non vennero segnalati casi di colera. In questo periodo, una delle due società dell'acqua (la Lambeth) ristrutturò gli impianti, spostando a monte della città il punto di rifornimento dell'acqua. L'altra società (Southwark & Vauxhall) continuò a prelevare l'acqua dal tratto di fiume nella City. Nell'estate del 1853 il colera riesplose; anche questa volta, la maggiore frequenza di casi di malattia si ebbe a sud del Tamigi. Snow si mise nuovamente all'opera, raccogliendo ancora i dati riguardanti la mortalità in rapporto alla Società fornitrice dell'acqua. Lo studio venne ampliato attraverso l'ottenimento - dal "General Registar Office" - dei dati sul numero di abitazioni servite da una o l'altra delle società dell'acqua. La situazione risultava la seguente:
17
I suddetti dati, insieme ad altri (come, ad esempio, quelli riguardanti il numero di persone servite dalle Società fornitrici di acqua e la relativa mortalità per colera), e pur tenuto conto delle sovrapposizioni degli acquedotti, dimostravano con sufficiente chiarezza - secondo Snow - che l'acqua Southwark & Vauxhall era una causa importante della malattia. Questa ipotesi era confortata anche dal fatto che la mortalità nelle abitazioni servite dalla Lambeth, a motivo dello spostamento a monte del punto di raccolta dell'acqua, era diminuita rispetto alla precedente epidemia. Nella tarda estate dello stesso anno il colera continuava a colpire con durezza, ed in particolare si verificò una grave epidemia fra Broad Street e Cambridge Street, proprio nella zona ove Snow risiedeva (corrispondente all'odierno, centralissimo quartiere di Soho). Questa epidemia, la cui storia è divenuta leggendaria, venne studiata da Snow ancor più meticolosamente, e venne anche preparata una mappa della zona, in cui erano riportati graficamente sia i decessi che la localizzazione delle pompe pubbliche per l'acqua.
Dall'esame della mappa, era evidente che i casi erano incentrati attorno alla pompa pubblica di Broad Street (figura), da cui
18
sgorgava acqua della Southwark & Vauxhall. Snow, di fronte ad una assemblea di increduli ma preoccupati ufficiali governativi, chiese ed ottenne che la maniglia della pompa di Broad Street fosse rimossa. A partire da quel giorno, i casi di malattia in quella zona continuarono a diminuire, ed in pochi giorni la malattia si esaurì. Oggi Broad St. si chiama Broadwick St., e nelle vicinanze del luogo dove era collocata la pompa si trova un pub ("John Snow Pub") nel quale è conservata la maniglia originale (o almeno così si dice) della pompa. [fai una passeggiata in Broadwick St] Un elemento importante nel lavoro sistematico di Snow è rappresentato dalla applicazione del principio di falsificazione dell'ipotesi proprio del metodo scientifico moderno. Infatti, egli attuò una minuziosa e sistematica ricerca ed analisi di casi che sembravano contraddire la teoria dell'origine idrica della malattia. Ecco alcuni esempi emblematici, tratti dal lavoro originale di Snow: ... «I minatori della Gran Bretagna sono stati colpiti dal colera più degli addetti ad altri mestieri [...]. I minatori differiscono per molti ed importanti particolari da tutte le altre classi di lavoratori. Non vi sono servizi igienici nelle miniere di carbone così come - credo - nelle miniere di altro tipo. I lavoratori soggiornano così a lungo nelle miniere che sono costretti a portare con sé il cibo, che consumano sempre senza lavarsi le mani, e senza usare né forchetta né coltello. Ad una mia domanda rivolta al personale di una miniera di carbone presso Leeds, ho ottenuto la seguente risposta: "I nostri minatori scendono alle 5 del mattino, per essere pronti ad iniziare il lavoro alle 6, e lasciano la miniera alle 15:30. In media, rimangono nella miniera 8-9 ore. Tutti i minatori portano con sé una riserva di cibo, solitamente focaccia con l'aggiunta, talvolta, di carne. Tutti hanno anche una bottiglia contenente una bevanda. Temo che i nostri minatori non siano migliori degli altri riguardo a pulizia. La miniera è da considerare una enorme latrina, e naturalmente gli uomini lì consumano il loro pasto senza lavarsi le mani". E' evidente che, se un minatore viene attaccato dal colera sul luogo di lavoro, la malattia ha la possibilità di trasmettersi ai colleghi di lavoro più che in ogni altro tipo di occupazione»... ...«C'é una distilleria [brewery, vedi mappa] di birra in Broad St., vicino alla pompa, e dopo aver appreso che nessuno di quei lavoranti era morto di colera, ho convocato il proprietario, Mr. Huggins. Egli mi ha informato di avere impiegato nella distilleria circa 70 persone, e che nessuna di esse ha contratto il colera - per lo meno in forma grave - e che soltanto due hanno accusato un lieve malessere nel periodo in cui il morbo era prevalente. Agli impiegati è permesso bere una certa quantità di mosto di malto; Mr. Huggins ritiene che essi non bevano affatto acqua ed è assolutamente certo che non si sono mai riforniti di acqua dalla pompa della strada. Infatti, all'interno della fabbrica esiste un profondo pozzo»... ...«Il dott. Fraser ha richiamato la mia attenzione sulle seguenti circostanze, che forse provano definitivamente la connessione fra la pompa di Broad Street e l'epidemia di colera. [...] Nel West End, il 2 settembre la vedova di un fabbricante di cartucce, dell'età di 59 anni, è stata colpita dal colera. Sono stato informato dal figlio della vedova che ella da mesi non si recava nelle vicinanze di Broad Street. Tuttavia, ogni giorno da Broad Street a West End veniva un carretto, e la vedova era solita farsi portare una grossa bottiglia di acqua della pompa di Broad Street, che lei preferiva. L'acqua venne prelevata giovedì 31 agosto, e la vedova ne bevve alla sera dello stesso giorno, ed anche il venerdì. Una nipote della donna, recatasi in visita alla vedova, bevve la stessa acqua e, ritornata a casa nel quartiere di Islington (ove il colera era assente), morì poco dopo di colera. Anche la vedova contrasse il colera alla sera del venerdì e morì sabato. In quel tempo il colera non era presente né nel West End né nei quartieri adiacenti. E' vero che molte persone che bevvero l'acqua della pompa di Broad Street al tempo dell'epidemia, senza ammalarsi. Tuttavia, ciò non
19
diminuisce la validità delle prove riguardanti l'influenza dell'acqua, come già chiaramente indicato in altra parte del presente lavoro»...
Ancor prima di "scoprire" l'esistenza del batterio che causa il colera, l'acqua era stata individuata come fattore importante nella trasmissione della malattia. Su questa base, lo stesso Snow fissò alcune regole di comportamento che, nelle epidemie successive, si rivelarono efficaci nel ridurre il contagio e che, nella loro semplicità, sono ancor oggi valide. Nelle parole originali di Snow, le regole dettavano che: •
•
•
• •
•
• • •
tutti coloro che si occupano degli ammalati devono osservare le più strette norme di pulizia; nella stanza dove è presente un paziente, dovrebbe essere disponibile un catino, acqua ed asciugamani, da usare con frequenza e soprattutto prima di toccare il cibo; in attesa di essere lavati, gli indumenti del malato dovrebbero tenuti essere immersi in acqua per evitare l'essiccamento delle feci ed il loro dissolvimento in polvere. Il materasso e tutto ciò che non può essere lavato dovrebbe essere esposto per un certo tempo ad una temperatura superiore a 212 gradi Fahrenheit [100 gradi centigradi] o superiore; occorre fare attenzione all'acqua da bere o utilizzata per la preparazione dei cibi; essa non deve essere contaminata da scarichi o fogne; l'acqua di provenienza sospetta dovrebbe essere bollita e, se possibile, filtrata; quando il colera è presente nelle vicinanze, tutte le provviste portate in casa dovrebbero essere lavate con acqua e portate a temperatura di 212° F; se compare un caso di colera o di altra malattia trasmissibile fra le persone che vivono nella stessa stanza, il malato dovrebbe essere portato in un altro luogo ed accudito soltanto dalle persone indispensabili; poiché è impossibile effettuare una pulizia delle miniere, o installarvi servizi igienici e mezzi per consumare il pasto in buone condizioni igieniche, il tempo di lavoro dovrebbe essere suddiviso in periodi di 4 ore anziché di 8, in modo che i minatori possano consumare il pasto a casa; la gente non dovrebbe essere tenuta all'oscuro della trasmissibilità del colera nell'intento di evitare il panico o l'abbandono dei malati (...); alloggi adeguati dovrebbero essere messi a disposizione dei senza-casa e dei poveri; le persone, e specialmente le navi, provenienti da località infette dovrebbero essere sottoposti ad un periodo di isolamento; nel caso del colera, non è necessario che questo periodo sia di lunga durata.
Il lavoro di Snow rivisitato nel XXI secolo Una prima osservazione riguarda la fortunata circostanza di studiare aree servite contemporaneamente da reti idriche di due o più compagnie. Ad un esame superficiale questa situazione potrebbe sembrare negativa ai fini dell'ottenimento di risultati facilmente interpretabili: infatti, si potrebbe pensare che sia più facile evidenziare differenze fra interi quartieri serviti da acqua "buona" ed altri serviti da acqua "cattiva". Non va tuttavia dimenticato che Snow disponeva di dati certi riguardo al tipo di acqua utilizzata dalle singole famiglie, e quindi la sovrapposizione degli acquedotti risultò poco influente; anzi, questa situazione apportò l'incommensurabile vantaggio di ridurre o annullare tutti quei fattori detti di "confondimento" (confounders) come ad esempio: la classe sociale, la dimensione degli alloggi, il numero di abitanti, il tipo di alimentazione, il regime igienico ecc.. Tutti questi fattori sicuramente avrebbero giocato un ruolo importante se i raffronti fossero stati compiuti su quartieri diversi. Così,
20
venne azzerato anche il fattore "altezza sul fiume" che alcuni ritenevano associato alla causa del colera. Altri elementi che giocarono a favore di Snow sono da ricercare nei caratteri clinici della malattia: il colera è di facile diagnosi (quindi tutti i casi vennero individuati facilmente), ed induce sintomi così evidenti che è altamente improbabile che si potesse nascondere un caso (il colera era - ed è malattia soggetta a denuncia obbligatoria alle Autorità). Inoltre, l'associazione fra acqua e colera nell'epidemia del 1854 risultò molte forte, nel senso che il rischio di morire per colera nelle abitazioni servite dalla Southwark & Vauxhall era 8.4 volte superiore rispetto alle abitazioni servite dalla Lambeth. La "reversibilità" (vedi punto 5 dei Postulati di Evans), che oggi è riconosciuta come importante criterio per verificare l'esistenza di un rapporto causa-effetto, venne dimostrata da Snow mettendo a raffronto l'epidemia del 1849 con quella del 1854. Nel tempo intercorrente fra le due epidemie, la Lambeth spostò a monte il punto di prelievo dell'acqua, e ciò permise a Snow di verificare il logico principio secondo cui "l'eliminazione di una causa induce una diminuzione dei casi di malattia". Infine, la rimozione della leva della pompa di Broad Street deve essere visto più come un aneddoto storico che come un provvedimento risolutivo. Infatti, quando la leva venne rimossa, l'epidemia si stava già esaurendo spontaneamente (vedi grafico sottostante) perché la popolazione si era allontanata ed erano rimasti pochi individui suscettibili, e ciò aveva portato alla riduzione della contaminazione ambientale da parte del bacillo del colera.
Applicando le odierne conoscenze ed i recenti metodi di studio, lo studio di Snow può - ovviamente - essere criticato sotto diversi aspetti. Tuttavia, l'approccio epidemiologico allo studio del problema adottato da Snow resta ancora, a distanza di oltre 150 anni, di una modernità impressionante, così come stupefacente appare la precisione dei rimedi proposti. [Per la monografia originale di John Snow si veda: "On the mode of communication of cholera". Documento pubblicato da U.C.L.A., School of Public Health, Department of Epidemiology].
21
3. Definizione di epidemiologia e concetti di base 3.1 Epidemiologia: qualche definizione OBIETTIVO: comprendere le difficoltà che si incontrano nel definire l'«epidemiologia» apprendere le cinque parole-chiave che caratterizzano la disciplina
È ora il momento di rispondere alla classica domanda che ci si pone quando si affronta una nuova disciplina dal nome non molto esplicativo:
Dal punto di vista etimologico, epidemiologia è una parola composita (epi-demio-logia) di origine greca, che letteralmente significa «discorso riguardo alla popolazione»
Lo studio delle malattie può avvenire in 4 diversi contesti o dimensioni: (1) la dimensione molecolare, utilizzata dalla biologia molecolare, dalla biochimica e dall'immunologia; (2) la dimensione tissutale (ossia dei tessuti) e organica (ossia degli organi), utilizzata dalla anatomia patologica; (3) la dimensione del singolo individuo, utilizzata dalla medicina clinica; (4) la dimensione della popolazione, che è quella utilizzata dall'epidemiologia.
22
Ovviamente queste dimensioni di studio non devono essere viste come disgiunte e fra loro separate; al contrario, esse sono fortemente complementari: infatti, una comprensione approfondita di una malattia si ha soltanto adottando un approccio integrato delle quattro suddette dimensioni. Dire più esattamente cosa sia l'epidemiologia non è compito facile; prova indiretta ne è l'esistenza di moltissime definizioni. Il fatto è che l'epidemiologia, più che un corpo di conoscenze autonomo e a sé stante, è una metodologia, una tecnica di approccio ai problemi, una «filosofia». L'epidemiologia è un modo «diverso» per studiare la salute e le malattie, ed è scienza trasversale, in quanto, sovrapponendosi a molte altre discipline, le aiuta a trarre conclusioni dai fatti. Ecco alcune definizioni di epidemiologia proposte da illustri scienziati: •
•
•
campo della scienza medica che si interessa delle relazioni tra i fattori che condizionano la frequenza e la distribuzione di una malattia o di uno stato fisiologico in una popolazione umana.(Maxcy) studio della distribuzione e dei determinanti di salute o di stati correlati con la salute in determinate popolazioni, e applicazione di questo studio al controllo dei problemi sanitari. (Last) strategia di studio dei fattori riguardanti: (a) l'eziologia, la prevenzione ed il controllo delle malattie; (b) l'allocazione efficiente delle risorse per promuovere e mantenere uno stato di salute in popolazioni umane. (Detels)
Nelle tre definizioni si fa riferimento esplicito all'uomo o alla medicina umana; tuttavia, come già detto, l'epidemiologia è una metodologia di studio, e perciò non esistono differenze sostanziali tra epidemiologia medica ed epidemiologia veterinaria, se non quelle legate al soggetto di studio: l'uomo in un caso, l'animale nell'altro. Bisogna ammettere che le tre definizioni ora fornite sono complete ed autorevoli, ma certo non del tutto comprensibili per chi si avvicina per la prima volta alla materia. Esiste un'altra definizione più semplice e quindi più adatta a scopo didattico:
23
Il fatto che vengano studiate le malattie non nel singolo individuo ma collettivamente, ossia a livello di popolazione, non deve far pensare che l'epidemiologia si occupi soltanto delle malattie infettive o di quelle contagiose, che tipicamente (ma non sempre!) coinvolgono molti individui di una popolazione (ma quasi mai tutti). Infatti, l'epidemiologia si occupa di TUTTE le malattie ma, diversamente da altre discipline, se ne occupa esclusivamente a livello di popolazione piuttosto che di individuo. Questo concetto verrà ampliato e risulterà più chiaro in seguito. Già fin d'ora è bene, comunque, ricordare che, in epidemiologia, la malattia nel SINGOLO animale non assume alcun significato. Il singolo è importante solo in quanto parte di una collettività. Cinque sono le parole-chiave della definizione: • • • • •
frequenza distribuzione determinanti salute-malattia popolazioni
Esse che verranno considerate più in dettaglio
nella prossima unità.
24
3. Definizione di epidemiologia e concetti di base 3.2 Definizione di epidemiologia: le cinque parole-chiave OBIETTIVO: apprendere, in maniera preliminare e molto sommaria, il significato delle 5 parole-chiave che compaiono nella definizione di «epidemiologia»
Abbiamo già visto nell'Unità precedente che, parlando in generale, l'epidemiologia si occupa delle malattie, e degli eventi e fenomeni correlati alle malattie. Ora prendiamo in considerazione di nuovo la definizione che, per la sua semplicità, è più efficace a scopo didattico, e introduciamo in maniera schematica il significato delle cinque parole-chiave che la compongono. Tieni presente che tutte queste parole chiave verranno chiarite più o meno dettagliatamente sia nelle prossime Unità di questo Capitolo, che in altre di Capitoli successivi.
1. frequenza: con questo termine si indica sia quanto spesso ('QUANTO') la malattia compare, che il 'pattern temporale' ('QUANDO'); 2. distribuzione: indica sia il pattern geografico ('DOVE') di comparsa o presenza della malattia che le caratteristiche della popolazione ospite (per esempio se è più frequente negli animali liberi o in cattività, giovani o vecchi ecc.);
25
3. determinanti: il concetto di determinante è fondamentale in epidemiologia e verrà chiarito in seguito). Per ora, è sufficiente considerare il termine 'determinante' come sinonimo di 'causa', anche se ciò non è del tutto esatto; 4. salute/malattia: forse ti chiederai perché, nella definizione, si parli di «determinanti di salute/malattia» e non, più semplicemente, di «determinanti di malattia». Anche questo verrà chiarito meglio in seguito. Tuttavia, già da ora è bene che tu tenga presente che l'epidemiologia studia, oltre agli animali ammalati, anche gli animali sani; oppure, meglio, l'epidemiologia studia animali ammalati a confronto con animali sani. Inoltre, devi considerare che, oltre ai «determinanti di malattia», esistono anche dei «determinanti di salute» (fattori che contribuiscono a mantenere in salute l'animale o, se ammalato, a farlo guarire). In epidemiologia si studiano sia i determinanti di malattia che i determinanti di salute: perché questo animale si è ammalato? perché quest'altro è rimasto sano? 5. popolazioni: anche questo termine verrà meglio chiarito successivamente. Per ora, basta dire che per «popolazione» si intende un insieme di individui che hanno uno o più caratteri in comune (es. sono presenti nella stessa area geografica, oppure hanno la stessa età, oppure vengono alimentati con la stessa razione ecc.).
26
3. Definizione di epidemiologia e concetti di base 3.3 Differenze tra epidemiologia e clinica OBIETTIVI: apprendere le differenze fondamentali fra epidemiologia e medicina clinica
Le fondamentali differenze fra il diagnostico clinico e l'epidemiologo possono essere individuate nei due seguenti campi: 1. il clinico si occupa della diagnosi e terapia di malattie nel singolo individuo; per l'epidemiologo, invece, il singolo non ha alcun valore (se non in quanto parte di una popolazione); 2. il compito del clinico è quello di curare (e, se possibile, guarire) un animale ammalato; il compito dell'epidemiologo è invece quello di studiare (e prevenire) le malattie in popolazioni confrontando gruppi (o sottopopolazioni) di animali sani con gruppi di animali ammalati.
La seguente metafora, che raffronta la medicina clinica all'epidemiologia, è famosa fra gli "addetti ai lavori" nel campo della salute pubblica dell'uomo ma può essere senz'altro adattata anche al settore veterinario. Immaginiamo che una grande valanga d'acqua, derivante da un malfunzionamento del sistema di dighe di un invaso, stia minacciando la vita di un gran numero di persone. In questa circostanza, il compito del clinico è quello di fornire un salvagente alle persone minacciate o che già sono state travolte dall'acqua. Sull'altro versante, l'epidemiologo cerca di individuare il guasto nel sistema di dighe, per bloccare l'inondazione e prevenirne delle nuove. La metafora può essere completata dal seguente corollario: la riparazione del guasto è compito della "salute pubblica". Quanto finora esposto non deve però far ritenere che l'epidemiologia non sia utile al veterinario clinico. Anzi, esiste un intero ed attualissimo settore di studio che riguarda l'applicazione dei principi epidemiologici proprio alla pratica clinica sui singoli animali. Si tratta della cosiddetta
27
EBM (Evidence Based Medicine). In italiano la EBM viene detta, con una traduzione letterale impropria, «medicina basata sull'evidenza», dove per «evidenza» deve intendersi «prova dei fatti».
Nello schema che segue vi sono alcune importanti domande che aiutano a capire perché anche ad un veterinario clinico, ad esempio che si occupa di animali da compagnia, l'EBM e l'epidemiologia possono risultare utili.
NELLA PROSSIMA UNITÀ: si parla delle «cause» di malattia viste con l'ottica dell'epidemiologia; si parla anche del fatto che raramente le malattie possono essere ascritte ad un'unica causa e di come il concetto generale di «causa» sia inquadrabile in una visione probabilistica.
28
3. Definizione di epidemiologia e concetti di base 3.4 Il concetto di «determinante» di malattia OBIETTIVO: assimilare il concetto di 'determinante' di malattia
Durante il corso di studi potresti aver assunto una visione delle malattie secondo cui:
Questa visione tende a ridurre il fenomeno-malattia ad un evento schematico e semplicistico che, tuttavia, soltanto raramente trova corrispondenza nella realtà. In questi rari casi, nei quali è in gioco una sola causa, si parla di "eziologia monofattoriale" o di "malattie monofattoriali". Queste malattie sono generate da una causa talmente forte da essere capace da sola, di provocare tutti gli eventi che conducono alla comparsa della malattia stessa. Questa causa forte corrisponde ad un "determinante sufficiente" la cui presenza provoca sempre la malattia. ESEMPIO 1. Un trauma che produce una ferita. ESEMPIO 2. La resezione di un grosso vaso che provoca un'emorragia. ESEMPIO 3. L'ingestione di un'unica ed elevata dose di una sostanza velenosa. In effetti, le cose stanno diversamente:
Quasi sempre, infatti, la malattia è la conseguenza di una interazione (idealizzata, nel grafico in basso, dalle frecce verdi e rosse) estremamente complessa di fattori diversi (esterni o interni all'organismo), che agiscono contemporaneamente o in successione sull'organismo, in sinergismo o in antagonismo gli uni con gli altri. Queste malattie sono dette "multifattoriali" o "ad eziologia multifattoriale". Anche le malattie infettive, che classicamente si ritengono dovute ad una sola causa (un batterio o un virus), sono quasi sempre soggette al principio ora enunciato. Puoi riflettere sulla semplice osservazione che non tutti gli individui di una popolazione esposta ad un virus vanno incontro a malattia: infatti, quella popolazione sarà presumibilmente composta, oltre da individui pienamente recettivi (che quindi ammaleranno), anche da individui che non ammaleranno perché - ad
29
esempio - immuni, oppure scarsamente recettivi su base genetica, oppure di età non compatibile con l'evoluzione dell'infezione ecc. ESEMPIO 1. Le colibacillosi del pollo sono indotte da una associazione tra un batterio (Escherichia coli) ed alcuni fattori ambientali (sovraffollamento, cattiva qualità dell'aria ecc.). Si usa il plurale ("le" colibacillosi) e non il singolare ("la" colibacillosi) in quanto si tratta di un complesso di malattie diverse per sintomatologia, localizzazione nell'ospite ecc. ESEMPIO 2. L'adenomatosi polmonare della pecora è una malattia contagiosa sostenuta da un virus e caratterizzata dalla comparsa di lesioni simil-tumorali al polmone. Sono recettive le pecore di ogni razza. Tuttavia in Islanda, dove la malattia è stata ampiamente studiata ed eradicata nel 1952, erano colpite molto più frequentemente le pecore di razza gottorp rispetto ad altre razze. Tutti i fattori che sono in grado di influenzare la comparsa o l'andamento di una malattia, non potendo essere ritenuti «causa» di malattia in senso stretto, vengono detti DETERMINANTI. In altre parole, in epidemiologia...
Nello schema sottostante è delineato un esempio di determinanti di una malattia infettiva. Soprattutto nel caso delle malattie sostenute da microrganismi, ma anche in altre malattie, i determinanti possono essere classificati in 3 categorie, a seconda che si riferiscano all' ospite, all' agente o all'ambiente. Le frecce, come già detto, simboleggiano la complessità delle interazioni tra i diversi settori. Per ognuno di tali settori sono riportati nel grafico soltanto alcuni fra gli innumerevoli potenziali attributi.
30
Ti prego di notare la presenza, nello schema, di un determinante "necessario " o "indispensabile" (l'agente) che deve essere presente perché la malattia si verifichi; esso corrisponde alla «causa» tradizionalmente intesa; questo vale per alcune malattie - tipicamente per quelle infettive - mentre per altre (es. tumori) non esiste alcun determinante indispensabile. Attento a non confondere "necessario" con "sufficiente". Come già detto, un determinante sufficiente è quello che produce inevitabilmente - anche da solo - un particolare effetto. Anche nel caso delle malattie non-infettive i fattori causali sono riconducibili alla stessa classica triade epidemiologica ospite-agente-ambiente già vista, tenendo presente che, in questo caso, l'agente non sarà più rappresentato da un microrganismo ma da altri fattori (chimici o fisici).
È da sottolineare che al concetto di determinante si associa una concezione di "causa" diversa da quella tradizionalmente intesa. Nell'accezione comune, per causa si intende un qualsiasi fattore, elemento, circostanza che dà origine ad un effetto (malattia) o ad una sequenza di eventi che sfociano nell'effetto. Con il "determinante" si introduce invece il concetto di causa come "fattore capace di incrementare la probabilità" della malattia.
Al concetto di determinante è strettamente connesso quello di «rischio». Infatti, in epidemiologia il rischio rappresenta la probabilità, per un individuo o una popolazione, che un evento (in genere la malattia) si verifichi in un dato momento o in un dato periodo di tempo.
31
32
3. Definizione di epidemiologia e concetti di base 3.5 Il concetto di 'determinante' applicato alla vita quotidiana OBIETTIVO: verificare come il concetto di 'determinante' possa essere applicato ad eventi della vita quotidiana
È già stato accennato alle differenze fra «causa» (tradizionalmente intesa) e determinanti di malattia. Ti ricordo che per determinante di malattia si intende "un qualsiasi fattore che, quando alterato, produce un cambiamento nella frequenza o nei caratteri della malattia". Questa unità può essere considerata un intermezzo divertente (ed anche una pausa di riflessione) sul concetto di determinante. In effetti, questo concetto è di tale complessità da trovare radici e trattazione in molte speculazioni filosofiche. Si veda, ad esempio, l'enunciazione dei «Canoni» di John Stuart Mill. Oltre che all'evento-malattia ed al piano puramente speculativo, il concetto di determinante è applicabile ed applicato ad una vastissima gamma di situazioni (anche della vita quotidiana) e risulta fondamentale nell'approccio allo studio dei rapporti causa/effetto. Nella figura sottostante, un problema purtroppo frequente nelle nostre città (il furto di automobili) viene illustrato attraverso l'evidenziazione di alcuni possibili determinanti. Si noti l'analogia con i determinanti di malattia, e si noti come, anche in questo caso, sia probabile l'evenienza di sinergismo o antagonismo fra determinanti.
33
È molto difficile rispondere alla domanda «Perché hanno rubato proprio la mia automobile?». Anzi, una risposta semplice ed univoca non esiste. Ad esempio, le probabilità che venga rubata una vecchia automobile di marca poco diffusa e di grossa cilindrata sono molto basse, diminuiscono ulteriormente se la vettura è parcheggiata all'interno di un garage, e si abbassano ancor di più se il garage si trova nelle vicinanze di una stazione dei Carabinieri. Se assimiliamo il furto alla malattia (ed in effetti non è forse il furto uno dei tanti mali che affliggono la nostra società?), allora i fattori elencati costituiscono determinanti di salute. Con un esempio molto più consono alla medicina veterinaria, potremmo dire della "Malattia di Marek" (una malattia che colpisce esclusivamente il pollo): - che sono note linee genetiche resistenti; - che si manifesta solo in animali di età superiore a 3-4 settimane; - che è più rara negli allevamenti familiari che in quelli intensivi; - che è più rara nei polli vaccinati che in quelli non vaccinati. Come vedi, abbiamo elencato alcuni determinanti di salute/malattia: genetica, età tipo di allevamento, stato immunitario. Prova ad immaginare altri determinanti di furto d'auto, diversi da quelli elencati; prova anche a trovare altre situazioni comuni cui è applicabile il concetto di «determinante».
34
3. Definizione di epidemiologia e concetti di base 3.6 I determinanti primari OBIETTIVO: affinare il concetto di 'determinante', ed individuare le classi di determinanti primari
Una classificazione completa e soddisfacente dei determinanti di tutte le malattie è impossibile. È già stato presentato un tipo di classificazione, valido essenzialmente nel caso delle malattie infettive o infestive (v. Unità «Il concetto di determinante di malattia»). Esso prevede l'inquadramento dei determinanti in una delle 3 categorie: agente, ospite, ambiente. In questa Unità, ed in quella che segue, viene proposto un altro schema di classificazione (v. figura sottostante), questa volta basato sull'importanza del determinante nella genesi della malattia. I determinanti importanti vengono definiti «primari», mentre quelli meno importanti sono «secondari». Come verrà ripetuto anche nella prossima Unità, ti prego di notare che una classificazione di questo tipo è utile soprattutto a scopo didattico, per aiutarti a costruire un ordine mentale nella prima fase di approccio allo studio delle cause delle malattie. In effetti, nella realtà, spesso è difficile stabilire se un certo determinante abbia avuto un ruolo primario o secondario, ed anzi, nella rete delle cause, lo stesso determinante può assumemere di volta in volta un ruolo primario o secondario, in dipendenza di una varietà di circostanze.
35
I determinanti primari sono rappresentati dai fattori la cui variazione esercita un effetto maggiore nella genesi della malattia. In altre parole, essi sono di importanza fondamentale per la comparsa della malattia. Spesso (ma non sempre), i determinanti primari sono fattori indispensabili per la comparsa della malattia. Nello schema viene proposta una classificazione dei determinanti primari in 'intrinseci' (o endogeni, ossia interni all'ospite) ed estrinseci (o esogeni); questi ultimi possono essere animati o inanimati. ESEMPIO. La pseudopeste del pollo è una malattia che assume generalmente decorso acuto e che riconosce come determinante primario estrinseco un virus appartenente alla famiglia Paramyxoviridae.
36
3. Definizione di epidemiologia e concetti di base 3.7 I determinanti secondari OBIETTIVO: affinare il concetto di 'determinante', individuando i determinanti secondari
I determinanti secondari sono rappresentati dai fattori la cui variazione esercita un effetto minore nella genesi della malattia. In altre parole, essi non sono indispensabili né di importanza fondamentale per la comparsa della malattia. In molti casi essi corrispondono ai cosiddetti fattori "predisponenti" o "favorenti".
ESEMPIO. La polmonite enzootica del suino è una malattia cronica, diffusa in tutto il mondo, che provoca gravi danni economici negli allevamenti intensivi. Il determinante primario è un batterio: Mycoplasma hyopneumoniae. Tuttavia, la malattia si manifesta più spesso, e con caratteri di maggiore gravità, se sono presenti alcuni fattori (determinanti secondari), fra i quali: sovraffollamento, scarsa ventilazione, sbalzi di temperatura, stress diversi (svezzamento,
37
formazione dei gruppi ecc.). Questa stessa situazione (malattie da virus o da batteri aggravate da determinanti secondari) si presenta con notevole frequenza in numerose malattie respiratorie o enteriche degli animali in allevamento intensivo (es. colibacillosi del pollo; colibacillosi del vitello; colibacillosi del suinetto, gastroenterite trasmissibile del suinetto ecc.) Come nel caso dei determinanti primari, nello schema viene proposto un esempio di determinanti secondari, suddivisi in intrinseci (o endogeni, ossia interni all'ospite) ed estrinseci (o esogeni). Vale la pena di sottolineare che la classificazione proposta, in base alla quale i determinanti vengono suddivisi in "primari" e "secondari", è utile soprattutto a scopo didattico, ma può non risultare altrettanto valida nella pratica. La suddivisione, infatti, non deve essere ritenuta fissa e nitida: in alcune situazioni, un determinante classificato come "secondario" può viceversa agire come determinante "primario". ESEMPIO. La costituzione genetica rappresenta certamente un determinante secondario riguardo alla malattia di Marek (una malattia tumorale del pollo sostenuta da un herpesvirus). Infatti, la costituzione genetica può ostacolare la comparsa di malattia, essendo note "linee genetiche" di polli relativamente resistenti, che si ammalano meno frequentemente o nelle quali la malattia è meno grave. Per altre malattie (es. emofilia dell'uomo) la costituzione genetica rappresenta invece un determinante primario.
38
3. Definizione di epidemiologia e concetti di base 3.8 Salute e malattia OBIETTIVI: riflettere sul concetto di «salute» degli animali; apprendere che il confine fra salute e malattia non è sempre ben definito; imparare che negli allevamenti le malattie gravi o mortali possono risultare meno dannose delle malattie lievi.
Proseguiamo nell'esame dettagliato delle parole chiave della definizione di epidemiologia che abbiamo adottato (epidemiologia = studio della frequenza, distribuzione e determinanti di salute/malattia in popolazioni), ed in particolare consideriamo il binomio «salute/malattia». Forse potresti pensare che l'utilizzo delle due parole «salute» e «malattia» sia una inutile ridondanza, e che quindi sarebbe stato sufficiente parlare più semplicemente di «determinanti di malattia». Tuttavia, devi ricordare che, negli studi epidemiologici, sono sempre compresi sia animali «ammalati» che «sani»; d'altra parte, un animale può essere considerato ammalato solo se confrontato ad uno sano. Inoltre, lo studio del «perché» alcuni animali rimangono sani può essere utile a comprendere i motivi per cui altri animali si ammalano. Questo approccio è, in un certo senso, opposto a quello della medicina classica, che sostanzialmente studia soprattutto il «perché» l'animale si ammala. In altre parole, l'epidemiologia studia le cause di salute e le cause di malattia, mentre altre discipline si limitano a studiare le sole cause di malattia. Ecco quindi giustificato l'impiego del doppio termine salute/malattia. I termini "salute" e "malattia" hanno un significato piuttosto vago e impreciso; in effetti, è difficile stabilire un confine netto fra «salute» e «malattia». Secondo l'Organizzazione Mondiale della Sanità, per salute si intende (nell'uomo) «uno stato di completo benessere fisico, mentale e sociale, e non la semplice assenza di malattia o di infermità»; ovviamente è molto difficile stabilire quando un individuo si trova in «completo benessere». Questo vale per gli essere umani e, forse ancor più, per gli animali. D'altra parte, piccole alterazioni di questo stato di «benessere» non possono essere certo sufficienti a proclamare l'individuo «ammalato». L'accordo sullo stato di "salute" e "malattia" può dipendere anche da fattori ambientali o sociali. Ad esempio, oggi una persona che ha febbre a 38°C è senz'altro ritenuta ammalata. Per i medici dei lager nazisti, invece, un detenuto era dichiarato "ammalato" soltanto quando la temperatura superava i 39°C. Sempre allo scopo di sottolineare quanto possano essere imprecisi i confini tra salute e malattia, consideriamo la storia naturale di una malattia. La storia naturale comprende l'evoluzione naturale di una malattia nel tempo, ossia come essa si comporta, in assenza di qualsiasi intervento, sia nelle popolazioni che nei singoli animali. Ogni malattia prevede il verificarsi di diversi momenti che segnano il passaggio dallo stato di salute
39
allo stato di malattia. Questi momenti sono riassunti nello schema che segue, in cui l'evento "diagnosi" è contrassegnato da una linea tratteggiata, ad indicare che esso è estraneo, a rigore, alla storia naturale della malattia.
Un animale è «ammalato», in senso proprio, quando manifesta disfunzioni rilevabili attraverso i sensi dell'osservatore dette sintomi o, meglio, segni clinici; in questo caso si parla di malattia clinica. D'altra parte, un animale può essere affetto anche da malattie non evidenziabili attraverso i sensi del medico veterinario; in questo caso si tratta di malattia subclinica, cioè di «anormalità anatomica e/o funzionale evidenziabile soltanto attraverso test diagnostici». ESEMPIO. Gli allevatori di piccioni viaggiatori consultano il veterinario perché i propri animali hanno un basso rendimento nelle competizioni, pur apparendo in eccellente salute e perfettamente sani per quanto riguarda l'aspetto, la conformazione e le funzioni organiche.
Negli animali «da reddito», l'accertamento dello stato di salute è più semplice: in questa categoria di animali, la produttività è considerata un buon indicatore dello stato di salute, in base al ragionrvole principio che «un animale sano produce molto». Vediamo ora qualche aspetto legato alla presenza di una malattia clinica oppure subclinica. In genere, una malattia in forma subclinica è meno grave, per il singolo individuo, rispetto alla stessa malattia in forma conclamata (malattia clinica). Tuttavia, a livello di popolazione, una malattia subclinica può essere più dannosa di una malattia clinica. Infatti, la malattia subclinica quasi sempre colpisce un maggior numero di individui. Ciò è abbastanza logico, se si pensa che essa non viene
40
rilevata dall'allevatore; di conseguenza, non viene richiesto l'intervento del veterinario, né si mettono in atto metodi per la sua prevenzione. L'elevata frequenza di individui con malattia subclinica si osserva soprattutto per le malattie contagiose, in gruppi di animali molto numerosi ed in allevamento intensivo. Una buona regola generale (che, ovviamente, ammette eccezioni), è la seguente: indipendentemente dalla/e causa/e primaria/e della malattia, «il numero di animali con malattia subclinica è molto più elevato di quelli con malattia clinica». Si veda al proposito la figura a lato «L'iceberg delle malattie». Un esempio del "fenomeno dell'iceberg" è rappresentato dalla frequenza di morsicature dell'uomo da parte di cani. Negli Stati Uniti è stato recentemente calcolato che in 1 anno si siano verificati 20 casi mortali, 13.360 casi che hanno richiesto l'ospedalizzazione, 334.000 una visita al pronto soccorso, 451.000 una visita di altro genere e ben 3.730.000 casi di morsicatura che non sono stati sottoposti a trattamento medico di nessun tipo. Nell'ottica dei dati ufficiali di salute pubblica, le ultime due categorie, che non comportano una denuncia ufficiale, rappresentano la parte sommersa dell'iceberg. Dati da: Weiss H.H. et al. (1998) Incidence of dog bite injuries treated in emergency departments. JAMA, 279, 51-53
Il fenomeno «iceberg» è estremamente importante in epidemiologia, perché lo studio dei soli individui con malattia conclamata (la parte emersa dell'iceberg) non è sufficiente per evidenziare un quadro esauriente dell'andamento di una malattia, della sua gravità e della sua importanza. Ad esempio, nelle popolazioni di animali domestici, il fatto che una malattia sia presente o meno in un gruppo di animali può essere meno importante rispetto alla frequenza della malattia stessa. Infatti, come già detto, una elevata frequenza di malattia, anche subclinica, esercita un impatto sulla produttività dell'allevamento. ESEMPIO. La mastite subclinica della bovina da latte ad alta produzione è una malattia virtualmente presente in tutti gli allevamenti intensivi ed è praticamente impossibile da eliminare; tuttavia, è importante mantenere bassa la frequenza di animali colpiti affinché l'allevamento risulti economicamente conveniente. Bisogna infine considerare che esistono molti altri fattori (management, tecniche di allevamento, alimentazione ecc.) che possono esercitare un grande impatto sulle produzioni animali, anche se, in sé, non sono capaci di provocare malattia. Come già visto, tutti questi fattori sono «determinanti» di salute o malattia. Nello schema che segue sono riassunti i principali concetti esposti in questa Unità.
41
Nella figura a lato è riassunta schematicamen te l'evoluzione che nel tempo ha subíto il concetto di "salute". In passato, la linea di demarcazione tra lo stato di salute e quello di non-salute era collocata in corrispondenza della comparsa di chiari segni clinici di una patologia. Attualmente la linea di demarcazione fra salute e malattia viene collocata molto più precocemente. Anche una semplice condizione di esposizione a fattori di rischio (cioè fattori che potenzialmente inducono malattie), rappresenta già, di per sé, uno stato di non-salute. Ad esempio, nelle nostre città l'innalzamento delle polveri sottili oltre una soglia prefissata configura una condizione di rischio e fa scattare provvedimenti di restrizione del traffico. L'approccio ora esposto si integra alla perfezione con il concetto di "prevenzione".
42
3. Definizione di epidemiologia e concetti di base 3.9 Il concetto di "popolazione" OBIETTIVO: acquisire un concetto esteso del termine 'popolazione', così come utilizzato in epidemiologia
Nel linguaggio comune, per «popolazione» si intende generalmente indicare l'insieme delle persone (o degli animali) abitanti un luogo. Nel linguaggio epidemiologico, il termine viene usato in un significato diverso, intendendo un insieme di unità (spesso rappresentate da animali della stessa specie) che hanno uno o più attributi in comune. Solitamente gli attributi vengono scelti con criteri arbitrari, ma utili ai fini dello studio che si intende eseguire. È importante definire con precisione i criteri da adottare per definire la popolazione da studiare; ciò si ottiene adottando regole precise per includere o no un elemento nella popolazione. In genere, queste regole si fissano rispondendo per lo meno alle tre classiche domande: chi o che cosa?, dove? quando? (What-Where-When).
La dimensione (o numerosità) della popolazione in studio non è un fattore critico. Ad esempio, si potrebbe studiare una popolazione composta da un numero estremamente grande di unità (es. le uova che vengono prodotte in Europa nel corso di un anno), oppure, viceversa, una popolazione molto piccola (es. i felini presenti in uno zoo). Si possono studiare anche popolazioni «indeterminate», cioè composte da elementi non esistenti fisicamente. Ad esempio, nello studio sull'efficacia di un vaccino per il cane, potrebbe interessare la popolazione indeterminata di tutti i cani che verranno vaccinati in futuro con quel vaccino. Come già detto, molto spesso le unità che compongono la popolazione in studio sono rappresentate da animali. In altri casi l'attenzione può essere rivolta, piuttosto che ad un insieme di animali, ad un insieme di altre "unità di interesse", come ad esempio cellule, batteri, ecc. Quindi, si potrà studiare una "popolazione di cellule" oppure una "popolazione di batteri" od ancora una "popolazione di allevamenti" e così via. Non è indispensabile che una popolazione sia uniforme (cioè composta da unità dello stesso tipo). ESEMPIO. L'afta epizootica è una malattia virale che colpisce i mammiferi ungulati domestici, in particolare bovini, ovini, caprini e suini, ma può colpire anche gli erbivori selvatici, quali bisonti,
43
cervi, antilopi, renne, giraffe ecc. In uno studio sull'afta epizootica nell'Africa sub-sahariana la popolazione di interesse potrebbe essere rappresentata da un insieme di animali appartenenti ad alcune delle suddette specie. Ecco alcuni esempi di "popolazione": - le bovine in lattazione presenti in un allevamento il giorno 1 dicembre 2011; - i vitelli di età <5 mesi presenti negli allevamenti della provincia di Parma al 10 novembre 2010; - i suini macellati in provincia di Parma nel corso del 2006; - i piccioni presenti nel centro storico di una città in un dato periodo; - le api di un alveare al momento in cui si effettua un trattamento antiparassitario; - le forme di Parmigiano-Reggiano prodotte dai caseifici della provincia di Parma nel corso del 2011; - gli allevamenti di bovine da carne attivi nella regione Veneto nel semestre luglio-dicembre 2009.
In molti casi non è possibile esaminare tutta la popolazione di interesse, ma ci si deve accontentare dell'esame di un campione. Questo argomento verrà trattato estensivamente nel Cap. 9 (Campionamento). Però è utile anticipare fin d'ora che, negli studi epidemiologici eseguiti su un campione estratto da una popolazione, spesso si desidera generalizzare i risultati ottenuti. ESEMPIO. Hai sottoposto ad un trattamento con un antibiotico 10 cani affetti da una certa malattia, e ne sono guariti 9. Hai ottenuto un buon risultato sui 10 cani che rappresentano la tua popolazione in studio; certamente sarai portato a generalizzare il risultato, ed a ritenere che il trattamento con quell'antibiotico indurrà la guarigione del 90% dei cani in altre popolazioni; ad esempio, sulla popolazione indeterminata costituita tutti i cani che, in futuro, verranno colpiti da quella malattia e verranno trattati con quell'antibiotico. Insomma, in molti casi non ci interessano i risultati ottenuti proprio sul campione esaminato: invece, i risultati interessano perché sono (o potrebbero essere essere) generalizzabili a popolazioni più ampie. Questo processo logico di generalizzazione viene detto inferenza. Il significato generale del termine inferenza è "processo logico per il quale, data una o più premesse, è possibile trarre una conclusione". In statistica ed in epidemiologia il termine inferenza
44
assume un significato un po' diverso, ossia quello di generalizzazione di una conclusione cui si è pervenuti attraverso lo studio di una popolazione limitata. L'inferenza fa parte di una branca della Statistica che si chiama appunto "statistica inferenziale". Non farti intimorire dalla terminologia complicata... in effetti tutti noi facciamo più o meno inconsciamente processi di inferenza, quando "universalizziamo" il contenuto di un certo numero (di solito limitato) di osservazioni. Ad esempio, se il cielo è nuvoloso usciamo con l'ombrello: infatti abbiamo imparato (abbiamo fatto esperienza), dalle giornate nuvolose che si sono succedute nella nostra vita, un principio generale: al cielo nuvoloso segue spesso una giornata di pioggia. In questo caso, inferenza vuol dire anche previsione. In fondo, ciò che chiamiamo esperienza è largamente basato sull'inferenza, che non è altro che un procedimento di generalizzazione dei risultati ottenuti esaminando un campione.
Se vuoi saperne di più su questo argomento, ti rimando al Capitolo del
campionamento.
45
3. Definizione di epidemiologia e concetti di base 3.10 Livelli organizzativi di popolazioni OBIETTIVO: estendere il concetto di 'popolazione', considerando l'esistenza di diversi livelli organizzativi
Nel linguaggio comune, quando si parla di popolazioni si intende generalmente l'insieme delle persone che abitano un luogo (es. popolazione di una città) oppure l'insieme di animali o cose che caratterizzano un luogo (es. la popolazione marina ecc.). In un significato molto restrittivo, con il termine «popolazione» si indica soltanto la popolazione umana. In epidemiologia, invece, il termine «popolazione» ha un significato molto più ampio: popolazione è qualsiasi aggregato di un numero finito (o infinito) di unità che hanno una o più caratteristiche comuni. Nota che si parla di unità e non di animali. Infatti, se è vero che spesso gli studi epidemiologici sono «edifici» fatti con mattoni costituiti da animali, ma è anche vero che, in altri casi, i «mattoni» sono diversi e della più svariata natura: anziché studiare animali, si possono studiare allevamenti, campioni di latte, uova, batteri, canili, titoli anticorpali, biopsie da organi, ecc. Perciò, anche se può sembrare strano, in epidemiologia sarebbe del tutto lecito parlare di "popolazioni" di batteri, o di "popolazioni" di allevamenti ecc. In effetti, il termine popolazione può indicare un aggregato comprendente diversi livelli di organizzazione; ad esempio, un insieme (ossia una popolazione) di cellule con caratteri simili costituisce un tessuto; un insieme di tessuti costituisce un organo; un insieme di organi costituisce un apparato; un insieme di apparati costituisce un individuo; un insieme di individui costituisce un gruppo (mandria, gregge, sciame, branco, banco ecc.). Un insieme di gruppi di quest'ultimo tipo, o un insieme di allevamenti, rappresentano anch'essi «popolazioni», per esempio a livello di provincia, regione ecc.
46
Ogni studio epidemiologico può essere svolto su elementi a diversa tipologia e ad un qualsiasi livello organizzativo; l'elemento costitutivo del livello organizzativo prescelto viene detto «unità di analisi» o «unità di interesse» di quello studio.
In medicina umana o nel caso degli animali da compagnia l'unità di analisi è più spesso l'individuo; nel caso degli animali da reddito, e soprattutto delle piccole specie allevate in gruppi numerosi (polli, pesci ecc.), l'unità di analisi è rappresentata invece, in molti casi, dal gruppo stesso o dall'intero allevamento. In tempi recenti, è diventato normale considerare dal punto di vista epidemiologico anche le popolazioni di microrganismi (batteri, miceti ecc.). ESEMPIO 1. Vuoi conoscere la frequenza della malattia «vaiolo ovino». L'obiettivo dello studio è quello di individuare la prevalenza della malattia nelle pecore allevate in una determinata regione. La popolazione di interesse è: tutte le pecore della regione; l'unità di interesse è il singolo animale (pecora). ESEMPIO 2. Stai predisponendo un'inchiesta riguardo all'influenza aviare. L'obiettivo è quello di individuare la frequenza di allevamenti con soggetti siero-positivi. La popolazione di interesse è: tutti gli allevamenti di pollame della regione; l'unità di interesse è il singolo allevamento. ESEMPIO 3. Stai studiando i rapporti fra mastite bovina e produzione di formaggio (caseificazione), e vuoi individuare l'esistenza di una eventuale associazione fra contenuto in leucociti nel latte è e qualità della caseificazione. La popolazione di interesse è: tutti i caseifici della regione; l'unità di interesse è il singolo caseificio. ESEMPIO 4. Stai studiando di nuovo i rapporti fra mastite bovina e produzione di formaggio
47
(caseificazione). Anche in questo caso, vuoi individuare l'esistenza di una associazione fra contenuto in leucociti nel latte è e qualità della caseificazione. La popolazione di interesse è: tutte le partite di latte conferite ad un certo caseificio in un dato periodo di tempo; l'unità di interesse è la singola partita di latte. ESEMPIO 5. Lavori in una industria farmaceutica in cui è stato sintetizzato un nuovo antibiotico. Hai il compito di saggiarne l'attività. L'obiettivo è: valutare l'efficacia in vitro dell'antibiotico nei confronti di una data specie batterica. La popolazione di interesse è: tutti i ceppi di quella specie batterica isolati da animali ammalati in un dato periodo di tempo; l'unità di interesse è il singolo ceppo batterico.
48
4. Compiti e scopi dell'epidemiologia 4.1 Compiti specifici e scopi pratici della epidemiologia OBIETTIVO: apprendere i compiti e gli scopi dell'epidemiologia e rendersi conto che l'epidemiologia è anche disciplina diagnostico-pratica
In una precedente unità sono state fornite alcune definizioni che identificano il campo d'azione dell'epidemiologia. Ora è venuto il momento di precisare quali sono i principali scopi che possono essere raggiunti attraverso i metodi epidemiologici. Lo scopo ultimo dell'epidemiologia veterinaria è quello di «acquisire dati su cui basare decisioni razionali per la prevenzione ed il controllo delle malattie in popolazioni animali; a ciò segue l'ottimizzazione dello stato di salute e quindi della produttività». Altre discipline mediche hanno uno scopo pressoché simile, anche se si occupano prevalentemente di singoli individui e non di popolazioni. Negli studi epidemiologici e nell'attività degli epidemiologi possono tuttavia essere individuati elementi peculiari, quali: 1. raccogliere informazioni che descrivono la frequenza e la distribuzione dello stato di salute e di malattia in popolazioni animali. Queste informazioni (o DATI) sono indispensabili per conoscere se una malattia è presente o meno in un territorio (fra l'altro, questa conoscenza è spesso necessaria ai fini commerciali per esportazioni, importazioni ecc.). I dati in oggetto sono anche indispensabili per conoscere l'importanza (economica, sanitaria, o nei riflessi della salute dell'uomo ecc.) delle diverse malattie in territori o popolazioni, utile per stabilire una priorità nella pianificazione degli interventi; 2. identificare i fattori che influenzano la comparsa e l'andamento delle malattie nella popolazioni. Questi dati servono soprattutto per l'impostazione di azioni di prevenzione, eradicazione, controllo e di profilassi in genere. 3. quantificare le interrelazioni tra salute e malattia, cioè accertare e studiare i determinanti di salute e di malattia.
49
Gli obiettivi ora descritti si traducono in pratica nelle seguenti attività pratiche: 1. determinare l'origine di una malattia la cui causa è conosciuta (perché si è verificato un focolaio? da dove ha avuto origine? perché il numero di casi di una determinata malattia è aumentato? perché la malattia si è estesa a nuovi territori? perch´ la malattia ora colpisce nuove specie?); 2. studiare e controllare una malattia la cui causa è inizialmente sconosciuta; (quali sono le circostanze che favoriscono la malattia? perché alcuni si ammalano ed altri no?) 3. acquisire informazioni sulla ecologia e sulla storia naturale di una malattia (qual è l'andamento naturale della malattia nella popolazione, cioè in assenza di qualsiasi intervento?), soprattutto allo scopo di ridurro o eliminare i determinanti di malattia, e di promuovere i determinanti di salute; 4. pianificare e monitorare i programmi di controllo delle malattie (qual è la strategia migliore per controllare una malattia? quali sono le malattie da controllare prioritariamente? i piani di controllo già in corso sono efficaci?) 5. valutare l'impatto economico delle malattie ed analizzare il rapporto costi/benefici dei piani di controllo (quanti danni produce una malattia? qual è il risparmio ottenuto con un piano di controllo e, più in generale, le risorse spese per il controllo sono spese bene?).
50
51
4. Compiti e scopi dell'epidemiologia 4.2 Prevenzione - Controllo - Eradicazione OBIETTIVO: apprendere il significato di alcuni termini importanti in epidemiologia e nella pratica veterinaria, soprattutto nel settore delle malattie infettive
É già stato accennato ad uno dei compiti basilari della epidemiologia, e cioè quello di identificare i fattori che influenzano la comparsa e l'andamento nella popolazione. Si è detto anche che la raccolta e la conoscenza di queste informazioni può essere utile, soprattutto nel caso delle malattie infettive, per l'impostazione di azioni di profilassi, di prevenzione, di controllo, e di eradicazione. Questi quattro termini non sono sinonimi, ma ciascuno di essi assume un suo significato, che viene brevemente illustrato qui di seguito.
Profilassi È il complesso delle misure utili a prevenire la comparsa e la diffusione delle malattie, soprattutto trasmissibili. Essa può essere applicata al singolo individuo oppure su intere popolazioni e comprende misure di tipo "medico" (es. vaccini o farmaci) o "sanitario" (es. quarantena, disinfezione). L'azione di profilassi può essere applicata anche a condizioni diverse dalle malattie trasmissibili. Ad esempio, una buona razione alimentare costituisce una forma di profilassi nei confronti di malattie metaboliche, nutrizionali o da carenza. Il termine «quarantena» deriva dai 40 giorni di isolamento delle navi prima dell'accesso al porto, richiesti come misura contro la peste nera nel XIV secolo. Per tutti i cani ed altri animali in ingresso nel Regno Unito era richiesto un periodo di sei mesi di quarantena; tale provvedimento era giustificato dal rischio di importazione della rabbia. Questa norma è stata abolita alcuni anni or sono, e sostituita dal sistema del Pet Passport: gli animali possono evitare la quarantena se esiste la documentazione che essi sono appropriatamente vaccinati. I primi astronauti di ritorno dalla Luna furono messi in quarantena al momento del loro ritorno in un laboratorio appositamente costruito.
52
Prevenzione Per prevenzione si intende l'insieme di misure di profilassi (non solo mediche ma anche di tipo sociale o economico) rivolte ad evitare l'insorgenza di una malattia in una popolazione esente da quella malattia. Secondo alcuni, il concetto di prevenzione può essere ampliato fino a comprendere le misure che limitano la progressione e la gravità della malattia, adottate allo scopo finale di eliminarla.
In questa ottica, il principale ente sanitario internazionale, cioè la "Organizzazione Mondiale della Sanità" (World Health Organization, WHO), ha definito 3 livelli di prevenzione della malattia dell'uomo: • • •
prevenzione primaria (volta a ridurre la incidenza (comparsa di nuovi casi) della malattia) prevenzione secondaria (volta a ridurre la prevalenza (frequenza di casi esistenti) della malattia) prevenzione terziaria (volta a ridurre la gravità e le complicazione di malattie inguaribili).
· La prevenzione primaria si attua rimuovendo i determinanti (fattori di rischio) delle malattie. Ad esempio, la vaccinazione, l'utilizzo di acqua di bevanda di buona qualità ecc. Nell'uomo, l'impiego delle cinture di sicurezza in automobile, l'uso di cuffie in ambienti di lavoro ad elevato livello sonoro, l'utilizzo di test per individuare i donatori di sangue positivi per HIV o epatite B sono tutti esempi di prevenzione primaria.
53
· La prevenzione secondaria ha lo scopo di identificare l'ammalato precocemente, cioè quando la malattia (o la sua progressione) può essere arrestata. Esempi di prevenzione secondaria nell'uomo: pap-test, mammografia per l'individuazione di tumori mammari, ricerca del sangue occulto nelle feci per l'individuazione del carcinoma colon-rettale. · La prevenzione terziaria sconfina spesso nella terapia: ad esempio, una appropriata dieta per un diabetico. La trasposizione di queste 3 definizioni al settore veterinario può essere difficoltosa e non è universalmente accettata, soprattutto riguardo alla prevenzione terziaria. Controllo Il controllo di una malattia si attua riducendo la sua frequenza nella popolazione fino ad un livello tale da rendere la malattia non classificabile fra i problemi sanitari o economici importanti. Il controllo della malattia è compatibile con l'esistenza di un limitato numero di casi o focolai. Il livello di frequenza della malattia accettabile al fine di dichiarare quella malattia «sotto controllo» varia in rapporto alle caratteristiche della malattia stessa. Per esempio, tale livello è basso nel caso dell'afta epizootica, più alto nel caso della tubercolosi bovina. Contrariamente all'eradicazione, il controllo non implica l'eliminazione della malattia e del relativo agente causale. Ad esempio, in Italia nel 1997 la tubercolosi bovina era sotto controllo, ma non eradicata.
Eradicazione L'eradicazione di una malattia comporta l'eliminazione della malattia in seguito alla eliminazione del relativo agente da una regione, nazione o continente. L'eradicazione deve essere differenziata dalla semplice «eliminazione» di una malattia: quest'ultima, infatti, corrisponde alla scomparsa di tutti i casi clinici in una popolazione, il che non implica necessariamente la scomparsa dell'agente eziologico. ESEMPIO 1. In Norvegia è stato attivato un piano di eradicazione di una malattia da virus del bovino: la «diarrea virale/malattia delle mucose». Il piano prevede l'identificazione degli allevamenti infetti attraverso lo screening degli allevamenti di bovini da latte. In una prima fase viene ricercata la presenza di anticorpi nel latte di massa; in caso di positività viene esaminato il latte delle primipare e quindi il siero di sangue. Agli allevamenti positivi viene impedita la vendita di animali e l'utilizzo di pascoli in comune con animali di altri allevamenti. ESEMPIO 2. Nel corso del XX secolo sono state effettuate, a livello mondiale, numerose campagne per eradicare la peste bovina (rinderpest), una malattia che colpisce anche altri ruminanti e che è sostenuta da un virus della Famiglia Paramyxoviridae, simile a quello del morbillo dell'uomo. Le campagne erano basate soprattutto sull'uso di vaccini contenenti virus vivo ed attenuato nella sua
54
virulenza, in modo da provocare nell'ospite un'infezione asintomatica, seguita dall'instaurarsi di una solida immunità .L'ultima campagna è stata condotta sotto l'egida della FAO (Food and Agriculture Organization). Il 14 Ottobre 2010, dopo nove anni di assenza di segnalazioni di casi della malattia a livello mondiale, la FAO dichiarato «eradicata» la peste bovina. Questo è il primo, e per il momento unico, caso di eradicazione di una malattia del bestiame su scala mondiale.
55
4. Compiti e scopi dell'epidemiologia 4.3 Obiettivi di uno studio epidemiologico OBIETTIVO: acquisire informazioni sugli obiettivi di base della epidemiologia veterinaria; differenziare l'epidemiologia descrittiva (osservazionale) da quella analitica (sperimentale).
E' necessario premettere che non esiste una classificazione univoca delle tipologie di studi epidemiologici. Esistono schemi di classificazione molto complicati, ed una loro esposizione esauriente va al di là degli scopi del Quaderno. L'argomento è reso ancor più difficile dal fatto che, in letteratura, c'è qualche divergenza sulla terminologia. In questa unità, ed in una successiva, viene fornito uno schema di base semplificato, e quindi impreciso, ma efficace a scopo didattico per chi si avvicina per la prima volta all'Epidemiologia Lo schema, già accennato nelle Unità precedenti, prevede che gli obiettivi degli studi epidemiologici possano essere riassunti in due grandi settori principali:
Il primo settore comprende la cosiddetta "epidemiologia descrittiva", che ha lo scopo primario di studiare le caratteristiche di una malattia (frequenza, andamento ecc.) a livello di popolazione. L'attributo "descrittiva" deriva dal fatto che, nello studio, ci si limita ad osservare e descrivere, senza interferire con il fenomeno in studio. Con efficace acronimo tratto dalla lingua inglese, questi studi sono caratterizzati da quattro W: What, Who, When, Where. Manca la quinta W, che è appannaggio degli studi analitici (o sperimentali, v.sotto). In alcuni casi si studiano gruppi di animali con frequenza insolitamente alta o bassa di malattia, allo scopo di avanzare delle ipotesi sulle cause ("determinanti") di quella malattia. In altri casi, si valuta la frequenza di malattia al fine di quantificare il fenomeno-malattia e comprenderne la portata e l'effetto sulla popolazione. Si potrebbe condurre una indagine epidemiologica per conoscere qual è la frequenza di "infertilità" nelle bovine da latte di una regione. I dati ottenuti, debitamente analizzati e confrontati, saranno utili per chiarire le dimensioni e le caratteristiche del problema "infertilità", per valutare l'opportunità di intraprendere forme di lotta pianificata ecc.
56
In altri casi, l'epidemiologia descrittiva può servire a dimostrare che una regione è indenne da una determinata malattia; questa conoscenza è quasi sempre richiesta nello scambio o commercio di animali o loro prodotti. In genere, gli studi descrittivi (detti anche "studi ecologici") rappresentano un substrato prezioso per gli studi analitici, e quindi li precedono.
Il secondo settore raccoglie tutte quelle attività che hanno lo scopo di verificare una ipotesi; le ipotesi più frequenti riguardano l'effetto di uno o più (presunti) determinanti di malattia. In altre parole, si studia «perché» una malattia si sviluppa. Indagini di questo tipo rientrano nella cosiddetta epidemiologia analitica. L'attributo "analitica" indica che ci si basa su procedimenti propri dell'analisi. In questo tipo di studi si interferisce attivamente con la malattia in studio, manipolando una o più delle variabili in causa.
57
4. Compiti e scopi dell'epidemiologia 4.4 Obiettivi di 3 discipline diagnostiche OBIETTIVO: esaminare i campi di azione dell'epidemiologia e metterli a raffronto con quelli della clinica e della patologia. Capire perché tutte le discipline sono importanti.
Nello schema sottostante vengono riassunti gli obiettivi di 3 discipline diagnostiche: la clinica, la patologia (anatomia patologica) e l'epidemiologia. Agli specialisti di ciascuna delle 3 discipline considerate, lo schema potrebbe sembrerà criticabile sotto molti aspetti; tuttavia lo ritengo didatticamente molto utile, soprattutto nella fase iniziale del corso di studi. Infatti, lo schema fornisce una buona idea dei diversi approcci diagnostici di tre importanti discipline che affronterai (o forse hai già affrontato), discipline che si intersecano e si integrano l'una con l'altra nella attività professionale del medico veterinario.
La clinica si occupa eminentemente del singolo animale; anche quando è in gioco la salute di un gruppo (es. i bovini di un allevamento da carne), si pone l'importanza sui singoli, per poi estrapolare diagnosi e terapia a tutti gli animali interessati. L'attività del clinico può essere effettuata in
58
campo (nel caso degli animali da reddito); sempre più spesso, tuttavia, il clinico è coinvolto nella visita di animali da compagnia, attività che avviene in ambulatorio e quindi lontano dal luogo dove l'animale (o gli animali) vive. Il fine ultimo dell'attività del clinico è quello di curare e guarire l'animale (o gli animali) ammalati. La patologia e l'anatomia patologica mirano ad una diagnosi generalmente "a posteriori", cioè effettuata sull'animale morto, al fine di conoscere la causa della malattia o della morte. Gli elementi raccolti dalla patologia sono utili soprattutto a comprendere gli eventi patogenetici e l'evoluzione della malattia nel singolo individuo. In sostanza, si mira a meglio comprendere la malattia per meglio diagnosticarla e curarla in futuro. Per quanto riguarda l'epidemiologia, si deve sottolineare ancora una volta come essa sia scienza che si occupa di popolazioni. Il lavoro della raccolta dei dati deve avvenire in campo, cioè dove vive la popolazione stessa. Ovviamente, i dati (riguardanti sia gli ammalati che i sani) verranno poi elaborati ed interpretati "a tavolino", probabilmente con l'utilizzo di un computer. Il fine ultimo è quello di ...
59
4. Compiti e scopi dell'epidemiologia 4.5 Valutazione dell'ipotesi: studi osservazionali, sperimentali, teorici OBIETTIVI: acquisire una visione schematica dell'approccio epidemiologico alla valutazione di un'ipotesi sulla causa di una malattia; consolidare e riassumere le conoscenze sui tipi di studi epidemiologici; differenziare fra variabili qualitative e quantitative
E' già stato ripetuto più volte nelle precedenti unità che uno dei compiti dell'epidemiologia è quello di accertare delle ipotesi; più in particolare, una delle ipotesi più frequenti riguarda i determinanti di malattia, e può essere espressa con il seguente enunciato generale:
L'approccio epidemiologico ad ipotesi di questo tipo può essere effettuato con tre criteri diversi, riassunti nello schema che segue:
60
Gli studi osservazionali (detti anche "ecologici"), sono quelli nei quali le variabili in studio (cioè, nel caso più semplice, la variabile malattia e la variabile presunta causa) vengono monitorate, ma su di esse non si effettua alcun tipo di intervento. Ci si limita a trarre informazioni sull'esistenza di un rapporto causa-effetto dalla semplice osservazione dei fatti. Un esempio storico di studio di questo tipo è quello sul ruolo dell'acqua nella diffusione del colera dell'uomo eseguito nella metà del XIX secolo; Gli studi sperimentali (o esperimenti controllati) sono i più adatti a identificare i determinanti di malattia. Possono essere effettuati in laboratorio o in campo. Negli studi in laboratorio si lavora in genere su animali da laboratorio (topo, cavia ecc.), o su altri substrati viventi (es. colture cellulari, colture d'organo ecc.), oppure, quando possibile, direttamente sulla specie animale di interesse. Lo sperimentatore interferisce con entrambe le variabili in studio. ESEMPIO. Si vuole valutare l'efficacia di un vaccino antirabbico in un animale da esperimento (topino), attraverso un esperimento di «challenge dopo vaccinazione». Si utilizzano due gruppi di topini, dei quali uno viene sottoposto a vaccinazione mentre l'altro non subisce alcun trattamento (gruppo di controllo). Dopo un adatto periodo di tempo (necessario a consentire al vaccino di esercitare la sua attività), entrambi i gruppi vengono sottoposti ad infezione sperimentale (challenge) con il virus rabbia. Quindi, si osserva e si confronta il numero di morti nei due gruppi (vaccinati e di controllo). Gli esperimenti di questo tipo possono risultare più complessi se si vuole valutare l'attività di un nuovo vaccino a raffronto con un vaccino noto di riferimento. In questo caso, sono necessari 3 gruppi (controlli, vaccinati con vaccino nuovo e vaccinati con vaccino di riferimento). Negli studi sperimentali di laboratorio si manipolano - in genere - due variabili; nel caso dell'esempio, le variabili sono rappresentate dalla (a) vaccinazione e (b) dall'infezione sperimentale con virus patogeno. Negli studi in campo si lavora non su animali da laboratorio, ma direttamente sulla specie animal di interesse, e si agisce, in genere, una sola variabile. ESEMPIO. Vogliamo effettuare uno studio in campo sull'efficacia di un vaccino antirabbico per bovini allevati nell'America meridionale. In questo continente i bovini sono esposti alla rabbia trasmessa da pipistrelli ematofagi (i cosiddetti vampiri). .Si potrebbero vaccinare i bovini allevati in una zona, e tenere gli animali di un'altra zona come controlli non vaccinati. Successivamente, l'efficacia del vaccino potrebbe essere desunta attraverso il monitoraggio della frequenza della malattia nei due gruppi (vaccinati e non vaccinati).
Gli studi di laboratorio sono più «precisi» rispetto a quelli di campo. Nota che qui il termine precisione viene usato come sinonimo di «ripetibilità»; cioè, un nuovo studio fornirà risultati molto simili al precedente se eseguito di nuovo nelle stesse condizioni. La precisione è un grande vantaggio degli studi di laboratorio, e dipende dal fatto che in laboratorio sono assenti i fattori esterni (noti ed ignoti), che possono interferire con i risultati e che invece sono sempre presenti negli studi di campo.
61
Gli studi teorici utilizzano modelli o simulazioni computerizzate. Nella maggior parte delle situazioni in cui si ricercano i determinanti delle malattie, gli studi teorici si rivelano sicuramente meno adatti dei precedenti. Essi comunque, pur essendo utilizzati più spesso per altri scopi, possono essere utili ad individuare potenziali determinanti, la cui effettiva attività andrà però successivamente verificata in altro modo.
LE VARIABILI Una variabile è una caratteristica misurabile o un attributo che differisce nei soggetti considerati. Per esempio, se viene misurato il peso di 300 suini, allora il "peso" rappresenta una "variabile". Le variabili possono essere quantitative o qualitative. Queste ultime possono anche esser dette categoriche. Nell'esempio precedente, il "peso" dei suini è una variabile quantitativa, in quanto misura una quantità; se il gruppo dei 300 suini è costituito da animali di razza diversa, allora la "razza" è una variabile qualitativa, in quanto definisce una qualità di ciascun animale.
62
Cap. 5. Dalla associazione alla causalità 5.1 Il procedimento logico verso la causalità OBIETTIVO: illustrare il procedimento logico che guida la dimostrazione della causalità
Gli studi osservazionali sono fondamentali in epidemiologia e vengono utilizzati molto frequentemente sia in medicina umana che in medicina veterinaria allo scopo di individuare i determinanti delle malattie. Qui di seguito puoi trovare i princìpi essenziali ed il flusso logico del ragionamento che viene seguito in questo tipo di studi. Prendiamo in considerazione il caso più semplice di studio osservazionale, in cui si voglia tentare di verificare se un certo fattore è uno dei determinanti di una certa malattia. In uno studio di questo tipo le variabili in gioco sono solo due: 1. la presunta causa 2. la malattia. La presunta causa è la cosiddetta «variabile indipendente». La malattia è invece la «variabile dipendente», in quanto dipende appunto dalla variabile indipendente.
Il procedimento logico che conduce alla dimostrazione di un rapporto causa-effetto fra variabile indipendente e variabile dipendente può essere schematizzato nei tre stadi riassunti nel seguente schema:
63
Lo schema può risultare non molto esplicativo, soprattutto perché - probabilmente - non ti è chiaro il significato di alcuni termini. Ad esempio, senz'altro ti chiederai: che cosa vuol dire «statisticamente»? E «causalmente»? E cosa significa «associato»? Cosa vuol dire «causalità»? Ebbene, ti prego di avere un po' di pazienza... nelle prossime unità verrà spiegato tutto. Ti consiglio di considerare lo schema come una specie di «scatola grigia» di cui in seguito apprenderai il funzionamento. Già fin d'ora, però, devi tenere presente che per arrivare alla conclusione che «qualcosa causa qualcos'altro» devi percorrere nell'ordine i tre stadi indicati nello schema. Riassumendo: •
I stadio. È necessario accertare se la variabile indipendente (supposta causa o fattore di esposizione) è statisticamente associata con la variabile dipendente (l'«effetto», come ad es. la comparsa di malattia). L'esatto significato del termine «associazione» verrà chiarito in seguito, come pure l'utilizzo dei metodi statistici.
•
II stadio. Soltanto nel caso in cui le variabili siano statisticamente associate, è necessario accertare, mediante una serie di criteri accettati, che le due variabili siano causalmente associate; III stadio. È la fase finale in cui, sulla base del rapporto causale tra le due variabili dimostrato nelle due fasi precedenti, possono essere effettuate elaborazioni sulla natura e sulle conseguenze dell'associazione, utilizzando modelli teorici, simulazioni, esperimenti in laboratorio o in campo ecc.
•
Quando i ricercatori possono agire attivamente sulla variabile indipendente (cosa che non avviene negli studi osservazionali ma in quelli sperimentali), e osservare le conseguenti modificazioni
64
sulla variabile dipendente, essi possono trarre valide conclusioni su quanto tali modificazioni nella variabile dipendente siano causate da quelle verificatesi nella variabile indipendente. Al contrario, quando i ricercatori possono soltanto osservare la contemporanea variazione delle due variabili (come negli studi osservazionali), allora essi possono solo definire una associazione tra di esse, dimostrata dal fatto che al modificarsi dell'una si modifica anche l'altra. In questo caso, però, non si può escludere l'eventualità che entrambe le variabili siano, in maniera indipendente l'una dall'altra, influenzate da una terza variabile. In questo caso, tra le due variabili considerate non esiste un nesso causale, e l'apparente (ma inesistente!) relazione causa-effetto è dovuta ad un effetto detto di «confondimento». Questo argomento verrà sviluppato successivamente.
FAI ATTENZIONE! Nella prosecuzione dello studio, ti consiglio di tenere presente lo schema mentale che segue: · tutto questo Capitolo ("Dalla associazione alla causalità") è dedicato allo sviluppo dello Stadio 1, ossia del ragionamento e delle procedure riguardo alla dimostrazione di una associazione statistica fra una presunta causa ed un effetto. · tutto il successivo Capitolo 6 ("L'approccio epidemiologico alle cause di malattia") è dedicato allo sviluppo dello Stadio 2, ossia del ragionamento e delle procedure riguardo alla dimostrazione di una associazione causale fra una presunta causa ed un effetto.
65
Cap. 5. Dalla associazione alla causalità 5.2 Associazione, causalità e casualità OBIETTIVO: definire il significato del termine «associazione» in epidemiologia
Come promesso nell'unità precedente, comincio a spiegare il significato del termine «associazione». A questo scopo, inizialmente ti presento un esempio-domanda su cui ragionare usando il tuo buon senso:
L'«uomo comune» osserva che in una buona parte (più di un terzo!) dei casi di polmonite è presente anche il batterio, e quindi tende senz'altro a rispondere di sì. Con un piccolo passo avanti, l'«uomo comune» (... e forse anche tu!), sarà probabilmente portato a concludere che il batterio è la causa della polmonite. Invece, di fronte ad un quesito di questo tipo, l'epidemiologia (ed il ragionamento scientifico in genere) risponde «non so: i dati forniti sono insufficienti». Le motivazioni logiche che stanno alla base di questa risposta vengono esposte nella Unità.
prossima
66
Cap. 5. Dalla associazione alla causalità 5.3 Associazione di eventi in epidemiologia OBIETTIVI considerare il concetto epidemiologico di «associazione» di due eventi; rimarcare l'influenza del caso sui risultati degli esperimenti
Questa unità risponde ad un quesito che era stato formulato in precedenza, e che riguardava l'esistenza o meno di associazione tra isolamento di Pasteurella multocida e polmonite del suino. La risposta viene precisata nello schema soprastante. Essa chiama in causa il CASO, ed è basata su un procedimento logico che prevede un confronto fra la popolazione con la condizione in studio (nell'esempio: polmonite) ed una popolazione di controllo, il più possibile simile alla precedente per quanto riguarda tutti gli altri fattori ma non affetta dalla malattia.
67
Supponiamo ora che il confronto NON evidenzi alcuna differenza: allora concluderemo sicuramente che i due eventi non sono associati. Tuttavia, in pratica, è molto difficile che i dati dei due gruppi siano perfettamente corrispondenti; in altre parole, una differenza (in un senso o nell'altro!) verrà sempre evidenziata. Supponiamo quindi che, più verosimilmente, sia stata evidenziata una differenza fra i due gruppi e che, per esempio, dai polmoni con polmonite si sia isolato il batterio con una frequenza superiore a quella dei polmoni provenienti dalla popolazione sana di controllo. Ciò non è ancora sufficiente per concludere che i due eventi (presenza del batterio e polmonite) sono associati. Infatti, la differenza osservata potrebbe essere stata generata dal CASO! ESEMPIO 1. Proviamo a consolidare l'affermazione precedente con un esempio più banale e non riguardante la medicina veterinaria, ma che concettualmente ricalca quello dei polmoni con polmonite. Supponiamo di avere due sacchetti di numeri dischetti numerati; in un sacchetto ci sono dischetti bianchi, nell'altro neri. Immaginiamo ora di estrarre 10 numeri da ciascun sacchetto, e di ottenere il risultato della figura a lato. Fra i numeri bianchi, 7 sono dispari e 3 sono pari; fra i numeri neri, 5 sono dispari e 5 sono pari. Puoi forse concludere che i numeri bianchi sono «associati» alla disparità? Mi spiego meglio: i risultati della estrazione (i dati!) sono sufficienti a concludere che l'ignota «popolazione» di numeri bianchi è composta prevalentemente da numeri dispari? Ovviamente la risposta è «no», poiché i risultati dell'estrazione sono influenzati dal caso. Resta ora da rispondere alla seguente domanda: se è vero che il caso può influenzare i risultati, come posso dimostrare l'esistenza di associazioni ed essere ragionevolmente sicuro che le differenze osservate non sono dovute al caso?
La risposta deriva dalla scienza statistica che, attraverso metodi che verranno accennati in seguito, consente di escludere (con un certo grado di probabilità, ma mai con assoluta certezza) che una eventuale associazione sia dovuta appunto al caso (vedi schema seguente).
68
Infine bisogna sottolineare che, anche quando la statistica afferma che «l'associazione fra due eventi NON è casuale» (ed allora si dice che esiste una «differenza significativa»), resta ancora da dimostrare che i due eventi siano legati da un rapporto causa-effetto. In altre parole, «associazione» non è sinonimo di «causalità». Questo argomento verrà trattato in seguito. In particolare, il passaggio dalla dimostrazione dell'esistenza di una associazione (che stiamo trattando ora) alla verifica se tale associazione è di tipo causale verrà illustrato nel Capitolo 6 (L'approccio epidemiologico alle cause di malattia). Non farti confondere dalla grande somiglianza fonetica ed ortografica fra i termini «casuale» e «causale», ed anche «casualità» e «causalità». I due termini hanno un significato assolutamente diverso! Casuale = dovuto al caso; Causale = legato da un rapporto di causa-effetto. Foglio di calcolo per Microsoft Excel® che simula l'estrazione di numeri da tombola.
69
Cap. 5. Dalla associazione alla causalità 5.4 Significatività statistica e causalità OBIETTIVI: illustrare alcuni principi di base utili quando si effettua un confronto considerare l'utilità di un test di significatività statistica
Attraverso un semplice esempio, in questa Unità ti prospetto i rischi che si corrono quando si effettuano confronti, ed introduco il concetto di «significatività statistica». È una Unità preparatoria, in quanto si accenna ad argomenti che verranno trattati più in dettaglio nelle Unità successive in questo stesso Capitolo. Immagina di aver effettuato un esperimento su due piccoli gruppi di animali (ossia due campioni) allo scopo di mettere a confronto l'efficacia di due farmaci nella terapia di una certa malattia.
In pratica, hai reperito un certo numero di animali ammalati, e ne hai trattati alcuni con il farmaco A ed altri con il farmaco B. I dati che hai ottenuto depongono per una maggiore attività di A:
70
Ora, prima di concludere che A è davvero migliore di B (dove «davvero» significa che A è migliore di B non solo sul tuo campione, ma anche sulla tua «popolazione di interesse», ossia su tutti gli animali che sono e saranno affetti da quella malattia), devi riconsiderare criticamente il tuo esperimento. Infatti, A può essere apparso migliore di B nel tuo esperimento, anche se in realtà non lo è. Le ipotesi da avanzare sono tre, riassunte nello schema che segue:
In particolare, l'ipotesi (1), se verificata, è frutto di una "colpa" dello sperimentatore, che ha selezionato un campione NON rappresentativo della popolazione oggetto dello studio. Un campione non rappresentativo si dice distorto (o affetto da «bias», dall'inglese bias=distorsione). Ovviamente un campione distorto fornisce risultati non affidabili.
71
ESEMPIO 1. Nel tuo esperimento, i cani trattati con A potevano essere più giovani ed in migliori condizioni generali (quindi più portati a guarire, magari anche spontaneamente) rispetto a quelli trattati con il farmaco B. ESEMPIO 2. In uno studio sullo stato vaccinale dei cani di una certa regione, esamini un campione costituito dai cani presentati per una visita in ambulatorio; tuttavia, questo campione non è rappresentativo della popolazione canina, in quanto non comprende i randagi o quelli male accuditi dal proprietario e che quindi non vengono mai né vaccinati né sottoposti a visita veterinaria. L'ipotesi (2) chiama in causa il caso e la variabilità biologica (che viene trattata altrove). Pensa di eseguire di nuovo, però su altri animali, l'esperimento sull'efficacia dei due farmaci già fatto: sei sicuro che otterresti gli stessi risultati? No, appunto perché nell'andamento dell'esperimento si inseriscono fattori diversi, noto e ignoti, dovuti appunto al caso. Per isolare l'effetto del caso, e quindi per escludere l'ipotesi (2), devi ricorrere alla statistica, applicando un test che ti permetta di verificare la «significatività» dei tuoi risultati.
72
Cap. 5. Dalla associazione alla causalità 5.5 Confrontare due proporzioni o due percentuali: il test chi-quadrato OBIETTIVO: imparare l' utilizzo del metodo del chi-quadrato attraverso un esempio imparare che cosa vuol dire "statisticamente significativo"
Nell'unità precedente, ho sottolineato che l'applicazione di un test di significatività statistica è un passo indispensabile nel confronto fra due gruppi o popolazioni riguardo ad un parametro. In questa unità ti presento un esempio di applicazione di uno dei test più comuni e più semplici, il «chi-quadrato». L'esempio riguarda il confronto di due percentuali ottenute in un esperimento, allo scopo di verificare se la differenza fra tali percentuali è dovuta al caso oppure no. Se riuscirai a dimostrare che la differenza non è dovuta al caso, allora potrai affermare che essa è «statisticamente significativa». Ti ho già spiegato lo schema logico da seguire . Lo schema è molto semplice, in sostanza si tratta di partire con una sorta di pregiudizio: qualsiasi sia la differenza esistente tra le due percentuali da confrontare, inizialmente devi ritenere valida l'«ipotesi zero». L'ipotesi zero (detta anche ipotesi nulla) afferma semplicemente che la differenza osservata - di qualsiasi entità essa sia - è dovuta al caso. Questa ipotesi (che può essere vera o falsa) verrà accettata oppure rifiutata sulla base del risultato di un appropriato test statistico. Nel confronto di due percentuali o di due proporzioni il test appropriato è, appunto, il test del chi-quadrato. In sintesi:
In montagna, puoi raggiungere un punto panoramico con una comoda funivia, che in dieci minuti ti porta a destinazione. Oppure puoi fare da
73
solo, con le tue forze, ore di dura salita, una piccola sfida con te stesso. Dimenticherai facilmente la prima esperienza, mentre la seconda ti resterà, forse, nel cuore per sempre. Analogamente, puoi fare il test chi-quadrato usando il computer (... la funivia!), ed in questo caso troverai in internet tanti strumenti adatti (ce n'è uno anche alla fine di questa unità). Oppure puoi leggere qui di seguito (la sfida: lacrime e sangue!) una spiegazione passo-passo del funzionamento del test. A te la scelta. Un esempio: l'efficacia di un farmaco Supponi di voler mettere a confronto l'efficacia di un nuovo antibiotico (che chiameremo con un nome di fantasia: xmicina) con un antibiotico già in uso (streptomicina) nella terapia di una malattia del cane (la leptospirosi), . A questo scopo, intraprendi un test clinico su un campione di animali costituito dai cani affetti da leptospirosi che vengono presentati in alcuni ambulatori ed ospedali veterinari in un determinato periodo di tempo. Durante la sperimentazione, ogni cane viene assegnato a caso al gruppo dei trattati con il nuovo antibiotico oppure a quello dei trattati con la streptomicina (nel Cap. 9 capirai il perché di questa assegnazione a caso). Alla fine della sperimentazione, ottieni i dati riassunti nella sottostante Tabella 1.
Vale la pena di commentare in dettaglio la struttura della Tabella 1, considerato che tabelle di questo tipo verranno usate sia in questo Capitolo che, molto più estensivamente nel Cap. 11 (Test di screening e test diagnostici). Si tratta di una tabella 2x2 (due righe per due colonne), detta anche «tabella di contingenza». Non farti trarre in inganno dal fatto che, in effetti, ci sono tre righe e tre colonne: infatti la «vera» tabella contenente i tuoi dati occupa soltanto nelle quattro celle gialle a, b, c, d. Le altre sono derivate da queste, e non sono altro che i totali di riga e di colonna. Nella cella a sono indicati i soggetti che sono stati trattati con xmicina e che sono guariti; nella cella b i trattati con xmicina non guariti; nella cella c i trattati con streptomicina guariti; nella cella d i trattati con streptomicina non guariti. I due totali di colonna indicano rispettivamente il numero complessivo di guariti e di non guariti, mentre i totali di riga indicano rispettivamente il numero di trattati con xmicina e con streptomicina. Nota che, con gli stessi dati, avresti potuto compilare una tabella analoga alla Tabella 1, ma ruotata di 90 gradi, ossia ponendo il trattamento sulle colonne e l'esito sulla righe, come quella a lato. Questa impostazione sarebbe stata ugualmente corretta. Però lo «standard» per tabelle di questo tipo è quello di disporre la variabile indipendente (nel nostro caso: il trattamento xmicina/steptomicina) sulle righe e la
74
variabile dipendente (nel nostro caso: guarito/non guarito) sulle colonne. Noi adotteremo sempre questo standard. Torniamo alla tabella 1. Puoi notare che, su un totale di 123 cani, 62 sono stati sottoposti a trattamento con xmicina e, fra questi, si sono registrati 52 casi di guarigione (84%). Fra i restanti 61 animali, trattati con streptomicina, ne sono guariti 40 (66%). È evidente che i dati grezzi indicano che la xmicina è più efficace della streptomicina. Però la superiorità di xmicina potrebbe essere dovutra al caso... Allora, prima di giungere ad una conclusione affrettata, occorre rispondere alla seguente domanda: Supponi che, in realtà, NON esistano differenze nell'efficacia dei due trattamenti. Che probabilità c'è di osservare - in uno studio di dimensioni simili a questo - differenze nell'efficacia dei due antibiotici uguali o superiori a quelle che hai osservato? La risposta a questa domanda dipende da quanto i dati ottenuti si discostano dai dati che «sarebbe lecito attendersi se i trattamenti avessero la stessa efficacia e se i dati fossero influenzati soltanto dalla variazione casuale». Rileggi ancora con attenzione la frase precedente: è la chiave per comprendere il background razionale di un test statistico. Riformulo la stessa frase in modo leggermente diverso, e ti pongo la seguente domanda: se xmicina = streptomicina (ipotesi zero!), è possibile ottenere risultati simili a quelli che hai osservato? La risposta è «sí», perché i tuoi dati potrebbero essere stati influenzati dal caso. Facciamo un altro passo avanti, e chiediamoci: «qual è la probabilità di osservare una differenza uguale o superiore a quella che hai ottenuto nel tuo esperimento?
Guarda ancora la Tabella 1. I tuoi dati dimostrano che complessivamente (cioè indipendentemente dal tipo di antibiotico) il trattamento è risultato efficace nel 74.8% dei casi. Infatti sono guariti, sempre complessivamente ed indipendentemente dall'antibiotico utilizzato, 52+40=92 animali (a+c) su 123 trattati. Applicando questa percentuale di successo (74.8%) a ciascuno dei due gruppi di cani in esame (gruppo xmicina e gruppo streptomicina), puoi ricavare i dati della sottostante Tabella 2, che illustra la situazione che ti saresti aspettato se i due antibiotici avessero avuto la stessa efficacia.
75
Nella Tabella 2, hai calcolato il valore a=46 assumendo una percentuale di guarigione del 74.8% nei 62 cani trattati con xmicina: 62*74.8/100=46.37, cioè, approssimando all'unità, a=46. Analogamente, ti saresti aspettato la guarigione del 74.8% dei 61 cani trattati con streptomicina ossia di 45.63 soggetti. I valori delle celle b e d possono poi essere facilmente ottenuti per differenza: b = 62-46.37 = 15.63 d = 61-45.63 = 15.37 Il valore del chi-quadrato quantifica la differenza fra i dati osservati e quelli attesi, ed è la somma delle quattro celle a, b, c e d, per ciascuna delle quali si calcola il valore della frazione:
La magnitudine del chi-quadrato è determinata dalla differenza fra i numeri osservati ed i numeri attesi nel caso in cui i due trattamenti avessero avuto lo stesso effetto. La differenza al numeratore della frazione viene elevata al quadrato; ciò elimina i numeri negativi che possono comparire quando il numero osservato è minore di quello atteso. Poi il quadrato della differenza viene diviso per il numero atteso; in questo modo la differenza per ogni cella viene aggiustata in rapporto al numero di individui della stessa cella. Pertanto, calcoliamo il chi-quadrato come segue:
È evidente che il chi-quadrato aumenta con l'aumentare della differenza dei dati posti a raffronto. Se esso supera certi valori prefissati (vedi tabella «Valori di chi-quadrato»), la differenza viene ritenuta significativa; in caso contrario, non si può affermare l'esistenza di una significativa differenza tra i due eventi considerati. Non ti resta quindi che confrontare il valore ottenuto con la Tabella dei valori di chi-quadrato (reperibile via Internet o in qualsiasi libro di statistica e di una porzione viene riportata qui sotto).
76
. Nel tuo caso, il valore ottenuto è un chi-quadrato con «1 grado di libertà»; infatti, per tabelle come quella che stiamo studiando, il grado di libertà è uguale a (numero di righe-1)*(numero di colonne1). Quindi: (2-1) * (2.1) = 1 grado di libertà. ciò significa che ti interessa soltanto la prima riga della tabella (celle in verde). Ora, confrontando il tuo valore di chi-quadrato (5.46) con quelli tabulati, noti che esso è >3.841 e <6.635. Ciò consente di ritenere che la differenza fra i due gruppi sia significativa al livello di probabilità 5% ma non al livello di probabilità 1%. Puoi concludere che la differenza tra animali trattati con xmicina e quelli trattati con streptomicina è statisticamente significativa al livello di probabilità 5%. In altre parole: ammettendo che i due antibiotici abbiano pari efficacia e ripetendo l'esperimento infinite volte, potremo osservare piuttosto raramente (ossia 5 volte su 100 o meno!) dati simili a quelli ottenuti oppure ancor più favorevoli a xmicina. In sostanza: in base ai risultati del test del chi-quadrato, l'affermazione «xmicina è più efficace di streptomicina» ha il 95% di probabilità di essere vera (e quindi ha il 5% di probabilità di essere falsa). Se tu dovessi stilare una relazione con i risultati del tuo lavoro, potresti concludere più o meno come segue: «In base ai risultati ottenuti, xmicina è risultata più attiva di streptomicina (P<0.05)» dove il valore P indica la probabilità di respingere una ipotesi zero vera. Il metodo del chi-quadrato è utilizzabile quando il valore contenuto in ogni cella (celle a, b, c, d nella precedente Tabella 1) è >5, ed il numero totale di osservazioni è >30; in caso contrario, occorre usare altri test (ad esempio, il test di Fisher, detto anche test esatto di Fisher o test delle probabilità esatte di Fisher). Il test del chi-quadrato è uno dei tanti test di significatività statistica esistenti. Nella prossima Unità ne verrà trattato un altro: il test "t", che serve per confrontare due medie. Ricordati comunque un principio generale valido sempre: qualsiasi test di significatività non può mai provare con certezza che una ipotesi zero è vera o falsa; esso può solo fornire una indicazione della forza con cui i dati contrastano l'ipotesi zero.
77
Un metodo di calcolo più semplice Il sistema di calcolo del chi-quadrato ora fornito è piuttosto complicato, e costringe a generare come abbiamo fatto nell'esempio - una nuova tabella con i valori «attesi». Esiste un altro tipo di calcolo, più semplice, che consente di ottenere il chi-quadrato direttamente dai valori osservati. Tale calcolo è basato sulla seguente formula:
Procediamo con il calcolo: Calcolare il numeratore della formula: a*d = 52*21 = 1092 b*c = 10*40 = 400 1092-400 = 692 elevare al quadrato 692^2 = 478864 e moltiplicare per il numero di osservazioni totale 478864*123 = 58900272 (1) Ora calcoliamo il denominatore: (52+10)(52+40)(10+21)(40+21) = 10786264
(2)
Infine, dividiamo il numero trovato in (1) per quello trovato in (2): 58900272/10786264 = 5.46 Quando le frequenze attese sono basse (ma sempre >5) è consigliabile utilizzare una formula del chi-quadrato modificata secondo quanto proposto da F. Yates nel 1934:
I dati utilizzati nell'esempio sono fittizi ed utilizzati esclusivamente a scopo didattico per il calcolo del chi-quadrato. Il fatto che la differenza fra i due gruppi in studio sia risultata statisticamente significativa non implica necessariamente che, nella pratica clinica, la xmicina avrebbe sostituito la streptomicina nella terapia della leptospirosi del cane. Ad esempio, la xmicina potrebbe essere molto più tossica, oppure dotata di gravi effetti collaterali, oppure molto più costosa ecc. Infine, ti ricordo che il test chi-quadrato si può estendere al confronto di più di due gruppi, con tabelle n x n. Però in tal caso il calcolo è diverso da quello dell'esempio. Foglio di calcolo per Microsoft Excel® con un esempio di calcolo del chi-quadrato
78
Il mio consiglio: consolida quanto hai appreso risolvendo questo problema (si apre in una nuova finestra) NELLA PROSSIMA UNITÀ: si accenna ad un caso diverso: il confronto fra due medie (anziché due percentuali). Attraverso un esempio ed un foglio di calcolo, si illustra l'applicazione di uno dei test più frequentemente utilizzati per il confronto di due medie: il test t di Student. Significatività statistica e causalità
Confrontare due medie: il test t di Student
79
Cap. 5. Dalla associazione alla causalità 5.6 Confrontare due medie: il test t di Student OBIETTIVO: imparare l'utilizzo del test t attraverso un esempio
Nella unità precedente hai imparato come stabilire (attraverso il test del chi-quadrato) se due proporzioni (o due percentuali) sono significativamente diverse fra loro. Vi sono molte altre situazioni in cui devi risolvere un problema concettualmente simile: quello di confrontare due (o più) valori ottenuti studiando due (o più) gruppi, ma avendo a disposizione, invece di due percentuali, dati di altro tipo. Ad esempio, potresti confrontare una variabile qualitativa con una variabile quantitativa, oppure una qualitativa con un'altra pure qualitativa, od ancora più variabili quantitative con una o più variabili numeriche ecc. ecc. Ciascuno di questi casi richiede un test statistico adatto. In effetti, uno degli aspetti più difficili (...per i non-statistici!) nell'elaborazione dei dati consiste proprio nella scelta del test da utilizzare: c'è anche chi ha paragonato la statistica... all'arte culinaria: un test statistico è come una ricetta di cucina. Un buon cuoco ottiene un buon piatto a partire dagli ingredienti che ha a disposizione, così come uno studioso ottiene informazioni veritiere «cucinando» opportunamente, con un test statistico adatto, i dati che ha raccolto.
UN PROBLEMA FREQUENTE: CONFRONTARE DUE MEDIE Una circostanza frequente è quella in cui si sono esaminati due (o più) campioni di animali; sugli animali di ciascun campione è stata misurata una variabile numerica (es. altezza, peso, frequenza cardiaca, produzione di latte ecc.), di cui è stata poi calcolata la media. Ti chiedi: la differenza fra le medie dei due campioni è significativa? Ossia: puoi affermare che la differenza osservata non è dovuta al caso ma che, invece, esiste veramente una diversità tra le medie delle due popolazioni da cui i campioni stessi derivano? Oppure, esprimendoci in altro modo: puoi affermare che i due campioni appartengono a popolazioni diverse riguardo alla variabile considerata?
80
Come vedi la questione, in buona sostanza, è analoga a quella della unità precedente in cui hai utilizzato il test del chi-quadrato per confrontare due proporzioni. Il fatto è che la «ricetta» del chiquadrato va bene per confrontare due proporzioni, ma non è utilizzabile se devi confrontare due medie. Allora, devi ricorrere ad un altro test: ad esempio il test «t» (detto anche t di Student). Lo schema di ragionamento da fare è quello già visto:
I calcoli da eseguire per effettuare il test t sono un po' più complicati rispetto a quelli del chiquadrato, e perciò non entreremo nei dettagli. Solo a titolo di curiosità, ecco la formula di calcolo del valore t:
... e per i più interessati (o masochisti?) dirò che s è la deviazione standard media delle deviazioni standard dei due campioni, cioè la radice quadrata della varianza che si ottiene sommando le devianze dei due campioni e dividendo per la somma dei gradi di libertà. Una volta trovato il valore t, esso va confrontato con quelli tabulati in apposite Tabelle, che si trovano in tutti i libri di statistica. Dal confronto fra il valore ottenuto e quello tabulato si potrà stabilire se la differenza fra le due medie è dovuta al caso o no. Ora che ti ho esposto brevemente il principio che "sta dietro" al calcolo del test t di Student, ti
81
consiglio di non preoccuparti più di tanto di calcoli e tabelle di raffronto (che, fra l'altro, sono più complesse di quanti ti aspetteresti, vedi un esempio qui). Oggi, infatti, il test t si esegue al computer con l'aiuto di apposito software, incluso in pacchetti statistici oppure reperibile in rete. Ad esempio, alla fine di questa unità troverai un foglio di calcolo con cui calcolare il valore t su una serie di dati che tu stesso puoi inserire. In conclusione: è importante che tu conosca non tanto il metodo di calcolo (difficile da ricordare), quanto l'esistenza del test t ed il contesto in cui esso si applica. Ancora più importante è che tu sia convinto che, anche nel confronto fra due medie, non si possono trarre conclusioni soggettive «ad occhio», ma è indispensabile ricorrere ad un test statistico. Un esempio di applicazione del test t Stai sperimentando l'effetto sul suino dell'aggiunta alla razione di una miscela «probiotica» costituita da batteri normalmente presenti nella flora intestinale del suino. L'ipotesi da verificare è che il probiotico favorisca l'accrescimento degli animali. Allo scopo di verificare l'ipotesi, hai disegnato uno studio sperimentale preliminare su due piccoli gruppi di suini. I gruppi sono fra loro omogenei (stessa razza, età, provenienza ecc.) e sono mantenuti nelle stesse condizioni di allevamento (alimentazione, temperatura ambiente ecc.). L'unica differenza è che alla razione del Gruppo 1 (10 suini) viene aggiunto il probiotico, mentre al gruppo 2 (11 suini) no. All'inizio dell'esperimento ciascun suino viene pesato; dopo 21 giorni di trattamento i suini vengono pesati di nuovo e per ogni animale si calcola l'incremento giornaliero medio. I dati (fittizi) sono riportati nella tabella che segue.
82
Confrontando le medie degli accrescimenti, puoi notare che il valore del Gruppo 1 è superiore a quello del Gruppo 2 (643.8 g/giorno contro 637.0 g/giorno). La domanda è: questa differenza è dovuta al probiotico oppure al caso?
L'ipotesi zero dice che la differenza è dovuta al caso... accetti o rifiuti questa ipotesi? Per rispondere, puoi applicare ai tuoi dati il test t. Tieni presente, però, che il test t test va bene soltanto se i dati hanno una distribuzione Normale (se ti serve un rapido ripasso di questo argomento, dai un'occhiata al Cap. 7). La trattazione dei metodi per verificare la Normalità di un set di dati va oltre gli scopi del Quaderno. In linea di massima, si utilizza un software statistico (tutti i pacchetti statistici hanno funzioni adatte a questo scopo). In Excel, si possono utilizzare le formule ASIMMETRIA e CURTOSI. I dati dell'esempio, sottoposti ad analisi, risultano avere una distribuzione normale. Se lo desideri, puoi avviare una breve presentazione animata che illustra l'analisi dei tuoi dati con un software statistico. Infine, per i più interessati, aggiungo che, se i dati non hanno una distribuzione normale, è necessario normalizzarli (con metodi sui quali non mi dilungo) oppure ricorrere ad test diversi dal t di Student (es. il Test Mann-Whitney o il Test di Wilcoxon).
Una volta verificata la Normalità dei tuoi dati, puoi tranquillamente applicare il test t, magari utilizzando questo foglio di calcolo. Se non hai installato Excel sul tuo PC, puoi vedere una immagine di output del programma. Nel foglio di calcolo dovrebbero essere già presenti i dati corretti (in caso contrario, li puoi inserire tu). Come vedi dall'output di Excel, con i tuoi dati ottieni un valore t pari a 2.2796. Che farne, di questo valore? Il procedimento di base è abbastanza simile a quello che hai già appreso nel caso del test Chi-quadrato. In pratica, devi confrontare il valore t che hai ottenuto (2.2796) con quelli presenti nella Tabella dei valori t, per 19 gradi di libertà (gradi di libertà=numero osservazioni-numero gruppi; nel nostro esempio 21-2=19). Il tuo valore è superiore a quello della colonna p=5% (ma inferiore a quello della colonna p=1%). Perciò puoi rifiutare l'ipotesi zero e concludere che la differenza è significativa per p<0.05 (ma non per p<0.01). Ciò significa che c'è una probabilità inferiore al 5% (ma non all'1%) che la differenza di accrescimento tra il gruppo trattato e quello di controllo sia dovuta al caso. Nota che i due valori p (0.05 e 0.01) sono valori convenzionalmente utilizzati nel modo scientifico (questo concetto viene spiegato meglio nella prossima unità). Se hai utilizzato il mio foglio di calcolo (oppure un software statistico), il passaggio testé descritto (ossia quello di confrontare il tuo valore t con i valori della Tabella per 'n' gradi di libertà) è inutile: infatti il programma restituisce direttamente il valore p.
83
Con i tuoi dati ottieni: p=0.0344. Ciò significa che c'è una probabilità inferiore a 3.44% che la differenza di accrescimento tra il gruppo trattato e quello di controllo sia dovuta al caso. In altri termini, puoi affermare che «la differenza fra gli animali trattati ed i controlli è significativa per p=0.0344». I risultati di un test statistico vanno interpretati correttamente. Vale la pena di ripetere qui quanto già detto nella Unità precedente a proposito del test del chi-quadrato: qualsiasi test di significatività non può mai provare con assoluta certezza che una ipotesi zero è vera o falsa; esso può solo fornire una indicazione della forza con cui i dati contrastano l'ipotesi zero. Per consolidare quanto appreso in questa unità ti consiglio di leggere subito la successiva, che tratta i concetti di «livello di significatività» e di «ipotesi zero». Foglio di calcolo per Microsoft Excel® per il calcolo del t di Student Il mio consiglio: consolida quanto hai appreso risolvendo questo problema (si apre in una nuova finestra)
84
Cap. 5. Dalla associazione alla causalità 5.7 Prove di significatività OBIETTIVO: apprendere la base razionale di un test di significatività apprendere un metodo di quantificazione di un test di significatività
Quando si effettua un test di significatività statistica, inizialmente si assume la cosiddetta «ipotesi zero» (o «ipotesi nulla»), secondo la quale non esiste nessuna differenza tra i gruppi riguardo al parametro considerato. Secondo l'ipotesi zero, i gruppi sono fra loro uguali e la differenza osservata va attribuita al caso. Ovviamente l'ipotesi zero può essere vera o falsa. Ora tu devi decidere: accetti o rifiuti l'ipotesi zero? Per decidere devi analizzare i tuoi dati con un test statistico. Se il test ti «consiglia» di rifiutare l'ipotesi zero, allora la differenza osservata viene dichiarata statisticamente significativa. Se invece il test ti «consiglia» di accettare l'ipotesi zero, allora la differenza è statisticamente non significativa.
Come sempre avviene, i risultati di un test statistico non hanno un valore di assoluta e matematica certezza, ma soltanto di probabilità. Pertanto, una decisione di respingere l'ipotesi zero (presa sulla base del «consiglio» del test statistico) è probabilmente giusta, ma potrebbe essere errata. La misura di questo rischio di cadere in errore si chiama «livello di significatività» del test. Il livello di significatività di una prova può essere scelto a piacere dallo sperimentatore. Tuttavia, di solito si sceglie un livello di probabilità di 0.05 (5%) o di 0.01 (1%). Questa probabilità (detta valore P) rappresenta una stima quantitativa della probabilità che le differenze osservate siano dovute al caso.
85
Più precisamente, il valore P è "la probabilità di ottenere un risultato altrettanto estremo o più estremo di quello osservato se la diversità è interamente dovuta alla sola variabilità campionaria, assumendo quindi che l'ipotesi iniziale nulla sia vera" (Signorelli). Notare che P è una probabilità e quindi può assumere solo valori compresi fra 0 e 1. Un valore P che si avvicina a 0 testimonia una bassa probabilità che la differenza osservata possa essere ascritta al caso.
ESEMPIO. Hai effettuato una sperimentazione su due gruppi di animali affetti da una malattia. Un gruppo è stato trattato con il farmaco A, e l'altro con il farmaco B. Hai notato che gli animali trattati con A guariscono di più rispetto a quelli trattati con B. Però questo effetto potrebbe essere dovuto al caso... sei sicuro che, ripetendo l'esperimento, otterresti ancora dati che indicano che A è migliore di B? Ovviamente no! Allora, a partire dai tuoi dati, devi calcolare il valore P: in questo modo ottieni una stima quantitativa della probabilità che le differenze osservate siano dovute al caso. In altre parole, P è la risposta alla seguente domanda: «se in realtà non ci fossero differenze fra A e B, e se la sperimentazione fossa eseguita molte volte, quale proporzione di sperimentazioni condurrebbe alla conclusione che A è migliore di B?» Il livello di significatività 5% viene adottato molto frequentemente in quanto si ritiene che il rapporto 1/20 (cioè 0.05) sia sufficientemente piccolo da poter concludere che sia «piuttosto improbabile» che la differenza osservata sia dovuta al semplice caso. In effetti, la differenza potrebbe essere dovuta al caso, e lo sarà 1 volta su 20. Tuttavia, questo evento è «improbabile». Ovviamente, se si vuole escludere con maggiore probabilità l'effetto del caso, si adotterà un livello di significatività inferiore (es. 1%). Quindi: •
se l'ipotesi zero viene respinta al livello di significatività 5%, allora abbiamo il 5% di probabilità di respingere un'ipotesi zero che - in effetti - era vera;
86 • •
se l'ipotesi zero viene respinta al livello di significatività 1%, allora abbiamo l'1% di probabilità di respingere un'ipotesi zero che - in effetti - era vera; più in generale, se l'ipotesi zero viene respinta al livello di significatività n%, allora abbiamo n% di probabilità di respingere un'ipotesi zero che - in effetti - era vera.
Infine, è necessario sottolineare un concetto molto importante: «statisticamente significativo» non vuol dire importante, o di grande interesse, o rilevante. «Statisticamente significativo» significa semplicemente che ciò è stato osservato è «difficilmente dovuto al caso».
Esempio. In una ipotetica sperimentazione, è stato dimostrato che un farmaco ha una attività anti-ipertensiva: nei soggetti trattati la pressione sistolica è diminuita, in media, di 2 mm di Hg rispetto ai soggetti non trattati e questa differenza è risultata «statisticamente significativa». Ciò non implica automaticamente che il farmaco sia un buon ipertensivo, anzi è verosimile che esso sia pressoché inutile in terapia, in quanto una riduzione così limitata (2mm Hg) non ha alcun interesse clinico. Alcuni test statistici di comune impiego Numerosi test statistici vengono usati per determinare con un certo grado di probabilità l'esistenza (o l'assenza) di differenze significative nei dati in esame o meglio, più in generale, di accettare o rigettare una ipotesi zero. Il test del «chi-quadrato» ed il test t sono già stati brevemente illustrati. Nella tabella che segue vengono elencati alcuni dei test più comunemente impiegati nella ricerca medica, ed il loro campo di applicazione. Ulteriori dettagli riguardo a questi test, ed ad altri non indicati nella Tabella, possono essere reperiti in tutti i libri statistica.
87
I test statistici, in medicina, consentono di stimare il grado di certezza di affermazioni e la precisione di misure effettuate su un campione casuale di una determinata popolazione. Per ottenere risultati validi, bisogna scegliere, fra le tante disponibili, le procedure statistiche adatte all'indagine o all'esperimento effettuato. Le procedure statistiche presuppongono che i campioni siano stati estratti a caso dalle popolazioni studiate (v. unità didattica "Caratteri del campione" e successive). Se questo presupposto non è rispettato, i risultati che si ottengono possono non avere alcun valore. Oltre a verificare che gli elementi del campione siano scelti a caso, occorre stabilire con esattezza quale popolazione essi rappresentino. Ciò è particolarmente importante e difficile quando i soggetti del campione provengono, come si verifica di frequente, da pazienti ricoverati in ospedali veterinari: questi animali infatti sono scarsamente rappresentativi della popolazione generale. In ogni caso, l'identificazione della popolazione di provenienza del campione è fondamentale per stabilire l'applicabilità dei risultati di una ricerca.
88
Cap. 5. Dalla associazione alla causalità 5.8 Associazione e causalità: tipi di associazione OBIETTIVO: consolidare il concetto secondo cui «associazione non è sinonimo di causa»
Gli studi epidemiologici spesso sono rivolti a stabilire l'esistenza di un'associazione statistica tra due variabili in studio: la prima variabile di solito è costituita da un presunto determinante (oppure dalla esposizione ad un certo fattore), mentre la seconda variabile è la comparsa della malattia. L'accertamento dell'esistenza di una associazione fra le due suddette variabili è soltanto il primo passo sulla strada che conduce alla dimostrazione di una relazione causa-effetto fra le due variabili. Una volta dimostrato che l'associazione esiste, è necessario eseguire un secondo passo, rappresentato dalla interpretazione del significato dell'associazione. Questo secondo passo consiste, in sostanza, in una revisione critica del lavoro svolto, al fine di verificare se sono stati evitati alcuni «tranelli» frequenti in studi di questo tipo. Infatti, esistono anche associazioni non legate all'esistenza di una rapporto causa-effetto: sono le associazioni spurie e le associazioni non causali.
Un'associazione spuria è quella dovuta alla presenza di errori sistematici. L'errore sistematico è un errore che prevedibilmente causa, durante le osservazioni di raccolta dei dati, lo stesso tipo di errore oppure un errore che va sempre nella stessa direzione. Esso è dovuto a vizi nella impostazione o nella esecuzione di uno studio.
89
Gli errori sistematici possono conseguire a svariati fattori (es. errato campionamento, imprecisione nella diagnosi ecc.) e, in definitiva, conducono ad una stima errata (per difetto o per eccesso) della forza dell'associazione. ESEMPIO 1. L'utilizzo di una bilancia mal tarata, (che, per esempio, indica il 10% in più del peso effettivo) per stimare il peso di un gruppo di suini provoca un errore sistematico. ESEMPIO 2. Nello studio dell'immunità nei confronti del virus della rabbia in una popolazione di cani, l'esame di un campione di animali scelti fra quelli portati in un ambulatorio veterinario è probabilmente causa di un errore sistematico. Una associazione non causale può essere la conseguenza di una confusione fra causa ed effetto. Questo argomento viene accennato in una Unità successiva. Più frequentemente, una associazione non causale deriva dal fatto che la malattia e l'esposizione sono entrambe associate ad un altro fattore x, il quale è il vero responsabile dell'associazione; in questo caso si dice che l'associazione è mediata dal fattore x. Una interazione di questo tipo prende il nome di «confondimento». Il confondimento viene trattato in una Unità successiva.
90
Cap. 5. Dalla associazione alla causalità 5.9 Modello generale di associazioni causali e non causali OBIETTIVO: attraverso alcuni esempi, rafforzare il concetto di "associazione causale" e di "associazione non causale".
È già stato detto che una associazione statistica può indicare l'esistenza di una correlazione causale tra la variabile in studio ed il fenomeno osservato. Tuttavia, la semplice esistenza di una associazione non dimostra necessariamente l'esistenza di un rapporto causa-effetto fra le due variabili risultate associate. Per giustificare questa osservazione, ti propongo un esempio (v. schema sottostante) tratto dalla vita quotidiana, in cui i fattori «consumo» e «rumore» risultano associati pur non essendo legati da una relazione causa-effetto. È evidente, infatti, che un consumo elevato di carburante non è causa di alta rumorosità né, viceversa, una elevata rumorosità provoca un aumento del consumo.
Generalizzando, si ottiene lo schema sottostante, che rappresenta un modello generale di associazione.
91
La variabile A è la vera causa della malattia; le due variabili di risposta, B e C, sono due manifestazioni della malattia. Nel modello le frecce nere mostrano l'esistenza di una associazione statistica causale tra A e B e tra A e C. In altre parole,
Tuttavia, può essere dimostrata anche una associazione statistica (non causale, freccia rossa tratteggiata) tra B e C, derivante proprio dal fatto che B e C sono entrambe (ma separatamente) associate allo stesso fattore A. Cioè:
ESEMPIO. Nello schema sottostante è mostrato un esempio una correlazione di questo tipo. L'esempio riguarda l' infestazione da Haemonchus contortus. Questo parassita è un nematode ematofago del bovino, pecora e capra che si localizza nell'abomaso provocando lesioni localizzate alla mucosa (edema, emorragie puntiformi, iperplasia, erosioni ecc.). Esso si nutre di sangue e quindi, quando presente in gran numero, provoca anche anemia. Supponiamo di effettuare uno studio epidemiologico su questa malattia, al fine di dimostrare l'esistenza di associazioni tra le seguenti variabili:
92
· presenza del parassita; · iperplasia della mucosa dell'abomaso; · anemia. Sicuramente riusciremo ad evidenziare l'esistenza di associazioni statisticamente significative tra: · presenza del parassita ed iperplasia della mucosa · presenza del parassita ed anemia · iperplasia della mucosa ed anemia. Di queste associazioni, le prime due sono causali, mentre la terza è un'associazione non causale.
93
Cap. 5. Dalla associazione alla causalità 5.10Esempio di associazioni causali e non causali OBIETTIVO: verificare attraverso un esempio l'esistenza di associazioni non causali L'esempio che ti propongo riguarda la filariosi cardiopolmonare del cane. Questa malattia è provocata da un nematote parassita, Dirofilaria immitis, che viene trasmesso al cane attraverso le punture di zanzara. La zanzara inocula nel cane le microfilarie che, dopo alcuni stadi di sviluppo, si trasformano in parassiti adulti e si localizzano nelle cavità cardiache e nell'arteria polmonare. A questo stadio la filariosi è malattia grave e difficilmente guaribile; la terapia è rischiosa e deve essere effettuata su animali ospedalizzati. La strategia migliore è la prevenzione, che si effettua attraverso la somministrazione periodica (una volta al mese) di un farmaco durante il periodo di attività delle zanzare. È evidente che i proprietari premurosi nei confronti del loro animale effettuano il trattamento preventivo. Ne consegue che i cani con filariosi più frequentemente appartengono a proprietari che poco si curano della salute dei loro animali. Proprio per questo stesso motivo, sarà probabile che i cani con filariosi abbiano anche una una infestazione da pulci. In base a quanto detto finora, attraverso uno studio epidemiologico potresti certamente dimostrare una associazione statistica tra filariosi e infestazione da pulci, e magari su questa base saresti tentato di avanzare ipotesi errate come, ad esempio, che la pulce sia importante nel ciclo biologico della filaria. Invece, l'associazione osservata è di tipo «non causale», come illustrato nello schema sottostante.
94
È bene ripetere che «associazione non è sinonimo di causa». È ovvio che, per dimostrare l'esistenza di un rapporto causa-effetto, non è sufficiente raccogliere ed analizzare dati e dimostrare l'esistenza di una associazione, ma è necessario anche conoscere in maniera approfondita il problema che si affronta. Le regole per dichiarare l'esistenza di una relazione causa-effetto variano in rapporto ai settori di studio. Probabilmente le scienze fisiche sono privilegiate, in quanto consentono di disegnare esperimenti nei quali un singolo componente può essere isolato e studiato. Grandissime difficoltà emergono invece in altri settori, come ad esempio quello della storia: qui, non solo gli esperimenti sono impossibili, ma i dati provengono dal passato e non possono essere facilmente verificati. Secondo alcuni studiosi, un certo numero di affermazioni sorprendenti su cause-effetti nella storia non erano basate su fondamenti di logica e dovevano essere respinte. Fra gli esempi più clamorosi: (1) Non sono mai state dichiarate guerre tra nazioni in cui erano diffusi ristoranti McDonald e (2) Prima della televisione: due guerre mondiali; dopo la televisione, nessuna guerra mondiale.
95
Cap. 5. Dalla associazione alla causalità Associazione e causalità: esempio di confusione causa-effetto OBIETTIVO: per mezzo di un esempio, mostrare come si possa incorrere in un errore grossolano: scambiare la causa per l'effetto.
Talvolta, nello studio delle cause di un fenomeno, può accadere di confondere la causa con l'effetto. In questa Unità ti presento un esempio di questo grossolano errore. Nell'ambito della preparazione della tesi di laurea, supponi di aver ottenuto dati su: • •
frequenza di isolamento di Salmonella dalla lettiera di gruppi di broiler; umidità della lettiera degli stessi gruppi.
La tua «popolazione di interesse» era costituita da tutti gli allevamenti di broiler di una Regione. I dati sono stati raccolti selezionando dalla popolazione di interesse, attraverso un adatto metodo di campionamento (che verrà trattato in una Unità successiva), un totale di 90 campioni di lettiera. Di questi, 19 provenivano da lettiere visibilmente bagnate, ed i rimanenti 71 da lettiere normali. I 90 campioni di lettiera stati sottoposti ad esami di laboratorio allo scopo di accertare la presenza di salmonelle e l'effettivo grado di umidità. La salmonellosi del pollame è una importante malattia sostenuta dal batterio Salmonella enterica. Il ciclo di diffusione di questo agente è molto complesso e prevede un intreccio di passaggi tra animali, ambiente e uomo, tenendo presente che la salmonella viene eliminata nell'ambiente attraverso le feci. La contaminazione degli ambienti e l'infezione degli animali possono diventare persistenti, anche a causa della notevole resistenza del batterio nell'ambiente (molti mesi in assenza di disinfezioni). La lettiera, come avrai modo di imparare durante il corso degli studi, è un elemento di importanza fondamentale nell'allevamento dei broiler. E' costituita da materiali diversi (di solito paglia o trucioli), ed ha lo scopo di isolare i polli dal pavimento, di assorbire l'umidità delle deiezioni, di ridurre il contatto con le deiezioni e, attraverso le sue fermentazioni, di produrre calore e contrastare o inibire lo sviluppo di agenti patogeni. La lettiera deve rimanere sempre asciutta (umidità <50%). Una lettiera bagnata è favorisce la comparsa di malattie diverse, oltre a provocare una riduzione delle prestazioni degli animali. I dati che hai raccolto sono stati tabulati come segue:
96
Come vedi, la frequenza di isolamento di Salmonella dalle lettiere bagnate (47.4%) è risultata superiore a quella da lettiere normali (16.9). Questa differenza è statisticamente significativa (P=0.013, test Chi-quadrato). La tua formazione scientifico-professionale sarà completa solo se conosci il significato e l'interpretazione del valore «P» sopra riportato. Infatti, esso è presentato in moltissimi lavori sperimentali, la cui lettura è necessaria non solo ai fini della preparazione di una tesi di laurea ma anche successivamente, durante l'attività professionale, nell'ottica della «educazione permamente». Se lo ritieni opportuno, puoi «ripassare» il test chi-quadrato e la significatività statistica. A questo punto, potresti essere tentato di concludere (avventatamente) che un eccesso di umidità della lettiera è un determinante della salmonellosi dei broiler. Però, la tua ipotesi di causalità risulterebbe infondata per aver confuso la causa con l'effetto! Infatti, la presenza di salmonellosi può causare una enterite cronica, accompagnata da diarrea. L'emissione di feci liquide provoca sovraccarico della lettiera che non è più in grado di mantenersi al giusto grado di umidità. Pertanto, è l'infezione che causa un aumento dell'umidità, e non viceversa. Esiste un secondo motivo per cui la tua ipotesi di relazione causa-effetto è infondata. Tale motivo riguarda riguarda la mancata verifica di rispondenza ai criteri di causalità (che verranno trattati in Unità successive: postulati di Evans, regole di J. S. Mill, criteri di causalità). Ricordati che la dimostrazione dell'esistenza di un'associazione, anche se statisticamente significativa, è soltanto il primo passo sulla strada della causalità. A questo primo passo deve necessariamente seguirne un altro: l'interpretazione del significato dell'associazione.
97
Cap. 5. Dalla associazione alla causalità 5.12 Associazioni non causali e fattori di confondimento OBIETTIVO: illustrare un altro esempio di associazione non causale verificare l'effetto di un fattore di confondimento (counfounder) sull'interpretazione di un presunto rapporto causa-effetto.
Abbandoniamo per un attimo la scienza veterinaria per illustrare un ipotetico studio epidemiologico eseguito sull'uomo; l'esempio è particolarmente interessante in quanto, oltre ad essere altamente dimostrativo, considera una malattia dell'uomo frequente nei paesi progrediti ( l'infarto miocardico), e due presunti fattori causali legati ad abitudini molto diffuse: l'assunzione di caffè ed il fumo di sigaretta. Immaginiamo che lo studio sia stato eseguito su una popolazione costituita da individui di sesso maschile di età compresa fra 39 e 59 anni. La popolazione è stata così definita in quanto comprende soggetti più "a rischio" per la patologia considerata. Lo scopo dello studio è quello di verificare se il consumo di caffè può essere ritenuto un determinante dell'infarto alle coronarie. Per lo studio è stato reclutato un campione di 2600 persone, di cui 1300 erano forti bevitori di caffè e 1300 invece non consumavano questa bevanda. Definiamo i primi "C+" ed i secondi "C-". Tutte le persone all'inizio dello studio erano in salute. Esse sono state seguite per 8 anni (periodo di "followup"), registrando i casi di infarto avvenuti nei due gruppi. Il disegno dello studio è illustrato nello schema che segue.
98
Come si vedrà in una unità successiva, un disegno dello studio di questo tipo è tipico dei cosiddetti "studi prospettivi", detti anche "studi di coorte". Alla fine dello studio, risulteranno noti i dati rappresentati dai punti interrogativi nello schema precedente. Ovviamente i valori che useremo sono fittizi, e sono stati scelti allo scopo di rendere l'esempio didatticamente più semplice. Tali valori sono riassunti nella Tabella 1, da cui puoi subito notare come nel campione si siano complessivamente verificati, nel periodo considerato, 295 casi di infarto su 2600 individui. Quindi la proporzione di individui colpiti è 295/2600 = 0.113 = 11.3%. In una prossima unità verrà spiegato come questa proporzione rappresenti una delle più importanti misure di frequenza delle malattie. Per ora basta dire che essa è detta "incidenza" e che non è una pura e semplice proporzione, ma un tasso, in quanto prende in considerazione la variabile nel tempo (il periodo di osservazione di 8 anni).
I dati in Tabella 1 dimostrano che l'incidenza nei bevitori di caffè (C+) è nettamente superiore rispetto ai non-bevitori (C-): Incidenza nei C+ = 215/1300 = 0.165 = 16.5% Incidenza nei C- = 80/1300 = 0.061 = 6.1% Per verificare che la suddetta differenza non sia da attribuire al caso, devi sottoporre i dati ad un test statistico. Come già hai appreso in precedenza, il test da utilizzare per confrontare due proporzioni è il test chi-quadrato. Se sul tuo computer è installato MS Excel o un programma compatibile, puoi verificarlo tu stesso trascrivendo gli appropriati valori nelle celle a sfondo verde azzurre del foglio di calcolo . Se non hai installato MS Excel, puoi vedere la schermata che si ottiene). Il valore del chi-quadrato ottenuto è molto elevato (69.7); a ciò corrisponde una probabilità estremamente bassa (P<0.0001) che la differenza fra i due gruppi sia dovuta al caso. Quindi, tale differenza è "statisticamente significativa". Pertanto, puoi concludere che esiste una associazione statistica positiva tra incidenza di infarto e assunzione di caffè (per inciso, ricordati che le associazioni possono essere anche «negative», come quando il fattore provoca una riduzione della frequenza dell'effetto considerato). Nell'esempio che stai esaminando, hai rilevato una associazione "positiva": in parole povere: "più caffè si beve, più probabile è essere colpiti da infarto".
99
A questo punto però può sorgere il dubbio che la differenza osservata non sia dovuta al caffè, ma a qualche altro elemento legato al consumo di caffè e non tenuto in considerazione nello studio. Ad esempio, si può supporre ragionevolmente che i C+ conducano una vita più sregolata e stressante rispetto ai C-, e che siano anche più dediti al vizio del fumo. Già: il fumo di sigaretta è notoriamente un determinante di infarto, e in questo studio esso potrebbe aver rappresentato quello che viene detto un "confondente" (in inglese: confounder) o "fattore di confondimento". Il confondimento è una situazione in cui un fattore (o una combinazione di fattori) diverso da quello in studio è responsabile, almeno in parte, dell'associazione che abbiamo osservato. Quando è presente un fattore di confondimento, i dati grezzi mostrano un quadro sbagliato della correlazione tra causa ed effetto. Vediamo adesso se, nel nostro campione, il fattore «fumo» è associato all'infarto. A questo scopo, attraverso le schede anamnestiche dei 2600 individui studiati, risaliamo allo stato di fumatore-sì (F+) o fumatore-no (F-) di ciascuno. Poi tabuliamo i dati delle due nuove sottopopolazioni (F+ e F-) riguardo all'insorgenza di infarto. Con un linguaggio più propriamente epidemiologico potremmo dire: stratifichiamo la popolazione in base al fattore fumo. Otteniamo i dati della Tabella 2:
L'incidenza negli F+ è molto superiore rispetto all'incidenza negli F- : Incidenza negli F+ = 220/1100 = 0.20 = 20% Incidenza negli F- = 75/1500 = 0.05 = 5%
Anche in questo caso, il test chi-quadrato (ormai puoi eseguirlo da solo!) dimostra che la differenza fra la frequenza di infarto nei fumatori e la frequenza di infarto nei non fumatori è statisticamente significativa (P<0.0001), e quindi non può essere attribuita al caso. A questo punto siamo di fronte ad un dilemma::
Per isolare l'effetto dell'assunzione di caffè da quella del fumo, è necessario approfondire l'analisi, calcolando i tassi di incidenza per ambedue le variabili.
100
Attraverso un supplemento di anamnesi, ci procuriamo i dati necessari per stratificare in base al fattore fumo ed al fattore caffè. In pratica ci serve sapere quanti erano i fumatori e bevitori di caffè, quanti erano i non fumatori e bevitori di caffè ecc. ecc. Con questi dati costruiamo la Tabella 3.
Notare che i dati in Tabella 3 sono conformi a quelli delle tabelle 1 e 2, cosa che può essere facilmente verificata calcolando, ad esempio: il totale dei bevitori di caffè 1085+215 = 1300; il totale dei non-bevitori di caffè 80+1220 = 1300; l'incidenza nei fumatori [(20+200)/1100)]= 0.20; l'incidenza nei bevitori di caffè [(215/1300 = 0.165)]; ecc.. I dati della Tabella 3 forniscono nuove, importanti informazioni. Proviamo a controllare come varia l'incidenza nei C+ e nei C- tenendo fissa la variabile fumo: Nei fumatori: Incidenza in F+C+ = 200/(200+800) = 0.20 Incidenza in F+C- = 20/(20+80) = 0.20 Nei non-fumatori Incidenza in F-C+ = 15/(15+285) = 0.05 Incidenza in F-C- = 60/(60+1140) = 0.05
Verifichiamo ora come varia l'incidenza negli F+ e F- tenendo fissa la variabile caffè: Nei bevitori: Incidenza in C+F+ = 200/(20+800) = 0.20 Incidenza in C+F- = 15/(15+285) = 0.05 Nei non-bevitori Incidenza in C-F+ = 20/(20+80) = 0.20 Incidenza in C-F- = 60/(60+1140) = 0.05 Come vedi, l'associazione fra infarto e consumo di caffè non è reale, ma è mediata dal fumo di sigaretta. La variabile-fumo ha agito come fattore di confondimento perché non era distribuita uniformemente all'interno dei due gruppi C+ e C- (guarda i due sottostanti diagrammi a torta) ed
101
inoltre era in grado di influenzare l'effetto studiato (l'infarto). Se essa fosse stata distribuita uniformemente, l'effetto di confondimento non avrebbe potuto essere evidenziato. In sostanza, l'eccesso di casi di infarto riscontrato nei C+ è dovuto alla più alta proporzione di fumatori in questo stesso gruppo rispetto al gruppo C-.
UNA QUESTIONE DI TERMINOLOGIA. Con la locuzione «indicatore di rischio» si indica soltanto l'esistenza di una associazione statistica, non necessariamente causale. La locuzione «fattore di rischio» è riservata invece a quel fattore che si ritiene sia riconducibile ad una delle cause della malattia. In altre parole, un fattore di rischio può essere assimilato ad un determinante di malattia. Nota che un fattore di rischio non è né una causa necessaria né una causa sufficiente di malattia. Nell'esempio, il fumo è un fattore di rischio mentre il caffè è un indicatore di rischio. L'argomento trattato in questa unità è concettualmente molto vicino a quanto si dirà nell'unità "Standardizzazione delle misure" (Capitolo 10: Misure di frequenza delle malattie). P.S. Nonostante i dati utilizzati in questo esempio siano immaginari, si ritiene che il caffè non incrementi il rischio di infarto cardiaco. È invece provato al di là di ogni ragionevole dubbio che che il fumo di sigaretta è una delle cause più importanti di questa grave malattia. Perciò, sia questo esempio occasione per un utile consiglio: se fumi, smetti!
102
6. L'approccio epidemiologico alle cause di malattia 6.1 Postulati di Henle-Koch OBIETTIVO: porre l'attenzione sugli storici postulati che, alla fine XIX secolo, hanno gettato le basi per una moderna visione della causalità delle malattie
Lo straordinario aumento delle conoscenze sulle malattie infettive sostenute da batteri, avvenuto negli ultimi lustri del 1800, condusse Robert Koch (1843-1910), con il suo maestro Henle, a formulare i postulati diventati poi così famosi. La formalizzazione dei postulati derivava soprattutto dalla grande esperienza che questi due studiosi avevano accumulato nel campo della tubercolosi dell'uomo, una delle più temibili malattie di tutti i tempi, il cui agente (la cui denominazione scientifica è Mycobacterium tuberculosis) è stato poi denominato «bacillo di Koch» proprio in onore e memoria al suo «scopritore». Koch applicò i suoi postulati allo scopo di dimostrare che gli agenti della tubercolosi del carbonchio (una malattia sostenuta dal batterio Bacillus anthracis) erano diversi. I postulati possono essere riassunti in quattro semplici punti:
Lo stesso Koch si rese conto che il suo schema aveva alcune limitazioni. Per esempio, l'agente del colera dell'uomo, Vibrio cholerae, poteva essere isolato sia da individui ammalati che sani, invalidando il punto 2 dei postulati. Ciononostante, i postulati di Henle-Koch hanno contribuito in modo determinante allo sviluppo del concetto di «causa» in medicina. Infatti, fin verso la fine del XIX secolo le posizioni della scienza al riguardo erano molto confuse; si credeva spesso che una data malattia infettiva potesse essere provocata da batteri di diversa specie. In questo panorama
103
incerto, il lavoro di Koch portò ordine nel caos. Sotto alcuni punti di vista, il fondamento dei suoi postulati è valido ancora oggi: ad esempio, la regola secondo la quale un dato microrganismo causa una sola e ben determinata malattia è alla base della dimostrazione (avvenuta nel 1977) che la "malattia dei legionari" è provocata da un batterio o che l'AIDS è provocata da un virus (anni '80). La sagacia del postulati di Henle-Koch risiede nella loro logica semplice: in sostanza, essi richiedono che, prima di dichiarare che «un dato microrganismo causa una data malattia», sia necessario (a) associarlo ad una sindrome clinica, (b) isolarlo in coltura pura, (c) riprodurre la malattia re-inoculandolo in un animale recettivo e (d) reisolare lo stesso agente da quest'ultimo animale (v. schema seguente).
Come già detto, i postulati portavano finalmente ordine in un settore della medicina in cui ancora regnavano largamente empirismo e superstizione. La loro adozione consentì all'epoca di ottenere insperati successi nella prevenzione e nel controllo di numerose malattie batteriche.
Dopo oltre un secolo di progressi della medicina, l'impostazione dei postulati di Koch non può più essere ritenuta valida ed è stata soggetta a profonda revisione critica. In particolare, si può osservare che, ancora oggi, è indiscutibile che un microrganismo che risponde ai postulati è la causa della malattia in questione. Tuttavia, la domanda importante è: questo microrganismo è la sola e completa causa? In effetti, oggi esistono molte malattie infettive che non soddisfano lo schema rigido di Koch, che ignora i fattori ambientali e associa «una sola causa ad una malattia e una sola malattia ad una causa». Il principale limite dei postulati è proprio quello di non considerare la possibilità di una eziologia multipla (una malattia, molte cause - o meglio: «determinanti») né l'eventualità che una stessa causa possa indurre malattie differenti. Recentemente è stato effettuato un tentativo di riformulare i postulati di Koch alla luce delle attuali conoscenze di biologia molecolare, a partire dal principio di base che una sequenza di acido
104
nucleico appartenente ad un ipotetico patogeno (e non più l'agente stesso) dovrebbe essere presente in molti casi della malattia in studio. (Per una trattazione approfondita di questo argomento si rimanda a Fredericks DN, & Relman DA (1996). Sequence-based identification of microbial pathogens: a reconsideration of Koch's postulates. Clinical microbiology reviews, 9 (1), 18-33.
ESEMPIO. Una malattia degli animali emblematica dell'inadeguatezza dei postulati di Koch è la «polmonite enzootica del vitello», malattia respiratoria che colpisce un gran numero di soggetti dell'allevamento ( morbosità fino al 100%) e non raramente ad esito mortale ( mortalità 20%). Questa malattia non è sostenuta da un singolo agente, ma da una triade di fattori: 1) stress correlati alle tecniche ed alle condizioni di allevamento (management); 2) una infezione primaria da parte di un virus; 3) una infezione secondaria da parte di un batterio. Notare che in questo caso il termine infezione «primaria» e «secondaria» è da riferire al tempo (la
105
6. L'approccio epidemiologico alle cause di malattia 6.2 Postulati di Evans OBIETTIVO: prendere visione di una moderna impostazione della causalità delle malattie, così come proposta da Evans nel 1976
I postulati di Evans sono un insieme di 9 o 10 criteri (a seconda dell'interpretazione dei lavori originali dello stesso Evans), ciascuno dei quali contribuisce in una certa misura alla dimostrazione dell'esistenza di un rapporto causa-effetto fra un presunto determinante (o una esposizione) e la comparsa di una malattia. Nello schema sottostante i postulati sono stati riassunti, a scopo didattico, in soli 7 punti.
É da notare come in tutti i postulati venga usato il verbo condizionale; ciò indica che i 7 postulati qui riassunti non rappresentano regole assolute da rispettare tutti insieme e ad ogni costo. Essi devono piuttosto essere considerati come linee-guida dei ragionamenti di causalità nello studio sulle cause di malattia.
106
L'ultimo postulato, non mostrato nello schema, vuole che «All findings should make biological and epidemiological sense». Ciò significa che l'associazione tra l'ipotetico fattore causale e la malattia deve essere biologicamente plausibile. Inoltre, l'epidemiological sense chiama in causa la significatività statistica, concetto già espresso più volte nelle precedenti unità, che implica che lo studio di raffronto debba essere condotto gruppi (o popolazioni) di animali, piuttosto che sul singolo individuo.
Per la versione originale dei postulati, vedi: Evans A.S. (1976) Causation and disease: the HenleKoch postulates revisited. Yale J. Biol.Med., 49, 175-195. Evans A.S. (1978) Causation and disease: a chronological journey. Am. J. Epid., 108:249-58.
107
6. L'approccio epidemiologico alle cause di malattia 6.3 Prove di colpevolezza: criminalità e causalità OBIETTIVO: verificare come le cause di malattia trovino corrispondenza in un ambito ben diverso da quello della medicina!
Nella Tabella soprastante sono elencati, nella parte destra, alcuni principi generali di causalità di malattia che ricalcano largamente i postulati di Evans; questi principi sono stati posti a raffronto, dallo stesso Evans, con i principi generali che muovono un ben diverso settore delle attività umane: il crimine.
108
In particolare, uno dei punti più significativi è il n. 3 che, invocando il ruolo dei «cofattori» (cioè fattori accessori di malattia o determinanti), porta un taglio netto alla vecchia impostazione di Koch. Il punto 5 precisa che il ruolo della presenta causa deve essere «biologicamente credibile»; cioè, il fattore in gioco deve disporsi agevolmente nel mosaico delle conoscenze consolidate riguardo alla malattia. Il punto 6 sembra un piccolo passo indietro rispetto alla concezione della causalità multipla; in effetti, non sono rari gli esempi della possibilità che una stessa malattia venga indotta da cause diverse; tuttavia, la precisazione «nelle date circostanze» chiarisce il concetto: si deve intendere, infatti, che a parità di altri elementi (cioè nella stesso punto della «rete delle cause») solo il fattore in gioco può indurre la malattia in questione. Infine, il punto 7 afferma che la causalità deve essere provata «al di là di ogni ragionevole dubbio». Questa affermazione porta in sé il concetto di probabilità; in altre parole, non è necessario ricercare una prova di causalità matematicamente certa, ma occorre tuttavia che la prova sia provata con un alto grado di probabilità; ciò è possibile soltanto ricorrendo alla statistica.
109
6. L'approccio epidemiologico alle cause di malattia 6.4 Cause di malattia: regole di John Stuart Mill OBIETTIVO: adattare alle cause di malattia i cinque principi generali ( o «canoni») elaborati dal filosofo J.S. Mill
Nell'ambito della sua imponente costruzione di logica deduttiva ed induttiva, J.S. Mill elaborò, attorno alla metà del XIX secolo, una serie di regole su cui basare la dimostrazione della causalità. Nell'opera originale di Mill le regole, dette canoni, sono princìpi di ragionamento induttivo che si applicano agli eventi sperimentali in genere. Essi sono stati estesamente parafrasati, per adattarli specificamente all'«evento-malattia», da Martin e coll. (1987) e sono riportati nello schema sottostante. I canoni hanno resistito ai profondi rivolgimenti delle conoscenze nei più diversi settori della scienza; essi restano attuali nella loro elegante semplicità e rappresentano un monumento virtuale alle straordinarie capacità intuitive e di ragionamento di J. S. Mill.
110
6. L'approccio epidemiologico alle cause di malattia 6.5 Dimostrazione della causalità OBIETTIVO: rafforzare il concetto secondo cui «associazione non è sinonimo di causalità» e apprendere l'esistenza dei «criteri di causalità»
Nelle Unità precedenti abbiamo preso in considerazione alcuni test statistici da utilizzare per verificare l'esistenza di una associazione. Tuttavia, nessun test statistico può dimostrare, di per sé, la prova della causalità di una associazione, ossia la prova dell'esistenza di una relazione causa-effetto fra il fattore studiato e la malattia. Il test statistico è soltanto uno strumento per superare il primo passaggio, ossia quello della dimostrazione dell'esistenza una associazione. Il passaggio successivo consiste nel verificare la causalità della associazione. Il flusso logico è il seguente:
In sostanza, al fine di dimostrare l'esistenza di una occorre
relazione causa-effetto tra due fenomeni,
1. osservare l'esistenza di associazione e convalidare tale osservazione attraverso l'impiego di un test statistico (es. chi-quadrato); 2. escludere la presenza di «errori sistematici» nello studio. Gli errori sistematici sono vizi d'impostazione o di esecuzione di uno studio, che conducono a sovra- o sottostimare la forza di
111 un'associazione. Spesso essi derivano dall'impiego di un cattivo metodo di campionamento, che spinge lo sperimentatore ad esaminare un segmento non rappresentativo della popolazione oggetto dello studio. Quando un'associazione deriva da errori sistematici si dice «spuria»; 3. a questo punto, essendo l'associazione risultata statisticamente valida e priva di errori sistematici, è necessario un ultimo - ed importante - passo prima di arrivare alla dichiarazione dell'esistenza della presunta relazione causa-effetto. Questo passo è rappresentato dalla applicazione dei 5 «criteri di causalità»; 4. infine, se i criteri vengono soddisfatti l'associazione è da ritenere causale; altrimenti è di tipo non causale.
112
6. L'approccio epidemiologico alle cause di malattia 6.6 I cinque criteri di causalità OBIETTIVO: fermare l'attenzione sui criteri di causalità, indispensabili ai fini dell'accertamento di una relazione causa-effetto
Qualsiasi metodo statistico non può costituire, di per sé, la prova che un'associazione tra due fenomeni sia basata su una relazione causa-effetto. Infatti, la prova deve avvenire seguendo una metodica accettata nel mondo scientifico, e cioè verificando la rispondenza a precisi criteri di causalità. Sono già stati descritti i postulati di Henle-Koch, i postulati di Evans, e le regole di J.S. Mill, che possono essere considerati veri e propri criteri di causalità. Però ai fini didattici, credo sia più utile riassumere i criteri di causalità in soli cinque punti facilmente comprensibili. Questi cinque criteri derivano dalla proposta dello statistico inglese Sir Austin Bradford Hill (1965) e da quella del Comitato Consultivo per la Salute Pubblica degli U.S.A. (1964). I cinque criteri, elaborati in un ampio studio riguardante l'effetto del fumo nell'uomo, sono accettati nella comunità scientifica e sono adattabili anche alle malattie degli animali:
113
Consistenza
La consistenza di un'associazione richiede che studi diversi, eseguiti in tempi diversi ed in diverse condizioni sperimentali, evidenzino la stessa associazione. "E questa sperienza si faccia più volte, acciò che qualche accidente non impedissi o falsassi tal prova, che le sperienzia fussi falsa, e ch'ella ingannassi o no il suo speculatore" [Leonardo da Vinci].
Forza
La forza di una associazione è un concetto un po' più complesso. In sintesi, una associazione fra un presunto determinante di malattia e la malattia medesima può essere più o meno «forte». Tale forza può essere quantificata, ossia misurata calcolando, per esempio, il «rischio relativo». Il rischio relativo, che verrà trattato in dettaglio in un'altra unità, viene stimato attraverso il rapporto fra [proporzione di individui colpiti nel gruppo esposto alla presunta causa] e [proporzione di individui colpiti nel gruppo non esposto]. Come vedrai in seguito, quanto più il rischio relativo si discosta dal valore 1, tanto più forte è l'associazione. Inoltre, la forza dell'associazione aumenta se si riesce ad individuare l'esistenza di un effetto dose-effetto (cioè, più intensamente o a lungo agisce la presunta causa, più aumenta il rischio relativo). Anche
l'odds ratio costituisce un sistema per valutare la forza di una associazione.
ESEMPIO. Nell'uomo, la incidenza di cancro al polmone in fumatori è risultata 4-16 volte più elevata rispetto a non-fumatori. Questa osservazione rappresenta una prova molto più forte rispetto a quella fornita da studi nei quali l'incidenza di cancro renale era 1.1-1.6 volte più elevata nei fumatori che nei non-fumatori. Il concetto di «forza» è stato magistralmente reso da Cosmacini e Sironi (2002): "Che cosa distingue, dal punto di vista della concezione scientifica, una malattia del passato, quale potrebbe essere la peste o il colera, da una malattia sociale del presente, quale potrebbe essere il cancro? Uno degli elementi di distinzione concettuale è senza dubbio quello che implica nella prima un criterio di causalità forte, tipica delle malattie infettive, e nella seconda un criterio di causalità debole, tipica delle malattie degenerative. Nelle une la «forza della causa« sta nel fatto che la causa patogena, cioè l'agente infettivo, è seguita «forzatamente» e con immediatezza dall'effetto patologico, cioè dalla malattia; nelle altre la «forza minore», o «debolezza» relativa, sta nel fatto che la causa o le cause patogene sono seguite «probabilisticamente» e a distanza dagli effetti morbosi, con un determinismo eziologico radicalmente mutato. La vecchia idea di causa si trasforma nel nuovo concetto di «fattore di rischio»." Specificità
La specificità misura la costanza con cui una specifica esposizione produce una determinata malattia; ovviamente, più la risposta biologica alla presunta causa è costante, e più è probabile che quest'ultima sia una causa effettiva. Questo criterio è applicabile soprattutto alle malattie infettive, nelle quali - generalmente - l'esposizione ad un particolare agente di malattia provoca la comparsa di quella stessa malattia. È invece difficilmente applicabile a molte malattie cronico-degenerative
114
ove un singolo determinante (es. fumo di sigaretta) può provocare effetti molto diversi (bronchiti, tumori, malattia cardiovascolari ecc.). Temporalità
La temporalità dell'associazione è basata sul semplice ed inoppugnabile principio che ogni causa deve precedere il relativo effetto. Questo criterio sembra così evidente da risultare quasi banale. Devi però considerare che, soprattutto per le malattie croniche, la successione temporale degli eventi può essere difficile da stabilire, anche perché l'inizio dell'«effetto» non sempre è facilmente evidenziabile. Ad esempio: quando «inizia» un tumore? In alcune condizioni è possibile addirittura incorrere nell'errore di assumere che una variabile abbia preceduto temporalmente un'altra variabile quando invece si è verificato l'opposto. ESEMPIO. E' stato notato che, nell'uomo, le persone sovrappeso sono soggette ad un rischio più elevato di morte per cause cardiovascolari rispetto alle persone di peso normale. Quindi, sarebbe logico prevedere che una perdita di peso in individui sovrappeso rappresenti un fattore protettivo. Tuttavia, è stato dimostrato che la mortalità, al contrario, aumenta in coloro che diminuiscono di peso. La contraddittorietà dei dati viene giustificata se si tiene presente che, in molti casi, la perdita di peso è un segno precoce di alcune gravi malattie ad esito letale. Quindi, le condizioni che causeranno la morte possono precedere e causare la perdita di peso, e non viceversa. Coerenza
La coerenza può venire definita anche «plausibilità biologica». Essa richiede che la presunta causa sia verosimilmente inquadrabile nel contesto delle conoscenze sull'argomento e sulla patogenesi. Può essere stabilita, per esempio, su modelli animali o su cellule viventi o su colture d'organo. É da sottolineare che ciò che viene considerato «biologicamente plausibile» dipende dallo stato delle conoscenze mediche in quel momento. Ad esempio, nel XVIII secolo il concetto di «malattia contagiosa» era ritenuto non plausibile. D'altra parte, il meccanismo attraverso cui la agopuntura induce anestesia è poco chiaro e, quindi, per molti scienziati occidentali il fenomeno appare «biologicamente non plausibile». In sostanza, la plausibilità biologica non è da ritenere un criterio indispensabile: se essa è presente, allora la causalità è più probabile; se invece è assente, allora devono essere ricercate altre prove di causalità. Se queste esistono e sono forti, allora la mancanza di plausibilità biologica può derivare dalla pochezza delle conoscenze mediche piuttosto che dall'assenza di associazione causale.
115
6. L'approccio epidemiologico alle cause di malattia 6.6 Studi retrospettivi e studi prospettivi per la dimostrazione di causalità OBIETTIVO: confrontare l'impostazione di studi retrospettivi e prospettivi, e verificarne le differenze.
Nella sequenza delle ricerche sulla eziologia di una malattia, spesso il veterinario clinico effettua osservazioni di eventi che lo inducono a formulare ipotesi. Tali ipotesi, proprio proprio perché derivanti da osservazioni limitate ed avvenute soltanto per caso, vanno verificate in modo obiettivo. Le ipotesi eziologiche basate su osservazioni cliniche sono spesso riassumibili in una semplice ipotesi del tipo:
Le affermazioni di questo tipo vengono verificate, in genere, prima con studi di tipo retrospettivo e successivamente, se questi confermano l'ipotesi, con studi prospettivi (detti anche «studi di coorte»). L'impostazione di entrambi questi studi può essere descritta con una tabella a doppia entrata, detta anche tabella di contingenza perché viene usata per determinare se la distribuzione di una variabile dipende in maniera condizionata (o contingente) dall'altra variabile. Tipicamente, negli studi prospettivi o retrospettivi più semplici, le due variabili tabulate sono rappresentate dalla "esposizione" e dalla "malattia". La tabella di contingenza ha il seguente aspetto:
La tabella è molto semplice, ma ti consiglio di osservarla con attenzione, perché è la chiave per comprendere tutto quello che segue. Nella tabella si possono aggiungere i totali marginali (ossia i
116
totali di riga ed i totali di colonna), ottenendo due modalità di lettura («in verticale» per colonne, oppure in «in orizzontale» per righe), come nei due schemi che seguono.
Torniamo agli studi retrospettivi ed agli studi prospettivi, e vediamo ora qual è l'impianto logico di ciascuno di essi. Studi retrospettivi (o studi caso-controllo) Negli studi retrospettivi, lo sperimentatore inizia raccogliendo i cosiddetti «casi», ossia gli individui che presentano la malattia in studio. Nella tabella i casi sono rappresentati dal totale degli individui (a+c). Viene anche scelto un adatto gruppo di paragone (o di controllo) che comprenderà individui sani (b+d). A questo punto, attraverso una accurata anamnesi su tutti i soggetti in studio, si stabilisce come gli ammalati (a+c) debbano essere assegnati alle celle a e c. Analogamente si stabilisce quanti, fra i controlli, debbano essere assegnati alle celle b e d. La tabella risulta ora completata, e si può impostare l'analisi, confrontando gli odds di esposizione nei casi (a/c) con gli odds di esposizione nei controlli (b/d) (confronto fra colonne) (quest'ultimo passaggio verrà spiegato nelle due Unità sucessive). La struttura di uno studio retrospettivo è riassunta nello schema che segue.
117
118
Come già detto, gli studi retrospettivi sono basati su gruppi costituiti da individui che, già all'inizio dell'esperimento, sono noti come «casi» o «controlli»; per questo gli studi di questo tipo sono detti anche «studi caso/controllo». Uno studio retrospettivo ha il vantaggio di fornire un risultato relativamente rapido, in quanto all'inizio dello studio il tempo necessario all'accadimento degli eventi è già trascorso. Un altro punto a favore degli studi retrospettivi, rispetto a quelli prospettivi, è la applicabilità ad indagini su malattie rare, per le quali i casi possono essere raccolti retrospettivamente anche da ospedali e cliniche veterinarie. È però da notare che, proprio per la loro stessa natura, gli studi retrospettivi forniscono - in linea di massima - risultati meno affidabili rispetto agli studi prospettivi. Si pensi ad esempio alla quota aleatoria connessa con l'accertamento dell'avvenuta esposizione attraverso una anamnesi basata sulla memoria degli addetti alla cura degli animali: si tratta evidentemente di un processo che porta con sé una certa dose di imprecisione. Un altro elemento a sfavore degli studi retrospettivi riguarda l'eventualità che si voglia studiare una malattia di breve durata e ad esito generalmente letale. In questa situazione, il "bias" potrebbe derivare dalla selezione dei casi, i quali sarebbero costituiti dai pochi animali sopravvissuti, certamente non rappresentativi della popolazione dei malati. Si potrebbe addirittura verificare il paradosso di considerare come causa di una malattia un fattore che in realtà è protettivo: proprio quello stesso fattore che ha consentito la sopravvivenza dei casi e che senz'altro risulterà fortemente associato ad essi. Studi prospettivi (o studi di coorte) Uno studio prospettivo inizia selezionando due gruppi, entrambi costituiti da animali sani: un gruppo comprende soggetti che sono stati esposti alla presunta causa (o lo saranno in futuro), e l'altro soggetti che non sono stati esposti (e non lo saranno). Quindi, gli animali vengono seguiti nel tempo e andranno a distribuirsi nelle colonne degli ammalati o dei sani. In questo modo, alla fine dell'esperimento, la tabella risulterà completata con i valori a, b, c, e d. Si prosegue effettuando la analisi dei dati, confrontando la proporzione di malati tra gli esposti [a/(a+b)] con la proporzione di malati tra i non esposti [c/(c+d)] (confronto fra righe).
119
La struttura di uno studio prospettivo è riassunta nello schema che segue.
Lo studio prospettivo (detto anche «di coorte») ha lo svantaggio di richiedere più tempo, in quanto si deve seguire nel tempo la comparsa degli eventi. Inoltre, esso non è applicabile a malattie rare per la difficoltà nel reperimento di un numero di casi sufficiente. Gli studi prospettivi sono superiori a quelli retrospettivi perché meno soggetti ad «errori
120
sistematici», in quanto essi non dipendono da dati raccolti in precedenza magari con modalità poco affidabili. Infatti, il ricercatore è in grado di valutare personalmente la qualità dei dati raccolti, soprattutto per quanto riguarda l'esposizione, cosa che invece è sempre un po' aleatoria negli studi retrospettivi. Un altro punto a favore degli studi prospettivi è che essi possono fornire una stima della incidenza (ossia del numero di nuovi casi che compaiono in un dato tempo) della malattia e possono essere utilizzati per studiare l'effetto di determinanti rari. É forse opportuno ricordare di nuovo che gli errori sistematici sono vizi di impostazione di un esperimento che possono influenzarne i risultati, pregiudicandone l'interpretazione. Le principali fonti di errori sistematici negli studi retrospettivi riguardano l'accertamento della esposizione che, dovendo essere effettuato con una inchiesta anamnestica, è per sua natura impreciso e prono ad interpretazioni soggettive. Anche la selezione dei controlli può essere fonte importante di errori sistematici. Infatti, non è sufficiente scegliere animali sani a caso, ma occorre che essi siano il più possibile simili agli ammalati; inoltre, se i risultati dello studio dovranno essere estesi alla popolazione, i controlli dovranno presentare una distribuzione dell'esposizione simile a quella della popolazione stessa. Infine, nella figura seguente è illustrata schematicamente la differenza fra studi prospettivi e retrospettivi; in particolare, viene evidenziato il diverso momento di inizio dell'osservazione della popolazione in rapporto alla comparsa di malattia.
121
6. L'approccio epidemiologico alle cause di malattia 6.8 Esempio di verifica dell'ipotesi in uno studio retrospettivo OBIETTIVO: consolidare - attraverso un esempio - l'apprendimento dell'impostazione di uno studio retrospettivo
Supponi di aver avuto l'impressione, nella tua pluriennale pratica clinica in un ospedale veterinario, che la presenza di calcolosi urinaria (o urolitiasi) sia più frequente nei cani obesi o sovrappeso rispetto ai cani normali. In base alle tue conoscenze riguardanti la fisiologia ed il metabolismo del cane ed ai meccanismi che conducono alla formazione dei calcoli urinari, hai il sospetto che fra le due condizioni (obesità e malattia) possa esistere una associazione e, forse, anche una relazione di causa-effetto. In sostanza, hai il sospetto che l'obesità possa essere un fattore che predispone alla calcolosi, ossia un determinante di calcolosi nel cane. Ti proponi di verificare la ipotesi dell'esistenza della associazione tra obesità (OB) e calcolosi urinaria (CU) attraverso uno studio retrospettivo.
A questo scopo esamini le cartelle cliniche dei cani visitati negli ultimi 5 anni nell'Ospedale. Nel periodo considerato, il numero di "casi" (ossia cani affetti da calcolosi, CU+) è risultato pari a 1014. Dalle stesse cartelle cliniche, accerti che 383 di questi animali erano obesi (OB+), mentre i restanti 631 erano non-obesi (OB-). Ora procedi a selezionare un campione di cani "di controllo" (CU-) ossia di cani non affetti dalla malattia (il metodo per selezionare un campione verrà spiegato in un prossimo Capitolo). In totale, il campione di cani di controllo è costituito da 1487 animali. In base alle cartelle cliniche, 322 di questi erano OB+ e 1165 OB-. Riassumi i dati in una tabella come quella che segue.
122
Ora ti chiedi: l'obesità è più frequente nei malati o nei non malati? Per rispondere, devi confrontare la proporzione di OB+ nei CU+ con la proporzione di OB+ nei CU-. Attento a non confonderti nel passaggio ora descritto: magari ti era venuta l'idea (sbagliata!) di calcolare la proporzione di CU+ negli OB+, e la proporzione di CU+ negli OB-. Perché questa idea è sbagliata? È semplice: ricordi il disegno del tuo studio retrospettivo? Hai selezionato un campione di CU+ ed uno di CU-, ed è su questi campioni che devi effettuare i tuoi calcoli! Se ti è poco chiaro, ti consiglio di rileggere l' Unità precedente. Ora procedi a calcolare la proporzione di OB+ nei CU+ e la proporzione di OB+ nei CU-:
La proporzione di obesi nei malati è superiore rispetto ai non malati. Tuttavia, come hai giá imparato, questa differenza potrebbe essere dovuta al caso. Per ora, devi accettare l'ipotesi zero, secondo cui la differenza osservata è dovuta al caso. Naturalmente, l'ipotesi zero può essere vera o falsa. Come puoi sapere se, in base ai tuoi dati, l'ipotesi zero è da accettare o da rifiutare? La risposta è facile: devi applicare un test statistico! Un test statistico adatto al confronto di due proporzioni o di due percentuali è il test del chiquadrato, già visto nei dettagli in una Unità precedente. Il calcolo manuale è il seguente:
123
Applicando il test ai tuoi dati, ottieni un valore di chi-quadrato di 76.6 Il tuo valore ha con 1 grado di libertà, essendo stato ottenuto per confronto di due proporzioni. Esso è superiore rispetto a quello tabulato nella Tabella dei valori di chi-quadrato (una parte di essa è riprodotta qui a sinistra) sia con probabilità 5% (valore tabulato: 3.841) che con probabilità 1% (valore tabulato: 6.635). Quindi, puoi affermare che la differenza fra la proporzione di obesi nei gruppi CU+ e CU- è statisticamente significativa ad un livello di probabilità 1% o inferiore. Un modo di esprimersi analogo è il seguente: la differenza fra i gruppi CU+ e CU-, riguardo al fattore «obesità», è statisticamente significativa per P<0.01 (dove P sta per probabilità). Pertanto, l'ipotesi zero può essere tranquillamente rifiutata, in quanto hai il 99% di probabilità che la differenza osservata tra i gruppi CU+ e CU- non sia dovuta al caso. Lo stesso concetto può essere espresso come segue: è stata osservata una associazione calcolosiobesità di entità tale che, immaginando di ripetere per 100 volte uno studio analogo a questo (ma su altri animali), per 99 volte osserveremo differenze pari o superiori a quelle osservate in questo esperimento. Invece di fare i calcoli a mano, puoi inserire i tuoi dati nel Foglio di calcolo (se non hai installato Excel, puoi vedere qui la schermata che si ottiene). Il foglio ti restituisce direttamente il valore P, e quindi il confronto con i valori di chi-quadrato tabulati è inutile. Il valore P è 0.0000. Ciò dovuto al fatto che vengono mostrati soltanto 4 decimali, che sono più che sufficienti per trarre la conclusione riguardo alla significatività statistica. Per curiosità il valore P ottenuto con i tuoi dati è 0.0000000000000000021. Due ultime annotazioni prima di concludere questa unità didattica. (1) Quanto hai ottenuto finora nella presen te simulazione non rappresenta ancora la dimostrazione dell'esistenza di una relazione causa-effetto fra obesità e calcolosi, ma è il primo ed indispensabile passo in questa direzione. La dimostrazione della relazione causa-effetto si ottiene con la verifica dei criteri di causalità (già visti in precedenza). (2) Con i dati ottenuti, opportunamente tabulati nella tabella 2x2, puoi calcolare il valore dell'odds ratio. L'odds ratio è fondamentale per l'interpretazione dei risultati di uno studio retrospettivo (come quello di cui stiamo parlando). L'odds ratio rappresenta una misura della forza di una associazione, e viene trattato più dettagliatamente nella prossima unità didattica. Dati tratti da: Lekcharoensuk C. e coll. (2000) Patient and environmental factors associated with calcium oxalate urolithiasis in dogs. JAVMA, 217, 515-519 ed utilizzati con il consenso degli Autori. È stato dimostrato che l'obesità aumenta il rischio di urolitiasi anche nel gatto e nella specie umana. Per giustificare l'esistenza della associazione tra obesità e urolitiasi, è stato ipotizzato che il cane obeso ingerisca con la dieta un eccesso di minerali capaci di favorire la formazione di calcoli (nel caso dei calcoli di ossalato di calcio, i minerali importanti sono il calcio e l'acido ossalico). Tali minerali vengono eliminati primariamente per via renale, e quindi la loro concentrazione nelle urine aumenta. Ciò favorisce la precipitazione (ri-cristallizzazione) dei minerali nelle vie urinarie e quindi la formazione di calcoli.
124
6. L'approccio epidemiologico alle cause di malattia 6.9 Misura del rischio: odds ratio e rischio relativo OBIETTIVO: apprendere il significato e l'utilizzo di alcuni rapporti comunemente utilizzati per misurare la forza di una associazione.
La misura (o quantificazione) di una associazione rappresenta uno fra i passi più importanti da compiere nell'indagine sulle cause delle malattie oppure nella valutazione degli effetti di un trattamento terapeutico o di una azione di prevenzione od ancora, più in generale, nell'investigazione su un qualsiasi rapporto causa-effetto. Questo aspetto è già stato trattato in una precedente unità. Inoltre, nell'intero capitolo precedente («Dalla associazione alla causalità») sono state illustrate le basi razionali e qualche metodo per valutare la significatività statistica di una associazione. Ora è venuto il momento di prendere in considerazione un paio di sistemi utili per quantificare una associazione. Parlando in generale, nel procedimento di valutazione dell'esistenza di una associazione sono in gioco due variabili: 1. la presunta causa o esposizione (variabile indipendente) 2. l'effetto (variabile dipendente, così detta in quanto appunto subordinata alla variabile indipendente). In genere l'effetto è rappresentato dalla comparsa della malattia.
Come già visto, l'esistenza di una associazione può essere accertata attraverso studi retrospettivi (o studi caso-controllo) o studi prospettivi (o studi di coorte). Negli studi retrospettivi si confronta la frequenza di esposizione nei malati («casi») con quella nei non-malati ((«controlli»). Negli studi prospettivi si confronta la frequenza di malattia negli esposti con quella nei non-esposti:
125
Il termine "esposto" viene usato per motivi storici e talvolta impropriamente: infatti, la variabile indipendente può essere anche un fattore interno all'ospite, ed in tal caso non avrebbe senso parlare di "esposizione". Allora, vale la pena di chiarire che, nel linguaggio epidemiologico per "esposizione" si intende la presenza di qualsiasi variabile che, in linea di ipotesi, può causare un certo effetto. Esposizione = presenza di un fattore che può (ipoteticamente) causare un certo effetto Ora vediamo come si fa a quantificare l'associazione eventualmente riscontrata, ossia a quantificare il rischio cui sono soggetti gli animali esposti. Il procedimento è diverso a seconda che si tratti di uno studio retrospettivo oppure di uno studio prospettivo. Se lo studio è retrospettivo si calcola l'odds ratio, se lo studio è prospettivo si calcola il rischio relativo.
Studio retrospettivo: l'odds ratio Proseguiamo l'esempio dell'unità precedente riguardante l'associazione fra obesità e urolitiasi del cane, ricordando che in uno studio retrospettivo si inizia selezionando i casi e i controlli e poi andando ad accertare quanti fra i casi (e quanti fra i controlli) sono stati esposti alla presunta causa. Lo studio ha fornito i seguenti risultati:
Il metodo da utilizzare per la misurazione dell'associazione in uno studio retrospettivo è il calcolo del cosiddetto «odds ratio (OR)» o «rapporto degli odd» o «rapporto incrociato».
126
Per comprendere questa misura, occorre introdurre il concetto di "odds" (termine che non ha un corrispondente in italiano; può essere reso con "probabilità a favore"). Gli odds sono rappresentati dal il rapporto fra il numero di volte in cui l'evento si verifica (o si è verificato) ed il numero di volte in cui l'evento non si verifica ( o si è verificato). Gli odds si utilizzano nel mondo delle scommesse, perché consentono allo scommettitore di calcolare facilmente la somma da incassare in caso di vittoria. Ad esempio, la vittoria della nazionale italiana di calcio nella semifinale ItaliaFrancia ai mondiali del 1998 era data dai bookmakers a 4:1 "a sfavore". Questo equivale a dire che, su una scala da 1 a 5, le probabilità di sconfitta (p) dell'Italia erano considerate 4 volte più alte di quelle di una sua vittoria (1-p), e quindi la vittoria dell'Italia sarebbe stata pagata 4 volte la cifra scommessa [per i curiosi: vinse la Francia 4-3 ai rigori]. Ovviamente, gli odds si possono trasformare in probabilità: secondo i bookmakers, l'Italia aveva 1 probabilità su 5 (p=0.2) di vincere e 4 probabilità su 5 di perdere (p=0.8). Nota che (p di perdere) = (1-p di vincere) e viceversa. L'"odds ratio" si calcola attraverso i semplici rapporti (odds) fra le frequenze osservate e non attraverso le proporzioni. Nel nostro esempio sulla urolitiasi del cane, calcoliamo gli odds (ricordati: odds = p a favore / p contro) di esposizione nel gruppo dei casi e gli odds di esposizione nel gruppo dei controlli, e poi ne facciamo il rapporto.
Notare che si utilizzano i semplici rapporti tra le frequenze osservate (a/c, b/d) e non le proporzioni (a/a+c e b/b+d). Notare anche che, applicando le proprietà delle frazioni, l'odds ratio può venire più facilmente calcolato attraverso i prodotti delle celle incrociate della tabella (a*d e b*c); perciò viene anche detto, in italiano, "rapporto incrociato". Ritorniamo all'esempio dell'obesità-urolitiasi e calcoliamo l'odds ratio (per tua comodità, i dati dello studio sono riprodotti nella tabella qui sotto).
127
In termini matematici, non è importante se l'OR viene calcolato come (a/c)/(b/d) oppure come (a/b)/(c/d), perché in entrambi i casi si ottiene lo stesso rapporto incrociato: ad/bc. Tuttavia, in termini razionali non ha senso usare la seconda formula. Infatti in uno studio retrospettivo, il rapporto a/b (così come il rapporto c/d), non dipende dalla malattia né dall'esposizione, ma bensì soltanto dallo sperimentatore stesso che ha avuto libertà di reclutare un numero di casi e di controlli a suo piacimento. A questo punto, sorge la domanda: qual è il significato del valore ottenuto? Ossia: come si interpreta l'OR? poiché l'interpretazione è identica a quella del rischio relativo, è necessario pazientare un poco... la risposta verrà data nella parte finale di questa stessa unità. Studio prospettivo: il rischio relativo Diversamente da uno studio retrospettivo, uno studio prospettivo inizia suddividendo la popolazione in esposti e non esposti e poi osservando nel tempo quanti fra gli esposti (e quanti fra i non-esposti) si ammalano. Supponiamo di intraprendere un nuovo studio per verificare se esiste una associazione fra allevamento dei vitelli in ricoveri chiusi (esposizione, o variabile indipendente) e la comparsa di polmonite (variabile dipendente). A questo scopo effettuiamo uno studio prospettivo, seguendo nel tempo gruppi di vitelli allevati al chiuso oppure all'aperto e contando i casi di polmonite che si verificano nei due gruppi. Alla fine dello studio i risultati ottenuti [dati fittizi] vengono tabulati nella «solita» tabella di contingenza:
128
Questa volta si tratta di uno studio prospettivo, e quindi si può calcolare il «rischio relativo (RR)», denominato in inglese «risk ratio» ossia rapporto fra i rischi. Infatti, il rischio relativo è il rapporto fra il rischio nel gruppo degli esposti e il rischio nel gruppo dei non esposti. Forse è più efficace e più precisa la seguente definizione: il rischio relativo è il rapporto tra l'incidenza negli esposti e l'incidenza nei non esposti (dove «incidenza» significa proporzione di nuovi casi; l'incidenza ed altre misure di frequenza verranno trattate successivamente). In base a quest'ultima definizione si comprende perché il rischio relativo viene detto anche rapporto di incidenza. Pertanto il calcolo del RR si sviluppa come segue:
Utilizzando i dati dello studio sulla polmonite dei vitelli (riprodotti nella tabella qui sotto), abbiamo:
129
Interpretazione dell'odds ratio e del rischio relativo L'interpretazione è identica sia che si tratti di valori di OR che di valori di RR. Dapprima occorre sottolineare entrambi possono assumere valori teorici compresi fra 0 e +infinito. È intuitivo che un valore =1 indica assenza di associazione tra malattia ed esposizione, in quanto testimonia che: •
per il rischio relativo: l'incidenza negli esposti è uguale all'incidenza nei non esposti;
oppure •
per l'odds ratio: l'odds di esposizione nei casi è uguale all'odds di esposizione nei controlli.
Un valore <1 indica una associazione negativa (cioè il fattore può proteggere dalla malattia) mentre un rapporto >1 indica l'esistenza di una associazione positiva (il fattore può causare la malattia). Più i valori si discostano da 1, in un senso o nell'altro, più l'associazione è forte. Ricordati però che, prima di dichiarare l'esistenza di un rapporto causa-effetto tra l'esposizione e la malattia, devi eseguire un test di significatività statistica (per escludere che la differenza sia dovuta al caso) e poi devi verificare i criteri di causalità. A rigore, l'odds ratio non è una autentica misura del rischio in quanto si riferisce alla probabilità di avere già una malattia, mentre nel termine "rischio" è implicita l'idea di un evento che si verificherà in futuro. Tuttavia, se si suppone che la durata media della malattia negli esposti sia simile a quella nei non-esposti (e che la malattia non influenzi lo stato di esposizione), allora l'odds ratio rappresenta una buona misura del rischio relativo. In sintesi, l'interpretazione dell'odds ratio o del rischio relativo viene effettuata in base allo schema che segue:
130
In base al suddetto schema di interpretazione, l'associazione obesità-urolitiasi del cane (OR=2.19) dell'esempio precedente è da classificare poco più che modesta. L'associazione fra allevamento al chiuso dei vitelli e polmonite (RR=3.93) è da ritenere discreta. Rischio attribuibile Un altro importante indice di una associazione, da utilizzare negli studi prospettivi, è il rischio attribuibile (RA), che indica la quantità di rischio supplementare da ascrivere al fattore considerato. Esso corrisponde alla differenza fra (incidenza negli esposti) e (incidenza nei non esposti); pertanto, rappresenta la quota di malati tra gli esposti che potrebbe essere evitata se venisse completamente rimosso il fattore di rischio in esame. Nell'esempio dei vitelli con polmonite, RA=0.38. Ciò indica che rimuovendo il fattore "cattiva ventilazione" ci si aspetta di osservare una diminuzione del 38% dell'incidenza della malattia (ammesso che tale fattore sia l'unico responsabile della polmonite).
Attenzione a non confondere il rischio relativo con il rischio attribuibile. Le due misure hanno scopi diversi. Infatti, il RR costituisce misura della forza della associazione tra il fattore di malattia e la malattia medesima, ed è un indice utilissimo sulla strada della dimostrazione che il fattore è causa della malattia. Il RA rappresenta invece una misura dell'impatto che il fattore in esame ha sulla popolazione in studio. Foglio di calcolo per Microsoft Excel® per il calcolo dell'odds ratio e del rischio relativo.
131
6. L'approccio epidemiologico alle cause di malattia 6.10 Dimostrazione dell'esistenza di una correlazione dose-effetto: la regressione lineare OBIETTIVO: apprendere come verificare l'esistenza di una correlazione fra due variabili; in particolare, apprendere la base del procedimento logico, ed un metodo statistico idoneo.
Finora, nello studio delle cause di malattia e del rischio, abbiamo preso in considerazione esempi con dati qualitativi. Infatti, abbiamo classificato gli animali in 4 categorie in base alla qualità del loro stato (ossia: malati/non malati) ed in base alla qualità dell'esposizione ad una presunta causa di malattia (ossia: esposti/non esposti), secondo una tabella 2x2 che ormai dovrebbe essere ben nota (v. a lato). Forse è utile ripetere che le 4 categorie sono rappresentate da animali (a) esposti e ammalati; (b) esposti e non ammalati; (c) non esposti e ammalati; (d) non esposti e non ammalati. Un caso diverso: dati quantitativi In molti casi, un tale approccio strettamente "qualitativo" rappresenta una limitazione dei dati ottenibili in studi epidemiologici sulle cause di malattia. Basti pensare che, in molti casi, la classificazione di un animale nella categoria "esposti" o in quella "non esposti" è in larga misura arbitraria e rappresenta, in una certa misura, una forzatura della realtà. Ad esempio, animali che hanno avuto un'unica, lieve e transitoria esposizione ad una presunta causa potrebbero essere (indebitamente?) classificati come "esposti" ed essere assimilati ad altri animali che, invece, hanno subìto una esposizione intensa e prolungata nel tempo. Insomma: spesso l'esposizione non è un fenomeno tutto-o-niente, ma avviene secondo un gradiente misurabile. Anche la classificazione nelle due classi "malati" e "non malati" talvolta non è soddisfacente, in quanto la stessa malattia può manifestarsi con gravità molto variabile e con segni clinici misurabili e rappresentabili numericamente. Per riassumere: ci sono casi in cui sia l'esposizione che la malattia si misurano quantitativamente, e tali misure sono esprimibili attraverso numeri. ESEMPIO. Una partita di mangime è contaminata da un fungo che produce una potente tossina (micotossina) che provoca emolisi (distruzione dei globuli rossi), e quindi anemia. L'intensità della esposizione potrebbe essere misurata attraverso la dose di micotossina ingerita/giorno; la gravità della malattia essere misurata potrebbe essere misurata attraverso il conteggio degli eritrociti nel sangue.
132
Ecco quindi sorgere la necessità di disporre di altri metodi di studio, diversi dalla "solita" tabella 2 x 2, per verificare l'esistenza di un rapporto causa-effetto quando i dati sono quantitativi. Per rafforzare quanto finora esposto, ti ricordo che - sempre riguardo alla dimostrazione della causalità - hai già imparato un principio generale abbastanza intuitivo: "se fra fattore ed una malattia si individua una correlazione dose-effetto, allora quel fattore può essere una delle cause della malattia" ( regole di John Stuart Mill). Infatti, è ragionevole pensare che quanto più intensa è la causa, tanto più grave (o frequente) sarà la malattia. Analogamente, uno dei cinque criteri di causalità afferma che la forza di una associazione aumenta se si dimostra l'esistenza di una correlazione dose-effetto. È evidente che quando si parla di «correlazione dose-effetto« si parla di dati quantitativi, per i quali è necessario un approccio diverso da quello che hai imparato finora. In questa Unità, attraverso un esempio, esaminerai uno dei metodi più usati come per studiare e descrivere una relazione quantitativa tra due variabili: la regressione lineare. La regressione lineare serve per descrivere la relazione tra due variabili quantitative Esempio. Effetto collaterale di un farmaco Supponiamo di sospettare che, fra gli effetti indesiderati di un certo farmaco, si annoveri quello di innalzare la pressione arteriosa. Verifichiamo questa ipotesi attraverso un esperimento: somministriamo dosi crescenti del farmaco ad alcuni ratti da esperimento, e misuriamo la variazione della pressione diastolica che si verifica dopo la somministrazione. In dettaglio, vengono utilizzati 16 ratti, suddivisi in 8 gruppi di 2 animali ciascuno. Il primo gruppo è di controllo e non viene trattato; al secondo gruppo il farmaco viene somministrato in dose di 1 mg/kg, al terzo gruppo in dose di 2 mg/kg e così via. I risultati sono riassunti nella seguente tabella.
Osserva bene i dati della tabella: anche "a occhio" si nota che la variabile dipendente (ossia l'effetto: innalzamento della pressione) è correlata alla variabile indipendente (ossia la presunta causa: il farmaco). In altre parole: l'entità dell'aumento della pressione sembra essere associata alla dose. Esiste un modo per visualizzare graficamente l'andamento del fenomeno: basta utilizzare i dati delle due variabili per costruire un diagramma a nuvola di punti (detto anche diagramma a dispersione, o diagramma xy; in inglese: scatterplot): in un sistema di assi cartesiani si pone: asse x=variabile indipendente e asse y=variabile dipendente. Con i dati dell'esempio, sull'asse x poniamo il farmaco e sull'asse y la variazione della pressione, ottenendo il seguente diagramma:
133
Per interpretare un diagramma a dispersione occorre valutarne l'aspetto globale, che rivela (1) la direzione, (2) la forma e (3) la forza della relazione che lega le due variabili. Vediamo brevemente queste tre caratteristiche. DIREZIONE. L'aspetto del Diagramma 1 dimostra l'esistenza di una associazione positiva. Infatti, due variabili (ti ricordo che nell'esempio le variabili sono: x= la dose del farmaco, y= l'aumento della pressione) si dicono associate positivamente quando i valori alti di una variabile tendono a presentarsi insieme ai valori alti dell'altra variabile, ed analogamente i valori bassi dell'una tendono a presentarsi insieme ai valori bassi dell'altra. Viceversa, due variabili sono associate negativamente quando ai valori alti dell'una tendono ad associarsi valori bassi dell'altra variabile. Nei casi in cui le variabili non sono associate, la direzione non può essere individuata.
FORMA. La forma viene desunta dalla disposizione dei punti nel diagramma. Parleremo soltanto della regressione lineare, ossia del caso in cui i punti si dispongono approssimativamente su una linea retta. Esistono anche altri tipi di relazioni, non lineari e quindi più complesse, ma le relazioni lineari sono particolarmente importanti per un buon motivo: la linea retta è quella su cui tende a disporsi molto frequentemente il "pattern" dei punti ottenuti in molti studi biologici.
134
FORZA. La forza si può desumere dal grado di disseminazione dei punti nel diagramma. Se i punti sono molto disseminati, (ma sempre con tendenza a disporsi su una retta), la relazione tra le due variabili è debole; se invece i punti sono raggruppati attorno ad una retta, allora la relazione è forte. Anche l'inclinazione della retta è importante: tanto più la retta è inclinata, quanto più la relazione è forte.
Esiste un metodo per formalizzare direzione, forma e forza di una relazione lineare fra due variabili. Questo metodo viene trattato nella prossima Unità.
135
6. L'approccio epidemiologico alle cause di malattia 6.11 Il coefficiente di correlazione e la retta di regressione OBIETTIVO: apprendere come quantificare la correlazione fra due variabili qualitative attraverso il coefficiente di regressione r apprendere il metodo di costruzione della retta di regressione apprendere il significato dell'equazione della retta e la sua interpretazione
Nella Unità precedente hai appreso i principi di base sulla regressione. In particolare, hai imparato a desumere, osservando "a occhio" un diagramma a nuvola di punti, tre caratteristiche importanti che legano due variabili: direzione, forma e forza. Tuttavia, l'occhio umano non è uno strumento adatto per misurare con precisione, osservando la nuvola di punti, direzione, forma e forza di una relazione lineare. Abbiamo bisogno di una strategia di analisi dei dati oggettiva, svincolata dal giudizio personale dell'osservatore e possibilmente che ci fornisca una misura numerica. Questa misura è detta correlazione, e contiene informazioni sulla forza e sulla direzione di una relazione lineare tra due variabili. Per quanto riguarda la forma, esistono senz'altro metodi adatti, che però sono troppo complessi per venire trattati qui. La correlazione Per indicare la correlazione si usa di solito la lettera "r". r viene detto "coefficiente di correlazione" e si calcola con l'aiuto di un software statistico.
136
A rigore, il coefficiente di correlazione non dovrebbe essere utilizzato per due variabili legate da una relazione causa-effetto; esso infatti descrive una semplice relazione tra due variabili. Commettiamo una piccola inesattezza in omaggio alla semplificazione. Nel caso della regressione, il coefficiente di correlazione viene talvolta detto coefficiente di regressione. Il coefficiente di correlazione r può assumere valori compresi fra -1 e 1. I valori positivi indicano l'esistenza di una correlazione lineare positiva; i valori negativi indicano una correlazione negativa; il valore 0 indica assenza di correlazione.
Non possono essere date regole fisse per l'interpretazione del coefficiente di correlazione, che dipende da una serie di considerazioni. Possiamo dire che in genere, nel settore biomedico ed in epidemiologia, vengono considerati "buoni" valori attorno a 0.7 (nel caso di una correlazione positiva) oppure a -0.7 (per una correlazione negativa). Il coefficiente di correlazione ed il coefficiente di determinazione Torniamo all'esempio dei ratti trattati con un farmaco nell'unità precedente. Per tua comodità, nella figura sottostante sono riportati i dati ottenuti ed il grafico a dispersione:
137
Immettendo i dati ottenuti in un apposito software (va bene anche Excel), puoi calcolare il valore r, che risulta pari a di 0.862:
Il valore r è >0, e quindi la correlazione è positiva; inoltre, il coefficiente assume un valore abbastanza alto, e ciò dimostra che la correlazione è buona. In altri termini, le due variabili vanno di pari passo, nel senso che quando aumenta il valore dell'una aumenta generalmente (e proporzionalmente) anche il valore dell'altra. Ciò significa che dal valore della variabile indipendente può essere approssimativamente desunto quello della variabile dipendente. Una volta ottenuto r, possiamo calcolare r2 (r-quadrato), semplicemente elevando r al quadrato. r2 viene detto anche coefficiente di determinazione ed è un indice ricco di significato, in quanto esprime la variabilità nella variabile dipendente spiegata dalla variabile indipendente. In parole più semplici, r2 rappresenta la variazione nei valori di y che può essere giustificata dalla variazione di x.
Nel nostro caso, r2 è pari a 0.743.
Perciò, ammettendo che il farmaco sia causalmente legato alla variazione di pressione (ossia, più in generale, ammettendo che x sia causalmente legato a y), allora il 75% circa di tale variazione è giustificata dall'effetto del farmaco. Ricorda che il coefficiente di correlazione r descrive soltanto l'esistenza di una correlazione, ma non dimostra nulla riguardo alla causalità di tale associazione. Lo stesso dicasi per r2. Per dimostrare la
138
causalità dovranno essere sviluppati altri ragionamenti, come ad esempio quelli connessi alla applicazione dei criteri di causalità. La retta di regressione Hai già imparato che la regressione lineare si usa quando le variabili in studio hanno fra loro una relazione lineare, e quindi i punti del diagramma a dispersione tendono a disporsi secondo una linea retta. Hai anche utilizzato l'occhio come strumento per individuare (appunto "ad occhio e croce") la retta corrispondente. Tuttavia, come già detto, l'occhio non è un buono strumento a questo scopo; entrano in gioco fattori soggettivi, e a partire dallo stesso diagramma ciascuno di noi potrebbe individuare rette diverse rappresentative della nuvola di punti. Ad esempio, nel diagramma a sinistra, qual è la retta "giusta"?. Potremmo litigare a lungo senza venirne a capo. Ecco quindi che serve un sistema obiettivo e ben codificato che consenta di tracciare la retta che meglio rappresenta l'andamento della nuvola di punti. Essenzialmente, il principio su cui si basa l'individuazione della retta di regressione è molto semplice. Infatti, è ragionevole pensare che la retta migliore è quella che ha distanza minore, sull'asse delle ordinate, da tutti i punti del diagramma. Costruiamo, per ogni punto, un quadrato che ha come lato la distanza verticale (ordinata) del punto dalla retta (v. figura a destra). Ripetiamo il procedimento per ogni punto del diagramma e sommiano le aree di tutti i quadrati. La retta che meglio rappresenta la nuvola di punti è quella che fa registrare la minor superficie dei quadrati. Per questo motivo, il metodo ora descritto si chiama "metodo dei minimi quadrati". Ovviamente questo procedimento non si fa più "a mano", ma si ricorre all'aiuto del calcolatore. Infine, una volta trovata la retta di regressione, si può trovare l'equazione della retta medesima. Dai ricordi delle scuole superiori, sai che l'equazione di una retta ha la forma:
dove x e y sono le due variabili da correlare.
139
Anche in questo caso, per ricavare l'equazione partendo dai dati sperimentali si ricorre al calcolatore, che con i dati del nostro esempio genera la seguente: y= 1.13 + 1.63x
L'equazione rappresenta un sistema semplice e molto elegante per descrivere il fenomeno che hai osservato; inoltre, rappresenta anche uno strumento per fare previsioni. Ad esempio, potresti domandarti quale sarà l'incremento di pressione somministrando 5.5 mg del farmaco. Basta sostituire, nell'equazione, il valore x con 5.5. Ottieni: y= 1.13 +(1.63 * 5.5) = 10.1
Usare cautela nel prevedere valori al di fuori del range dei dati sperimentali della variabile indipendente. Nel tuo caso il range va da 0 a 7 mg, ma potresti essere tentato di utilizzare l'equazione della retta per prevedere che, ad esempio, 30 mg del farmaco provocano un aumento di pressione di 50 mm Hg... Un tale utilizzo della retta può condurre a conclusioni poco affidabili e quindi è da evitare. Lo schema che segue riassume tutti risultati che hai trovato a partire dai dati dell'esempio dell'Unità precedente:
Puoi dedurre che: • •
esiste una correlazione fra la dose del farmaco e l'innalzamento della pressione diastolica; la correlazione è positiva (ad un aumento del farmaco corrisponde un aumento della pressione) come dimostrato dal fatto che il coefficiente di correlazione r è >0;
140 •
• •
la correlazione è abbastanza forte, come dimostrato (a) dal valore piuttosto elevato (0.862) raggiunto da r e (b) dal valore piuttosto elevato (1.63) del parametro che determina la pendenza della retta; il 74% circa dell'innalzamento della pressione può essere spiegato dal farmaco; in assenza del farmaco, la variazione di pressione è prossima a zero, come dimostrato dal valore dell'intercetta.
L'esperimento che abbiamo simulato nell'esempio è stato effettuato in laboratorio e quindi in condizioni rigorosamente controllate, nel senso che non sono intervenute variabili estranee. Ad esempio, sia i ratti di controllo (quelli che non hanno ricevuto il farmaco) che tutti gli altri erano uguali per sesso, età peso ecc.; l'alimentazione era la stessa; le condizioni di allevamento erano identiche ecc. Con i dati raccolti possiamo quindi concludere con ragionevole certezza che "il farmaco provoca un aumento della pressione diastolica nel ratto, e questo aumento è correlato alla dose". In altre situazioni, sarebbe stato opportuno, prima di concludere per un rapporto dose-effetto, controllare la presenza di eventuali fattori di confondimento e poi verificare i criteri di causalità. Foglio di calcolo per Microsoft Excel® per calcolare il coefficiente di correlazione e l'equazione della retta.
141
7. Variabilità biologica: concetti minimi 7.1 Variabilità biologica e distribuzione di frequenze OBIETTIVO: definire la variabilità biologica; utilizzare la distribuzione delle frequenze e la distribuzione cumulativa delle frequenze per riassumere i dati di misure biologiche; confrontare l'esposizione dei dati in forma tabulare e in forma grafica.
Tutti i dati che derivano da osservazioni sperimentali e le misurazioni di qualsiasi grandezza fisica comportano delle variazioni. Inoltre, poiché la variabilità individuale è una proprietà intrinseca di tutti gli esseri viventi, le misure biologiche, più delle misure di altre grandezze fisiche, sono soggette a inevitabili variazioni. Queste variazioni, oltre a derivare dall'imprecisione dello strumento di misura di volta in volta utilizzato, sono dovute alla diversità del parametro considerato fra individui ed anche, nell'ambito dello stesso individuo, da un'occasione all'altra, da un osservatore all'altro ecc. Tutti sanno che i valori della pressione arteriosa che cambiano da una persona all'altra e, nella stessa persona, cambiano nel tempo a seconda dello stato emozionale ecc. I motivi che rendono ogni individuo diverso da ogni altro sono praticamente infiniti. La genetica, l'età il sesso, le condizioni di vita o di allevamento, l'alimentazione, il clima e un'infinità di altre variabili esercitano tutte sull'individuo un effetto grande o piccolo. Ovviamente, alcune di queste variabili sono più importanti di altre; tuttavia, è sempre la somma degli effetti di molte cause diverse che rende ogni individuo diverso dall'altro. L'insieme di tutte queste variabili (o fattori o cause) che interferiscono imprevedibilmente su un fenomeno prende il nome di «caso». Per i motivi ora esposti, la valutazione dei dati biologici necessita di tecniche statistiche utili ad ovviare agli inconvenienti che potrebbero derivare dalla variabilità dei dati stessi. Prima di esaminare i principi di base di alcune tecniche statistiche di comune impiego, è utile una breve introduzione sulle modalità di presentazione dei dati. Come riassumere e presentare i dati Supponiamo che tu sia in possesso di una serie di dati, rappresentati dalle altezze al garrese di 659 cani di razza «Bracco italiano». In pratica, si tratta di una serie di 659 valori che hai immesso, uno per ogni riga, in un foglio di calcolo come questo:
142
Come vedi, si tratta di un database molto semplice, con una sola variabile (l'altezza al garrese) che è stata collocata nella colonna A, mentre in ogni riga c'è una osservazione. Avresti potuto disporre, per ciascun animale, di osservazioni di altre variabili (es. sesso, età ecc.); allora, avresti dovuto utilizzare altre colonne (sesso in colonna B, età in colonna C ecc.). Se vuoi, puoi dare un'occhiata al foglio di calcolo con il database completo. Nota che si tratta di dati fittizi (ossia generati «a tavolino»): Tuttavia questi dati sono abbastanza verosimili, in quanto rispettano lo standarddi razza, che prevede una altezza da 55 a 67 cm. È evidente che i dati grezzi del database sono difficilmente interpretabili se non vengono organizzati in qualche modo o sottoposti a elaborazioni. A questo scopo esiste una intera branca della statistica, detta «statistica descrittiva» che aiuta appunto a descrivere i dati, e di cui qui imparerai soltanto i principi di base. Distribuzione di frequenze Con questa denominazione si indica un sistema di raggruppamento di serie di dati in modo da poter individuare facilmente quali valori sono più frequenti e quali più rari. Nella Tabella che segue sono riportati i dati del database con l'altezza al garrese dei 659 esemplari di cani Bracco italiano.
143
La forma tabulare è facilmente comprensibile: nella colonna di sinistra sono indicate le classi utilizzate per raggruppare i dati riguardanti l'altezza del campione di cani. Nell'esempio ogni classe ha ampiezza di 1 cm. La seconda colonna è la colonna delle frequenze, in cui viene presentato il numero di osservazioni (cioè di animali) che rientra nella corrispondente classe. Quindi, le prime due colonne contengono, da sole, tutti i dati derivanti dalle misurazioni effettuate. Nell'esempio che ti sto proponendo, ho suddiviso tutte le osservazioni in 17 classi di ampiezza 1 cm. Parlando in generale, il numero di classi in cui suddividere i dati dipende da molti fattori (es. numero di osservazioni, distanza fra il fato minimo e quello massimo ecc.). Per motivi di praticità e di facilità di interpretazione, è consigliabile che la distribuzione delle frequenze preveda un numero di classi compreso fra 5 e 20 circa. Dividendo il numero di osservazioni di ciascuna classe per il numero totale di osservazioni (nel nostro caso: 659) e moltiplicando il risultato per 100, otteniamo la frequenza percentuale, riportata nella terza colonna. Ad esempio, il valore 0.6 presente nella prima riga della terza colonna è stato ottenuto come segue: 4/659*100. Il valore successivo (1.1) deriva da: 7/659*100, e così via. La frequenza percentuale è una frequenza relativa «standardizzata». Rispetto alla frequenza assoluta della seconda colonna, la frequenza percentuale offre il vantaggio di facilitare il confronto con altri dati derivanti da altre indagini o da altre casistiche nelle quali è stato esaminato un diverso numero di animali. Nell'ultima colonna vengono riportate le «percentuali cumulative»; queste si ottengono, per ogni
144
classe, sommando la frequenza percentuale di quella stessa classe con tutte classi che la precedono. Questo tipo di espressione dei dati è utile per valutazioni quantitative di ogni classe di frequenza. Ad esempio, possiamo rilevare che il 68% circa dei nostri ipotetici bracchi è più basso di 62 cm. In quest'ultima affermazione è insito il concetto di «percentile» (o «centile») (vedi Unità successiva). Le distribuzioni di frequenze possono essere rappresentate anche in forma grafica; una delle forme di espressione più utilizzate a questo scopo è l'istogramma. E' evidente che la presentazione dei dati in forma grafica (vedi sotto) è molto più accattivante e immediata; nell'esempio si può osservare come la distribuzione dei dati segua un andamento particolare, in quanto le barre disegnano una sorta di 'campana' approssimativamente simmetrica attorno alla classe di maggiore frequenza. Quest'ultima, che nell'esempio corrisponde alla classe 61.00-61.99 cm (con valore centrale 61.5), viene detta «moda». La curva a campana, tipica di molti fenomeni biologici, viene detta «curva di distribuzione Normale» o «gaussiana».
L'istogramma è diverso dal diagramma a barre (vedi sotto), anche se ad una prima occhiata i due tipi di grafico sembrano uguali. L'istogramma si usa per rappresentare dati di tipo continuo, ossia che possono assumere un qualsiasi valore entro un certo intervallo. Il peso e l'altezza sono esempi di dati continui. Nell'istogramma le barre devono essere contigue, per rappresentare la continuità delle misure effettuate. Il diagramma a barre si usa invece per rappresentare dati di tipo nominale (ad esempio il colore del mantello). Nel diagramma a barre è consigliabile che le barre siano separate da spazi.
145
146
7. Variabilità biologica: concetti minimi 7.7 Frequenze cumulative, mediana e centili OBIETTIVO: rinfrescare la nozione di "mediana" quartili e centili apprendere un metodo di calcolo della mediana e dei quartili.
Il grafico sottostante comprende un tracciato della distribuzione cumulativa delle frequenze dei dati esposti nella precedente unità. Questo tracciato è utile per determinare graficamente i centili (o percentili) di una distribuzione.
La curva è stata costruita utilizzando un sistema di assi cartesiani in cui sull'asse delle ascisse sono state riportate le classi di frequenza e sull'asse delle ordinate le percentuali cumulative. Quindi, nel quadrante sono stati individuati i punti corrispondenti ad ogni classe di frequenza; questi punti sono stati infine uniti tra loro da una linea, che rappresenta appunto il tracciato della distribuzione cumulativa delle frequenze. Per mezzo di questo grafico si possono calcolare in modo approssimativo i percentili (o centili) come segue: sull'asse delle ordinate devi scegliere il punto corrispondente alla precentuale desiderata. Ad esempio, il valore che divide il 10% delle osservazioni (nel grafico corrisponde a circa 57 cm) è detto decimo centile, e così via.
147
Poiché i percentili più utili e comunemente usati sono il 25°, il 50° ed il 75°, nel grafico sono stati evidenziati sull'asse delle ordinate i punti corrispondenti a 25%, 50% e 75%. Da questi punti è stata tracciata una linea orizzontale fino ad intersecare il tracciato e poi dal punto di intersezione è stata abbassata una perpendicolare all'asse delle x. In questo modo, sono stati individuati graficamente (e con una certa approssimazione) in ascissa i percentili prescelti. (ovviamente i percentili si possono calcolare con precisione con metodi statistici).
Nell'esempio illustrato nel grafico, il 25° percentile corrisponde a 58.8 cm circa, il 50° a poco meno di 61 cm ed il 75° a 63.3 cm circa. Ciò significa che il 25% dei nostri bracchi era più basso di 58.8 cm, il 50% era più basso di 61 cm ecc. Significa anche che, dato un bracco di altezza A, possiamo calcolare come esso si colloca nella popolazione da cui deriva. Per esempio, il 90% dei bracchi è più basso di 65 cm, e quindi un cane alto 65 cm cadrà nel "90esimo percentile". Il 25° percentile è detto anche "primo quartile" in quanto raccoglie il primo quarto della popolazione; analogamente, il 75° percentile è detto anche "terzo quartile". Il 50° percentile, detto anche mediana, è un indice di tendenza centrale fra i più importanti, e la sua applicazione pratica verrà accennata in seguito. Se i dati sono ordinati in senso crescente (o decrescente), calcolare la mediana è molto facile. Infatti, tenendo presente che la mediana è quel valore che lascia alla sua sinistra e alla sua destra un numero uguale di unità, allora: • •
con un n. dispari di osservazioni la mediana è il valore centrale; con un n. pari di osservazioni la mediana è la media dei due valori centrali.
Usando lo stesso sistema si possono calcolare anche i quartili ed i centili. Come già detto, i quartili sono i 3 valori che separano i dati in 4 gruppi di uguale grandezza, e cioè il 25esimo, il 50esimo ed il 75esimo percentile. La differenza tra il 25° ed il 75° percentile comprende il 50% centrale delle osservazioni ed è chiamata distanza interquartile. ESEMPIO. Con i seguenti 10 dati: 2, 2, 3, 4, 5, 6, 7, 7, 7, 9 la mediana è 5.5, il primo quartile 2.5 ed il terzo quartile 7. La distanza interquartile è 4.5. Un buon sistema per rappresentare graficamente i dati è la cosiddetta "Tecnica dei 5 numeri" o "Box and wiskers plot" (letteralmente: diagramma a scatola e baffi), in cui la "scatola" comprende la mediana ed è delimitata dal 25° e dal 75° percentile, mentre i "baffi" limitano i valori minimo e massimo. Nel diagramma sottostante vengono rappresentati i dati riguardanti l'altezza del bracchi della unità precedente.
148
Dal diagramma salta all'occhio che la distribuzione della popolazione è simmetrica: infatti la parte del box a destra della mediana ed il suo wisker sono molto simili a quelli della parte sinistra. Prova a confrontare questo diagramma con il seguente, che rappresenta le altezze ottenute misurando una popolazione di cani razza Segugio italiano a pelo forte.
Si osserva che i valori minimi e massimi (ossia i wisker di sinistra e di destra) sono diminuiti entrambi, e che la distanza fra i wisker è più piccola; anche la dimensione del box è ridotta, mentre la distribuzione è rimasta simmetrica. A colpo d'occhio si può dedurre che i segugi sono più piccoli dei bracchi, e che la loro altezza è più uniforme. Facciamo un altro esempio di confronto fra due popolazioni, sempre utilizzando il box and wisker plot. Immagina di confrontare la popolazione di bracchi già vista con un'altra ipotetica popolazione di cani della stessa razza. Ottieni i plot sottostanti, dai quali si deduce che la seconda popolazione (colore viola) è, nel complesso, più piccola della precedente e che in essa sono presenti pochi individui di taglia molto grande. È aumentata anche la distanza tra il 25° ed il 75° percentile (il box è più grande), e quindi vi è più dispersione fra le altezze comprese nel 50% centrale delle osservazioni.
149
7. Variabilità biologica: concetti minimi 7.3 Variabilità biologica: indici di tendenza centrale OBIETTIVO: definire i principali indici di tendenza centrale (media, moda, mediana)
Quando i dati riportati in una tabella statistica o in una distribuzione di frequenze sono molto numerosi, il loro uso e la loro interpretazione sono difficili. Nel caso di caratteri con modalità quantitative (cioè "misurabili" e non semplicemente qualitativi come, ad esempio, i caratteri pari/dispari, bianco/nero, acceso/spento ecc.), è possibile calcolare dei valori singoli (o indici) rappresentativi dell'intera tabella e che riassumono i caratteri principali dei dati stessi. In particolare, sono utilizzati spesso i cosiddetti «indici di tendenza centrale», così denominati perché individuano il centro della distribuzione delle frequenze.
La media, la moda e la mediana sono i 3 principali indici di tendenza centrale, e vengono definiti come segue: •
•
media aritmetica: è quel numero che, sostituito ad ognuno degli elementi dell'insieme di partenza, ne conserva inalterata la somma. La media si calcola facilmente dividendo la somma di tutti i valori per il numero di osservazioni; moda: è il dato che presenta la maggior frequenza. Il termine ha una forte affinità con quello usato nel linguaggio comune, nel quale si dice, per esempio, che un oggetto è "di moda" quando è usato dalla maggioranza di un gruppo di persone;
150 •
mediana: è il valore che occupa il posto centrale in una successione di dati ordinati in modo non decrescente.
La moda è l'unico indice di tendenza centrale che può essere utilizzato con dati di
tipo qualitativo.
151
7. Variabilità biologica: concetti minimi 7.4 Indici di tendenza centrale per distribuzioni simmetriche e deformate OBIETTIVO: mettere a confronto l'aspetto di una distribuzione Normale (gaussiana) e di una non-Normale (asimmetrica)
Riportando in un sistema di assi cartesiani i risultati di misurazioni di caratteri biologici (es. numero di eritrociti/mm3, età al primo parto, durata della gestazione ecc.) effettuati su una serie di individui diversi, si ottiene spesso una curva particolare con una forma a campana, simile a quella rossa del Grafico 1. Questo tipo di curva ha un solo «picco», che corrisponde alla classe di massima frequenza o moda; si tratta quindi di una curva unimodale), che viene detta «curva gaussiana» o «cruva Normale». Essa è simmetrica, nel senso che si può dividere in due parti, specularmente uguali, tracciando una linea verticale in corrispondenza del valore di massima frequenza. Questa curva ha molte proprietà interessanti, alcune delle quali verranno accennate in una prossima unità. In particolare, è importante ricordare che nelle distribuzioni Normali la moda, la media e la mediana assumono lo stesso valore.
Non sempre i dati sperimentali danno origine a curve simmetriche; talvolta possono essere generate curve più o meno asimmetriche (eventualmente con andamento bimodale o trimodale ecc.). Fra le
152
curve asimmetriche, una di quelle più tipiche originata da misurazioni biologiche assume un andamento simile alla curva blu del sovrastante grafico (o un andamento ad essa speculare). L'asimmetria in questo caso riguarda la parte destra della distribuzione e, quindi, la curva si dice «deformata positivamente» o «a deformazione positiva», in quanto la coda è più prolungata in direzione positiva. Una curva con aspetto speculare sarebbe detta «deformata negativamente» o «a deformazione negativa».
Molti parametri ematologici hanno una distribuzione pressoché Normale. Tuttavia, alcuni di essi mostrano, nell'uomo, una distribuzione con coda deformata positivamente (es. fosfatasi alcalina). Altri test evidenziano, invece, una coda verso sinistra e quindi la distribuzione è asimmetrica e deformata verso i valori negativi. Nella figura a lato viene mostrata la frequenza delle distribuzioni della concentrazione di emoglobina nel sangue umano: si tratta di un buon esempio di distribuzione asimmetrica deformata negativamente. Un esempio di deformazione asimmetrica, con coda deformata positivamente, viene fornito dal seguente grafico a barre, che mostra la distribuzione del numero di vacche adulte negli allevamenti di bovine da latte in Norvegia [da Paisley et al., Prev. Vet. Med. 44, 141-151, 2000].
É importante notare che, nelle distribuzioni asimmetriche, moda, media e mediana non coincidono, ma assumono la disposizione indicata nel grafico 1 dove, come si vede, la media è l'indice che più viene influenzato dall'esistenza di dati estremi.
153
7. Variabilità biologica: concetti minimi 7.5 Indici di tendenza centrale: caratteristiche OBIETTIVO: riassumere le caratteristiche degli indici di tendenza centrale ed individuarne pregi e difetti salienti
Nella Tavola che segue sono riassunte le caratteristiche principali degli indici di tendenza centrale.
La media è certamente l'indice più utilizzato, sia in ambito scientifico che nelle necessità della vita comune. Esso ha il vantaggio di essere adatta a manipolazioni matematiche (e statistiche); il principale difetto è dovuto al fatto che la media assume significato soltanto quando si riferisce a distribuzioni di frequenze con andamento «Normale» (gaussiano). In caso contrario, essa è fortemente influenzata dai dati estremi e quindi non rappresenta più adeguatamente la «centralità». La mediana (o 50° percentile) è, al contrario della media, poco influenzata dall'esistenza di valori insolitamente estremi (cioè molto superiori o inferiori a quelli degli altri dati), ma presenta lo svantaggio di non essere adatta a manipolazioni matematiche.
154
La moda, infine, ha il vantaggio di avere un significato facilmente intuibile; tuttavia essa non può essere utilizzata nel caso di distribuzioni bi- o pluri-modali. ESEMPIO. Non è raro riscontrare ceppi batterici che manifestano una distribuzione bimodale riguardo alla sensibilità ad alcuni antibiotici. Nel grafico a lato viene mostrato un esempio della distribuzione di un campione di ceppi di un batterio Gram negativo (Escherichia coli) che sono stati messi a contatto con l'antibiotico ampicillina. Nell'asse delle ascisse è riportata la concentrazione dell'antibiotico, nell'asse delle ordinate la frequenza percentuale di ceppi sensibili. Nota che i ceppi batterici esaminati possono essere suddivisi in due sottopopolazioni: una che è sensibile ad una concentrazione di antibiotico di 64 mcg/ml, l'altra che è sensibile a 2 mcg/ml. L'andamento della distribuzione è, appunto, bimodale.
155
7. Variabilità biologica: concetti minimi 7.6 Variabilità biologica: indici di variazione (o di dispersione) OBIETTIVO: definire alcuni indici di variazione (o indici di dispersione) e fra essi, in particolare, la deviazione standard
È già stato accennato ad alcune caratteristiche dei più comuni indici di tendenza centrale moda, mediana).
(media,
Oltre alla tendenza centrale, è spesso auspicabile individuare l'entità delle variazioni presenti in una serie di dati. Esistono numerosi indici utilizzabili come misure di variabilità. Quelli di più comune impiego sono: l'intervallo di variazione, i percentili, la deviazione standard.
Intervallo di variazione L'intervallo di variazione si ottiene semplicemente calcolando la differenza fra il dato più alto e quello più basso (tale differenza viene detta campo di variazione o range), oppure specificando il valore del dato più alto e quello del dato più basso. L'intervallo di variazione non considera la variabilità delle osservazioni fra i due estremi ed ha lo svantaggio di dipendere strettamente dal numero di osservazioni e di aumentare con l'aumentare di esse. Esempio. La misurazione dell'altezza al garrese di 8 bracchi italiani ha fornito i seguenti valori (in cm): 54, 57, 57, 58, 59, 60, 60, 61, 66. L'intervallo di variazione è di 66-54 = 12 cm.
156
Percentili Un altro modo di esprimere le variazioni è quello di calcolare i percentili; in particolare, la dichiarazione del 25°, 50° e 75° percentile è un buon sistema per quantificare la variabilità di dati che non hanno una distribuzione Normale. I percentili sono già considerati dettagliatamente in una precedente unità.
Deviazione standard Molto spesso, negli studi bio-medici, i dati vengono riassunti attraverso il più comune indice di tendenza centrale: la media. In questo caso, per descrivere compiutamente la popolazione, è sempre necessario dichiarare anche, come indice di variazione, il valore della deviazione standard. La deviazione standard (o scarto quadratico medio) rappresenta la distanza media dei dati dalla loro media. Essa si indica con il simbolo σ (leggi: sigma, ossia la lettera sigma minuscola dell'alfabeto greco) se ci si riferisce alla deviazione standard di una popolazione, oppure con la lettera «s» se si indica quella di un campione. La deviazione standard è un ottimo indice di variazione dei dati quando essi sono distribuiti normalmente e rappresenta probabilmente l'indice di variazione usato più comunemente. Tuttavia è bene ripetere ancora una volta che esso deve essere utilizzato soltanto quando i dati hanno una distribuzione normale. La deviazione standard si calcola facendo la radice quadrata della varianza (vedi l'Appendice in questa stessa Unità).
Il fatto che la sola media sia insufficiente per descrivere esaurientemente un campione o una popolazione può essere dimostrato con un semplice esempio. Supponiamo di misurare lo stesso carattere (ad esempio la lunghezza in cm) in due campioni di pesci ornamentali contenuti in due diverse vasche, e di ottenere i seguenti dati: CAMP.A: 2, 3, 4, 5, 6, 7, 8, 9, 10 (media=6; s=2.6) CAMP.B: 5, 6, 6, 6, 6, 6, 6, 6, 7 (media=6; s=0.4) Evidentemente i due campioni sono molto diversi l'uno dall'altro, ma la media assume lo stesso valore per entrambi. Se presentassimo i dati affermando, ad esempio, che "i due campioni hanno la stessa media" potremmo generare la falsa impressione che i due campioni sono molto simili fra loro. Il modo corretto di presentare i dati prevede invece di dichiarare che " in CAMP.A la media è pari a 6 con deviazione standard di 2.6, e in CAMP.B la media è 6.0 con deviazione standard ±0.4". Per esprimersi più brevemente: CAMP.A: 6.0±2.6, CAMP.B 6.0±0.4.
157
Notare che in questo modo si fornisce l'indicazione del fatto che CAMP.B era molto omogeneo, contrariamente a CAMP.A. A questo punto potresti chiederti se, per riassumere le caratteristiche di una serie di dati, è meglio utilizzare media e deviazione standard oppure mediana e percentili.. La risposta è molto semplice ed è riassunta nello schema che segue.
Appendice: calcolo della deviazione standard
La formula serve a calcolare la deviazione standard di una serie di misure. La «devianza» è la somma dei quadrati delle deviazioni dei valori individuali dalla loro media aritmetica (m), mentre i «gradi di libertà» sono il numero di osservazioni (n) di cui è composto il campione, meno 1 (cioè: gradi libertà = n-1).
158 Supponiamo di avere il seguente campione, di cui vogliamo calcolare media e deviazione standard: 19, 21, 24, 21, 17. valore individuale x -------------19 21 24 21 17 ------------somma = 102 media = 102/5 = 20.4 Ora calcoliamo la differenza di ogni valore individuale dalla media, cioè il valore (x-m) detto anche scarto o deviazione, e quindi eleviamo al quadrato gli scarti e sommiamo tali quadrati valore individuale x -------------19 21 24 21 17
scarto 19-20.4 21-20.4 24-20.4 21-20.4 17-20.4
= -1.4 = 0.6 = 3.6 = 0.6 = -3.4
scarto quadr. 1.96 0.36 12.96 0.36 11.56 ----27.20
La devianza è 27.20. I gradi di libertà sono n-1, cioè 4. Dividiamo la devianza per 4: 27.2 / 4 = 6.8 e ed estraiamo la radice quadrata Radice quadrata di 6.8 = 2.61, che è la deviazione standard della serie di dati.
Nel calcolo della varianza perché dividere per n-1 anziché per n? La risposta a questa domanda non è semplice; esiste senz'altro una spiegazione teorica della formula, che però è troppo complicata per i nostri scopi. Basterà sottolineare che la statistica sanitaria e biologica spesso si basa su un numero di osservazioni piuttosto piccolo; ciò consiglia di ottenere una particolare affidabilità dei risultati. Dividendo per n-1 si ottiene una varianza (e quindi una deviazione standard) lievemente superiore rispetto a quanto si otterrebbe dividendo semplicemente per n. Una deviazione standard un po' più elevata rappresenta un approccio "conservativo" all'analisi dei dati, nel senso che la dispersione potrà forse essere sovrastimata, ma non si cadrà mai nell'errore opposto. Ciò è particolarmente importante quando i dati vengono utilizzati per eseguire un processo di inferenza. .
159
7. Variabilità biologica: concetti minimi 7.7 Indici di variazione: caratteristiche OBIETTIVO: precisare le caratteristiche di base (con pregi e difetti) di 3 indici di variazione
Nella figura che segue sono riassunti schematicamente pregi e difetti dei 3 indici di variazione che hai conosciuto nelle Unità prededenti.
Il range o intervallo di variazione è rappresentato dalla distanza fra il dato con il valore minimo e quello con il valore massimo. Presenta l'inconveniente di essere influenzato dai valori estremi; in effetti, basta un solo valore eccezionalmente al di sopra (o al di sotto) degli altri dati per far aumentare il range. Inoltre, esso non è agevolmente utilizzabile nel calcolo statistico. La deviazione standard ha il pregio di entrare nel calcolo di ulteriori manipolazioni matematicostatistiche da effettuare sui dati, ma dovrebbe essere utilizzata soltanto se i dati stessi hanno una distribuzione Normale.
160
I percentili sono validi sia per distribuzioni Normali (si ricorda che, in tal caso, il 50° percentile è uguale alla media) che non Normali. Ti ricordo che, al fine di fornire un'idea della variabilità dei dati, è bene indicare sempre non soltanto il 50° percentile (ossia la mediana) ma anche - ed almeno il 25° ed il 75° percentile. I percentili hanno l'inconveniente di non essere utilizzabili per ulteriori manipolazioni statistiche.
161
7. Variabilità biologica: concetti minimi 7.8 Variabilità biologica, deviazione standard e normalità OBIETTIVO: Giustificare ed analizzare criticamente l'utilizzo della media ± la deviazione standard per stabilire il range di «normalità»
É già stato detto che fonti di variazione sono presenti in ogni misurazione di un carattere biologico. Tale variabilità non è tuttavia del tutto imprevedibile: infatti, molti fenomeni naturali seguono un modello teorico definito «curva di distribuzione Normale» o «gaussiana». Questo modello ha una proprietà estremamente interessante. Infatti, in presenza di dati a distribuzione normale, si può risalire ai caratteri della popolazione che ha generato i suddetti dati conoscendo soltanto media e deviazione standard. Questa affermazione, che magari a prima vista ti sembra poco importante, è invece di grande valore, in quanto possiamo dimostrare che, in una gaussiana, il 95% dei dati cade nell'intervallo media ± 1.96 volte la deviazione standard:
Ampliando il discorso, si può dimostrare, ad esempio, che: - l'intervallo [media ± 2.57 volte la deviazione standard] comprende il 99% dei dati - l'intervallo [media ± 1.00 volte la deviazione standard] comprende il 68% circa dei dati come illustrato nella figura che segue.
162
Parlando più in generale, si può dimostrare che: - l'intervallo [media ± zvolte la deviazione standard] comprende il X% dei dati, dove i valori z e X vengono ricavati da apposite tabelle. Quanto detto finora è utile per trovare la risposta ad una frequente domanda che sorge spontanea quando si effettua una misura di un carattere biologico su uno (o più) individui. La domanda è il valore osservato deve essere considerato «normale»? ESEMPI. Sono stati ottenuti i seguenti valori. Possono essere considerati "normali"? - 240 pulsazioni cardiache/minuto in un pappagallino ondulato; - 150.000 linfociti per mm cubo nel sangue di un bovino; - 45 atti respiratori/minuto in un cane boxer adulto. In pratica, per rispondere devi già conoscere quelli che sono ritenuti i «valori normali» oppure, se non li ricordi, devi consultare qualche apposita tabella. Tutti sanno che il numero normale di globuli rossi nell'uonmo maschio è compreso fra 4.8 e 5.6 milioni per mm cubo. A questo punto una buona domanda è la seguente; come sono stati stabiliti i «valori normali»? La definizione dei limiti della normalità è un processo complicato. A motivo dalla variabilità biologica, teoricamente qualsiasi valore potrebbe essere normale. La complessità del problema, anzi l'impossibilità a risolverlo in maniera definitiva, è dimostrata indirettamente dal fatto che sono stati proposti diversi criteri per stabilire la «normalità», e che nessuno di essi è immune da critiche. Tuttavia il criterio che va per la maggiore è il seguente:
163
Come abbiamo già detto, spesso in biologia si osservano distribuzioni Normali; perciì in base alla proprietà della curva di distribuzione Normale, i limiti della normalità si ottengono con l'espressione [media ± 1.96 deviazioni standard]. Nel caso in cui la distribuzione sia asimmetrica, pur valendo sempre il principio del 2.5° e 97.5° percentile, il range di normalità non potrà essere calcolato semplicemente come [media ± 1.96 dev.st.], ma dovrà essere accertato in altro modo (ad esempio individuando i percentili in un tracciato cumulativo di frequenze). Una semplice critica che si può avanzare riguardo alla definizione di normalità ora esposta è la seguente: se vengono considerati anormali tutti gli individui che si trovano al di sotto del 2.5 percentile ed al di sopra del 97.5 percentile, allora la prevalenza (ossia la frequenza) di ogni malattia dovrebbe essere esattamente pari al 5%; cioè, in una popolazione sarà sempre ammalato il 5% degli individui. Ciò evidentemente non è compatibile con il comune modo di intendere la frequenza di una malattia. Attenzione, una critica alla critica: nell'obiezione ora esposta si assume (erroneamente!!!) che anormale sia sinonimo di ammalato.
164
8. Probabilità 8.1 Probabilità: definizione ed eventi complessi OBIETTIVO: definire il concetto di «probabilità» e calcolare la probabilità di eventi complessi La maggior parte dei fenomeni che interessano la medicina è soggetta a variazioni casuali: ad esempio, il fattore di rischio (o «determinante») R può indurre la malattia M1 oppure la malattia M2 oppure nessuna malattia. Pertanto, è impossibile stabilire una relazione «se R allora M1»; bisogna invece affermare «se R, allora è probabile M1». Il caso interviene in due tempi nelle osservazioni che si effettuano su una popolazione. Esso infatti dapprima è responsabile della variabilità fra gli individui (nessun individuo è uguale a nessun altro); in un secondo tempo, il caso agisce nuovamente quando si selezionano, per un determinato studio, alcune osservazioni dalla massa delle possibili osservazioni (cioè si esamina un campione). Anche se l'effetto del caso si manifesta con una estrema complessità, il caso obbedisce tuttavia a leggi piuttosto semplici. La conoscenza di queste leggi pone il ricercatore in una condizione di superiorità rispetto all'osservatore empirico; in particolare, la conoscenza delle leggi del caso consente di valutare i fenomeni in base alla loro «probabilità». Uno di punti di forza dell'epidemiologia è la capacità di fare previsioni. Per esempio, spesso si definisce il rischio relativo, cioè il rischio di contrarre malattia di animali con un determinato fattore (razza, o tipo di allevamento ecc.) rispetto al rischio corso da un gruppo di controllo non soggetto a quello stesso fattore. Più in generale, si può affermare che una delle più importanti attività di un epidemiologo è quella di calcolare la probabilità che si verifichi l'evento-malattia (o più in generale: un qualsiasi evento) in rapporto a particolari situazioni o fattori. ESEMPI. · È in corso una epidemia di una data malattia. Che probabilità c'è che un allevamento venga coinvolto? · Un allevatore ha acquistato un animale proveniente da un allevamento in cui è presente una certa malattia. Che probabilità c'è che l'animale sia affetto da quella malattia? · Stai trattando un gatto con una data terapia. Che probabilità c'è che il gatto guarisca? Che probabilità c'è che il gatto muoia? · Una bovina è risultata positiva ad un test per la diagnosi della tubercolosi. Che probabilità c'è che il test "dica la verità", ossia che quella bovina sia veramente ammalata? · Un cane è affetto da displasia dell'anca. Che probabilità c'è che riacquisti la completa funzionalità dopo l'intervento operatorio? La probabilità di un evento non è altro che l'espressione quantitativa della frequenza con cui esso si verifica. Più propriamente, è bene parlare di «frequenza relativa»: infatti la probabilità (Pr) che si verifichi un evento aleatorio A è data dal rapporto tra il numero di casi favorevoli (quelli in cui A si verifica) ed il numero di casi possibili (cioè il numero di volte che A può verificarsi). Da un punto di vista strettamente statistico, la probabilità viene definita come «la frequenza relativa di un evento, i cui valori sono compresi nell'intervallo [0;1] ove 0 indica un evento impossibile e 1 un evento certo.»
165
ESEMPIO 1. Lanciando una moneta l'evento «testa» si verifica una volta ogni due lanci, quindi la probabilità di tale evento è 1/2, cioè 0.5. ESEMPIO 2. Qual è la probabilità che una carta da gioco estratta a caso da un mazzo di 52 sia un asso? Poiché nel mazzo vi sono 4 assi, la probabilità è di 4/52. In questo il numero di casi favorevoli è pari a 4 (asso di cuori, quadri, fiori, picche), mentre ognuna delle 52 carte del mazzo rappresenta un potenziale evento favorevole. ESEMPIO 3. Supponiamo che in un episodio di avvelenamento da esteri fosforici in un allevamento di bovini si siano verificati 48 casi su un totale di 192 animali alimentati con il mangime contaminato. La probabilità di ammalare per un bovino scelto a caso è stata pertanto: 48/192 = 0.25 ovvero 25%. Notare che, diversamente dai due esempi precedenti, in questo caso si tratta di una probabilità a posteriori, cioè valutata su un evento già accaduto. Dagli esempi si nota che la probabilità può venire espressa attraverso una frazione, un numero decimale o una percentuale. Il numero decimale assume sempre un valore compreso fra 1 (quando l'evento si verifica sempre, e quindi il numeratore è uguale al denominatore) e 0 (quando l'evento non si verifica mai, e quindi il numeratore è uguale a 0).
É intuitivo che:
166
Questo concetto ti sarà molto utile nel prossimo Capitolo, in cui imparerai le basi del
Campionamento.
Ad esempio, se il 75% dei ceppi di Enterococcus è resistente alla tetraciclina, allora avremo una probabilità pari a 0.75 (75%) che un ceppo di Enterococcus preso a caso sia resistente. In alcuni casi è necessario calcolare la probabilità di eventi complessi, definiti come combinazioni specifiche (A e B) oppure alternative specifiche (A o B). Le regole che permettono di affrontare i più semplici problemi di probabilità di eventi complessi sono enunciate nella prossima unità.
Foglio di calcolo per Microsoft Excel® con una simulazione dei risultati (testa/croce) ottenibili lanciando una moneta.
167
8. Probabilità 8.2 Probabilità di eventi complessi OBIETTIVO: enunciare la «regola dell'addizione» e la «regola della moltiplicazione», che si applicano alla probabilità di eventi complessi
Vi sono situazioni in cui occorre valutare la probabilità di eventi che si esprimono come combinazioni specifiche (es. evento A e evento B) oppure come alternative specifiche (es. eventi A o evento B). In questi casi si parla di "eventi complessi". Gli eventi complessi si gestiscono attraverso due regole di base • •
la regola della moltiplicazione la regola della addizione
Regola della moltiplicazione La regola della moltiplicazione si applica ad una combinazione di eventi; essa stabilisce che la probabilità (Pr) che si verifichino contemporaneamente l'evento A e l'evento B equivale al prodotto delle probabilità di ciascun evento: Pr(A e B) = Pr(A)* Pr(B) ed anche Pr(A e B e C) = Pr(A) * Pr(B) * Pr(C)
e così via.
Questa regola vale soltanto se A e B sono indipendenti, cioè nel caso in cui il verificarsi di A non influenzi il verificarsi di B e viceversa.
168
ESEMPIO. Supponi di studiare la resistenza dei batteri agli antibiotici. In particolare, hai osservato che il 70% dei ceppi di Enterococcus è resistente alla tetraciclina ed il 30% alla ciprofloxacina. Si tratta di due antibiotici appartenenti a classi diverse ed a diverso meccanismo d'azione, e quindi probabilmente le resistenze sono indipendenti. Preso a caso un ceppo di Enterococcus, c'è probabilità 0.7 che esso sia resistente alla tetraciclina, 0.3 che sia resistente alla ciprofloxacina. La probabilità che il ceppo sia resistente contemporaneamente a tetraciclina e ciprofloxacina è 0.7x0.3=0.21, ossia 21%. Regola della addizione La regola dell'addizione si applica, invece, ad una alternativa di eventi; essa stabilisce che la probabilità che si verifichi A oppure B oppure entrambi equivale alla somma delle probabilità dei singoli eventi. E' necessario però considerare se i due eventi si escludono reciprocamente (ossia il verificarsi di uno inibisce la possibilità del verificarsi dell'altro) oppure no. Se si lancia un dado, gli eventi "ottenimento di un 2" e "ottenimento di un 3" si escludono reciprocamente. Infatti, non è possibile ottenere contemporaneamente un 2 e un 3 nello stesso lancio. Il verificarsi di un evento esclude la possibilità dell'altro evento.
Nel caso in cui gli eventi si escludano reciprocamente, la regola dell'addizione è: Pr(A o B) = Pr(A)+ Pr(B)
Un allevatore di cani possiede 16 barboncini, 24 bassotti e 8 pastori tedeschi, per un totale di 48 animali. Le notizie riguardanti ciascun animale vengono raccolte in una scheda. Estraendo una scheda a caso, quel è la probabilità che si tratti di un cane di piccola taglia (barboncino o bassotto)? Gli eventi si escludono reciprocamente, in quanto ogni scheda riguarda un animale dell'una oppure dell'altra razza. Applicando la regola dell'addizione avremo: (prob. di estrarre un barboncino) + (prob. di estrarre un bassotto) = (16/48) + (24/48) = 0.833 = 83.3%. Nel caso in cui A e B non si escludano reciprocamente (cioè possa verificarsi A e B congiuntamente), a tale somma è necessario sottrarre la Pr (A e B). Il motivo di Ciò si ricava osservando la figura accanto: se i due insiemi rappresentano rispettivamente la probabilità di successo dell'evento A (in rosa) e dell'evento B (in azzurro), allora la probabilità che si verifichi almeno uno dei due è uguale alla somma delle aree dei due insiemi. Però nel momento in cui si considera l'unione dei due insiemi bisogna togliere la quantità relativa alla loro intersezione in quanto essa viene considerata due volte: una volta per ciascun insieme. Quindi Pr(A o B) = Pr(A)+ Pr(B) - Pr(A e B) :
169
Un farmaco induce nel cane, come effetto collaterale, aumento della produzione di saliva (ipersalivazione) nel 10% dei trattati. Il farmaco viene somministrato a 2 cani. Qual è la probabilità che almeno uno manifesti ipersalivazione? I due eventi non si escludono reciprocamente, quindi: Pr(A o B) = 0.1 + 0.1 - (0.1*0.1)= 0.19 = 19%
170
8. Probabilità 8.3 Probabilità e statistica OBIETTIVO: apprendere l'enunciato della "Legge dei grandi numeri" e l'esistenza di una probabilità "a posteriori"
Chiunque, con un minimo di ragionamento e di buon senso, può arrivare alla conclusione che, lanciando una moneta, la probabilità teorica che esca una delle due facce è pari a 1/2. Se vuoi verificare se-e-quanto la teoria corrisponde alla pratica, non devi far altro che armarti di molta pazienza e lanciare la moneta più volte, registrando i risultati e poi studiarli da un punto di vista statistico. Supponiamo che tu abbia effettuato tre serie di 10, 100, e 1000 lanci, ottenendo i risultati riassunti nella tabella che segue.
Puoi osservare che, aumentando il numero dei lanci, le frequenze percentuali tendono ad avvicinarsi al valore 50, che è la probabilità teorica che esca ognuna delle due facce. Generalizzando i risultati, si può affermare che, esaminando un gran numero di eventi, la frequenza relativa di un evento aleatorio si avvicina alla probabilità teorica dell'evento. In altre parole: la differenza fra il valore osservato nella pratica e il valore teorico atteso tende a diminuire all'aumentare del numero di prove che si eseguono. Questa affermazione rappresenta la legge dei grandi numeri. Un caso frequente in epidemiologia: quando non si conosce la probabilità a priori A questo punto bisogna sottolineare che, in epidemiologia, molto spesso si studiano eventi aleatori per i quali non è possibile calcolare la probabilità teorica a priori. In questi casi torna utile la legge dei grandi numeri: infatti accettiamo come probabilità, che chiamiamo "probabilità statistica", la frequenza relativa di un evento che si ottiene da un numero abbastanza elevato di prove o di osservazioni, tutte effettuate nelle stesse condizioni.
171
Ad esempio, non è possibile sapere la probabilità che esca "testa" lanciando una moneta truccata. L'unico modo per conoscere tale probabilità è di lanciare un gran numero di volte la moneta registrando i risultati. Ad esempio, su 1000 lanci otteniamo 612 volte testa. Allora puoi stimare che la probabilità di ottenere testa con quella moneta sia pari a 0.612. Questa probabilità ottenuta empiricamente può essere soltanto stimata, ma non calcolata con precisione. Quasi certamente se tu facessi un'altra serie di 1000 lanci otterresti un risultato lievemente diverso! Ovviamente, più alto è il numero di prove e maggiore è la precisione della stima. Studiando le malattie a livello di popolazione si possono raccogliere dati indispensabili per rispondere a quesiti che coinvolgono la probabilità statistica. Ad esempio, potrebbe essere interessante rispondere a domande del tipo: •
•
• •
che probabilità c'è che un animale affetto da una certa malattia sopravviva se non si effettua nessuna terapia? che probabilità c'è che un animale affetto da una certa malattia sopravviva se sottoposto ad una data terapia? che probabilità c'è che un allevamento venga coinvolto in una epidemia? che probabilità c'è che un intervento di vaccinazione degli animali recettivi arresti il diffondersi di una epidemia?
Evidentemente si tratta di domande per le quali non può essere calcolata una probabilità teorica (a priori). È invece necessario procedere empiricamente, raccogliendo dati sul fenomeno che ci interessa e poi calcolare la probabilità a posteriori sfruttando la legge dei grandi numeri. Un metodo statistico basato sulla probabilità a posteriori viene utilizzato per calcolare la probabilità di una persona di essere in vita o di morire in un certo periodo di tempo. La Tabella a lato rappresenta la distribuzione della popolazione italiana nell'anno 2000 (fonte dei dati: ISTAT) rapportata a 100.000 individui. In essa viene riportato, separatamente per maschi e femmine, il numero di persone in vita ad età raggruppate in classi di ampiezza 5 anni. Sulla
172
base dei dati contenuti nella tabella si possono calcolare sia le probabilità di morte che di vita per una persona appartenente ad ogni classe di età. Per esempio, per trovare la probabilità che un maschio di 45 anni muoia nei 5 anni successivi occorre considerare che nel periodo sono morti 1308 individui (ossia 96089-94781) su 96089 in vita all'inizio del periodo stesso. La probabilità di morte si ottiene calcolando il rapporto fra il numero di morti nel quinquennio considerato ed il numero di vivi a 40 anni:
Confrontando i dati delle tavole di mortalità di anni diversi si può monitorare indirettamente lo stato di salute complessivo di una popolazione ed i progressi dell'assistenza medica. Ad esempio, nell'anno 1987 la probabilità di morte nei 5 anni successivi per un maschio di 45 anni era dell'1.84%, mentre nel 2000 tale probabilità era scesa a 1.36%. Oltre alla probabilità di morte, si può calcolare la probabilità di sopravvivenza. Ad esempio, la probabilità che una persona di sesso maschile di 45 anni resti in vita nei 5 anni successivi si ottiene con il rapporto fra il numero dei maschi vivi a 50 anni ed il numero di vivi a 45 anni:
Nota che la somma (probabilità di essere in vita)+(probabilità di morire) deve essere pari a 1. Quindi, una volta nota la probabilità di morte, la probabilità di sopravvivenza si può ottenere anche facendone il complemento a 1: probabilità di sopravvivere = 1 - probabilità di morire. Quantificare la prognosi Se si raccolgono dati riguardanti l'andamento della mortalità nei pazienti affetti da una certa malattia, si possono compilare tavole utili a esprimere con una certa precisione il destino di un paziente (quantificare la prognosi). Ad esempio, per il cancro della prostata si potrebbero ottenere i dati riassunti nella Tabella a lato. In tal modo, alla domanda del paziente cui venisse diagnosticata la malattia, il medico potrebbe rispondere affermando che il 90% dei pazienti di quel tipo è ancora in vita dopo 1 anno, e che tale percentuale scende a 67 anni dopo 5 anni e si riduce ancora a 58 dopo 10 anni.
173
9. Campionamento 9.1 Scopi del campionamento OBIETTIVI: specificare i motivi che inducono - od obbligano - ad esaminare un campione piuttosto che la popolazione in toto individuare i principali obiettivi di un campionamento
Raramente in uno studio epidemiologico è possibile esaminare ogni singolo animale della popolazione. Infatti spesso si è limitati dalle risorse disponibili (economiche, di personale, di laboratori, di tempo ecc.); in altre occasioni, anche supponendo di disporre di risorse illimitate, l'intera popolazione da studiare non è fisicamente raggiungibile oppure non è del tutto nota . Pensa, ad esempio, ad una indagine epidemiologica da effettuare su animali selvatici di una certa specie (es. camosci) in un parco: probabilmente non sarà conosciuto con esattezza il numero degli animali presenti, né il rapporto maschi/femmine né la distribuzione per età ecc.. In altri casi, il numero di individui che compongono la popolazione da studiare è talmente elevato che lo studio di ognuno di essi è fattibile solo teoricamente. Pensa, ad esempio, alle api di un alveare o ai pesci presenti un laghetto di allevamento. Infine, è possibile trovarsi di fronte ad una combinazione delle suddette difficoltà, come ad esempio nel caso si volessero studiare gli insetti vettori di una determinata malattia in una determinata zona. Talvolta, soprattutto nel lavoro di ricerca medica, la popolazione è addirittura infinita o, meglio, indeterminata in quanto non è conoscibile in modo esaustivo, neppure virtualmente. ESEMPIO. Una popolazione indeterminata è rappresentata da tutti gli animali che, oggi e in futuro, necessiteranno di una particolare terapia, oppure dall'insieme delle concentrazioni di mercurio misurabili in tempi diversi in un lago). Non sempre per popolazione si intende un aggregato di animali; talvolta si può lavorare su una popolazione di batteri, o di virus, o di cellule in coltura, o di campioni di latte ecc. Anche in questi casi è evidente che sarà spesso impossibile esaminare l'intera popolazione. L'esame di un campione, ossia di un numero ridotto di osservazioni, invece dell'intera popolazione consente di superare i problemi ora accennati. Un campione non è altro che un insieme di elementi tratti da una popolazione (o "universo"). Un universo consiste della totalità degli elementi che hanno certe caratteristiche. Il campione è soltanto una parte del tutto.
174
Scegliere un campione da una popolazione significa effettuare un «campionamento». Esaminare ogni singolo individuo della popolazione significa effettuare un censimento; esaminare gli animali di un campione significa effettuare una indagine (o inchiesta o sondaggio, in inglese «survey»).
Per una serie di motivi, raramente possono essere studiate tutte le unità che compongono una popolazione. Pertanto, si studia soltanto una parte più o meno grande della popolazione, per poi generalizzare all'intera popolazione i risultati ottenuti. Questo processo di generalizzazione dei risultati ottenuti studiando un campione è detto «inferenza»:
ESEMPIO. Un farmacologo somministra un farmaco a 30 cani con una certa malattia, mentre somministra semplice soluzione fisiologica ad altri 30 cani (i «controlli»). Dopo una settimana è guarito il 25% degli animali trattati con il farmaco ed il 19% dei controlli. Questo risultato è stato ottenuto su un campione di animali, e non implica necessariamente che il farmaco sia efficace; infatti, lo stesso esperimento condotto su altri animali potrebbe portare a risultati diversi. Non c'è dubbio che sugli animali del campione il farmaco ha funzionato meglio del placebo. Però non puoi essere sicuro che il farmaco funzionerà anche sulla popolazione di tutti i cani affetti da quella malattia. Le ipotesi sono due: il farmaco funziona oppure il farmaco non funziona. Quale ipotesi scegliere? Qui viene in aiuto la statistica: attraverso un processo di inferenza basato su metodi statistici (statistica inferenziale) si può stimare con obiettività l'efficacia del farmaco sulla popolazione in generale, a partire dai risultati ottenuti studiando un campione. Alcuni principi di base della statistica inferenziale sono stati trattati nel Capitolo 5; altri verranno trattati più avanti in questo stesso capitolo. Quando si effettua uno studio per mezzo di un campione, è necessario tener presente che non si otterranno mai risultati del tutto affidabili. Come si vedrà in seguito, per valutare la "bontà" di uno studio campionario è indispensabile tener conto di vari fattori, fra i quali i più importanti sono: i
175
criteri di scelta della popolazione in studio, il metodo con cui si è selezionato il campione, il periodo di osservazione, i metodi adottati per identificare i casi di malattia, le tecniche di analisi, la precisione delle misure effettuate.
176
9. Campionamento 9.2 Caratteri del campione OBIETTIVO: analizzare i caratteri del campione e spiegare perché non esiste il «campione perfetto»
È intuitivo che da una popolazione possono essere estratti moltissimi campioni, che probabilmente saranno tutti diversi fra loro:
È altrettanto intuitivo che le caratteristiche di un campione non saranno mai perfettamente identiche a quelle della popolazione. Il campione non sarà mai la «fotocopia» precisa della popolazione di origine. Quindi, se studi un campione allo scopo di effettuare una inferenza sulla popolazione, giungerai inevitabilmente a conclusioni non del tutto veritiere. In questa unità, e nelle successive, imparerai come ovviare a questo inconveniente. Immagina di aver effettuato una indagine su un campione; in pratica, hai misurato un certo carattere in ciascuna delle unità del campione. Ora vuoi utilizzarev i tuoi dati per trarre delle conclusioni. Ti devi porre due domande fondamentali:
177
La risposta a queste due domande genera i concetti di validità interna e di validità esterna di uno studio epidemiologico eseguito su un campione (studio campionario). Validità interna La validità interna misura quanto i risultati di uno studio sono corretti per il campione di individui che sono stati studiati. Essa viene detta «interna» perché si applica al campione, e non necessariamente agli altri individui della popolazione. Forse questo concetto ti potrà sembrare una sottigliezza inutile. Però devi pensare che non sempre si tratta di fare misurazioni facili, semplici ed affidabili (come ad esempio pesare ratti da laboratorio). In molti casi, le cose sono più complicate: negli studi clinici, la validità interna dipende dalla correttezza di impostazione dello studio stesso, dalla scelta di buone tecniche diagnostiche e da un loro corretto utilizzo, da una buona elaborazione dei dati ecc. Nel caso dei dati ottenuti attraverso questionari, un fattore che contribuisce ad abbassare la validità interna è rappresentato dalla propensione degli intervistati a mentire sistematicamente su determinate domande, come illustrato nell'esempio che segue. ESEMPIO. Effettui un sondaggio per conoscere la percentuale di cani che vengono sottoposti a vaccinazione periodica nei confronti della leptospirosi; a questo scopo, sottoponi ai proprietari dei cani la seguente domanda: «Lei fa vaccinare annualmente il suo cane per la leptospirosi?». Prevedibilmente i proprietari che hanno cura del loro cane (e che lo vaccinano regolarmente) saranno ben felici di rivelare il loro comportamento virtuoso e quindi risponderanno correttamente con un "sì". Al contrario, molti di coloro che omettono di vaccinare il cane non saranno disposti ad ammetterlo, per non apparire egoisti o avari, e quindi tenderanno a mentire, rispondendo anch'essi con un "sì". Ciò evidentemente farà diminuire la validità interna del campione. La validità interna viene diminuita sia dalla variazione casuale che da ogni elemento di La validità interna è condizione necessaria ma non sufficiente perché uno studio sia utile.
bias.
Validità esterna La validità esterna è il grado di «generalizzabilità» delle conclusioni tratte da uno studio. Ad esempio, nel caso di uno studio epidemiologico clinico, essa risponde alla domanda "Supponendo che i risultati dello studio siano veri, essi si applicano anche ai miei pazienti?". In altre parole, la validità esterna misura il grado di verità dell'assunto secondo cui gli animali studiati sono "uguali" ad altri animali affetti dalla stessa condizione. Per semplicità, assumiamo ora che lo studio sia provvisto di ottima validità interna; ciò significa che conosciamo con esattezza le caratteristiche del campione che abbiamo esaminato. Le conclusioni che ne abbiamo tratto sono certamente valide per gli individui del campione, ma non possiamo dire se e quanto tali conclusioni siano generalizzabili alla popolazione da cui il campione è stato estratto. La soluzione a questo problema verrà accennata nelle unità successive ( metodi di campionamento, limiti fiduciali, ecc.). Ovviamente, le conclusioni ottenute attraverso uno studio campionario sono valide soltanto se esiste una buona validità interna ed esterna. Nella figura seguente viene schematizzato il flusso del ragionamento riguardo alla validità interna ed esterna di un campione, al fine di giungere a conclusioni affidabili.
178
È intuitivo che:: 1. attraverso lo studio di un campione, si può soltanto stimare (cioè determinare con un certo margine di errore) il carattere della popolazione da cui il campione deriva; tuttavia, tale carattere non potrà mai essere determinato con esattezza; 2. la accuratezza della stima è direttamente correlata al numero di osservazioni che si compiono del fenomeno in studio.
ESEMPIO 1. Vogliamo conoscere il peso di un gruppo di 600 suini pronti per la macellazione. Non abbiamo la possibilità di pesare tutti i 600 animali; quindi, estraiamo un campione di 6 soggetti, li pesiamo e calcoliamo la media. È evidente che, con questo metodo, avremo un valore che si potrà scostare anche di parecchi chili dalla media della 'popolazione' da cui essi provengono (cioè il gruppo di 600). Ma se misuriamo altri individui e li aggiungiamo ai primi, la nuova media ottenuta sarà più vicina a quella vera; cioè, la precisione della nostra misura aumenterà parallelamente all'aumento del numero di animali pesati. Tuttavia, non otterremo una misura perfetta finché non avremo pesato tutti i suini. ESEMPIO 2. Abbiamo il compito di effettuare un'indagine sui rapporti fra mastite della bovina e
179
produzione di latte. Nel territorio sono presenti, in pianura, 14 grandi allevamenti, per un totale di 2900 bovine adulte da latte; nella zona montagnosa, vi sono invece 36 piccoli allevamenti (300 animali in totale). La popolazione di interesse è: tutte le bovine da latte. L' unità di analisi è la singola bovina da latte. Le nostre risorse ci consentono di esaminare un campione di 300 animali. Se tutti gli animali verranno selezionati dagli allevamenti della pianura, avremo un campione non rappresentativo. Un campione più rappresentativo sarà invece rappresentato dal 90% circa di bovine degli allevamenti di pianura e dal 10% di vacche di montagna. In sostanza, con qualunque metodo si effettui il campionamento, si otterranno dal campione dei risultati che quasi certamente si discostano (poco o tanto) dalla «vera» misura della popolazione. È ben vero che il campione dovrebbe rappresentare una immagine della popolazione ridotta dal punto di vista numerico ma fedele dal punto di vista qualitativo. Tuttavia, non possiamo mai essere sicuri che il campione rappresenti una copia perfetta della popolazione da cui esso è stato estratto, a meno di non esaminare... l'intera popolazione! Infatti, posto [n=numero di individui che compongono una popolazione], supponiamo di analizzare il più ampio campione possibile costituito da [n-1] individui. Ebbene, è intuitivo che, anche in questo caso, il campione non sarà perfettamente rappresentativo della popolazione, in quanto l'unico individuo non esaminato potrebbe possedere caratteri molto diversi da quelli di tutti gli altri [n-1] individui. L'errore di campionamento è rappresentato dalla differenza tra i risultati ottenuti dal campione e la vera caratteristica della popolazione che vogliamo stimare. L'errore di campionamento non può mai essere determinato con esattezza, in quanto la «vera» caratteristica della popolazione è (e resterà!) ignota. Esso tuttavia può essere contenuto entro limiti più o meno ristretti adottando appropriati metodi di campionamento. Inoltre, esso può essere stimato; ciò significa che, con adatti metodi statistici, si possono determinare i limiti probabili della sua entità.
180
9. Campionamento 9.3 Errore di campionamento OBIETTIVO: analizzare i fattori che contribuiscono all'errore di campionamento
Abbiamo già visto che un campione non è mai perfettamente rappresentativo della popolazione da cui è stato estratto. Ciò implica che, ogni qual volta studiamo un campione, otteniamo dati che non rispecchiano la realtà: dobbiamo tener conto di un errore di campionamento. I fattori responsabili dell' errore di campionamento sono sostanzialmente due: la variazione casuale e la selezione viziata.
La variazione casuale La variazione casuale è dovuta al caso, cioè a quell'«insieme di fattori o cause, piccole o grandi, che agiscono su un fenomeno senza che noi possiamo o vogliamo controllarli esattamente e prevederne quindi l'azione» (Cavalli-Sforza). La variazione casuale ha portato alla nostra osservazione proprio quegli individui che costituiscono quel campione, nei quali la misura che vogliamo studiare assume un valore più alto o più basso, senza una regola precisa. La variazione casuale fa sì che una misura effettuata su un campione non fornisca un valore identico a quello ottenibile misurando l'intera popolazione: c'è sempre - un certo errore, che viene detto errore campionario. Questo errore deriva semplicemente dal fatto che stiamo osservando soltanto una parte della popolazione. L'EFFETTO DEL CASO. Tutti noi ricorriamo al "caso" per giustificare, ad esempio, il motivo per cui su 100 lanci di una stessa moneta non sempre esce per 50 volte 'testa' e per le restanti 50 'croce'. Questo stesso motivo (la variazione casuale) vale a giustificare il seguente esempio. Supponiamo di avere a disposizione due farmaci, A e B, ugualmente efficaci, nel senso che
181
guariscono il 50% dei pazienti trattati. Supponiamo di fare un esperimento per studiare l'effetto dei due farmaci; supponiamo che, in questo esperimento, non sia presente alcun bias (vedi oltre in questa stessa unità), e quindi che i dati ottenuti siano assolutamente affidabili. Tuttavia, soprattutto se l'esperimento viene eseguito su un numero limitato di soggetti, facilmente osserveremo che il farmaco A induce guarigione con maggior frequenza rispetto al farmaco B (o viceversa). Questo effetto è dovuto, appunto, alla variazione casuale, Ovviamente, l'errore di campionamento è condizionato dall'esistenza di variabilità tra gli individui che compongono la popolazione di partenza; se tutti - per assurdo - avessero lo stesso carattere in egual misura, l'esame di qualsiasi numero di individui fornirebbe lo stesso valore, e quindi l'errore di campionamento sarebbe nullo. La selezione viziata La selezione viziata è quella che viene effettuata su un segmento non rappresentativo della popolazione. Questo avviene quando la scelta delle unità che costituiranno il campione viene effettuata con regole non rigorosamente causali. Talvolta, è lo stesso sperimentatore che, definendo delle regole estemporanee volte a neutralizzare - nelle intenzioni - gli effetti del caso e di ottenere un campione più aderente alla popolazione, commette un errore che rende i dati inutilizzabili. Infatti, un campione che non è stato ottenuto correttamente fornisce misurazioni e risultati per i quali è impossibile calcolare il cosiddetto «errore di campionamento». La selezione viziata fa sì che all'errore campionario si sommi un altro tipo di errore, detto errore non campionario o bias.
ESEMPIO 1. Vogliamo accertare la proporzione di cani vaccinati contro il cimurro in una provincia. Non potendo esaminare tutti i cani dell'area considerata, decidi di esaminare un campione di animali. Per comodità, scegli i cani che vengono presentati presso alcuni ambulatori del capoluogo. Il campione così ottenuto sarà sicuramente distorto (affetto da "bias"), in quanto composto quasi esclusivamente da cani "cittadini" che, notoriamente, sono oggetto di maggiori cure da parte del proprietario rispetto a quelli che risiedono in campagna. Inoltre, anche il fatto stesso che il cane venga portato in ambulatorio testimonia l'attenzione da parte del proprietario verso la salute del suo animale, ed è probabile che questa attenzione si sia tradotta in una corretta profilassi vaccinale. Infatti, è ovvio che i cani trascurati non vengono vaccinati né vengono portati dal veterinario! Quindi, il tuo campione sarà distorto perché (1) hai selezionato cani cittadini e (2) hai selezionato cani portati in ambulatorio. Presumibilmente, tutti i cani del tuo campione (distorto!) risulteranno vaccinati per il cimurro e quindi sarai portato a concludere erroneamente che "tutti i cani della provincia sono vaccinati per il cimurro". ESEMPIO 2. Il frammento prelevato con una biopsia epatica rappresenta circa 1/50000 dell'organo. Essendo il campione così piccolo rispetto all'intero organo, esiste la possibilità di ampie variazioni da un campione all'altro. Inoltre, poiché il frammento viene esaminato, in genere, allo scopo di diagnosticare una malattia dell'intero fegato, esiste la possibilità che il processo di inferenza sia viziato. Ad esempio, si preleva un campione di tessuto sano in un organo ammalato.
182
In conclusione, si può affermare che soltanto quando la scelta degli individui che compongono il campione è stata dettata dal puro e semplice caso, è possibile prevedere e calcolare l'entità della differenza tra campione e popolazione. In caso contrario, il campione si dice «distorto»». Con un campione distorto, non è possibile calcolare l'errore di campionamento ed i dati ottenuti saranno difficilmente utilizzabili.
Più precisamente, per «bias» si intende "un processo, effettuato in qualsiasi stadio della inferenza, che tende a fornire risultati che si discostano sistematicamente (ossia sempre nella stessa direzione) dai valori veri". A differenza del bias (che influenza i dati sistematicamente in una direzione o nell'altra), la variazione casuale fornisce dati che possono essere parimenti al di sopra o al di sotto del valore vero. Di conseguenza, la media di molte osservazioni non-distorte si avvicina al valore vero della popolazione, anche se i singoli dati utilizzati per ottenere la media possono discostarsi di molto dal valore vero.
183
ESEMPIO. Nello schema A (a lato) sono raffigurati due bersagli. Quello a sinistra (A1) è il risultato di 17 tiri effettuati da un buon tiratore che ha sparato con un buon fucile. L'insieme dei fori si può considerare come un campione delle infinite possibili combinazioni di 17 tiri che quel tiratore può ottenere sparando con quel fucile. Come vedi, i fori hanno una disposizione casuale, ma tendono a disporsi attorno al centro del bersaglio. Il bersaglio di destra (A2) è stato utilizzato dallo stesso tiratore, ma con un fucile con il mirino disallineato. Anche in questo caso, i fori hanno una disposizione casuale, ma tendono a disporsi attorno ad un punto che NON corrisponde al centro del bersaglio. Ora supponi (schema B) di non conoscere la vera posizione del centro bersaglio (la quale, fuor di metafora, equivale alla VERA caratteristica della popolazione in studio, la quale in effetti non è mai nota). Supponi anche di estrarre a caso un campione di 17 colpi dagli infiniti campioni possibili. Con un buon campionamento (che equivale ad un buon fucile) otterrai il campione raffigurato a sinistra (B1); se, invece, il campione sarà affetto da bias, otterrai un campione come quello a destra (B2). Ora, sempre in base ai dati dello schema B, prova ad "inferire" (ossia ad indovinare) la posizione del centro del bersaglio. Ragionevolmente collocherai i bersagli come indicato nello schema C: con il campione di colpi di sinistra (C1) (cioè quello del fucile preciso) l'inferenza sarà attendibile, come dimostra la corretta collocazione del centro del bersaglio rispetto alla realtà (così come raffigurato in A1). Al contrario, utilizzando il campione distorto (C2), sarai indotto a ritenere che il centro del bersaglio sia spostato rispetto al reale e non riuscirai a posizionarlo correttamente. In quest'ultimo caso, fuor di metafora, non sarai in grado di stimare correttamente la vera caratteristica della popolazione.
184
9. Campionamento 9.4 Metodi di campionamento OBIETTIVO: descrivere la logica di un buon campionamento ed elencare alcuni dei più comuni metodi di campionamento
Il principio informatore generale di un buon campionamento prevede di utilizzare lo stesso principio dell'estrazione a sorte, ossia quello della casualità assoluta, in modo tale che ciascuna unità della popolazione abbia la stessa probabilità di entrare a far parte del campione. In tal caso il campione viene detto «randomizzato» o «casuale». Affidandosi al caso si ottiene, in una qualche misura, la garanzia che il campione sarà rappresentativo della popolazione stessa, ossia ne rifletterà le caratteristiche con una certa approssimazione.
Immagina di avere una lista di 100000 animali, e che una metà di questi siano maschi e l'altra metà siano femmine. La teoria statistica delle probabilità dice in anticipo che, se estrarrai in modo casuale mille soggetti dalla lista, otterrai un campione composto per metà da maschi e per metà da femmine, con un livello di approssimazione prevedibile a priori. Analogamente, supponi di ripetere molte volte il lancio di una moneta. L'evento "testa" o "croce" è condizionato soltanto dal caso: le prime volte potrà uscire sempre "testa" (oppure sempre "croce"), ma alla lunga la proporzione di teste e croci nella "popolazione" di lanci tenderà ad equilibrarsi. Un campionamento randomizzato offre il vantaggio di fornire un campione privo di errori sistematici (bias) e consente di accertare l'attendibilità dei risultati o, per meglio dire, i rapporti fra i risultati forniti dal campione e la vera caratteristica della popolazione. Nelle unità successive verranno illustrati brevemente cinque fra i più comuni metodi di campionamento. Di essi, uno è un metodo non probabilistico, mentre i restanti 4 sono basati sulla randomizzazione: • •
campionamento non probabilistico (o campionamento "di convenienza") campionamento per randomizzazione semplice (o campionamento casuale semplice)
185 • • •
campionamento per randomizzazione sistematica (o campionamento sistematico) campionamento per randomizzazione stratificata (o campionamento stratificato) campionamento a grappolo ("cluster")
186
9. Campionamento 9.5 Campionamento con metodo non probabilistico OBIETTIVO: descrivere modalità e caratteristiche del campionamento di convenienza (non probabilistico)
Il campionamento di convenienza viene effettuato con un metodo non probabilistico che non offre a tutte le unità della popolazione la stessa possibilità di entrere a far parte del campione. In pratica, alcuni gruppi o individui hanno maggiore probabilità di essere scelti rispetto agli altri. Il campionamento non probabilistico è considerare un cattivo metodo di campionamento. Esso prevede la selezione del campione in base a criteri di comodo o di praticità, per esempio perché gli animali sono più facilmente accessibili, o per ragioni di costo, o perché in una certa zona sono disponibili volontari ecc.
Anche una scelta soggettivamente ritenuta "casuale" dall'operatore (con le classiche parole «... scelgo io a caso!») non assicura l'ottenimento di un buon campione, perché l'intervento umano è sempre portatore di distorsioni derivanti da pregiudizi o scelte più o meno inconsapevoli. Con un campionamento di convenienza si reclutano preferenzialmente unità "particolari" rispetto alla popolazione, ad esempio animali provvisti di un carattere capace di influenzare il carattere che vogliamo studiare. Un campione così ottenuto è soggetto a distorsione (bias) che, essendo appunto dovuto al metodo di selezione, viene detto bias di selezione. Ovviamente un campione di questo tipo fornisce dati poco affidabili e pregiudica il processo di generalizzazione dei risultati ( inferenza). ESEMPIO. La tua tesi di laurea ha come oggetto la stima della frequenza di parassitosi intestinali nel cane, che intendi valutare attraverso l'esame di campioni di feci. La popolazione oggetto della tua indagine è: tutti i cani della provincia di Parma. Procedi quindi a prelevare le feci di un campione di animali; per tua
187
convenienza (vuoi risparmiare tempo e denaro!), scegli di effettuare la raccolta dei campioni da animali che si trovano soprattutto nel tragitto che va dal paese dove abiti a Parma, la città dove studi. Alla termine della raccolta, il tuo campione è geograficamente distribuito come indicato nella mappa a lato, in cui ogni puntino rosso rappresenta un prelievo. E' evidente che questo campione non è rappresentativo della popolazione-oggetto prevista nella tua tesi. Quindi, il tuo campione è distorto. ESEMPIO. In un allevamento intensivo di 250 bovine da latte, devi indagare sulla prevalenza di mastite subclinica. La popolazione di interesse è: tutte le bovine dell'allevamento in lattazione in quel periodo. Operativamente non è possibile esaminare tutte le bovine, quindi decidi di sottoporre ad esami di laboratorio i campioni di latte prelevati dalle prime 20 bovine che si presenteranno in sala di mungitura. Questa strategia di campionamento è molto conveniente, in quanto non devi attendere l'arrivo di tutte le bovine. Bisogna però precisare che nell'accesso alla sala si instaura infatti un ordine di precedenza ben preciso, basato anche sull'età; quindi, le primipare (ossia le bovine di primo parto) non entreranno a far parte del campione. Il tuo campione risulterà distorto.
188
9. Campionamento 9.6 Campionamento per randomizzazione semplice OBIETTIVO: apprendere modalità e caratteristiche del campionamento per randomizzazione semplice
Il campionamento per randomizzazione semplice (o campionamento casuale semplice) si effettua estraendo una certa quota di unità dalla popolazione attraverso un metodo che garantisce la casualità delle estrazioni.
La casualità viene ottenuta estraendo numeri a partire da un elenco (detto "lista di campionamento") in cui sono presenti tutti gli individui della popolazione da studiare. Il metodo deve garantire la casualità dell'estrazione. Teoricamente, nel caso di liste molto piccole, potrebbe andar bene l'estrazione di «numeretti» come nel gioco della tombola. Ovviamente, però in realtà si utilizzano sistemi diversi, come un computer provvisto di apposito software, oppure una calcolatrice tascabile fornita della apposita funzione, oppure le cosiddette «Tavole generatrici di numeri casuali».
189
ESEMPIO 1: UTILIZZO DI UN FOGLIO DI CALCOLO. Hai il compito di stimare la presenza di anticorpi nei confronti del virus della pseudorabbia nelle scrofe di un allevamento da riproduzione. Nell'allevamento sono presenti 128 scrofe, tenute in box singoli numerati da 1 a 128. Desideri selezionare un campione di dimensione pari a circa il 10% della popolazione. La popolazione in analisi sono le 128 scrofe. La lista di campionamento è costituita da numeri da 1 a 128. L'unità di analisi è la singola scrofa. Puoi usare un un apposito programma per la generazione di numeri casuali che forse hai installato sul tuo PC, oppure una delle tante risorse disponibili in Internet, oppure un foglio di calcolo (v. immagine di esempio a lato). Nel foglio di calcolo dovrai utilizzare la funzione =CASUALE() che restituisce un numero decimale casuale compreso fra 0 e 1. A te servono numeri interi compresi fra 1 e 128, quindi dovrai usare la formula =INT(CASUALE()*128+1). Come vedi, nell'esempio a lato sono stati estratti i seguenti animali: 9, 34, 44, 60, 63, 65, 74, 85, 97, 99, 106,111, 122. ESEMPIO 2: UTILIZZO DELLA TAVOLA DEI NUMERI RANDOM. Si tratta di un sistema di ottenimento di numeri casuali che è stato quasi del tutto sostituito dai metodi elettronici. La Tavola però può essere proficuamente utilizzata in campo (ad esempio un
190
allevamento o in altre condizioni disagevoli) quando è necessario estrarre un campione piccolo. L'impiego della tavola è molto semplice, e viene illustrato in una breve presentazione animata. La randomizzazione semplice (come altri metodi basati sul caso) è un metodo valido per il campionamento perché ha le seguenti caratteristiche: • •
risponde ai caratteri di un buon campionamento: ogni individuo della lista di campionamento ha la stessa probabilità di entrare a far parte del campione; è un metodo basato sulla casualità, e quindi consente la valutazione dell'attendibilità dei risultati ottenuti.
Tuttavia, bisogna osservare che vi sono situazioni in cui questo metodo risulta poco pratico se non addirittura inapplicabile. Il principale svantaggio è quello di richiedere la preventiva numerazione di tutti gli animali (o una loro facile numerabilità); poi, una volta estratti i numeri, è necessario individuare nella popolazione i soggetti corrispondenti. La scarsa applicabilità di questo metodo viene illustrata nell'esempio che segue. ESEMPIO. Supponiamo di voler esaminare un campione di 100 broiler da estrarre con randomizzazione semplice da un gruppo di 4000. La procedura richiederà la numerazione da 1 a 4000 di tutti i soggetti (per esempio tramite un anello alla zampa), l'estrazione dei 100 numeri casuali e la cattura dei 100 corrispondenti animali. Queste operazioni necessitano tempo e mano d'opera; nella pratica non sono applicabili, anche perché esistono altri metodi di campionamento molto più adatti in queste condizioni (v. prossima Unità). Il campionamento per randomizzazione semplice viene invece agevolmente applicato quando si dispone di una popolazione già numerata, preferibilmente composta di un numero non elevato di unità, meglio se allevate in box singoli o in posta fissa (es. scrofe o bovini a stabulazione fissa). Un'altra tipica applicazione della randomizzazione semplice riguarda l'estrazione di «unità» già numerate e registrate su schede o in un database informatico. Ad esempio, potresti estrarre in questo modo un campione di proprietari di cani dalla clientela del tuo ambulatorio, oppure un campione di allevamenti di una Provincia ecc. ecc. Foglio di calcolo per Microsoft Excel® che genera numeri casuali (con ripetizione) compresi fra 0 e un numero n a scelta . Foglio di calcolo per Microsoft Excel® che genera n numeri casuali (senza ripetizione) compresi fra due numeri interi a scelta .
191
9. Campionamento 9.7 Campionamento per randomizzazione sistematica OBIETTIVO: apprendere modalità e caratteristiche del campionamento per randomizzazione sistematica
Il campionamento per randomizzazione sistematica (o campionamento sistematico) le unità che costituiranno il campione sono estratte dalla popolazione con un intervallo regolare; in pratica, a partire dalla popolazione (lista di campionamento), si sceglie una unitè ogni «n» dove «n» è il numero (approssimato all'intero) che si ottiene dividendo la numerosità della popolazione per la numerosità del campione desiderato. Questo metodo è più pratico rispetto alla randomizzazione semplice, ed assicura anche che le singole unità del campione siano distribuite uniformemente all'interno della popolazione. Occorre tuttavia porre attenzione che l'intervallo di campionamento prescelto non sia influenzato da qualche variabile esterna che ha la stessa ciclicità del campionamento (v. successivo ESEMPIO 3).
ESEMPIO 1. Nel corso di una indagine sulle ulcere gastriche del maiale, devi ottenere un campione costituito da 40 stomaci suini prelevati dai 450 suini che vengono macellati quotidianamente in un macello. La lista di campionamento è rappresentata dai 450 suini, numerati in base in base all'ordine di macellazione. Preleverai uno stomaco ogni 11 animali macellati. ESEMPIO 2. Stai conducendo un'indagine per stimare la frequenza di parassitosi intestinale in un gregge di 500 pecore. Intendi esaminare un campione di 25 animali, dai quali preleverai un campione di feci da sottoporre ad esame parassitologico. Un campionamento per randomizzazione semplice si rivela impraticabile, in quanto gli animali non sono contrassegnati. Decidi quindi di utilizzare la randomizzazione sistematica, che non prevede una preventiva identificazione degli animali: il gregge viene fatto passare attraverso una strettoia, e viene selezionato un animale ogni 20. In questo modo ottieni il campione randomizzato di 25 animali.
192
ESEMPIO 3. Hai l'incarico di stimare il livello di contaminazione batterica di un incubatoio, ed in particolare di osservare se esso subisce variazioni nel tempo. Procedi quindi al prelievo di materiali diversi (tamponi da filtri dell'aria, dai pavimenti, dalle camere di schiusa ecc.) attraverso randomizzazione sistematica: per comodità, la randomizzazione sistematica viene fatta in base al giorno della settimana: i prelievi vengono fatti 1 giorno ogni 7, cioè tutti i martedì. Però, a tua insaputa, nell'incubatoio ogni lunedì viene effettuata una operazione di pulizia e disinfezione particolarmente energica. Pertanto, il campione costituito dai «tamponi del martedì» non è rappresentativo. Nella figura che segue viene schematizzato un esempio di campionamento per randomizzazione sistematica, ipotizzando di dover estrarre 5 animali da una popolazione di 24. Per evitare di iniziare sempre dell'animale n. 1, l'animale da cui iniziare (nell'esempio: il numero 3) viene scelto a caso.
Nota che il campionamento sistematico non può essere considerato una forma di randomizzazione "a pieno titolo", in quanto garantisce una casualità di selezione molto più limitata rispetto al campionamento casuale semplice. Ad esempio, mediante la la randomizzazione semplice si possono estrarre, da una popolazione di 100 animali, ben 1013 campioni diversi costituiti 10 animali ciascuno. Nello stesso scenario, il campionamento sistematico consente invece di ottenere soltanto 10 differenti campioni.
193
9. Campionamento 9.9 Campionamento per randomizzazione stratificata OBIETTIVO: apprendere modalità e caratteristiche di un campionamento per randomizzazione stratificata
Il campionamento per randomizzazione stratificata viene effettuato quando si studia un carattere che, presumibilmente o notoriamente, è influenzato da un certo fattore presente nella popolazione. In pratica, prima di effettuare l'estrazione del campione la popolazione viene suddivisa in strati basati sul fattore che influenza il carattere da studiare. Quindi, all'interno di ciascuno strato si sceglie un campione con un metodo che garantisca la casualità come, ad esempio, il metodo della randomizzazione semplice o sistematica.
Nello schema che segue viene riassunto il procedimento di selezione del campione, in cui si ipotizza che la razza degli animali sia un fattore che influenza il fattore che dovrà essere studiato.
194
Un campione ottenuto per stratificazione ha il vantaggio di rappresentare meglio la popolazione da cui è stato estratto. Però, la ridotta numerosità dei vari strati può rendere poco attendibili le stime riferite ai singoli strati. Il campionamento per randomizzazione stratificata è più flessibile di quello eseguito con randomizzazione semplice in quanto nei diversi strati può essere scelta una percentuale differente (es. 2% in uno strato, 5% in un altro ecc.). La stratificazione apporta, in genere, un altro importante vantaggio: quello di ottenere, all'interno di ogni strato, una varianza (e, di conseguenza, un errore standard) inferiore rispetto alla varianza complessiva della popolazione. Si tratta di un vantaggio che, a prima vista, potrebbe sembrare poco importante, ma che invece è essenziale per aumentare la precisione della stima che si otterrà dallo studio del campione. Questo argomento verrà accennato in una unità successiva.
195
ESEMPIO. Hai la necessità di misurare il livello di copertura anticorpale nei confronti di una certa malattia in un allevamento di bovini. Sei a conoscenza del fatto che i bovini con contrassegno auricolare <1000 sono stati vaccinati nei confronti di quella malattia, mentre non è noto lo stato immunitario degli altri, acquistati di recente. È evidente che la vaccinazione influenza la variabile che vuoi misurare, e quindi sarà opportuno effettuare un campionamento per stratificazione: strato dei vaccinati (marca auricolare <1000) e dei non vaccinati. Inoltre, è presumibile che la variabilità (varianza) del livello anticorpale dello strato "vaccinati" sarà inferiore rispetto a quello della popolazione complessiva costituita dalla somma dei due strati. ESEMPIO. Supponi di voler studiare la produzione di latte delle bovine in una regione ove vengono allevate vacche di due diverse razze: la Bianca Val Padana e la Frisona. È noto che la produzione di quest'ultima è superiore (per motivi genetici) rispetto alla Bianca; perciò, converrà suddividere la popolazione-oggetto in due strati (strato «Bianca» e strato «Frisona») e poi campionare all'interno di ciascuno di essi per randomizzazione semplice o sistematica. Supponi inoltre di conoscere che, nella regione considerata, il rapporto numerico Frisona/Bianca sia 9/1; allora, potrai scegliere un campione proporzionale che rispetti la proporzione esistente nella popolazione: un campione di 100 vacche sarà composto da 90 Frisone e 10 Bianche Val Padana. Ovviamente lo stato di tutte le unità della lista di campionamento riguardo ai fattori su cui è basata la stratificazione, deve essere noto prima di scegliere il campione. Ciò costituisce una limitazione operativa del campionamento stratificato Non è indispensabile che il numero di animali che compongono il campione all'interno di ciascuno strato sia proporzionale alla dimensione dello strato nella popolazione. Cioè, in altre parole, si può effettuare un campionamento "non proporzionale". Naturalmente, con un campionamento non proporzionale, le inferenze sulla popolazione andranno debitamente aggiustate. ESEMPIO. Vuoi effettuare un campionamento per randomizzazione stratificata in una popolazione di suini. Il carattere di popolazione importante ai fini della stratificazione è il peso. La popolazione è distribuita, in rapporto al peso, come indicato nella tabella a lato. Nella stessa tabella vengono riportati due esempi di campionamento (proporzionale e non proporzionale), supponendo di voler ottenere un campione di dimensione pari al 10% della popolazione.
196
9. Campionamento 9.9 Campionamento a grappolo OBIETTIVO: apprendere modalità e caratteristiche del campionamento a grappolo o "a cluster" (cluster sampling)
Il campionamento a grappolo consiste un un metodo in cui, invece di procedere alla selezione diretta delle singole unità di interesse, si selezionano di gruppi (grappoli o cluster) di unità. Nella pratica, spesso i cluster sono già preformati, e comprendono un numero limitato di unità (es. nidiate di suinetti, box di vitelli, ecc.). In alternativa, i cluster possono essere individuati artificialmente (es. cluster di allevamenti raggruppati su base geografica).
ESEMPIO 1. Devi verificare la presenza di una infezione virale che colpisce i cuccioli di cane poco dopo la nascita. A questo scopo devi prelevare un campione di sangue da sottoporre ad esami di laboratorio. L'unità di indagine è rappresentata dal «cucciolo». La lista di campionamento è rappresentata da tutti i cuccioli che nasceranno, durante un determinato periodo di tempo, negli allevamenti da controllare. Decidi di effettuare un campionamento a grappolo, selezionando, mediante randomizzazione semplice o sistematica, un certo numero di nidiate. Ciè ti consente di ridurre le risorse da impiegare nella indagine, e di minimizzare lo stress agli animali. ESEMPIO 2. Un allevamento di galline ovaiole è composto da un solo grande capannone che ospita 6000 galline alloggiate in 1500 gabbie contenenti 4 soggetti ciascuno. La lista di campionamento è rappresentata da tutte le galline. È necessario prelevare un campione di sangue da un campione di 300 animali. Effettui un campionamento a grappolo, selezionando (per randomizzazione semplice oppure sistematica) 75 gabbie, e prelevando il campione di sangue dai dai 4 soggetti presenti in ciascuna .
197
Nello schema che segue viene riassunto un procedimento di selezione del campione mediante campionamento a grappolo. ,
Rispetto alla randomizzazione semplice, sistematica o stratificata, il campionamento a grappolo offre il vantaggio di facilitare notevolmente il reclutamento dei soggetti; di conseguenza si abbassano costi e tempi dell'indagine. Tuttavia, proprio perché si lavora su gruppi preformati, l'errore di campionamento può essere più elevato rispetto ai suddetti metodi di randomizzazione.
198
9. Campionamento 9.10 Variabilità di una stima OBIETTIVO: esaminare i rapporti fra campione e popolazione da cui esso proviene
Finora abbiamo descritto alcuni metodi che consentono di estrarre da una popolazione un campione affidabile. In questa Unità (es in quelle successive) vediamo come si utilizzano i dati che si ottengono dallo studio del campione. Dopo aver selezionato un campione, procederai a misurare il parametro che ti interessa su tutte le unità) del campione stesso. Alla fine del tuo lavoro, conoscerai lo stato degli animali che compongono il campione. Però, in realtà, questo dato non ti interessa molto: infatti, a te interessa conoscere lo stato degli animali dell'intera popolazione! ESEMPIO. E' necessario valutare la copertura anticorpale per il virus della pseudopeste in un gruppo di 1000 galline. Prelevi un campione di sangue da 20 soggetti scelti mediante randomizzazione, e poi effettui il dosaggio degli anticorpi pseudopeste. Delle 20 galline, 18 (90%) risultano protette. Questa conclusione non ti soddisfa del tutto: in effetti, a te interessa sapere qual è la percentuale di animali protetti nell'intero gruppo e non nel campione! Proseguiamo il ragionamento iniziato nell'esempio. Sicuramente il tuo buon senso ti porterà a ritenere che, se è protetto il 90% del campione, allora sarà protetto il 90% della popolazione. Più in generale:
199
L'uguaglianza dello schema non è una vera uguaglianza matematica. Tornando all'esempio: puoi essere sicuro che siano protette proprio 900 galline su 1000? Ovviamente no, potrebbero essere, per esempio, 870 o 815, o 945 ecc.. In sostanza, il problema che stiamo affrontando è quello di fare un corretto processo di inferenza. In altre parole, dobbiamo passare dal «particolare» (il campione) al «generale» (la popolazione) senza commettere un errore troppo grande. Ciò non può essere ottenuto ricorrendo al semplice buon senso. Il problema va risolto, invece, con un metodo oggettivo, ricorrendo alla statistica inferenziale (non farti spaventare da questa terminologia... vedrai che è più facile di quel che pensi!). Sarà quello che faremo nelle prossime Unità di questo Capitolo. In base a quanto detto finora, dovresti essere convinto che l'uguaglianza dello schema precedente va sostituita con questa:
Il processo di inferenza porta sempre con sé una certa quota di errore. Ciò è inevitabile, perché il campione non potrà mai essere perfettamente rappresentativo della popolazione da cui proviene. Pertanto, attraverso la misura ottenuta su un campione, potremo soltanto ottenere una stima della
200
«vera» caratteristica della popolazione. Questa stima, come vedrai nelle prossime Unità, può essere calcolata facilmente. Per ora basterà dire che la precisione della stima è influenzata da alcuni fattori, dei quali ne conosci già uno: il metodo di campionamento. Infatti, se il campionamento non è stato fatto correttamente, il campione è distorto, non è rappresentativo della popolazione, e quindi la stima è inaffidabile. Un altro fattore molto importante che influisce sulla precisione della stima è il numero di animali che compongono il campione (numerosità del campione). Anche questo è un concetto facilmente intuibile: campioni grandi sono più affidabili, e permettono stime più precise ESEMPIO. Continuando l'esempio precedente, se tu avessi selezionato un campione di 200 galline (anzichè di 20), ti saresti avvicinato maggiormente alla vera percentuale di animali protetti nel gruppo di 1000, e quindi avresti potuto fare una stima più precisa. L'opposto sarebbe accaduto se tu avessi esaminato un campione composto soltanto da 4 galline.
Riassumendo: «stima» significa «valutazione approssimativa». La stima, per sua stessa natura, non può essere esatta ma, se il campione è stato selezionato con una metodica corretta (randomizzazione), ne potremo stabilire la variabilità, ossia i limiti probabili di oscillazione.
201
9. Campionamento 9.11 Esempio di calcolo della variabilità di una stima OBIETTIVO: analizzare un esempio di calcolo della stima di prevalenza di una malattia in una popolazione in base ai risultati di un campione randomizzato constatare che la variabilità di una misura effettuata su un campione non dipende dalla numerosità della popolazione
Un esempio esplicativo Supponi di voler accertare, attraverso l'impiego di un test, il numero di animali colpiti da una certa malattia subclinica in un allevamento ove sono presenti 500 suini all'ingrasso, sistemati in 20 box da 25 animali ciascuno. Per rendere i calcoli più semplici, ipotizziamo che il test fornisca sempre risultati veritieri. Non possiedi risorse sufficienti per esaminare tutti i 500 animali (che rappresentano la "popolazione di interesse"), ed allora decidi di saggiare un campione costituito da 40 suini. A questo scopo, effettui un campionamento a grappolo, sottoponendo al test 2 animali per ogni box, scelti a caso. In questo modo ottieni un campione randomizzato di 40 animali. Nota. Il campionamento a grappolo è stato scelto perché, nello scenario ipotizzato, è quello più conveniente sul piano pratico. Ai fini dell'esempio, però, avresti potuto utilizzare un altro tipo di campionamento, purché randomizzato (es. randomizzazione semplice, o randomizzazione sistematica, o sttatificata). Sottoponi al test i 40 animali del campione; 14 di essi risultano test-positivi. Quindi, nel campione la proporzione di positivi è pari a 14/40=0.35. Quindi: p=0.35, ossia 35%. Poiché il campione è randomizzato, non sono presenti fonti di distorsione (bias) e, quindi, esso è rappresentativo della popolazione di interesse (i 500 suini). Allora, inizialmente, è ragionevole assumere che anche nella popolazione la positività sia all'incirca pari a 0.35. La situazione viene riassunta nello schema che segue:
202
Come già detto, la composizione del campione è influenzata soltanto dal caso (non ci sono errori sistematici). Pertanto, il valore statistico che hai calcolato (0.35) è influenzato soltanto dall' errore campionario, di cui possiamo calcolare i limiti. In altre parole, possiamo stimare quale sarà la «vera» proporzione di test-positivi nella popolazione. A questo scopo, a partire dalla proporzione p ottenuta (0.35), dobbiamo calcolare dapprima la varianza e poi, da questa, l'errore standard. Quest'ultimo rappresenta l'indice della variabilità della nostra statistica. Il calcolo si esegue come segue:
La variabilità della proporzione di animali test-positivi ottenuta dallo studio del campione può essere stimata come segue:
Con i dati del nostro esempio, abbiamo:
203
Se lo preferisci, puoi convertire la proporzione in valore percentuale, semplicemente moltiplicando per 100. Allora ottieni:
Ecco espresso qui sopra il concetto di «stima»: essa ti dice che puoi essere abbastanza sicuro che la vera percentuale di test-positivi nella popolazione sia compresa fra 27.5 e 42.5%. Questa stessa affermazione può essere espressa meglio così: esiste una certa probabilità che la vera percentuale di test-positivi nella popolazione sia compresa fra 27.5 e 42.5 %. Naturalmente non possiamo accontentarci di affermare genericamente che esiste una «certa» probabilità: questa «certa» probabilità vogliamo conoscerla! È quello che faremo nella prossima Unità, in cui porteremo a termine l'esempio qui iniziato. Dalla formula per il calcolo della varianza puoi dedurre che la grandezza dell'errore standard è in relazione inversa con la numerosità del campione, Ciò conferma quanto detto nell'Unità precedente: più è il campione, più la stima è precisa. Invece, contrariamente a quanto si pensa comunemente, la precisione della stima non dipende dalla numerosità della popolazione da cui il campione è stato estratto (a patto che il campione sia "abbastanza" piccolo - diciamo almeno 10 volte più piccolo - rispetto alla popolazione). Nell'esempio ora concluso, l'errore standard assume lo stesso valore nel caso in cui il campione di 40 animali provenga da una popolazione di 500 o, per esempio, di 5000 o di 50000 ecc. Infatti, come puoi verificare dando un'occhiata ai calcoli, la numerosità della popolazione non compare nel procedimento di calcolo dell'errore standard. La relazione esistente tra p ed errore standard (v. grafico a lato) è molto interessante perché ti aiuta a comprendere il motivo per cui l'errore standard è così utile per esprimere la variabilità di una proporzione. Se tutti i soggetti si trovano in una classe oppure nell'altra (ad esempio sono tutti test-negativi oppure tutti test-positivi), allora p=0 oppure p=1, e quindi la radice quadrata di p*(1-p), ossia l'errore standard, è pari a zero. Questa conclusione è ragionevole, in quanto l'errore standard è una misura di variabilità, ed ovviamente se tutti gli individui della popolazione appartengono alla stessa classe la variabilità è uguale a zero. Al contrario, la massima variabilità si ha quando ogni elemento della popolazione ha uguale probabilità di appartenere ad una classe o all'altra (ossia: p=0.5). In questo caso, l'errore standard assume il massimo valore possibile, ossia 0.5.
204
UN CASO PARTICOLARE: un campione grande rispetto alla popolazione. Se la numerosità del campione è superiore a 1/10 della numerosità della popolazione, allora nel calcolo dell'errore standard occorre introdurre un fattore di correzione detto "correzione per una popolazione finita". Definiamo: N la numerosità della popolazione; n la numerosità del campione. Il fattore di correzione si calcola come: (N-n)/N. Esso si utilizza come nell'esempio che segue. Supponiamo di aver estratto, dalla stessa popolazione di 500 suini dell'esempio precedente, un campione di 100 animali, e di aver ottenuto la stessa proporzione di animali positivi (35%). Si tratta di un campione relativamente grande, pari a 1/5 della popolazione, e quindi nel calcolo dell'errore standard è necessario considerare il fattore di correzione per una popolazione finita. Perciò, il calcolo dell'errore standard diventa:
A rigore, il fattore di correzione dovrebbe essere utilizzato anche nel caso di campioni piccoli rispetto alla popolazione. Tuttavia quando il campione è piccolo il valore del fattore di correzione si approssima ad 1, e quindi diviene ininfluente nel calcolo dell'errore standard. Per questo motivo esso viene generalmente omesso. Foglio di calcolo per Microsoft Excel® che visualizza, con un diagramma a torta, i limiti fiduciali in un campione a scelta.
205
9. Campionamento 9.12 Errore standard e limiti fiduciali OBIETTIVI: apprendere il concetto di «limiti fiduciali» utilizzare l'errore standard per il calcolo dei limiti fiduciali
Calcoliamo l'intervallo di confidenza Proseguiamo l'esempio lasciato in sospeso nella Unità precedente (se non l'hai letta, ti consiglio di farlo ora). Riassumendo: avevi studiato un campione di 40 suini, avevi calcolato un semplice valore statistico: la proporzione di animali positivi per una certa malattia. I suini positivi erano 14, quindi la proporzione era risultata pari a 14/40=0.35 (35%); l'errore standard di questa proporzione era di 0.0754 (7.54%). L'errore standard rappresenta un indice della variabilità della proporzione; possiamo anche dire è una misura l'affidabilità della proporzione: più esso è piccolo, più la proporzione che hai calcolato nel campione si avvicina alla vera proporzione della popolazione.
Nella pratica, l'errore standard serve per calcolare l'intervallo fiduciale o intervallo di confidenza (sinonimo: limiti fiduciali) della proporzione. L'intervallo di confidenza è l'intervallo di valori entro i quali si stima che cada, con un livello di probabilità scelto a piacere, il valore vero della popolazione. In realtà si sceglie quasi sempre un livello di probabilità di 0.95 o, più raramente, 0.99, ottenendo rispettivamente l'intervallo di confidenza al 95% o al 99%.
L'intervallo di confidenza per una proporzione si calcola come segue:
206
Certamente ti chiederai da dove vengono i valori scritti in blu nello schema soprastante. Per quanto riguarda i moltiplicatori dell'errore standard, la risposta presuppone nonzioni di statistica un po' avanzate; quindi sarebbe troppo complicata ed al di fuori dello scopo di questo Quaderno. Quindi ti consiglio di prendere questi due valori (1.96 e 2.58) come «numeri magici» da utilizzare senza porti troppe domande. L'intervallo di confidenza calcolato come: valore statistico ± 1 volta l'errore standard fornisce una «confidenza» del 68% circa, troppo bassa per essere di una qualche utilità pratica. Per quanto riguarda i due livelli (0.95 e 0.99, oppure in percentuale 95% e 99%) di probabilità, si può dire che essi sono adottati per convenzione, e rappresentano uno standard nel campo biomedico. Essi consentono di avere una probabilità abbastanza alta (appunto 95% o 99%) di individuare l'intervallo «giusto» senza però ampliarlo eccessivamente. Infatti è evidente, dalle formule dello schema soprastante, che l'ampiezza dell'intervallo cresce con l'aumentare della probabilità. Torniamo al nostro esempio. Con i dati che hai a disposizione, l'intervallo di confidenza 95% si calcola come segue:
Ed analogamente l'intervallo di confidenza 99%:
Nello schema che segue è visualizzato il raffronto fra l'ampiezza dei due intervalli di confidenza.
207
In conclusione, puoi affermare: • •
con confidenza 95% che la percentuale di positività nella popolazione è compresa fra 20% e 50% circa; con confidenza 99% che la percentuale di positività nella popolazione è compresa fra 15% e 55% circa;
Ripetiamo ancora il significato dell'espressione «confidenza 95%»: c'è una probabilità del 95% che l'intervallo trovato includa la vera caratteristica della popolazione. Questa definizione non è del tutto corretta, e certamente uno statistico «puro» potrebbe storcere il naso... ma in questa sede è giustificata dal «Teorema di Saki» che recita: una piccola inesattezza a volte risparmia tonnellate di spiegazioni :-)) Ecco una definizione migliore (ma anche un po' più difficile da assimilare): «confidenza 95%» significa che se ripetessimo la stessa indagine per 100 volte con gli stessi metodi (ma su 100 campioni diversi), probabilmente otterremmo ogni volta una stima diversa; tuttavia, il vero valore della popolazione sarebbe all'interno del nostro intervallo di confidenza 95 volte su 100. In altre parole, l'intervallo di confidenza fornisce un risultato aderente alla realtà nel 95% dei casi. Un caso diverso: l'intervallo di confidenza di una media Prima di trattare questo argomento, vale la pena di fare un po' di chiarezza riguardo a due statistiche sulle quali molto spesso c'è confusione: la deviazione standard e l'errore standard. La deviazione standard indica variabilità di una misura effettuata sul campione; invece, l'errore standard indica la variabilità di un valore statistico (es. una percentuale, una media ecc.). Devi fare attenzione a non confondere l'errore standard con la deviazione standard! Si tratta di due cose molto diverse. Ripetiamo di nuovo: • •
la deviazione standard descrive la variabilità di una serie di misure effettuate su un campione o una popolazione. l'errore standard descrive l'incertezza nella stima di un valore statistico (es. media, proporzione ecc.);
208
ESEMPIO. Sono stati pesati singolarmente 100 suini, ottenendo alttrettanti valori (es. 94.0, 92.2., 97.9 ecc.). Il peso medio è risultato pari a 95.2 kg. Sui 100 valori del peso di ciascun suino puoi calcolare la deviazione standard (come già descritto altrove). Sulla media ottenuta puoi invece calcolare l'errore standard. Abbiamo visto come si calcola l'errore standard di una proporzione (o percentuale). Ma come si fa a calcolare l'errore standard di una media? È molto semplice: basta dividere la deviazione standard per la radice quadrata della numerosità del campione (n):
Nota che, ancora una volta, l'errore standard dipende dalla numerosità del campione: più grande è il campione, più piccolo sarà l'errore standard, e quindi più attendibilità la media calcolata. L'errore standard della media può essere utilizzato per calcolare l'intervallo di confidenza, così come già visto per le proporzioni. Il calcolo è molto simile:
dove t è un coefficiente desumibile dalla «Tabella dei valori t per la distribuzione di Student» (ne trovi qui una semplificata). Nell'uso della tabella, devi tener conto che i gradi di libertà si calcolano come: numerosità del campione - 1. .
ESEMPIO. Hai misurato il peso di un campione di 29 suini di un gruppo in allevamento. La media è risultata pari a 82.5 kg, con una deviazione standard di 3.50 kg. L'errore standard della media è:
L'intervallo di confidenza 95%, con 28 gradi di libertà, è:
Puoi concludere, con confidenza 95%, che il peso medio dei suini del gruppo è compreso fra 81.17 e 83.83kg.
209
9. Campionamento 9.13 Dimensione o numerosità del campione OBIETTIVO: acquisire informazioni sui criteri che regolano la scelta del numero di unità che compongono il campione da studiare ("numerosità del campione"); apprendere un semplice metodo per determinare la dimensione di un campione
Secondo l'opinione comune, la bontà dei risultati ottenibili da un campione (ad esempio i risultati di un sondaggio) dipende unicamente dal numero degli individui che compongono il campione stesso e non dal modo con cui essi sono stati selezionati. La debolezza di questo assunto è già stata dimostrata nelle unità precedenti. Un'altra opinione comune prevede che la dimensione del campione debba essere proporzionata alla dimensione della popolazione in studio. Le leggi della statistica dimostrano invece che questo assunto è completamente falso. Ad esempio, il fatto di voler fare un sondaggio sugli abitanti di un capoluogo di provincia, su quelli di una grande città o addirittura su tutta la popolazione italiana non ha nessuna influenza sul numero di persone necessario per ottenere un campione rappresentativo. Insomma, contrariamente a quello che l'intuito potrebbe suggerire, un campione di 1000 persone può, se scelto con un metodo appropriato, rappresentare con la stessa attendibilità e gli stessi limiti la popolazione di Parma, oppure quella dell'Emilia, oppure quella dell'intera Italia, nel senso che il margine di errore dovuto al campionamento sarà sempre pari al 3% circa. Ciò a patto che la popolazione sia sufficientemente grande, ossia composta da almeno 10000 unità. D'altra parte, a questa stessa conclusione si può giungere in base a quanto contenuto nella unità precedente, in cui si spiega che l'errore standard di una proporzione è in relazione inversa con la dimensione del campione, ma non dipende affatto dalla numerosità della popolazione in studio. Infatti - come già visto - nel calcolo dell'intervallo di confidenza 95% di una proporzione, la numerosità della popolazione da cui il campione proviene non viene considerata:
Applicando la soprastante formula che permette di calcolare l'intervallo di confidenza 95%, verifichiamo l'affermazione secondo la quale il margine di errore con un campione di 1000 unità è sempre <3%. Supponiamo che p=0.5, ossia che la proporzione di animali immuni nel campione sia del 50%. Applicando la formula, otteniamo p = 0.5 ± 0.031, ossia 50% ± 3.1%.
210
Ciò nel caso in cui la varianza nella popolazione sia massima (p=0.5); negli altri casi, il margine di errore risulta ancora più basso. Ad esempio, con p=0.25, l'I.C.95% è 25% ± 2.7%. E' abbastanza naturale che, prima di intraprendere un'indagine epidemiologica, ci si interroghi su quante «unità di interesse» (animali o allevamenti ecc.) dovranno essere esaminate per raggiungere con sufficiente attendibilità l'obiettivo desiderato. Questa è una delle parti più delicate nella pianificazione di una indagine. Ovviamente, più grande sarà il campione e più precisi e attendibili saranno i risultati, a patto che il campione sia stato selezionato con un metodo corretto. Tuttavia, indagini su campioni di grandi dimensioni sono più costose e richiedono più tempo. Quindi, bisogna accettare un compromesso. Il calcolo della dimensione del campione, più propriamente detta numerosità, è abbastanza complicato e, soprattutto, richiede la conoscenza di informazioni diverse. I principali fattori che da considerare nell'individuazione della numerosità del campione sono: la varianza ed l'ampiezza desiderata dell'intervallo di confidenza.
La varianza La varianza è una misura del grado di variazioni o oscillazioni presenti, relativamente al parametro che vogliamo stimare, nella popolazione. L'entità di queste variazioni può essere derivata, almeno approssimativamente, dall'esperienza, o dai risultati di altre analoghe indagini effettuate in precedenza, o dalla conoscenza della storia naturale della malattia, o da altri fattori. Una popolazione in cui il parametro da misurare presenta ampie oscillazioni ha una varianza elevata; una popolazione in cui le oscillazioni sono scarse ha una varianza bassa. È intuitivo che la precisione di un campione è maggiore quando la popolazione da cui è stato estratto è tendenzialmente omogenea, mentre è minore quando la popolazione è eterogenea. ESEMPIO. Consideriamo due diverse popolazioni. La popolazione A è costituita da bovine da latte ad alta produzione della stessa razza ed allevate in grandi allevamenti intensivi. La popolazione B è rappresentata da bovine da latte di razza diversa ed allevate in allevamenti a differente tipologia (sia intensivi che piccoli allevamenti tradizionali). Se siamo interessati al calcolo della produzione media di latte nelle due popolazioni, sarà evidente che la varianza della popolazione A sarà minore rispetto alla varianza della popolazione B. La varianza è un fattore importante nel calcolo della numerosità del campione. In popolazioni a bassa varianza, lo studio di pochi animali fornisce comunque un buon quadro della «vera» caratteristica di popolazione.
211
In una popolazione teorica composta da n individui tutti identici fra loro, lo studio di 1 solo individuo è sufficiente per ottenere una indicazione precisa riguardo alla intera popolazione. Al contrario, se la varianza è alta, sono necessari molti animali, poiché ciascuno degli animali prescelti può essere molto diverso dalla media della popolazione.
Il livello di confidenza L'intervallo di confidenza rappresenta una misura della bontà di una stima. Un intervallo di confidenza molto ampio suggerisce che non siamo molto sicuri del punto in cui si trova il «vero» valore. Viceversa, un intervallo ristretto indica che siamo abbastanza sicuri che il valore trovato è piuttosto vicino al valore vero della popolazione; in questo caso la stima sarà, quindi, più precisa. Il livello di confidenza è una misura della sicurezza della stima: ad esempio, con un livello di confidenza 95% siamo sicuri al 95% che il valore vero cade nell'intervallo trovato. Cioè, se ripetessimo lo studio 20 volte, in media sbaglieremmo 1 volta ma saremmo nel giusto 19 volte. Per convenzione si utilizza generalmente il livello di confidenza 95%; talvolta si impiegano anche i livelli 90% o 99% o 99.9%. La scelta del livello di confidenza è spesso dettata da considerazioni pratiche (quantità di risorse e di tempo disponibili ecc.) più che dalla teoria. È chiaro che, se desideri raggiungere un livello di confidenza elevato, dovrai esaminare un campione più grande. Anche la performance del test che verrà utilizzato gioca un ruolo importante nel calcolo della numerosità del campione. Se il test è poco affidabile (cioè a bassa sensibilità e/o specificità), allora la numerosità del campione dovrà essere alta. Questo argomento viene trattato estensivamente nel (cioè a bassa Capitolo 11. Una formula semplice per determinare la dimensione del campione All'atto pratico, la determinazione della numerosità del campione dipende da considerazioni di tipo • •
non-statistico; statistico.
Le prime riguardano, ad esempio, le risorse disponibili (mano d'opera e finanziamenti, l'universo di riferimento ecc.) già accennate. Le considerazioni di tipo statistico consistono nella precisione desiderata e nella frequenza attesa (ossia che si prevede di ottenere) della variabile che si vuole studiare. PRECISIONE DESIDERATA. Viene espressa attraverso l'errore massimo tollerabile e può essere calcolata in termini assoluti o relativi. ESEMPIO. Vuoi accertare la proporzione di animali ammalati ( "prevalenza") in una popolazione di bovini. In base ad una serie di elementi in tuo possesso (es. indagini già effettuate in precedenza nella stessa popolazione, indagini simili in popolazioni simili ecc.) prevedi che la prevalenza pari a 0.3 (30%). Ritieni accettabile un errore del 7%. Quanti bovini della popolazione dovranno essere
212
studiati se la stima derivante dal campione deve cadere entro 7 punti percentuali rispetto alla vera prevalenza, con confidenza 95%? PREVALENZA ATTESA. Sembra paradossale suggerire che occorre "indovinare" la prevalenza prima di effettuare un'indagine che ha lo scopo di accertare la prevalenza, ma... è proprio così. Molto spesso, però c'è qualche indizio che permette di avvicinarsi al valore reale. Se proprio non sai... che pesci prendere, ipotizza una prevalenza 0.5 (ossia 50%): questo approccio è di tipo conservativo, nel senso che, come potrai dedurre dalla formula che imparerai fra poco, una prevalenza del 50% ti fa adottare un campione grande. La formula Supponi di voler stimare la prevalenza di una malattia (o di un altro carattere) in una popolazione. Come già detto, attraverso lo studio del campione vuoi una stima della prevalenza con una determinata precisione ed a un prescelto livello di confidenza. La dimensione può essere calcolata, con un livello di confidenza 95%, attraverso la seguente formula:
Se desideri una confidenza del 99%, sostituisci il valore 1.96 con 2.58. Ora, per mezzo di un esempio, calcolerai la dimensione del campione necessaria in una indagine. Sospetti che la prevalenza di una malattia in una popolazione sia pari a 0.3. Vuoi studiare un campione per stimare la prevalenza della malattia nella popolazione con precisione 0.07 (ossia 7%). Ciò significa che, ammesso che il tuo pronostico di prevalenza 0.3 sia abbastanza giusto, ti aspetti che i limiti dell'intervallo di confidenza della stima siano compresi fra 0.23 e 0.37. Vuoi calcolare la dimensione del campione necessaria. Sostituendo i valori appropriati nella formula, ottieni:
Per ottenere il tuo scopo, dovrai esaminare un campione di 165 animali. Puoi verificare a ritroso, come descritto di seguito ed utilizzando conoscenze che hai già acquisito, che un tal campione risponda alle tue aspettative: · hai estratto un campione di 165 animali; · supponi che, fra questi, ne siano risultati ammalati 44 (prevalenza = 44/165= 0.26, valore abbastanza vicino alla tua previsione); · il valore 0.26 è una stima, ne puoi calcolare la variabilità attraverso l'errore standard (magari con l'aiuto del foglio di calcolo); · l'errore standard risulta pari a 0.034;
213
· conoscendo l'errore standard puoi calcolare i limiti fiduciali 95% (o intervallo di confidenza 95%); · ottieni un limite fiduciale inferiore di 0.19 ed un limite superiore di 0.33 · la precisione della tua stima è, come desiderato, del 7%. Infatti: 0.26-0.19=0.07 ed anche 0.260.33=-0.07. Infine, resta da aggiungere che se il campione è piuttosto grande (circa 1/20 o più) rispetto alla popolazione da cui è stato estratto, se ne può ridurre la numerosità con la formula che segue:
Se, nell'esempio precedente, i 165 animali dovessero essere estratti da una popolazione di 740, allora il campione potrebbe essere ridotto a (165*740)/(165+740)=135. Foglio di calcolo per Microsoft Excel® per calcolare la numerosità del campione.
214
9. Campionamento 9.9 Campionamento mirato al rilevamento della presenza di malattia OBIETTIVO: apprendere un metodo per calcolare la dimensione del campione al fine di escludere/confermare la presenza di malattia in una popolazione
In alcuni casi, lo scopo del campionamento non è quello di stimare un parametro quantitativo della popolazione o di valutare la frequenza di un fenomeno, bensì, più semplicemente, quello di stabilire qualitativamente se una malattia è presente (o no) in una determinata popolazione. Questa necessità si verifica spesso in occasione di epidemie per verificare l'eventuale diffusione sul territorio di una malattia infettiva. La stessa necessità emerge anche in corso programmi di monitoraggio o controllo o eradicazione di una malattia. Consideriamo ad esempio le seguenti situazioni: •
•
•
nei programmi di controllo delle malattie diffusibili negli allevamenti intensivi di diverse specie animali, si può adottare lo schema dell'«allevamento accreditato». Questo schema è utile soprattutto negli allevamento di riproduzione che forniscono animali ad altri allevatori. L'accreditamento prevede che l'allevamento venga sottoposto a test che consentono di dichiararlo «indenne» da determinate malattie. Ciò significa che gli acquirenti possono acquistare con maggiore tranquillità e, d'altra parte, gli animali provenienti da allevamenti accreditati spuntano prezzi più elevati rispetto agli animali convenzionali. i piani di profilassi su scala nazionale tendono, in genere, a ottenere una popolazione «indenne» da una particolare malattia, attraverso un processo (es. abbattimento oppure vaccinazione seguita da abbattimento ecc.) che conduce alla «eradicazione» della malattia. Alla fine del piano di eradicazione, le Autorità sanitarie devono avere la certezza che la malattia è stata eradicata. In seguito, sono necessarie azioni di monitoraggio per accertare il mantenimento dello stato di indennità. l'esportazione di animali vivi o di loro prodotti è uno strumento importante per il progresso dell'agricoltura, soprattutto dei paesi meno sviluppati; tuttavia, ad un Paese esportatore viene sempre richiesto, da parte del Paese importatore, di dimostrare che lo scambio non comporta rischi di diffusione di malattie trasmissibili.
Il problema principale è legato al fatto che è molto difficile - se non impossibile - dimostrare con certezza matematica che una popolazione di animali è esente da una determinata malattia. Le difficoltà derivano da 2 fattori principali: 1. Il primo fattore è legato al fatto che, per dichiarare indenne la popolazione, si deve saggiare ogni animale che fa parte della popolazione stessa. Ciò comporta, soprattutto nel caso di popolazioni costituite da un ingente numero di individui, l'impiego di risorse ingenti (e non sempre disponibili). 2. Il secondo fattore è legato al test che si utilizza per il rilevamento dello stato di malattia o di infezione. Nessun test è perfetto; molti test possono fornire, anche se in piccola percentuale,
215 risultati falsi-negativi. Ossia, il test può classificare come «sano» un animale che in realtà è «ammalato»
ESEMPIO. Abbiamo un allevamento di galline costituito da circa 40.000 riproduttori (cioè che producono uova destinate all'incubazione). Dobbiamo dimostrare che gli animali sono indenni da pullorosi (malattia sostenuta da Salmonella pullorum, caratterizzata dalla trasmissione per via verticale). Per ottenere una dimostrazione «certa» dovremo esaminare tutti le 40.000 galline. Infatti, è possibile (anche se improbabile) che l'infezione sia localizzata ad un solo o a pochissimi animali. Esaminando un campione, si corre il rischio di non includere nel campione i pochi animali infetti. Decidiamo quindi di sottoporre al test diagnostico tutte le galline; supponiamo che i risultati siano tutti negativi. A questo punto, siamo CERTI che la malattia non è presente nella popolazione? Ovviamente no, perché il test potrebbe aver fornito qualche esito falso-negativo. Quindi, concludiamo che:
Tenuto conto delle difficoltà ora esposte, si può aggirare il problema considerando che una malattia, se presente nella popolazione, probabilmente colpirà un certo numero di individui e non uno solo.. Su questa base, potrebbe essere molto interessante rispondere alla seguente domanda:
ESEMPIO. Possiamo prevedere che la salmonellosi del suino, che è una malattia contagiosa, difficilmente colpirà meno del 5% dei soggetti appartenenti ad un gruppo. Possiamo calcolare la numerosità del campione tale che si possa identificare con una certa sicurezza (confidenza!) la presenza della malattia, se essa è presente nel gruppo. In altre parole, possiamo estrarre dal gruppo un numero di animali tale che da avere nel campione almeno 1 soggetto positivo. La risposta si trova nella formula che segue, utile per risolvere il problema impegnando il minimo di risorse, ed ottenendo un risultato affidabile ad un livello di confidenza prescelto. Questo livello di confidenza misura la probabilità che la popolazione sia esente dalla malattia se tutti gli n individui del campione esaminato risultano negativi; in genere si adotta un livello di confidenza 0.95 (95%) o 0.99 (99%).
216
Formula tratta da: Cannon R.M., Roe R.T. (1982). Livestock Disease Surveys: a Field Manual for Veterinarians. Australian Government Publishing Service, Canberra. Nella prossima Unità la formula viene applicata ad un esempio pratico. Nel caso in cui la popolazione oggetto dell'indagine sia di numerosità «infinita» (o composta da un numero elevato di unità, dell'ordine di migliaia), si può adottare la seguente formula, più semplice, che fornisce all'incirca gli stessi risultati della precedente a patto che la prevalenza presunta sia >5% circa:
Concludendo: anche se non possiamo provare con certezza che una popolazione è esente da una malattia, possiamo però ottenere una stima, con precisione a nostra scelta, saggiando un numero adeguato di animali. In altre parole, potremo dimostrare con un certo grado di probabilità che la malattia non è presente nella popolazione. É da sottolineare che per l'applicazione della formula è richiesta la conoscenza presuntiva di D, cioè del numero di animali «positivi» nella popolazione ( prevalenza). Questa stima presuntiva può essere effettuata in base alla conoscenza dei caratteri generali della malattia in studio, della sua storia naturale, dei meccanismi di trasmissione, della situazione ambientale e geografica e di altri fattori contingenti. Foglio di calcolo per Microsoft Excel® che visualizza, con un diagramma a torta, la dimensione del campione in rapporto alla prevalenza della malattia ed al livello di confidenza.
217
9. Campionamento 9.15 Esempio di campionamento mirato al rilevamento di malattia OBIETTIVO:
verificare, tramite un esempio, l'utilizzo della formula che fornisce la numerosità del campione qualora si voglia rilevare la presenza di una malattia.
Nella Unità precedente è stato descritto un metodo di determinazione della numerosità del campione nel caso si voglia determinare qualitativamente la presenza/assenza di una malattia in una popolazione. Ora mettiamo alla prova il metodo attraverso un esempio. Supponi di dover accertare se, in un allevamento di 1000 suinetti all'ingrasso, è presente la «Rinite atrofica», una malattia sostenuta da due batteri Gram negativi: Bordetella bronchiseptica (forma lieve non progressiva) oppure Pasteurella multocida (forma grave progressiva). La prevalenza di questa malattia è variabile, ma in genere non raggiunge livelli elevati. Pertanto ipotizzi che, se l'infezione è presente nel gruppo, la sua prevalenza possa essere molto bassa: 0.01, ossia 1%, o superiore. Ciò significa che, se la malattia è presente nel gruppo di 1000 suini, almeno 10 di essi sono infetti. Ovviamente non puoi permetterti di esaminare tutti gli animali, ma dovrai procedere su un campione. Ti chiedi quindi: «qual'è la dimensione del campione per poter concludere con ragionevole certezza che, se tutti gli animali del campione risultano negativi, il gruppo non è infetto?». La «ragionevole certezza» non è altro che il livello di confidenza. Decidi di adottare un livello di confidenza 0.95 (95%). Applicando la formula descritta nell'Unità precedente, ottieni:
Pertanto, esaminerai 258 suini; se tutti risulteranno negativi, concluderai - con confidenza 95% che il gruppo è esente da quella malattia. Il vantaggio di un approccio di questo tipo diventa ancor più evidente nel caso in cui la prevalenza presunta sia più elevata: con gli stessi dati dell'esempio, ipotizzando però che il numero di animali ammalati sia pari o superiore a 50, la dimensione del campione scende a 57 animali. Guarda la Tabella che segue: comprenderai meglio l'estrema l'utilità della formula nel caso in cui sia necessario stabilire se in una popolazione è presente o no una malattia. Nella Tabella sono riportati alcuni esempi di numerosità del campione in funzione della dimensione della dimensione
218
della popolazione, della frequenza (prevalenza) della malattia nella popolazione stessa e del livello di confidenza prescelto (95 o 99%).
Proviamo ad usare la Tabella: supponi, ad esempio, di dover esaminare una popolazione composta da 300 animali al fine di escludere la presenza di una determinata malattia, ipotizzando che il numero di animali "positivi" in questa popolazione non sia inferiore a 15, ossia che la prevalenza non sia inferiore a 0.05. Nella Tabella, ti devi collocare sulla riga popolazione=300 e nella cella di intersezione con la colonna prevalenza=0.05. Qui leggi i valori 54 e 78. Ciò significa che, esaminando un campione randomizzato di 54 animali senza trovare alcun positivo, potrai affermare con confidenza 95% che quella popolazione è esente dalla malattia. Per ottenere un livello di confidenza 99% dovresti esaminare 78 animali. Dai dati in Tabella puoi notare che la numerosità del campione è fortemente influenzata dalla prevalenza della malattia; quando la prevalenza è molto elevata, il fattore «numerosità della popolazione» diventa ininfluente. Alla fine di questa Unità trovi un foglio di calcolo che ti permette di calcolare e visualizzare, con un diagramma a torta, la numerosità del campione in rapporto alla prevalenza della malattia ed al livello di confidenza prescelto. Un problema leggermente diverso In altre occasioni, può essere utile rispondere ad un quesito concettualmente simile al precedente. Supponi che siano stati esaminati n animali tratti da una popolazione a numerosità N; tutti gli n animali esaminati sono risultati negativi. Il quesito è il seguente: «qual è, con confidenza a scelta, il numero massimo di animali malati nella popolazione?»
219
Al quesito si risponde applicando la stessa formula vista nell'Unità precedente, ma che con un po' di manipolazione algebrica è stata risolta per D come segue:
ESEMPIO. Supponi di aver riscontrato che un campione di 200 galline, appartenenti ad un gruppo di 5000, è risultato negativo per una certa malattia (es. pullorosi, una particolare forma di salmonellosi). Supponendo che la malattia sia presente nel gruppo, qual è il numero massimo di animali infetti presenti? A questa domanda si risponde come segue:
Foglio di calcolo per Microsoft Excel® che visualizza, con un diagramma a torta, la dimensione del campione in rapporto alla prevalenza della malattia ed un livello di confidenza a scelta.
220
10. Misure di frequenza delle malattie 10.1 Misure di frequenza delle malattie: espressione generale OBIETTIVI: apprendere i principi di base da utilizzare per la misura della frequenza di fenomeni morbosi differenziare fra rapporti, tassi e proporzioni
Una attività fondamentale in epidemiologia è la quantificazione delle malattie o di fenomeni ad esse correlati. La conoscenza del numero di individui ammalati o infetti in una popolazione è indispensabile per una vastissima gamma di motivi, fra i quali i più importanti sono: stimare i danni, prevedere l'evoluzione della malattia nel tempo, mettere a punto azioni di profilassi. Però, la semplice enumerazione dei casi di malattia e la loro espressione come valore assoluto, senza fornire alcun significativo riferimento, è raramente utile. Per ottenere dei dati utilizzabili ed interpretabili, dobbiamo esprimere i risultati delle nostre misure sotto forma di «proporzioni» o «rapporti», o «tassi». ESEMPIO 1. Supponiamo di aver osservato che, nell'arco di 1 anno, in una città si sono verificati 500 incidenti in cui sono state coinvolte automobili di colore grigio, mentre nel caso delle vetture di qualsiasi altro colore gli incidenti sono stati soltanto 300. Questa semplice enumerazione dei valori osservati ci autorizza a pensare che guidare un'auto grigia è più rischioso che guidare un'auto di un altro colore? Oppure: nel 2004 a Parma si è verificato un solo incidente in cui è stata coinvolta una automobile rosa. Pensi che ciò dimostri che le auto rosa sono più sicure delle altre? ESEMPIO 2. Con un ragionamento analogo, potremo affermare che "il letto è il posto più pericoloso che esiste, perché muoiono più persone nel letto che in qualsiasi altro luogo". Oppure che "le persone ammalate muoiono più frequentemente quando sono ricoverate in ospedale che quando vengono curate a casa". Ovviamente, queste affermazioni sono paradossi dovuti al fatto che si considera soltanto il numero di morti in valore assoluto e non rapportato a qualche riferimento valido. Infatti, per esprimere correttamente dati di questo tipo, bisogna utilizzare una frazione con un numeratore ed un denominatore. In genere, è molto facile stabilire la grandezza che sta al numeratore (in questo caso: il numero di morti); più difficile è invece configurare un denominatore idoneo ad attribuire un buon significato alla frazione. Ricordati: l'importante è usare il denominatore giusto! Le misure di frequenza delle malattie possono riferirsi ad una vasta gamma di eventi o di fenomeni. Considera, ad esempio, lo schema seguente in cui vengono mostrate alcune componenti che contribuiscono, come evento finale, alla morte degli animali per una malattia infettiva.
221
Dallo schema puoi notare che, in una popolazione, una certa quota di animali sono recettivi a quella malattia infettiva; di questi, solo alcuni sono esposti all'agente causale; fra gli esposti, alcuni si infettano e, fra gli infetti, alcuni si ammalano. Infine, alcuni degli ammalati muoiono. È evidente che, a seconda degli eventi considerati, si possono calcolare frequenze diverse. Ad esempio, potresti calcolare la proporzione di: - esposti sulla popolazione totale - malati sugli esposti - morti sulla popolazione totale - morti sugli infetti - di morti sugli ammalati - eccetera Potresti studiare anche la probabilità futura di eventi, cercando di prevedere, ad esempio, quanti individui (o allevamenti ecc.) si infetteranno o si ammaleranno o verranno a morte in un determinato periodo di tempo all'interno di popolazioni di dimensioni e con caratteristiche diverse. Tutte queste misure (o previsioni) vengono espresse attraverso una frazione in cui al denominatore si pone un valore appropriato a seconda della misura che si sta compiendo e dell'evento in studio. Molto spesso, quando si studia l'evento «malattia» in una popolazione, al denominatore si pone il numero di «animali biologicamente capaci di esprimere l'evento-malattia», ossia tutti gli animali che, in quella popolazione, possono ammalarsi, ossia presentare sintomi clinici della malattia. Ai fini del calcolo, non verranno quindi considerati come facenti parte della popolazione quegli animali che, per età, sesso, razza o altri fattori, non possono contrarre la malattia in oggetto. ESEMPIO 1. Vuoi indagare sulla frequenza di oviduttite (flogosi dell'ovidotto) in un gruppo di polli da riproduzione in cui sono presenti 4560 animali (570 galli e 3990 galline). La «popolazione» sarà rappresentata soltanto dalle 3990 femmine, in quanto i maschi non sono biologicamente capaci di esprimere l'evento studiato. ESEMPIO 2. La frequenza di cancro della cervice nella cagna verrebbe sottostimata se nella popolazione venissero compresi anche i soggetti che sono stati sottoposti a isterectomia. L'insieme degli individui biologicamente capaci di esprimere l'evento viene detto «popolazione a rischio». Gli individui della popolazione a rischio che sono soggetti ad uno o più "fattori di rischio"
222
(assimilabili ai determinanti) vanno a formare la cosiddetta «popolazione ad alto rischio», come indicato nella figura seguente.
Vale la pena di sottolineare di nuovo anche che le misure di frequenza delle malattie, per avere un senso, devono essere indipendenti dalle dimensioni della popolazione. Perciò è assurdo esprimere il numero dei soggetti che presentano un certo carattere in una popolazione utilizzando semplicemente un un valore assoluto. ESEMPIO. Considera la seguente affermazione: «Nell'allevamento di suini del sig. X oggi vi sono 15 animali ammalati.». Questa affermazione non chiarisce affatto la situazione dell'allevamento: infatti i 15 ammalati potrebbero far parte di un piccolo allevamento di 100 animali oppure di un grande complesso di 10000. In conclusione, per esprimere la frequenza di un fenomeno (es. malattia), non puoi utilizzare non un valore assoluto, ma devi ricorrere ad una frazione la cui forma generale è indicata in questo schema:
Come vedi, si tratta di una frazione un po' particolare, in quanto il numeratore è compreso nel denominatore! Essa assume sempre un valore compreso fra 0 e 1, e viende detta «proporzione». Per «rapporto» si intende invece una frazione in cui il numeratore non è compreso nel
223
denominatore. Ben difficilmente in epidemiologia si ha a che fare con numeri negativi; perciò possiamo ritenere che un rapporto assuma un valore compreso fra 0 e +infinito.. ESEMPIO. Nell'allevamento dell'esempio precedente (composto da 570 galli e 3990 galline): - «rapporto femmine/maschi» : 3990/570=7.0 - «rapporto maschi/femmine» : 570/3990=0.143 - proporzione di galli : 570/(570+3990)=0.125 (12.5%) - proporzione di galline: 3990/(3990+570)=0.875 (87.5%) Nota che, conoscendo la proporzione di galline, è possibile calcolare la proporzione di galli (e viceversa) in questo modo: proporz. galli = 1 - proporz. galline = 1 - 0.875 = 0.125. Perché è meglio utilizzare una proporzione piuttosto che un rapporto? Il principale motivo è legato alla mancanza di simmetria del rapporto. Considera il rapporto A/B. Se A è più grande di B, il rapporto può variare in un intervallo (range) compreso fra 1 ed infinito. Se invece A assume un valore inferiore a B, allora il range del rapporto è ristretto a valori fra 0 e 1. In altre parole, se modifichiamo il modo con cui definiamo il rapporto (passando da A/B a B/A o viceversa) i valori nel range 1...infinito passano nel range 0...1 e viceversa. Rapporti e proporzioni sono misure statiche, che si intendono effettuate in un determinato istante e nelle quali non viene considerata la variabile tempo. I «tassi» sono invece misure dinamiche, che rappresentano la variazione di una quantità per la variazione unitaria di un'altra quantità (generalmente il tempo). Pensa all'utilizzo del termine «tasso» applicato ai depositi bancario: es. tasso di interesse annuo, mensile ecc..
Un elemento di confusione è dovuto al fatto che, in medicina, il termine «tasso» viene usato talvolta come sinonimo di rapporto o proporzione, in quanto non si considera la variabile «tempo». Ad esempio, si parla di «tasso di glicemia» per indicare la quantità di glucosio presente per unità di volume di un campione di sangue. In conclusione, ti consiglio di utilizzare i termini «tasso», «rapporto» e «proporzione» in base al preciso significato su esposto; tuttavia, non devi dimenticare che talvolta «tasso» può essere usato impropriamente come sinonimo di «proporzione».
224
10. Misure di frequenza delle malattie 20.2 Morbosità e mortalità OBIETTIVO: apprendere le caratteristiche ed il metodo di misurazione di due fra le più importanti misure di frequenza: la «morbosità» e la «mortalità»
Abbiamo già descritto la frazione che consente di definire la frequenza di un fenomeno, ed ora la utilizziamo per calcolare due fra le più importanti misure di frequenza: "morbosità" e "mortalità" Morbosità La morbosità (dal latino morbus=malattia; inglese: morbidity) è la proporzione degli animali ammalati in un dato momento, in rapporto al numero di animali "a rischio". Per animali "a rischio" si intendono quelli che, nella popolazione considerata, possono contrarre la malattia in studio.
É bene precisare che per animale «ammalato» si intende un animale che manifesta sintomi clinici di malattia, e che quindi la morbosità è una misurazione di un fenomeno clinico. Quando si intende indicare, invece, la frequenza di un fenomeno non propriamente definibile come «malattia» o non rilevabile clinicamente (es. infezione), si deve impiegare il termine «prevalenza». ESEMPIO. In un allevamento di 160 bovini è presente la tubercolosi. Alla visita clinica, 8 animali evidenziano segni della malattia ( cachessia ed con ingrossamento dei linfonodi). Tutti i 160 bovini sono »a rischio«, ossia possono ammalarsi. Calcoli la morbosità attraverso la proporzione: 8/160 = 0.05 = 5%.
225
I 152 animali apparentemente sani vengono sottoposti ad un test diagnostico (es. "la prova della tubercolina"). Risultano positivi 15 animali; puoi calcolare la prevalenza della infezione subclinica: 15/152 = 0.10 = 10%. Talvolta in medicina veterinaria si usa impropriamente il termine "morbilità" come sinonimo di "morbosità". A rigore, il termine morbilità dovrebbe essere usato soltanto in medicina umana quale misura della attività lavorativa persa, calcolata come: (n. giorni di assenza dal lavoro) / (n. giornate lavorative previste). In medicina veterinaria la distinzione tra morbilità e morbosità è ovviamente priva di senso. Per restare in sintonia con la terminologia della medicina umana, ti consiglio di utilizzare "morbosità" e non "morbilità". Mortalità La mortalità è il rapporto tra il numero di animali morti in una popolazione, durante un periodo di tempo, ed il numero di animali che compongono la popolazione stessa. Per ora possiamo dire, semplificando, che la mortalità si calcola come illustrato nello schema che segue. Però vedrai, nella prossima Unità, che le cose non sono sempre così facili, e che il calcolo può essere un po' diverso.
Ti prego di considerare che la malattia ha una certa durata, mentre la morte è un evento che, in pratica, avviene in un istante. Pertanto, ha senso misurare la morbosità in un determinato istante, mentre lo stesso non si può dire per la mortalità che deve essere sempre calcolata in rapporto al tempo. Ecco perché la mortalità si misura attraverso un tasso («tasso di mortalità») e non attraverso una proporzione. Bisogna aggiungere un chiarimento riguardo agli «animali a rischio» del denominatore nel grafico soprastante. Come già sai, per animali a rischio intendiamo quelli biologicamente capaci di esprimere l'evento. Però tutti gli animali sono capaci di esprimere l'evento-morte! Quindi in effetti al denominatore puoi porre tutti gli animali della popolazione. In questo modo, calcolerai il cosiddetto «tasso grezzo di mortalità». Nella prossima Unità vedrai che si possono calcolare anche altri tipi di mortalità, usando denominatori più selettivi. ESEMPIO. In un acquario tropicale contenente 90 pesci, nell'arco di 24 ore ne muoiono 12. Osservando i restanti 78, si trova che 8 presentano evidenti segni di malattia. Con questi dati puoi calcolare quanto segue: tasso di
226
mortalità: 12/90 = 0.133 in 24 ore; morbosità al momento dell'osservazione: 8/78 = 0.102. Mortalità cumulativa Si dice «mortalità cumulativa» la somma delle mortalità rilevate in una popolazione attraverso una serie di osservazioni nel tempo, generalmente su lunghi periodi. Essa può essere rappresentata per mezzo di una curva, come nel grafico di esempio, ove viene mostrato un esempio di andamento della mortalità cumulativa in un gruppo di broiler. Il grafico contiene anche la curva della mortalità cumulativa attesa, cioè la mortalità standard prevista per quel tipo di allevamento.
Foglio di calcolo per Microsoft Excel® che visualizza l'andamento della mortalità cumulativa in una
227
10. Misure di frequenza delle malattie 10.3 Tassi di mortalità OBIETTIVI: Definire alcuni tassi di mortalità (tasso grezzo, tasso specifico e tasso proporzionale)
Nella Unità precedente è stato accennato ad una semplice misura della mortalità in una popolazione. In sintesi, è stato detto che il tasso grezzo di mortalità si ottiene calcolando la proporzione di morti in una popolazione rispetto al totale di animali a rischio, in un periodo di tempo. A questo proposito, era stato presentato un semplice esempio di calcolo del tasso mortalità in un acquario tropicale, contenente 90 pesci, in cui nell'arco di 24 ore ne erano morti 12: tasso di mortalità: 12/90 = 0.133 in 24 ore. Però, con questo approccio, può sorgere un problema: quello di calcolare il denominatore. Infatti, le cose sono facili ed il numero di animali «a rischio» può essere determinato agevolmente se la popolazione è chiusa (ossia non si verificano entrate o uscite di animali, come nell'esempio dell'acquario), ma si complicano se la popolazione è aperta.
In questa unità vediamo come si calcola il tasso grezzo di mortalità in popolazioni aperte, ed anche anche qualche altra misura più selettiva del tasso grezzo. Tasso grezzo di mortalità in popolazioni aperte Nel caso di popolazioni aperte, il tasso di mortalità si misura più ponendo al denominatore la media della popolazione a rischio:
228
In demografia, il tasso grezzo di mortalità si calcola su un periodo di 1 anno; si tratta di misurare popolazioni aperte. Però, trattandosi di popolazioni a numerosità molto elevata, per facilitare i calcoli al denominatore della frazione si pone convenzionalmente la popolazione esistente a metà anno, oppure la media fra quella esitente al 1 Gennaio e quella al 31 Dicembre. Ad esempio, in Italia durante il 1983 si sono verificati 553.568 decessi su un totale di 56.835.784 residenti a metà anno. Il tasso grezzo di mortalità è stato pari a: 553.568 / 56.835.784 = 0.00974. In pratica, si è osservato circa 1 decesso ogni 103 residenti circa. Ovviamente nel campo della medicina veterinaria, a motivo della durata variabile della vita delle specie animali, dell'ampia diversificazione delle specie allevate e dei tipi di allevamento, non avrebbe alcun senso utilizzare la popolazione «a metà anno». È invece necessario calcolare la media della popolazione a rischio in periodi variabili (che potrà essere di 1 settimana o 1 mese ecc. a seconda della situazione da descrivere), calcolando la media del numero di animali presenti in un determinato lasso di tempo. A questo punto ti chiederai sicuramente come si fa a calcolare la media della popolazione a rischio. Il calcolo viene impostato come nell'esempio seguente. ESEMPIO. Supponi di voler calcolare il tasso di mortalità verificatosi nell'arco di una settimana in un gruppo di suini aperto e composto inizialmente da 100 animali. Nel gruppo si sono osservati i seguenti eventi:
Nela seconda colonna è riportato il numero di animali presenti («a rischio») in ciascun giorno, tenendo conto dei movimenti (morti ed uscite); nel periodo considerato il totale cumulativo ha raggiunto 537 «presenze». Quindi, possiano calcolare che, in media, ogni giorno della nel gruppo erano presenti 537 / 7 = 76.7. Questa è la popolazione media nel periodo considerato. Ora puoi facilmente calcolare il tasso di mortalità nella settimana, come segue: 11 / 76.7 = 0.143 = 14.3% Tasso di mortalità attributo-specifico Come si è visto finora, i tassi grezzi si applicano all'intera popolazione, senza specificare alcuna caratteristica (es. età, razza ecc.) degli individui che la compongono. I tassi grezzi sono validi soprattutto nei gruppi di allevamenti intensivi, composti quasi sempre da animali con caratteristiche uniformi.
229
Se si deve misurare la mortalità in popolazioni eterogenee, può essere necessario suddividere la popolazione in sottogruppi omogenei rispetto a una o più attributi (ad. esempio, sesso, età ecc.) e calcolare i tassi nell'ambito dei sottogruppi. In questo caso, i tassi vengono detti «tassi specifici» o «tassi attributo-specifici», in quanto misurati specificando una determinata caratteristica degli animali. Il tasso di mortalità attributo-specifico si calcola come indicato nello schema seguente.
Ricordati che, nel caso di popolazioni aperte, al denominatore dovrai utilizzare la media della popolazione a rischio provvista dell'attributo, così come già visto in precedenza per il tasso grezzo. ESEMPIO. Un allevamento di bovine da latte è composto da 180 bovine adulte, da 32 manze e da 28 vitelli. Nell'arco di una settimana vengono a morte 6 vitelli. Devi tener conto del fatto che la patologia del vitello è molto diversa da quella degli adulti, e che i vitelli vengono allevati separatamente dagli adulti. Perciò non avrebbe senso misurare il tasso grezzo di mortalità (6/240 = 0,025 nella settimana). La situazione osservata nell'allevamento viene invece espressa meglio dal tasso attributo-specifico: tasso di mortalità nei vitelli = 6/28 = 0.214 = 21.4% durante la settimana considerata. Tasso di mortalità causa-specifico Un altro tipo di tasso di mortalità usato di frequente prevede la misurazione selettiva in base alla causa della morte, e viene detto tasso di mortalità causa-specifico. Esso rappresenta l'indice della mortalità dovuta ad una certa causa. Può essere calcolato sull'intera popolazione, oppure per sottogruppi scelti in base ad un carattere importante riguardo alla malattia considerata (es. età, razza, provenienza ecc.), ottenendo tassi di mortalità causa- e attributo-specifici. Il tasso di mortalità causa-specifico in popolazioni chiuse si calcola come segue:
Anche in questo caso, se la popolazione è aperta, al denominatore dovrai utilizzare la media della popolazione a rischio.
230
ESEMPIO. Nell'esempio precedente erano morti per cause ignote 6 vitelli su 28 in una settimana. Ora accerti che 4 di essi sono morti per colibacillosi. Il tasso di mortalità nei vitelli per colibacillosi nella settimana considerata è 4/28 = 0.143 = 14.3%. Nota che, se riferito all'intero allevamento di bovine da latte, questo è un tasso causa- e attributo-specifico. Tasso proporzionale di mortalità Viene detto anche rapporto proporzionale di mortalità (RPM). Esprime la proporzione della mortalità da ascrivere ad una determinata causa per il periodo considerato. Si calcola dividendo il numero di morti per una causa X per il numero di morti per tutte le cause. Viene usato per valutare il contributo di una causa alla mortalità complessiva.
È da notare che questo tipo di espressione non fornisce alcuna indicazione sul tasso effettivamente rilevato (v. i due esempi che seguono), ma può essere utile per stilare una sorta di «classifica» delle cause di morte in una popolazione. Nota che al denominatore non si pongono i soggetti della popolazione a rischio, ma il numero totale di soggetti morti per qualsiasi causa nel periodo considerato. ESEMPIO 1. Nell'arco di 15 giorni, in un gruppo di 24 vitelli ne sono morti 8, di cui 4 per enterite da Escherichia coli. Il tasso grezzo di mortalità nel periodo è pari a 8/24 = 0.33 (33%). Il rapporto proporzionale di mortalità per colibacillosi è 4/8 = 0.5 (50%). Ciò indica che la colibacillosi è stata responsabile del 50% di tutte le morti osservate. ESEMPIO 2. Nell'arco di 15 giorni, in un gruppo di 24 vitelli ne sono morti 8; la mortalità è 10 volte più bassa rispetto all'allevamento dell'esempio precedente: 8/240 = 0.033 = 3.3%. Fra gli 8 morti, 4 avevano una enterite da Escherichia coli. Il rapporto proporzionale di mortalità per colibacillosi in questo allevamento è identico a quello calcolato nell'allevamento precedente: 4/8 = 0.5 (50%).
231
10. Misure di frequenza delle malattie 10.4 Sopravvivenza e letalità OBIETTIVO: definire il significato dei termini «sopravvivenza» e «letalità» Tasso di sopravvivenza Bisogna premettere che questo argomento è molto complesso, soprattutto sul piano metodologico, ed assume una importanza soprattutto in medicina umana. In questa sede si accennerà soltanto ai principi di base.
Il tasso di sopravvivenza è la proporzione di individui con una certa malattia che sopravvivono per un dato tempo. Il calcolo del tasso di sopravvivenza si basa sulle informazioni raccolte su casi di malattia, spesso in numero di centinaia o migliaia, è sempre molto complicato e necessita di elaborazioni statistiche ad hoc (es. analisi di Kaplan-Meier). Tralasciando le problematiche operative che si presentano in questo tipo di analisi, nello schema sottostante viene indicata una semplice base razionale per il calcolo, in cui la sopravvivenza è espressa come probabilità per un animale di restare in vita per un determinato periodo di tempo.
In pratica, gli studi di sopravvivenza relativi ad una singola malattia si eseguono arruolando nel gruppo in esame (coorte) gli individui mano a mano che essi contraggono quella malattia. Ecco perché, nello schema soprastante, per «animali ammalati» si devono intendere i nuovi casi di malattia; poi, fra questi, vengono contati, nel tempo, i «morti». Dai dati ottenuti attraverso studi sulla sopravvivenza, possono essere ottenute le curve di sopravvivenza, utili per rispondere alla domanda «che probabilità ha un individuo con una certa malattia di sopravvivere per un dato tempo?»
232
ESEMPIO. È stata effettuata una indagine epidemiologica sul tempo di sopravvivenza di persone con tumore del colon-retto nel periodo 1974-1978. I numerosi dati raccolti sono stati sottoposti ad elaborazione statistica, ed è stata ottenuta una «curva di sopravvivenza», riportando in ascissa il tempo post-diagnosi ed in ordinata la percentuale di sopravvivenza (v. grafico a lato). Dal grafico si può dedurre, fra l'altro, che: (a) ad 1 anno dalla diagnosi è sopravvissuto il 65% dei pazienti; (b) a 3 anni è sopravvissuto il 38%; (c) a 10 anni è sopravvissuto il 20%; (d) l'andamento della curva dimostra che una quota rilevante delle morti si verifica nei primi due anni dopo la diagnosi. In oncologia umana si parla talvolta di sopravvivenza mediana, intendendo il tempo in cui è sopravvissuto il 50% dei pazienti (e quindi il 50% è deceduto). Nel grafico di esempio la sopravvivenza mediana si colloca attorno a 2 anni. I tempi di sopravvivenza, dipendono, oltre che dal tipo di malattia, anche dal cosiddetto «tempo zero», cioè dallo stadio di evoluzione della malattia utilizzato per rilevare il "nuovo caso". Il tempo zero può essere fissato arbitrariamente in corrispondenza di qualsiasi evento nell'evoluzione della malattia (comparsa di anticorpi; comparsa di marcatori tumorali; comparsa di sintomi; inizio del trattamento ecc.). Per questo motivo, i tassi di sopravvivenza riportati dalla letteratura possono variare ampiamente anche quando si riferiscono ad una stessa malattia. Negli animali domestici spesso la sopravvivenza dipende, oltre che dai caratteri intrinseci della malattia, anche da altri fattori artificiosi o soggettivi (ad esempio: eutanasia negli animali da compagnia o fattori economici negli animali da reddito). Talvolta, soprattutto negli allevamenti intensivi, la misura della sopravvivenza non assume alcun interesse pratico: ad esempio, nel caso di una malattia a lento decorso in broiler, in cui i soggetti ammalati vengono eliminati dall'allevatore in quanto il loro allevamento risulta antieconomico. Tasso di letalità Il tasso di letalità è la proporzione di animali morti per una certa malattia in un periodo sul totale di casi della malattia osservati nello stesso periodo di tempo.
233
Il tasso di letalità viene impiegata per indicare la probabilità, per un ammalato, di venire a morte per quella malattia in un dato periodo di tempo. Esso rappresenta una misura della capacità che ha una malattia di portare a morte l'animale colpito. Nel settore veterinario questo parametro è utile soprattutto nel caso di malattie acute, e particolarmente delle malattie infettive. Nota che il tasso di letalità è il complemento ad 1 del tasso di sopravvivenza, cioè [letalità = 1 sopravvivenza]. Ciò intuitivo, se pensi che, in ogni istante, la somma della letalità e della sopravvivenza deve essere uguale ad 1 (100%). Infine, nella figura che segue viene schematizzato il calcolo del tasso di sopravvivenza e di letalità per una malattia.
234
10. Misure di frequenza delle malattie 10.5 Prevalenza e incidenza: definizioni OBIETTIVI: apprendere il significato dei termini «prevalenza» «incidenza cumulativa», «densità di incidenza»; apprendere il calcolo delle suddette misure; individuare i fattori che possono causare variazioni della prevalenza o dell'incidenza
Parlando in generale, le misure di frequenza delle malattie possono descrivere: • •
l'insieme di tutti i casi esistenti in un determinato momento ed in una determinata popolazione il verificarsi di nuovi casi
A questo scopo si usano quindi due misure fondamentali: la prevalenza e l'incidenza. Queste due misure sono molto diverse fra loro: con una metafora, possiamo dire che la prevalenza è la fotografia di un fenomeno, mentre l'incidenza ne è il film..
Prevalenza In termini generali, la prevalenza misura la proporzione di "eventi" presenti in una popolazione in un dato momento. Per "evento" si intende un qualsiasi carattere ricercato; ad esempio: infezione, presenza di anticorpi, stato di gravidanza ecc.. Molto spesso l'evento che si ricerca è rappresentato dalla malattia o dall'infezione, e pertanto possiamo dire che la prevalenza misura la proporzione di individui di una popolazione che, in un dato momento, presentano la malattia. Poiché il fattore «tempo» - a rigore - non è importante nel calcolo della prevalenza, questa misura è di tipo statico e quindi non è un «tasso»; si tratta invece di una «proporzione» (che, te lo ricordo, assume un valore compreso fra 0 e 1).
235
Sempre in termini generali, la prevalenza di calcola come E + / (E + + E - ) dove E + rappresenta il numero di individui (oppure di «unità») che esprimono l'evento studiato e E - rappresenta il numero di individui privi dell'evento ma capaci di esprimerlo:
Abbiamo già detto che, spesso, l'evento studiato è rappresentato dallo stato di malattia (evento «malattia»). Allora, la prevalenza di animali ammalati si calcola come M + / (M + + M - ) dove M + rappresenta il numero di ammalati e M - il numero di animali "a rischio". Ricordati che gli "animali a rischio" NON sono quelli sottoposti ad uno o più determinanti di malattia (fattori di rischio), bensì - più semplicemente - quelli non ancora ammalati ma "suscettibili" di ammalarsi, ossia che possono contrarre la malattia in studio. Animali a rischio = animali a rischio di ammalarsi. In pratica, misurare la prevalenza di animali ammalati corrisponde a misurare la morbosità. In altre parole, la morbosità è un caso particolare di prevalenza, in cui l'evento studiato è rappresentato dalla presenza di malattia clinica (questo argomento è già stato trattato in una precedente Unità).
Riassumendo:
236
ESEMPIO. In un allevamento di bovini sono presenti 120 capi, che vengono sottoposti al test di intradermoreazione alla tubercolina (detto comunemente test della tubercolina) per la diagnosi di tubercolosi. Dopo l'inoculazione della tubercolina per via intradermica, si attendono 72 ore e quindi si effettua la lettura, misurando lo spessore della plica cutanea al punto di inoculo. Tutti i 120 capi sono animali "a rischio", ossia possono contrarre la tubercolosi; 15 di essi reagiscono positivamente al test, mentre i restanti 105 risultano negativi. Allora, la prevalenza di bovini con tubercolosi è di 15/(15+105), vale a dire 0.125 oppure 12.5%. La prevalenza è impiegata nella programmazione sanitaria, in quanto misura l'impatto e la penetrazione che una malattia ha in un determinato territorio. Diversamente dall'incidenza, essa può essere determinata attraverso una sola indagine epidemiologica, esaminando tutti gli individui della popolazione o, più verosimilmente, un campione rappresentativo. L'utilità della conoscenza della prevalenza di una malattia si delinea anche nel caso in cui si voglia stimare il danno indotto da quella malattia in una popolazione, oppure quando si desideri stimare le difficoltà di realizzazione di un piano di profilassi, o, ancora, quando si vogliano stimare i rapporti costi/benefici prima dell'avvio del piano. La prevalenza ora descritta è una delle più importanti misure di frequenza ed è detta anche prevalenza "puntuale" misura la frequenza di malattia in un dato momento. Esiste anche una prevalenza cosiddetta "di periodo", che si calcola con il seguente rapporto: (animali che sono risultati ammalati in un determinato periodo di tempo) / (popolazione a rischio nel periodo). In altre parole, la prevalenza di periodo si ottiene addizionando la prevalenza all'inizio dell'osservazione con l'incidenza durante l'intervallo di osservazione. Attenzione a non confondere la prevalenza di periodo con l'incidenza! Incidenza (o incidenza cumulativa) In termini generali, l'incidenza misura la proporzione di "nuovi eventi" che si verificano in una popolazione in un dato lasso di tempo. Anche in questo caso, per "evento" si può intendere la
237
comparsa di un qualsiasi carattere. Tuttavia, quasi sempre l'incidenza si utilizza per misurare la comparsa di nuovi casi di malattia. Per questo motivo, possiamo dire che l'incidenza rappresenta la proporzione di individui che vengono colpiti dalla malattia in un determinato periodo di tempo. L'incidenza, è bene sottolinearlo, misura il numero di nuovi casi nel periodo di tempo ed individua il rischio (cioè la probabilità) che ha un animale di contrarre la malattia in quel periodo di tempo. L'incidenza può essere vista come un modo per misurare la velocità di transizione dallo stato di salute (assenza di malattia) allo stato di malattia in una popolazione. L'incidenza rappresenta la variazione di una quantità (i nuovi ammalati) rispetto alla variazione di un'altra quantità (il tempo); essa quindi è una misura dinamica e costituisce un vero «tasso». ESEMPIO. Dopo 9 mesi ritorni nello stesso allevamento dell'esempio precedente, allo scopo di calcolare l'incidenza della malattia. Pertanto, sottoponi nuovamente al test della tubercolina soltanto i 105 animali che erano risultati negativi. Alla lettura dopo 72 ore, ne risultano positivi 17, mentre i restanti 88 sono negativi. Quindi, l'incidenza in 9 mesi è 17/(17+88) = 0.162 = 16.2%. Nel calcolo dell'incidenza, la durata del lasso di tempo in cui effettuare l'osservazione è discrezionale. Essa viene fissata soprattutto in base ai caratteri della malattia: per le malattie a rapida diffusione o evoluzione si considera generalmente un periodo di una durata inferiore rispetto alle malattie che diffondono lentamente o che sono di lunga durata. Riassumendo:
.
L'incidenza è importante nello studio delle cause di malattia e del loro effetto a livello di popolazione: infatti, una variazione dell'incidenza testimonia una modificazione dell'equilibrio dei determinanti di malattia, o una modificazione dello stato di recettività della popolazione ecc. In aggiunta alla prevalenza, la valutazione dell'incidenza risulta utile nella valutazione dell'efficacia di un programma di prevenzione. Predire il futuro Come già detto, l'incidenza è una misura del tasso di diffusione di una malattia all'interno di un gruppo con caratteristiche note ed inizialmente esente da quella malattia; perciò l'incidenza viene usata
238
anche per prevedere (cioè misurare la probabilità) la comparsa di quella malattia in individui con caratteristiche simili a quelli studiati. Cliccando sull'immagine sottostante, puoi avviare uno schema animato che illustra un esempio di calcolo della incidenza.
Ricordati:
Resta da sottolineare che il metodo di misurazione dell'incidenza fin qui descritto riguarda il calcolo dell'incidenza tout court, detta anche «incidenza cumulativa»: si tratta della proporzione di animali di una popolazione chiusa (cioè in cui non si verificano nascite, introduzioni di animali o perdite di soggetti per qualsiasi motivo) che presenta la malattia in un determinato periodo di tempo. Essa, come già detto, equivale alla probabilità per ciascun individuo di aver contratto la malattia nel periodo considerato. ESEMPIO. Supponi di aver osservato un gruppo di 100 suini per un periodo di 10 giorni. In questo periodo, si sono verificati casi di malattia come illustrato nella tabella e nel grafico a lato. Supponi che i 100 suini rappresentino popolazione "chiusa" (ossia: nel periodo considerato non sono avvenuti ingressi o uscite di animali) e che la malattia non abbia provocato la morte di nessun animale. All'esaurirsi della malattia (giorno 7) l'incidenza cumulativa è stata pari a 0.20 circa (20%). Infatti, complessivamente si sono osservati 20 nuovi casi su 100 animali presenti. Densità di incidenza Talvolta, nella misurazione dell'incidenza, il calcolo del denominatore (ossia degli animali a rischio nel periodo) è impossibile. È questo il caso delle popolazioni «aperte», ossia quando si verificano
239
entrate ed uscite di animali durante il periodo di osservazione. Giustifichiamo questa affermazione con un esempio. ESEMPIO. In una voliera che ospita 20 canarini, inizialmente sani, compare una malattia. La voliera viene tenuta sotto osservazione per 5 giorni. In questo periodo si verificano gli eventi riassunti nella Tabella 1: (a) 8 nuovi casi di malattia; (b) morte di 4 canarini ammalati; (c) rimozione da parte del proprietario di 5 soggetti sani. Il calcolo dell'incidenza cumulativa è semplice e si effettua come segue: (nuovi casi) / (popolazione a rischio all'inizio dell'osservazione). Con i dati della Tabella, il calcolo è il seguente: 8/20 = 0.4, ossia 40% in 5 giorni. Ora esamina la situazione con attenzione. Porre un valore di 8 al numeratore è senz'altro giustificato, poiché i nuovi casi di malattia sono stati proprio otto. Ma ti sembra corretto porre 20 al denominatore? Qual è stata effettivamente la popolazione a rischio nei 5 giorni di osservazione? Non certo i 20 soggetti iniziali, visto che il martedì ne sono stati allontanati 5 e fra mercoledì e giovedì ne sono morti 4. Perciò il valore di incidenza cumulativa di 0.4, calcolato ponendo 20 al denominatore, non rappresenta una stima accurata di quanto effettivamente è avvenuto nella popolazione. Il problema non può essere risolto che cambiando l'unità di misura del denominatore, e calcolando non più l'incidenza cumulativa ma una nuova misura di frequenza: la cosiddetta «densità di incidenza». La «densità di incidenza» si calcola ponendo al numeratore i nuovi casi di malattia, così come già fatto per il calcolo della densità di incidenza. Al denominatore si pone, invece, la somma di tutte le unità di tempo di osservazione di tutti gli animali prima che l'evento-malattia si sia verificato; per questo motivo, il denominatore viene misurato in tempo/animali (es. bovino-anno, suino-mese ecc.). La densità di incidenza è utilizzata raramente in medicina veterinaria, e perciò non verrà trattata esaurientemente in questa sede.
240
Limitiamoci a completare l'esempio precedente, in cui otterremo una insolita unità di misura della densità di incidenza: il... canarino-giorno! Calcoliamo la densità di incidenza sui dati dell'esempio. A scopo didattico, supponiamo convenzionalmente che l'osservazione quotidiana inizi alle ore 0:00 e termini alle 24:00, e che che ogni evento (morte, nuovo caso ecc.) sia avvenuto a mezzogiorno. Ovviamente ci serve un numeratore ed un denominatore. Il calcolo del numeratore è molto facile: è indiscutibile che si sono verificati 8 nuovi casi di malattia. Più difficile è trovare il denominatore: ti consiglio di osservare la Tabella 2. Essa è identica alla precedente Tabella 1, con la sola differenza che è stata aggiunta la colonna a bordo rosso in cui viene riportato il numero di animali a rischio rimasti nella voliera in ciascuno dei giorni considerati. Ad esempio, il valore 16.5 del martedì deriva dal fatto che in questo giorno 7 animali (i 2 ammalati ed i 5 rimossi) su 20 sono rimasti a rischio solo per 1/2 giornata ciascuno, e quindi in totale contano 3.5 giorni. Se ancora hai dubbi in proposito, ti consiglio di guardare uno schema auto-esplicativo degli eventi che si sono succeduti nella voliera: clicca sull'icona a lato!.
Le insidie nascoste... I concetti di prevalenza puntuale, prevalenza di periodo, incidenza e incidenza cumulativa sembrano relativamente semplici da assimilare, ma possono trarre in inganno. Vediamo di chiarire le cose con l'aiuto dell'esempio raffigurato nello schema sottostante.
Nello schema, sull'asse orizzontale viene rappresentato il tempo. Ogni riga orizzontale blu, numerata da 1 a 8, rappresenta un animale: quando la riga è sottile, l'animale è in salute, mentre le barre rosa indicano la presenza della malattia. Quindi, nello schema è rappresentato lo stato sanitario di 8 animali che compongono una
241
popolazione chiusa (nel periodo di osservazione non ci sono state uscite di animali né nuovi arrivi). Ecco qualche calcolo esplicativo: • • •
•
prevalenza puntuale al tempo T0 = 2/8 = 0.25 (si tratta degli animali n. 5 e n.7); prevalenza puntuale al tempo T1 = 3/8 = 0.375 (animali n. 3, 6 e 7); incidenza cumulativa nel tempo T0-T1 = 4/6 = 0.67 (animali n. 1, 3, 4, 6) - notare che gli animali 5 e 7 sono stati esclusi dalla popolazione in esame, che non conta più 8 animali bensì 6. Infatti gli animali 5 e 7 erano già ammalati all'inizio del periodo di osservazione, e quindi non devono entrare nel conteggio dei nuovi casi; è possibile che la popolazione non sia stata monitorata continuamente durante il periodo T0-T1, ma che sia stata semplicemente confrontata la situazione sanitaria esistente al tempo T0 con quella esistente al tempo T1. In tal caso, l'incidenza cumulativa T0-T1 corrisponde a 2/6 =0.33 (animali n. 3 e 6, che erano sani in T0 e malati in T1). Gli animali n. 1 e 4 si sono ammalati e sono guariti durante il periodo e quindi sono sfuggiti all'osservazione! Ovviamente questo tipo di calcolo è meno preciso di quello visto al punto precedente.
Infine... nella seguente tabella vengono riassunte le caratteristiche salienti dell'incidenza e della prevalenza.
... mentre, nella prossima tabella, incidenza e prevalenza vengono messe a raffronto fra loro.
242
243
10. Misure di frequenza delle malattie 10.6 Prevalenza, incidenza e utilizzo degli intervalli di confidenza OBIETTIVI: perché è importante calcolare gli intervalli di confidenza quando si effettuano misure di frequenza di malattia in un campione
Come già illustrato nella precedente unità didattica, le misure più frequentemente utilizzate per stimare la frequenza di una malattia in una popolazione sono l'incidenza e la prevalenza. Molto spesso, queste misure non vengono effettuate sull'intera popolazione di interesse, ma su un campione di numerosità più o meno elevata. Ciò significa che, una volta concluso lo studio, i dati ottenuti non sono utili soltanto a conoscere la frequenza di malattia nel campione (cosa che in genere interessa poco), bensì, con un processo di inferenza, a stimare la frequenza di quella malattia nell'intera popolazione. L'intervallo di confidenza fornisce informazioni riguardo alla precisione dei valori ottenuti attraverso lo studio di un campione. Ad esempio, un intervallo di confidenza 95% comprende un intervallo di valori che tiene conto della variabilità del campione, in modo tale che si può confidare - con un margine di certezza ragionevole (appunto il 95%) - che quell'intervallo contenga il valore vero dell'intera popolazione che non hai avuto modo di esaminare. Ovviamente, ciò è vero solo se nello studio non sono presenti errori sistematici. L'intervallo di confidenza rappresenta un parametro di fondamentale importanza soprattutto negli studi epidemiologici in cui la variabilità del campione (molto spesso dovuta al fatto che il campione è piccolo) può rendere aleatoria l'interpretazione dei risultati. Questo stesso concetto è già stato illustrato nella unità didattica riguardante l'errore standard, ma credo che valga la pena di sottolinearlo di nuovo qui. Per i più curiosi, dirò che, per calcolare l'intervallo di confidenza, è necessario un modello di probabilità che tenga conto dei diversi possibili risultati di uno studio. Di tali modelli ne esistono, in statistica, molti tipi (ad es. basati sulla distribuzione binomiale o su quella di Poisson oppure su quella gaussiana). In genere, quando il numero di osservazioni è abbastanza ampio, si utilizza proprio quest'ultimo modello di distribuzione gaussiana (detta anche "normale"). Comunque, non lasciarti intimorire da questi argomenti statistici un po' tecnici: per fortuna il calcolo dell'intervallo di confidenza è, come vedrai, molto semplice. Data una certa prevalenza P, l'intervallo di confidenza 95% si ottiene con il calcolo della formula qui sotto, dove il segno +/- permette il calcolo di due valori: il limite superiore dell'intervallo (che si ottiene utilizzando il «+») ed il limite inferiore (che si ottiene utilizzando il «-»):
244
Analogamente, dato un certo valore di incidenza I, l'intervallo di confidenza 95% si ottiene nel modo seguente:
A questo punto. avrai di certo capito che la formula per il calcolo dell'intervallo di confidenza è una sorta di utilissimo «coltellino svizzero» che funziona in tutti i casi in cui hai calcolato una qualsiasi proporzione (o una percentuale):
245
ESEMPIO. Supponiamo che in uno studio sulla displasia dell'anca di cani di razza "pastore tedesco" siano risultati affetti dalla malattia 18 cani su un campione di 180 cani esaminati. La prevalenza nel campione è: 18/180 = 0.1, cioè 10%. Calcoliamo l'intervallo di confidenza 95%:
Pertanto, il limite inferiore dell'intervallo di confidenza 95% è 0.056 (5.6%) ed il limite superiore 0.145 (14.5%). Ciò significa che, in media, il 95% di tali intervalli derivanti da studi privi di errori sistematici contiene il parametro vero della popolazione. In altre parole, possiamo essere abbastanza sicuri che la percentuale di cani con displasia dell'anca nella intera popolazione da cui è stato tratto il campione di 180 cani sia compresa fra 5.6 e 14.5%. Infine, resta da ricordare che se vuoi ottenere un intervallo di confidenza 99% (invece che 95%), non devi far altro che sostituire il coefficiente 1.97 con 2.57. ESEMPIO. Nello stesso studio sulla displasia dell'anca di cui sopra, calcolerai l'intervallo di confidenza 99% come segue:
NELLA PROSSIMA UNITÀ: si parla di una misura di frequenza (il tasso di attacco), che può essere considerata una particolare forma di incidenza, da utilizzare in determinate situazioni. Prevalenza e incidenza: definizioni
Tasso di attacco
246
10. Misure di frequenza delle malattie 10.7 Tasso di attacco OBIETTIVO: definire il tasso di attacco primario e secondario e differenziarlo dall'incidenza
Il tasso di attacco (attack rate) può essere considerato un caso particolare di incidenza, che trova applicazione quando l'esposizione al determinante (o ai determinanti) di malattia è avvenuta per breve durata, e di solito su popolazioni chiuse, o ben definite ed a numerosità limitata. Si tratta quasi sempre di focolai di malattia «a sorgente comune», ossia nei quali tutti i casi di malattia hanno avuto origine da un'unica esposizione (es. avvelenamenti, esposizione a radiazioni, somministrazione di una razione contaminata da salmonelle ecc.). In medicina umana, l'utilizzo tipico del tasso di attacco si ha nei casi di
tossinfezione alimentare.
Poiché - come già detto - l'esposizione è di breve durata, il tasso di attacco rappresenta una sorta di incidenza cumulativa: infatti, una volta esauritosi il focolaio, non vengono più osservati nuovi casi derivanti da quella esposizione, anche se il periodo di osservazione viene prolungato indefinitamente. Anche per le malattie neonatali (ossia quelle che si verificano entro pochi giorni dalla nascita) potrebbe essere più indicato parlare di tasso di attacco piuttosto che di incidenza. Il tasso di attacco si calcola come D/(D+N), dove D indica il numero di casi di malattia che si verificano in un determinato lasso di tempo, mentre N indica gli animali a rischio rimasti sani nel periodo:
ESEMPIO. In un acquario contenente 43 pesci tropicali si è verificato un guasto al riscaldatore, e la temperatura dell'acqua ha subíto, per la
247
durata di 16 ore, una diminuzione di 12 gradi (16 °C rispetto ai 28 °C previsti). Prima del guasto i pesci erano in buona salute. Nelle 48 ore dopo il guasto, lo shock termico ha provocato la morte di 12 esemplari. Il tasso di attacco risulta quindi: 12/(12+31) = 0.28 = 28% in 48 ore. Si tratta di un tasso di attacco, e non di una incidenza, in quanto la causa ha agito su tutti i soggetti per un tempo definito e limitato. Anche se si prolungasse il periodo di osservazione anche ben oltre le 48 ore dell'esempio, non si osserverebbe più alcun nuovo caso. Una misura di frequenza collegata al tasso di attacco è il tasso di attacco secondario.
Il tasso di attacco secondario si applica esclusivamente alle malattie trasmissibili, ed indica la proporzione dei casi (detti casi secondari) che si sviluppano per contatto con uno o più casi primari entro un tempo corrispondente al periodo di incubazione della malattia. Per «caso primario« (detto anche «caso-indice»), si intende il primo animale (o i primi animali) della popolazione che si ammala della malattia trasmissibile in questione. Nell'uomo i casi secondari sono spesso rappresentati dai familiari, oppure dai compagni di scuola, o dai colleghi di lavoro. In medicina veterinaria, i casi secondari sono quasi sempre gli animali appartenenti allo stesso gruppo o allo stesso allevamento. I casi che si verificano in tempi successivi al periodo di incubazione del caso primario derivano verosimilmente dal contatto con i casi secondari, e sono quindi detti casi terziari. È evidente che anche il tasso di attacco secondario è un tipo particolare di incidenza. Esso rappresenta una buona misura della contagiosità della malattia nelle circostanze in questione, ossia della sua capacità di trasmettersi da un ospite all'altro. Nello schema che segue viene illustrato un esempio di andamento di un focolaio di una malattia trasmissibile originato da un singolo caso-indice, che ha dato origine a casi secondari ed a casi terziari.
248
249
10. Misure di frequenza delle malattie 10.8 Relazioni tra incidenza e prevalenza OBIETTIVO: individuare le interrelazioni tra prevalenza e incidenza
É già stato accennato a come l'incidenza dipenda soltanto dal tasso di comparsa della malattia. Al contrario, la prevalenza dipende soprattutto da due variabili: l'incidenza e la durata della malattia. Nella figura viene rappresentato un modello che riproduce,attraverso una metafora visiva, alcuni dei fattori che agiscono sul livello della prevalenza. Nel modello, il livello della prevalenza è direttamente correlato all'apertura della valvola dell'incidenza, cioè al numero di nuovi casi di malattia. D'altra parte, la prevalenza è influenzata negativamente da due dispositivi che tendono a ridurne il livello: la valvola della letalità, che sottrae individui ammalati al totale della popolazione, e la pompa della guarigione, che li restituisce alla popolazione sana di partenza.
250
Lo scopo del modello è quello di sottolineare come una variazione di prevalenza di una malattia possa derivare da una variazione dell'incidenza e/o del decorso della malattia. Attenzione: il modello non tiene conto di un eventuale stato di immunità che, come nel caso di molte malattie infettive, si può instaurare negli animali guariti.
Mettiamo alla prova il modello simulando alcune situazioni. Per esempio, i miglioramenti nella terapia di alcune malattie inguaribili (es. AIDS dell'uomo) corrispondono ad una riduzione del flusso attraverso la valvola della letalità e quindi hanno l'effetto (apparentemente irragionevole) di indurre un aumento della prevalenza. D'altra parte, per altre malattie (guaribili) la prevalenza può ridursi per effetto dell'accorciamento del decorso per una più rapida guarigione in seguito alla somministrazione di un farmaco molto attivo; questo effetto, nel modello, corrisponde ad un aumento della portata della «pompa della guarigione». Oppure, all'opposto, la prevalenza può diminuire perché la malattia porta a morte i colpiti più rapidamente (apertura della «valvola della letalità»).
ESEMPIO 1. Sei interessato allo studio della infestazione da ascaridi negli allevamenti di polli rurali. L'infestazione si instaura nella la maggior parte degli animali in giovane età e, in assenza di trattamento dura virtualmente tutta la vita dell'animale. Per questo, nel tuo studio hai ottenuto una prevalenza molto elevata (48%), mentre l'incidenza di periodo (es. 1 mese) è risultata bassa. ESEMPIO 2. Vuoi valutare incidenza e prevalenza della «bursite infettiva» in un allevamento industriale di polli nel quale non si vaccina nei confronti di questa malattia. La malattia, altamente contagiosa, colpisce i polli di 3-8 settimane di età, con un quadro clinico molto evidente e decorso molto breve (4-5 giorni). La malattia è comparsa nel gruppo quando gli animali avevano 5 settimane di età, e si è esaurita a 6.5 settimane. Allora, l'incidenza nel periodo considerato (3-8 settimane) sarà molto elevata, mentre la prevalenza, in un determinato istante (es. al 50° giorno) potrà essere pari a zero. Talvolta una variazione dell'incidenza può essere soltanto apparente ed essere dovuta ad un artefatto, come nel caso in cui vangano utilizzati nuovi metodi diagnostici che consentono una diagnosi più precoce. In questo caso, anche se l'incidenza reale della malattia rimane costante, attraverso il nuovo strumento diagnostico verrà individuato un numero maggiore di casi rispetto a quanto si era verificato in passato, e ciò corrisponderà appunto ad un aumento (apparente) dell'incidenza. Nella tabella che segue sono riassunti i fattori principali che influenzano il livello della prevalenza di una malattia in una popolazione.
251
I fattori più importanti sono senz'altro l'incidenza e la durata della malattia. Se l'incidenza rimane più o meno costante nel tempo, allora la prevalenza è funzione dell'incidenza e della durata della malattia:
252
10. Misure di frequenza delle malattie 10.9 Malattia epidemica, endemica, sporadica OBIETTIVO: comprendere e differenziare le caratteristiche di una malattia epidemica, endemica e sporadica
Epidemia Nel discorso comune, si parla di epidemia quando si osserva l'improvvisa insorgenza di una malattia (o l'espansione di una malattia già esistente), con tendenza ad interessare un gran numero di individui. Questa definizione non è sbagliata, ma non coglie il significato più importante insito nel termine: quello di un evento inaspettato. Ecco quindi che appare molto più appropriata la definizione che segue. Una epidemia (o «malattia epidemica» o «epizoozia») è una malattia che colpisce un numero di individui (casi) significativamente superiore a quanto ci si sarebbe atteso in quella zona ed in quel periodo di tempo. Quando una epidemia è geograficamente molto estesa interessando intere Nazioni o continenti, si parla di «pandemia».
253
Tutti sanno che ogni anno, durante i mesi invernali, si verificano casi di influenza nell'uomo. Molto spesso i media ci avvisano, annunciandoci in anticipo l'imminente arrivo della «epidemia». Però, in base alla definizione fornita sopra, questo modo di esprimersi non è giustificato, dal momento che generalmente la malattia si ripete in maniera simile ogni anno, e quindi non è affatto inaspettata. Nel grafico viene illustrata l'incidenza dell'influenza nell'uomo negli anni dal 2004 al 2009. Il grafico è aggiornato a novembre 2009. Come puoi vedere, una autentica epidemia si verifica a partire dalla 42° settimana del 2009 (curva rossa). Probabilmente è giustificato parlare di epidemia anche per il 2004-05 (curva blu). Ovviamente, perché si possa parlare di epidemia si deve verificare un «certo» incremento, ossia è necessario che compaia un «certo» numero di casi. Ti chiederai quanti casi sono necessari. A questa domanda non c'è una risposta univoca: il numero di casi dipende da numerose variabili, fra cui le più importanti sono: il tipo di agente, il tipo di popolazione, il periodo di tempo (es. stagione) considerato. È però da sottolineare che, in base alla definizione ora esposta, non è indispensabile un numero rilevante di casi per dar luogo ad una epidemia. ESEMPIO 1. In Emilia Romagna da anni non si osservano casi di rabbia né negli animali né nell'uomo. Pertanto, la comparsa di un numero anche limitatissimo di casi (es. 3 o 4) è definibile «epidemia». Tuttavia, secondo alcuni autori, un evento di questo tipo potrebbe essere definito anche come «focolaio», anche se è meglio riservare questo termine ai casi di malattia fra loro correlati e che si verificano in una area geografica molto limitata. ESEMPIO 2. Nel 1995 si è verificata in Colombia la prima epidemia, dopo 22 anni, di una grave malattia virale trasmissibile dall'animale all'uomo: l'encefalite equina venezuelana. Vi furono 75000 casi di malattia nell'uomo, con 300 decessi; inoltre, si stima che, fra i 50000 equini della regione La Guajira, si sia verificata una mortalità superiore al 7%. Uno dei determinanti dell'epidemia è stato attribuito alla stagione eccezionalmente piovosa, che ha provocato un aumento della densità della zanzara-vettore Aedes taeniorhynchus Nelle zone dove una malattia è costantemente presente (malattia enzootica, vedi oltre), non è sempre facile stabilire quale numero di nuovi casi debba essere raggiunto al fine di dichiarare l'esistenza di una epidemia. Per le malattie dell'uomo è stato proposto di calcolare la incidenza attesa in base ai dati esistenti e riguardanti la situazione endemica nel passato; quindi, si calcola la soglia epidemica aggiungendo all'incidenza attesa un valore pari ad (errore standard * 1.65). Se il numero di casi rilevato supera la soglia epidemica così calcolata, allora si è in presenza di una epidemia. Endemia Malattia endemica (o «endemia» o «enzoozia») è una forma morbosa che è costantemente presente in una popolazione o in una determinata area geografica. Se la prevalenza della malattia è bassa, si tratta di «malattia ipoendemica»; se, invece, la prevalenza è alta la malattia è «iperendemica».
254
ESEMPIO 2. La malaria dell'uomo in molte regioni tropicali. ESEMPIO 2. Nel bovino, la leucosi enzootica, malattia presente in tutte le aree geografiche e verso cui, soprattutto in Europa, sono in atto piani di profilassi che mirano alla sua eradicazione. Si definisce «endemo-epidemica» la malattia che è endemica in una determinata regione, ma che talvolta si presenta, nella stessa regione, con caratteristiche epidemiche. ESEMPIO. Il colera dell'uomo in alcune regioni (es. India); l'encefalomielite equina venezuelana. Malattia sporadica Infine, si dice «sporadica» una malattia che si presenta irregolarmente ed imprevedibilmente nello spazio e nel tempo, generalmente con bassa frequenza. ESEMPIO 1. Una forma particolare di leucosi del bovino, la leucosi cutanea, colpisce più spesso bovini di 2-3 anni di età e si manifesta in forma sporadica. ESEMPIO 2. L'aspergillosi dei volatili (malattia che colpisce numerose specie, localizzata prevalentemente a polmoni sacchi aerei), i cui focolai si manifestano in forma sporadica.
Nel Grafico 1 vengono illustrati esempi di andamento nel tempo di una malattia epidemica, endemica e sporadica.
È una epidemia o no? È molto facile individuare una epidemia quando una malattia infettiva e altamente contagiosa penetra in una popolazione o in un territorio indenne, colpendo in breve tempo un numero molto elevato di animali. Non sempre però le cose sono così evidenti, e talvolta può non essere facile stabilire se un certo incremento di casi di malattia costituisca o no una epidemia.
255
Nel Grafico 2 viene esemplificato l'andamento di una certa malattia in una popolazione per un intero anno, dal 1 gennaio al 31 dicembre (clicca sull'icona a fianco per vedere la tabella dei dati). Per semplicità supponiamo che la popolazione sia "chiusa", ossia il numero di animali non abbia subito variazioni nel periodo considerato. Osserva il grafico sottostante in cui, come al solito, in ascissa abbiamo posto il tempo ed in ordinata il numero di nuovi casi.
Il picco evidenziato rappresenta una epidemia? Fornire una risposta a problemi come questo può essere piuttosto complicato. Tuttavia, semplificando il problema, si può trovare almeno una lineaguida (derivante dalla definizione stessa di «epidemia») che conduce ad una risposta ragionevole. Si è già detto che una epidemia si ha in presenza di un numero imprevisto di casi, ossia superiore al normale; quindi, la domanda è: "il picco rappresenta una situazione anormale?" Per rispondere ti puoi basare sulla definizione di normalità già fornita nel capitolo riguardante la variabilità biologica: supponi che le frequenze di nuovi casi rilevate nel tempo precedente il picco considerato abbiano una distribuzione approssimativamente gaussiana; allora, in questo caso puoi adottare il criterio secondo cui «è anormale un valore al di fuori dell'intervallo media ± 2 volte la deviazione standard». Nel grafico sottostante, questo intervallo è evidenziato dalla la fascia gialla. Come vedi, il picco osservato in settembre si trova al di sopra della fascia gialla, e quindi è fuori dai limiti della normalità; ciò rappresenta un indizio che depone a favore dell'ipotesi che si tratti di una epidemia.
256
Però l'approccio statistico che abbiamo utilizzato ha molte limitazioni, non è applicabile in tutte le condizioni ed ha soltanto uno scopo orientativo. Nella pratica non ci si può basare soltanto sul calcolo di una semplice media e deviazione standard dei dati storici, ma è necessario ricorrere ad analisi statistiche più specifiche. Inoltre, bisogna anche tener conto di altri elementi, dipendenti sia dalla storia naturale della malattia che dalle caratteristiche popolazione in studio (es. distribuzione spaziale, eventuali relazione tra i diversi casi di malattia ecc.). A titolo di esempio, nella figura che segue viene fornito l'output completo di un test statistico specificamente dedicato a evidenziare le variazioni stagionali di una malattia, generato con il software WINPEPI - PEPI-for-Windows (Abramson JH, 2007, www.brixtonhealth.com). L'analisi è stata condotta sugli stessi dati dell'esempio precedente. Ti consiglio esaminare attentamente il grafico ed i dati nell'ovale rosso sottostante; puoi tranquillamente trascurare il restante output, che viene riportato per completezza.
257
Nel grafico, il triangolo rosso denota l'esistenza di un picco epidemico nel mese di agosto. Inoltre, il test statistico di Freedman fornisce un valore P<0.05. Ciò significa che la probabilità che l'incremento dei casi in agosto sia dovuto al caso è inferiore al 5%. Pertanto il picco osservato in agosto può essere considerato una epidemia.
258
10. Misure di frequenza delle malattie 10.10 Altri parametri di frequenza di malattia OBIETTIVO: elencare altre formule utili per esprimere la frequenza di una malattia
Finora abbiamo descritto alcune misure di frequenza di malattia classiche (morbosità e mortalità, incidenza e prevalenza ecc.). Vi sono altre misure di frequenza che possono essere calcolate; alcune di esse si riferiscono al caso in cui si voglia studiare l'effetto di una esposizione, con lo scopo al fine di verificarne l'importanza nella genesi di una malattia. Il punto di partenza è rappresentato, ancora una volta, dalla Tabella a due entrate, che già ben conosci, in cui gli animali vengono raggruppati in 4 categorie in basa all'esposizione ed alla comparsa o meno della malattia:
Attraverso i dati A, B, C, D della Tabella si possono derivare, numerosi parametri o proporzioni. Ad esempio, si possono derivare le seguenti misure di frequenza:
259
Un tipico esempio di applicazione di tali proporzioni è rappresentato dalle indagini epidemiologiche da compiere in occasione di focolai di tossinfezione alimentare nell'uomo. Infatti, in questi casi è piuttosto facile, tramite un semplice questionario, identificare le persone «esposte» ad un particolare alimento (cioè quelle che se ne sono cibate); inoltre, la sintomatologia è generalmente molto evidente, quindi non offre difficoltà nemmeno l'accertamento della presenza di «malattia». Le proporzioni così ottenute vengono poi interpretate, come sempre con l'ausilio della statistica, per individuare l'alimento più probabilmente responsabile. ESEMPIO. Si è verificato un focolaio di gastroenterite dopo un pranzo di nozze cui hanno partecipato 92 persone. Fra gli alimenti presi in considerazione, quello più sospetto è il gelato alla vaniglia. Avevano mangiato gelato alla vaniglia 32 persone e, di queste, 30 si sono ammalate. Si sono ammalate anche 7 persone che non avevano mangiato il gelato alla vaniglia. I dati vengono tabulati nella Tabella a lato. Calcoliamo alcune proporzioni utili: esposti=32/92; ammalati=37/92; ammalati ed esposti=30/92; ammalati negli esposti= 30/32; ammalati nei non esposti=7/60; esposti negli ammalati=30/37; esposti nei non ammalati=2/55. Si può calcolare anche l'odds ratio, che è il rapporto fra (odds di esposizione nei casi) e (odds esposizione nei non-casi): (30/7)/(2/53)=113.6.
260
Se non ti è chiaro come è stata generata la Tabella 2x2, puoi dare un'occhiata ad una presentazione animata. Fai attenzione ad una questione di terminologia: convenzionalmente quando si dice, ad esempio, «ammalati negli esposti» NON si indica la semplice frequenza (nell'esempio: 30), ma si intende invece la proporzione di ammalati fra gli individui esposti, e cioè 30/(30+2). Lo stesso dicasi per gli altri parametri (esposti negli ammalati ecc.).
261
10. Misure di frequenza delle malattie 10.11 Standardizzazione delle misure OBIETTIVO: constatare come il raffronto di alcune misure possa aver significato soltanto quando effettuato su popolazioni standardizzate
Molti dei tassi o proporzioni finora descritti (es. morbosità, mortalità ecc.) possono essere utilizzati per confrontare due (o più) popolazioni soltanto se le popolazioni sono abbastanza simili riguardo alle caratteristiche che potrebbero influenzare il parametro misurato. In caso contrario, il raffronto può condurre a conclusioni errate, in quanto tali caratteristiche possono agire come «confondenti» o elementi di «confondimento» («confounders»). Questo concetto può essere compreso più facilmente ricorrendo ad un esempio. Un esempio di standardizzazione Un allevatore di pesci tropicali d'acqua dolce tiene le vasche di allevamento in due diverse locali (d'ora in poi denominati come Loc-1 e Loc-2). Tutte le caratteristiche principali dell'allevamento (provenienza e temperatura dell'acqua, trattamenti effettuati ecc.) sono identiche in Loc-1 e in Loc-2. L'unica differenza importante sembra essere l'alimentazione: in Loc-1 si utilizza il mangime Mang-1, mentre per i pesci allevati in Loc-2 si utilizza un altro mangime (Mang-2) prodotto da una ditta diversa. L'allevatore riferisce di aver notato una mortalità più elevata in Loc-2 e, poiché l'unica differenza fra i due gruppi è il mangime, attribuisce la «colpa» al Mang-2. Il tuo compito è quello di condurre una indagine epidemiologica per verificare se le osservazioni dell'allevatore sono corrette e se è giustificato incolpare il Mang-2. Il primo elemento da verificare è la mortalità. In base ai dati raccolti dall'allevatore, di cui non abbiamo motivo di dubitare, si è registrato quanto segue:
262
Dall'esame della tabella si vede facilmente che in Loc-2 la mortalità è stata quasi doppia rispetto a Loc-1. Tuttavia sappiamo che questa osservazione, in sé, non è sufficiente a dichiarare che la mortalità è in Loc-1 è significativamente superiore rispetto a Loc-2. Infatti, la differenza osservata potrebbe essere dovuta al semplice caso. Come già hai appreso (v. Capitolo 5), per escludere questa ipotesi è necessario applicare un test statistico. Si tratta di effettuare un confronto fra due percentuali, quindi è adatto il test del chi-quadrato. Puoi farlo tu stesso utilizzando questo foglo di calcolo. Il test fornisce un valore P=0.0007: esistono soltanto 7 probabilità su 10000 che la differenza nella mortalità osservata nei due locali di allevamento sia dovuta al caso. Puoi affermare che la differenza osservata è statisticamente significativa; Sembra proprio che l'allevatore abbia ragione. Tuttavia, non sei ancora del tutto convinto. Decidi di fare un sopralluogo in allevamento (l'epidemiologia non si fa solo a tavolino...), e ti rendi conto che, in entrambi i locali, vengono allevate 3 diverse specie di pesci: Tanichthys, Rasbora e Barbus.
Chiedi all'allevatore se sono stati registrati i dati di mortalità separati per specie; la risposta è positiva. Quindi, compili una nuova tabella della mortalità per ciascun locale, usando con i dati disaggregati per ciascuna delle tre specie, come segue:
263
Come vedi, i dati aggiuntivi dimostrano che la mortalità osservata in ciascun specie (caselle verdi) è all'incirca la stessa nei due gruppi e quindi non dipende dal locale di allevamento (e quindi nemmeno dall'alimentazione). La differenza fra i tassi grezzi di mortalità, che ha tratto in inganno l'allevatore (caselle rosa), era da attribuire soltanto alla diversa distribuzione delle specie di pesci nelle vasche dei due locali e non ad altri fattori. Concludiamo dicendo che dall'esempio scaturisce la seguente osservazione di carattere generale. Occorre fare molta attenzione quando si confrontano due popolazioni o due gruppi allo scopo di rilevare differenze (non solo riguardo alla mortalità ma anche per tanti altri parametri). Infatti, le differenze osservate potrebbero derivare da fattori di distorsione o di confondimento presenti nelle popolazione. Nel caso della valutazione del tasso di mortalità dell'uomo, il più importante di questi fattori è l'età. Per gli animali in allevamento possono agire altri fattori, come ad esempio la razza o la specie (come nell'esempio), il regime vaccinale, l'igiene ambientale ecc.. Per evitare di giungere a conclusioni sbagliate, è necessario considerare con molta attenzione lo scenario delle popolazioni su cui si sta lavorando. Se possibile, è opportuno effettuare una standardizzazione. [Per saperne di più su questo argomento consultare il Libro, Cap. 10.7, pag 137 e segg.] . Forse sarai sorpreso nell'apprendere che il tasso grezzo di mortalità annuo è più alto in Italia che in molti Paesi africani o del Terzo Mondo. Ad esempio, il confronto fra Italia e Algeria registra valori di 9.93‰ in Italia vs 4.72‰ in Algeria (stime 2012). Ciò significa che in Italia ogni anno muoiono circa 10 persone su mille, ed in Algeria soltanto 5.
264
Questi dati sono dovuti al fatto che il confronto è viziato dalla differente composizione delle due popolazioni rispetto all'età. Infatti, notoriamente (ed ovviamente) nelle popolazioni umane l'età rappresenta il principale fattore che influenza la mortalità. In Italia la popolazione è mediamente più vecchia che in Algeria (età mediana 43.5 vs 27.6), perché la struttura della popolazione è diversa: in Italia vi sono meno giovani e più anziani, come dimostrano i seguenti dati: da 0-14 anni: 13.8% vs 24.2%; da 15-64 anni 65.9% vs 70.6%; 65 anni ed oltre 20.3% vs 5.2%) [Fonte dei dati: The World Factbook, www.cia.gov]. In questi casi, il raffronto dei tassi grezzi non ha alcun valore. È necessario un raffronto
265
11. Test di screening e diagnostici 11.1Utilizzo di un test per lo screening di popolazioni OBIETTIVO: apprendere il significato o lo scopo di un test di screening verificare le differenze di base tra screening e diagnosi
Molti pensano che un test sia una specifica procedura di laboratorio (es. test della glicemia, colesterolo ecc.) o una procedura che viene valutata attraverso uno strumento e che pertanto è meno dipendente dal giudizio soggettivo dell'esaminatore. Questa opinione non è certamente sbagliata, ma per i nostri scopi è piuttosto limitativa: infatti in questo capitolo tratteremo dei test in una accezione più ampia, intendendo per «test» qualsiasi ben definita procedura, oggettiva e possibilmente standardizzata, che viene utilizzata al fine di raccogliere una ben definita informazione. In questa ottica, possono essere tranquillamente considerati «test» anche la auscultazione cardiaca o la percussione polmonare o l'esame della mucosa congiuntivale ecc.. Anche le domande di un questionario possono essere viste come un «test».
Un «test» di screening è un test che viene applicato ad animali («popolazione») apparentemente sani (o a stato sanitario ignoto) soggetti ad una probabilità («rischio») più o meno elevata di presentare la malattia considerata. In questo modo, tutti gli individui della popolazione (oppure un campione) vengono sottoposti al controllo diagnostico. In genere, i test di screening sono procedure poco costose e di rapido e semplice impiego. L'individuazione di animali ammalati o infetti attraverso operazioni di screening ha rappresentato, e continua a rappresentare, la base dei grandi piani di lotta nei confronti di alcune malattie degli animali.
266
Negli animali, le azioni di screening vengono effettuate nei confronti di malattie di notevole gravità (sul piano sanitario o economico) oppure di malattie trasmissibili all'uomo. In medicina umana, lo screening viene indirizzato preferenzialmente a quelle condizioni morbose in cui una diagnosi precoce ed il conseguente intervento terapeutico siano in grado di ridurre l'incidenza o la mortalità. ESEMPIO 1. In Italia, così come in molti altri Stati, la profilassi nei confronti della tubercolosi bovina è basata sull'utilizzo di una prova di ipersensibilità cutanea (il test della «tubercolina»); la prova si effettua su tutti i bovini di età superiore a 7 settimane. ESEMPIO 2. La brucellosi dei bovini e degli ovi-caprini è anch'essa soggetta a profilassi obbligatoria in molti Stati; in Italia, è previsto l'impiego di test sierologici (test al rosa bengala e fissazione del complemento). ESEMPIO 3. Nel settore avicolo, da tempo è in atto un piano di controllo nei confronti della pullorosi (malattia trasmissibile sostenuta da Salmonella pullorum e Salmonella gallinarum), anch'esso da effettuarsi con l'impiego di un test sierologico: l'agglutinazione rapida su sangue in toto. Vengono saggiati, in operazioni di screening, tutti gli animali da riproduzione. Lo screening può essere effettuato per individuare la presenza di malattia in singoli animali oppure gruppi di animali (es. gregge, mandria di bovini ecc.). In quest'ultimo caso, l'individuazione anche di un solo animale infetto è sufficiente a dichiarare infetto l'intero gruppo (anche se non tutti gli individui sono necessariamente infetti). Questo approccio è particolarmente utile quando si utilizza un test di screening che non è particolarmente efficiente nell'individuare gli animali infetti (cioè è provvisto di bassa sensibilità).
Lo screening ed il procedimento diagnostico possono essere attuate per mezzo dello stesso «test», tuttavia lo screening differisce dalla diagnosi. Questa affermazione viene giustificata con i 2 punti che seguono (la comprensione completa del secondo punto richiede concetti che verranno spiegati più avanti): 1. nel procedimento diagnostico il «test» viene eseguito su animali ammalati, cioè che mostrano sintomi clinici che, in una qualche misura, fanno sospettare la presenza di quella malattia; lo screening, invece, preve l'applicazione del test su tutti gli individui della popolazione, indipendentemente dal loro stato di salute; 2. poiché il valore predittivo di un test dipende dalla prevalenza della malattia, ne consegue che la performance del test sarà meno soddisfacente in caso di screening rispetto al caso in cui lo
267 stesso test venga utilizzato a scopo diagnostico. Infatti, è evidente che la prevalenza della malattia fra gli individui che mostrano segni clinici sarà superiore rispetto alla prevalenza considerata nella popolazione nel suo complesso.
Vale la pena di ripetere che in epidemiologia il termine «test» non comprende soltanto le classiche prove diagnostiche, simili a quelle ora accennate, da eseguire sull'animale. Infatti, per test si intende un qualsiasi procedimento ben codificato che viene attuato allo scopo di verificare un'ipotesi. Pertanto, anche una ispezione d'allevamento eseguita con criteri prefissati, una necroscopia, un semplice questionario ecc. possono essere considerati «test», e ad essi si applicano i principi e le considerazioni che seguiranno nel Capitolo (sensibilità, specificità, valore predittivo ecc.). In effetti, in tutte le attività di soluzione dei problemi sono usati «test»; quindi, la comprensione dei princìpi della loro valutazione ed interpretazione è di importanza basilare.
268
11. Test di screening e diagnostici 11.2 Lo screening alla prova dei fatti OBIETTIVO: simulare l'esecuzione di uno screening e ricordare che i test non sono infallibili differenziare i test patognomonici da quelli non patognomonici
Prima di iniziare una azione di screening, tutti gli animali della popolazione di interesse ti sembrano apparentemente sani. Simuliamo uno screening su una popolazione si composta da 32 cani, rappresentati nello schema seguente:
Se tu fossi... dotato di ultravista come Superman, potresti vedere che in realtà alcuni animali sono ammalati. Fai scorrere il puntatore del mouse sullo schema! Purtruppo tu non sei dotato di ultravista, e per individuare gli ammalati devi sottoporre tutti gli animali ad un test. Però, un test non fornisce quasi mai risultati perfettamente rispondenti alla realtà. C'è sempre un certo rischio - o meglio, una certa probabilità - che il test risulti «positivo» in un animale che in realtà è sano. Esiste anche il rischio inverso, cioè che il test risulti «negativo» in un animale ammalato. Insomma: non si può essere del tutto sicuri che un test... dica il vero. Vedrai nelle prossime Unità la complessità di problemi che derivano da tale situazione. Continuiamo la simulazione sulla popolazione di 32 cani, ipotizzando che 24 siano risultati testnegativi e 8 test-positivi. Nella pratica, in effetti i dati che otterrai dallo screening sono proprio solo e soltanto questi: 24 test-negativi e 8 test-positivi. Quando eseguirai un test nella pratica, ti chiederai: «fra i test-positivi, quanti sono davvero malati (positivi veri)?». Ed anche: «fra i test-negativi, quanti sono davvero sani (negativi veri?)». Troverai
269
nelle Unità che seguono la risposta a queste domande. Per ora, è sufficiente che tu ti renda conto soltanto dell'esistenza del problema, che viene illustrato in questo schema:
Se tu fossi Superman (fai scorrere il puntatore sullo schema soprastante!), vedresti che: a) 6 cani ammalati (colore fucsia) sono risultati test-positivi (positivi veri) b) 2 cani sani sono risultati test-positivi (positivi falsi, cerchi verdi) c) 1 cane ammalato è risultato test-negativo (negativo falso, cerchio azzurro) d) i restanti cani sani sono risultati test-negativi (negativi veri) Riassumendo:
Test patognomonici e non Gli innumerevoli test disponibili in medicina veterinaria possono essere suddivisi, in base all'affidabilità dei risultati da essi forniti, in due categorie: test «patognomonici» e «non patognomonici».
270
Il termine «patognomonico» è mutuato dalla medicina clinica: un sintomo di malattia si dice patognomonico quando indiscutibilmente serve a riconoscere una malattia, e quindi è presente solo e soltanto in pazienti affetti da quella malattia e non da altre. Analogamente un test patognomonico è un test che, quando fornisce esito positivo, indica con certezza la presenza del carattere ricercato. Quasi tutti i test impiegati in medicina sono non-patognomonici; in altre parole, essi - siano positivi o negativi - non forniscono un risultato certo, ma soltanto probabile. Pertanto, alcuni dei risultati positivi forniti da un test non patognomonico saranno positivi-falsi, così come alcuni negativi saranno negativi-falsi. Al contrario, un test patognomonico non genera mai risultati positivi-falsi, ma può fornire risultati negativi-falsi. ESEMPIO. Supponiamo di utilizzare un test per l'individuazione di bovini infetti da Brucella abortus, agente della brucellosi bovina. Un test sierologico, che ha lo scopo di individuare la presenza di anticorpi specifici, fornirà sicuramente, oltre a risultati positivi-veri e negativi-veri, anche risultati positivi-falsi e negativi-falsi. I positivi-falsi possono comparire - ad esempio - nel caso in cui l'animale abbia subìto infezione da parte di un microrganismo antigenicamente simile a Brucella abortus, come Yersinia enterocolitica tipo IX, che induce la formazione di anticorpi simili a quelli di Brucella. Un risultato falso negativo verrà invece ottenuto, ad esempio, saggiando il siero di una bovina che si è infettata assai recentemente, e che quindi non ha ancora prodotto anticorpi specifici. Il test sierologico è quindi un test non patognomonico. Supponiamo ora di perseguire lo stesso scopo (individuazione delle bovine infette) utilizzando un altro test: l'esame colturale del latte delle bovine allo scopo di dimostrare la presenza di Brucella. In caso di positività, la bovina non potrà essere che infetta, non essendo il batterio ubiquitario né commensale; in altre parole, una bovina che elimina Brucella con il latte è sicuramente affetta da brucellosi. Se invece l'esame colturale del latte risulta negativo, non potremo essere sicuri dell'assenza di infezione: infatti gli animali infetti eliminano le brucelle con il latte in maniera intermittente. Pertanto, l'esame colturale del latte per la diagnosi di brucellosi è un test patognomonico.
271
Da quanto finora esposto, si potrebbe trarre la conclusione che i test patognomonici sono migliori di quelli non patognomonici. Questo non sempre è vero. Infatti, nel giudicare un test «migliore» di un altro, occorre tenere presente una serie di fattori e considerazioni, che verranno discussi - almeno in parte - nelle prossime unità. Basterà qui sottolineare come, nell'esempio precedente, il test patognomonico abbia i seguenti svantaggi su quello non patognomonico: costo molto più elevato; frequenza molto più elevata di falsi-negativi; necessità che l'animale sia in lattazione ecc.
272
11. Test di screening e diagnostici 11.3 Valutazione della performance di un test OBIETTIVO: disegnare uno schema logico che permetta di valutare la bontà (performance) di un test diagnostico
Nell'unità precedente, abbiamo visto che non esistono test capaci di accertare il reale stato (malato/sano) di un animale in tutte le situazioni e nel 100% dei casi. In altre parole: non esistono test «infallibili». L'esito del test (sia esso positivo, cioè deponga a favore dell'esistenza della malattia, o negativo) deve essere visto come una indicazione di «probabilità». Inoltre, è facile comprendere come la probabilità di ottenere risultati «veritieri» (cioè aderenti alla realtà) sia soprattutto legata al tipo di test, all'intimo meccanismo del suo funzionamento, ed a cosa esso misura . Da ciò deriva che la performance varia da test a test. Immagina di voler valutare la performance di un test, che chiameremo test X. Per semplicità, supponiamo che questo test fornisca un risultato dicotomico del tipo vero/falso (sano/malato). Il procedimento per valutare la performance del test X prevede che tu abbia a disposizione animali sia ammalati che sani - dei quali è noto con certezza - o con la massima attendibilità - il reale stato malato/sano. Ciò si può ottenere con metodi diversi a secondo delle circostanze; spesso ci si serve del miglior test disponibile, che viene detto golden test (test aureo). Si assume che i risultati del golden test siano completamente veritieri; in altre parole, si assume che il golden test non sbagli mai. Il golden test deve essere biologicamente diverso dal test X, ossia deve basarsi su un meccanismo differente. Procedi quindi a saggiare gli animali sia con il test X che con il golden test, e ad inserire i dati ottenuti nelle quattro celle (a, b, c, d) di una Tabella a doppia entrata:
273
Il significato delle celle è chiaro: • • • •
cella «a»: animali T+M+ (test-positivi e ammalati); cella «b»: animali T+M- (test-positivi e sani); cella «c»: animali T-M+ (test-negativi e ammalati); cella «d»: animali T-M- (test-negativi e sani).
Evidentemente, la performance del test dipende dai valori ottenuti nelle quattro celle, e soprattutto alla proporzione di misclassificazioni (classificazioni errate), rappresentate dai falsi-positivi (cella b) e falsi-negativi (cella c). Con un test infallibile, le misclassificazioni non esistono, quindi b=0 e c=0. Però i test infallibili sono davvero molto rari. I test di comune impiego restituiscono sempre una certa quota di risultati non veritieri e ciò genera una serie di problemi che andremo a considerare in questa Unità e nelle successive. Tieni presente stiamo considerando una simulazione a scopo didattico. Nella pratica, la popolazione in esame di norma si esamina con un solo test, che ti consente di suddividere gli animali in due gruppi: i «test-positivi» (a+b) ed i «test-negativi» (c+d). Attraverso i quattro valori (a, b, c, d) della Tabella, puoi procedere alla valutazione della performance del test X (sensibilità, specificità valori predittivi ecc.), come vedrai nelle Unità che seguono. L'individuazione di un golden-test non è sempre facile. Talvolta si può utilizzare un test relativamente semplice e poco costoso. Ad esempio, in un caso di mastite acuta di una bovina, la diagnosi clinica di "mastite da Staphylococcus aureus" viene confermata facilmente attraverso esame colturale del latte (che, in questo caso, rappresenta il golden test). Tuttavia, molto più spesso è necessario ricorrere a golden test lunghi, complicati, costosi o rischiosi per il paziente (es. laparatomia esplorativa, biopsia). Abbiamo detto - e ripetuto - che un test diagnostico fornisce quasi sempre una certa quota di risultati falsi-positivi e falsi-negativi. Di conseguenza, il calcolo della prevalenza di una malattia in
274
una popolazione in base al risultato di un test non fornisce il valore della prevalenza reale, bensì la cosiddetta «prevalenza apparente».
Vedrai in una prossima Unità come, attraverso il Teorema di Bayes, sia possibile calcolare la prevalenza reale conoscendo la prevalenza apparente e due caratteristiche del test utilizzato: la sensibilità e la specificità.
275
11. Test di screening e diagnostici 11.4 Sensibilità e specificità di un test OBIETTIVI: apprendere il significato della "sensibilità" e della "specificità" di un test calcolare la sensibilità e la specificità di un test avendo a disposizione i dati necessari
La sensibilità e la specificità sono due misure che vengono impiegate per valutare la capacità di individuare, fra le unità di una popolazione, quelle provvisti del «carattere» ricercato e quelli che invece ne sono privi. Quasi sempre, quando si esegue un test su un animale, il carattere ricercato è rappresentato dalla presenza di una malattia; quindi, negli esempi, farò riferimento a questo tipo di utilizzo del test. Il termine «sensibilità» in senso epidemiologico viene utilizzato diversamente da quanto avviene in immunologia, in farmacologia o in altri settori, ove «un test sensibile è quello capace di svelare la presenza di piccole quantità di anticorpi, tossine, enzimi ecc.». Evidentemente, questo concetto di sensibilità è da tenere ben distinto da quello utilizzato in epidemiologia: infatti, un test immunologicamente «molto sensibile» potrebbe essere «poco sensibile» se utilizzato a scopo epidemiologico. Per farti meglio comprendere il concetto sensibilità e specificità di un test, ti consiglio di partire dalla tabella a due entrate già descritta nell'Unità precedente, e che, per tua comodità, viene qui riprodotta di nuovo:
276
Memorizza la disposizione delle righe e colonne della tabella, sarai facilitato nell'apprendimento delle prossime unità didattiche! Ricordati: · colonne=realtà (malato/sano); · righe=esito test: (positivo/negativo); · a=malati test-positivi; · b=sani test-positivi; · c=malati test-negativi; · d=sani test-negativi. Questa disposizione delle righe e delle colonne nella Tabella non è obbligatoria, ma è quella adottata più comunemente e rappresenta quasi uno "standard". Vediamo ora più in dettaglio le principali caratteristiche della sensibilità e della specificità di un test. Sensibilità Abbiamo già visto che non tutti gli animali malati, sottoposti ad un test, risultano positivi:
La sensibilità risponde alla domanda: «quanti, degli animali malati sottoposti al test, sono risultati positivi?». Pertanto, la sensibilità di un test è la sua capacità di identificare correttamente gli animali malati. In termini di probabilità, la sensibilità è la probabilità che un animale malato risulti positivo al test. Possiamo anche dire che la sensibilità è la proporzione di animali malati che risultano positivi al test. .
277
La seconda definizione è la migliore allo scopo di intuire il calcolo della la sensibilità: nella tabella, i «malati» sono rappresentati da (a+c) e, fra questi, i «test-positivi» sono rappresentati da (a); quindi, la sensibilità si calcola con la proporzione a/(a+c):
Ti ricordo che la frazione a/(a+c) ha la particolarità di includere al denominatore il valore presente al numeratore; si tratta quindi di una proporzione, che può assumere soltanto valori compresi fra 0 e 1 (esprimibili anche come percentuali da 0 a 100). Ad un esame superficiale, potresti pensare che una altissima sensibilità è l'unica qualità desiderabile in un test: infatti, il poter identificare correttamente, attraverso un test, tutti gli animali ammalati è tutto quello che ti serve. Tuttavia, se esamini meglio la questione, ti rendi conto che le cose non stanno proprio cosí: un'alta sensibilità non è sufficiente. Infatti, è necessario anche un altro requisito: un buon test deve identificare come positivi soltanto gli animali che hanno la malattia; cioè, è necessario che fra i testpositivi non siano inclusi anche animali sani. Da questa osservazione discende il concetto di specificità. Specificità Non tutti gli animali sani, sottoposti ad un test, risultano negativi:
278
La specificità risponde alla domanda: «quanti, degli animali sani sottoposti al test, sono risultati negativi?». Pertanto, la specificità di un test è la sua capacità di identificare correttamente gli animali sani. In termini di probabilità, la specificità è la probabilità che un animale sano risulti negativo al test. Possiamo anche dire che la specificità è la proporzione di animali sani che risultano negativi al test .
Ancora una volta, quest'ultima definizione è la migliore per di intuire il calcolo della la specificità: nella tabella i «sani» sono rappresentati da (b+d) e, fra questi, i «test-negativi» sono rappresentati da (d); quindi, la specificità si calcola con la proporzione d/(b+d):
279
Nota che anche la specificità, come la sensibilità, è definita attraverso una proporzione e quindi assume un valore compreso fra 0 e 1. Nelle operazioni di screening su larga scala, che coinvolgono un elevato numero di individui, la specificità del test è di grande importanza. Ad esempio, nel 2002 in Italia sono stati effettuati 746.678 test per la BSE (encefalopatia spongiforme bovina); di essi, 34 sono risultati positivi. Questi dati indicano che il test utilizzato era dotato di specificità straordinariamente elevata. Se si fosse utilizzato un test con specificità pari a 0.99 (ossia 99%), l'1% dei bovini SANI saggiati sarebbe risultato positivo: ossia ben 7467 animali! Stima della sensibilità e specificità I valori di sensibilità e specificità di un test vengono calcolati attraverso esperimenti eseguiti su un campione. Lavorando su un campione, come già ricordato, esiste il problema della variabilità dovuta al caso. Perciò soprattutto quando il campione studiato è piccolo, è opportuno calcolare l'intervallo di confidenza (es. intervallo di confidenza 95%), che serve a quantificare la precisione della stima ottenuta riguardo ai valori di sensibilità e specificità. L'intervallo di confidenza di una percentuale (o di una proporzione) è stato trattato in una precedente. Qui di seguito c'è un esempio a scopo di... ripasso.
unità
Per il calcolo dell'intervallo di confidenza 95% di un dato valore di sensibilità, si utilizza la formula seguente:
Per calcolare l'intervallo di confidenza 99% basta sostituire il coefficiente 1.96 con 2.53. Ovviamente la suddetta formula può essere utilizzata anche per il calcolo dell'intervallo di confidenza della specificità: devi sostituire il valore di Se con Sp, e n con il totale degli animali non-malati (ossia b+d). ESEMPIO. Hai applicato un test in un campione di 95 animali. Quarantadue animali sono risultati test-positivi e 53 test-negativi. I risultati riassunti nella sottostante Tabella.
280
Qui di seguito, il calcolo della sensibilità e della specificità e dei relativi intervalli di confidenza
95%. L'interpretazione ed il significato dell'intervallo di confidenza sono già stati spiegati in una unità precedente. L'ampiezza dell'intervallo di confidenza dipende dal numero n di animali che hai esaminato: più grande è questo numero, più ristretto è l'intervallo di confidenza. Ciò viene illustrato nel grafico sottostante, che mostra la precisione di una stima di sensibilità di un test in rapporto al numero di animali esaminati. Si tratta di un grafico di esempio, in cui vengono riportati gli intervalli fiduciali assumendo che il test abbia Se=0.75. Gli intervalli fiduciali 95% (area azzurra), sono stati calcolati applicando la suddetta formula, sostituendo p con 0.75.
Per concludere Infine, per sottolineare nuovamente i risvolti pratici legati alle caratteristiche di sensibilità ed alla specificità di un test, si può ricordare che...
281
282
11. Test di screening e diagnostici 11.5 Sensibilità e specificità: influenza del valore di soglia (cut-off) OBIETTIVO: consolidare il concetto di sensibilità e specificità apprendere i motivi per cui è molto difficile che esista un test con sensibilità e specificità 100% comprendere come si possa far variare la sensibilità e la specificità di un test, ma solo a prezzo di compromessi
Finora abbiamo illustrato le caratteristiche di un ipotetico test che forniva risultati del tipo positivo/negativo oppure sano/malato oppure si/no. Un test di questo tipo, con output binario (in due sole categorie), viene detto «nominale dicotomico»; si tratta di un test «qualitativo» in quanto misura l'esistenza (qualità) di un fenomeno e non la sua ampiezza (quantità). Esistono anche test semi-quantitativi che generano risultati classificabili in più di due categorie. Ad esempio, attraverso un test si può classificare come segue lo stato di un paziente dopo un trattamento: molto peggiorato, peggiorato, stazionario, poco migliorato, migliorato, molto migliorato. Le variabili di questo tipo, costituite da dati qualitativi suddivisi in più categorie con una direzione chiaramente implicita (es. migliore→peggiore o viceversa), vengono dette «ordinali». Ancora, i test possono essere di tipo quantitativo, fornendo risultati numerici misurabili su una scala numerica (variabili «continue»), come ad esempio i valori di densità ottica (D.O.) di un test ELISA misurati con lo spettrofotometro. Il test ELISA (Enzyme-Linked ImmunoSorbent Assay) è test quantitativo che impiega un enzima coniugato ad un anticorpo per identificare e quantificare la presenza di anticorpi (o di antigeni) nel siero di sangue o in altri materiali. In caso di positività, l'enzima induce una variazione di colore tanto puù intensa quanto più elevata è la presenza di anticorpi (o di antigeni) nel campione. La variazione di colore viene rilevata attraverso uno strumento (spettrofotometro) e si esprime con un valore numerico attraverso una unità di misura detta assorbanza (o densità ottica). Per i test quantitativi (ed anche per quelli semi-quantitativi), sorge un problema di interpretazione: occorre stabilire un valore critico o soglia o cut-off, che rappresenta il limite di separazione tra «positività» e «negatività» del test. Ciò corrisponde generalmente alla separazione ammalato/sano.
283
ESEMPIO. Al di sotto di quale numero di eritrociti/mm3 un animale può essere giudicato anemico? Al di sopra di quale densità ottica ottenuta con un test ELISA un animale è da ritenere malato? Quanto deve essere ingrossato un linfonodo per far sospettare la presenza di una metastasi? La scelta del cut-off è di estrema importanza: sarai forse sorpreso nell'apprendere che la sensibilità e la specificità possono essere fatte variare a piacimento variando il cut-off. Ora, attraverso un esempio-simulazione, giustifichiamo questa affermazione, e ne discutiamone le implicazioni. Il mio consiglio: prima di proseguire con questa Unità, assicurati di aver ben saldi i concetti di sensibilità e specificità spiegati nell'unità precedente! Un esempio-simulazione Nel grafico 1 sono riportate delle curve teoriche ottenute supponendo di saggiare con un test ELISA quantitativo, sieri di sangue prelevato da un campione di animali sicuramente ammalati e da un campione di animali sicuramente sani.
Vediamo come è stato costruito il grafico. Sull'asse delle ascisse (orizzontale) è stata riportata la densità ottica (D.O.) restituita dal test. Puoi notare che sono stati ottenuti valori compresi fra 0.2 a 1.6; tieni presente che il valore di D.O. è proporzionale alla quantità di anticorpi presenti nel siero: più anticorpi ci sono nel siero e maggiore è la D.O. Ovviamente, più la D.O. è elevata , maggiore è la probabilità che l'animale sia ammalato. Sull'asse delle ordinate (verticale) è riportata la frequenza di osservazioni, cioè il numero di animali che hanno evidenziato il titolo corrispondente in ascissa. Si nota che gli animali sani hanno fatto registrare valori di D.O. mediamente più bassi rispetto agli animali malati: la curva verde è infatti più a sinistra rispetto alla rossa. Si nota anche che le due curve si sovrappongono parzialmente, ed è proprio questa area di sovrapposizione che verrà presa in considerazione nella discussione che segue. Forse ti aspettavi che i sieri degli animali sani facessero registrare valori di D.O. costantemente pari a zero. Oppure, ti aspettavi che gli animali sani facessere registrare valori
284
sempre inferiori rispetto agli ammalati (v. grafico a sinistra). In questi casi, il test sarebbe perfetto ed infallibile, e non ci sarebbero problemi di interpretazione. Purtroppo nella pratica ciò non si verifica, e non devi stupirti che in una certa quota di animali sani possa evocare una risposta «positiva» ad un test, e viceversa: questo fenomeno può essere dovuto ad una varietà di cause che non è possibile trattare in questa sede. Torniamo al Grafico 1. Il problema è quello di stabilire un limite di separazione fra e sani e malati, ossia di stabilire il valore di D.O. al di sopra del quale l'animale viene ritenuto malato e al di sotto del quale viene ritenuto sano. Per essere più chiari: guarda l'asse delle ascisse e rispondi alla seguente domanda: a partire da quale valore di D.O. classifichi come «ammalato» un animale? Supponi di adottare come cut-off il valore di 1.0. Ciò significa che dichiarerai come «sano» ogni animale con D.O. ≤1.0, e dichiarerai «malato» ogni animale con D.O. >1.0. Considera il sottostante Grafico 2: con un cut-off=1, suddividi gli animali in due classi: test-positivi e test-negativi. Nota che, in realtà, fra quelli classificati come test-negativi sono compresi animali negativi veri (area verde) ed animali negativi falsi (area tratteggiata viola). Analogamente, fra i testpositivi sono compresi animali positivi veri (area rosa) ed animali positivi falsi (area tratteggiata gialla).
Riassumendo: adottando un cut-off=1, si ottengono quattro classi di animali: (a) positivi veri, (b) positivi falsi, (c) negativi falsi, (d) negativi veri. Sicuramente ricordi che queste quattro classi corrispondono a quelle già viste nell'Unità precedente in cui, attraverso la tabella di contingenza, è stata definita la sensibilità e la specificità di un test:
285
Finora abbiamo simulato l'ipotesi di adottare un cut-off=1. Ma che cosa succede adottiamo un cutoff diverso? Osserva ancora il Grafico 2, ed immagina di aumentare il cut-off (spostando verso destra la linea blu) o di diminuirlo (spostando la linea verso sinistra). Se aumenti il cut-off, ottieni i seguenti effetti: • • •
il numero complessivo di test-positivi diminuisce, ed aumenta quello di test negativi aumenta l'area d, ed anche l'area c; diminuisce l'area a, ed anche l'area b.
Di conseguenza, la sensibilità [a/(a+c)] diminuisce, e la specificità [d/(b+d)] aumenta. Se diminuisci il cut-off, ottieni i seguenti effetti: • • •
il numero complessivo di test-positivi aumenta, e diminuisce quello di test negativi diminuisce l'area d, ed anche l'area c; aumenta l'area a, ed anche l'area b.
Di conseguenza, la sensibilità [a/(a+c)] aumenta, e la specificità [d/(b+d)] diminuisce. Potresti scegliere valori di cut-off tali addirittura da massimizzare la sensibilità oppure la specificità come illustrato nei grafici che seguono:
Nel primo caso (Sensibilità=1) il cut-off è stato abbassato a circa 0.8: sotto questa nuova ipotesi, il test riesce ad individuare tutti i soggetti ammalati essendo il valore dell'area c=zero. Però, come contropartita, hai un aumento dell'area b (positivi falsi). Poiché c=0, la sensibilità è massima, ossia è pari a 1; questo effetto favorevole è bilanciato da una diminuzione della specificità. Nel secondo caso (Sensibilità=1) il cut-off è stato alzato a circa 1.3: sotto questa nuova ipotesi, il test riesce ad individuare tutti i soggetti sani, essendo il valore dell'area b=zero. Però, come contropartita, hai un aumento dell'area b (negativi falsi). Poiché b=0, la specificità raggiunge il valore massimo di 1; questo effetto favorevole è bilanciato da una diminuzione della sensibilità.
286
In genere è conveniente scegliere un cut-off di compromesso (es. del Grafico 1): sia la sensibilità che la specificità hanno un valore <1, e perciò si otterrà una quota di risultati positivi falsi e di negativi falsi. Questo inconveniente è inevitabile, e deriva dalla parziale sovrapposizione delle due curve di distribuzione (sani e malati). Per riassumere: • •
diminuendo il cut-off di un test, aumenta la sensibilità a scapito della specificità; aumentando il cut-off di un test, aumenta la specificità a scapito della sensibilità.
ESEMPIO. Langenbach e coll. (2001) hanno calcolato sensibilità e specificità del test "Esame clinico dei linfonodi" di cani e gatti al fine di diagnosticare metastasi di tumori solidi. L'esame clinico è stato posto a raffronto con un test di riferimento (golden test) rappresentato dall'esame istologico dei linfonodi. È noto che, durante le malattia neoplastiche, si possono verificare tumefazioni ed ingrossamenti dei linfonodi regionali, e l'ingrossamento è rilevabile mediante una semplice palpazione. Uno dei problemi connessi con questa tecnica è rappresentato dalla valutazione dell'entità dell'ingrossamento e dalla sua interpretazione. In particolare: è sufficiente un modico ingrossamento oppure l'aumento di volume del linfonodo deve essere notevole? Gli Autori hanno classificato la modificazione del volume in 3 categorie: (1) no ingrossamento; (2) ingrossamento lieve; (3) ingrossamento notevole. Questo tipo di classificazione ha fatto sorgere il quesito se gli animali appartenenti la categoria (2) (ingrossamento moderato) fossero da assegnare alla categoria degli ammalati o dei non ammalati. Gli Autori hanno applicato due criteri di interpretazione: interpretazione permissiva e interpretazione severa. Nel primo caso gli animali con linfonodi lievemente ingrossati venivano classificati come "sani", nel secondo come "malati". Ciò corrisponde proprio ad una variazione del cut-off. In sintesi, sono stati ottenuti i seguenti risultati:
287
Come si vede, l'interpretazione permissiva (corrispondente ad un innalzamento del cut-off) ha fatto registrare una sensibilità inferiore ed una specificità superiore rispetto alla interpretazione severa (corrispondente ad un abbassamento del cut-off). Privilegiare la sensibilità o la specificità? Purtroppo a questa domanda non può essere data una risposta univoca. Come abbiamo ora dimostrato, il valore di cut-off influenza sia la sensibilità che la specificità del test. Esso viene scelto in base ad una serie di considerazioni: ad esempio, deve essere ben nota la storia naturale della malattia, nonché le conseguenze sanitarie ed economiche dei negativi falsi e dei positivi falsi. Nel caso di alcune malattie infettive, talvolta anche un solo animale falso negativo può risultare particolarmente pericoloso, in quanto escretore dell'agente di malattia e quindi disseminatore del contagio .
ESEMPIO. Nello screening effettuato sulle persone donatrici di sangue è necessario adottare test provvisti della massima sensibilità. Infatti, è assolutamente indispensabile tutelare chi riceve la donazione e quindi non si può correre il rischio di trasfondere sangue infetto (risultato falsamente negativo ai test di sicurezza). Su questa base, diventa tollerabile la distruzione di una certa quota di campioni non infetti (risultati falsamente positivi ai test di sicurezza). Nel caso di malattie rare, conviene utilizzare un test ad alta sensibilità, altrimenti si rischia di non individuare i pochi casi presenti; al contrario, se la prevalenza della malattia è elevata, è generalmente più utile un test altamente specifico: infatti vanno assolutamente contenuti i positivi falsi al fine di non esaurire rapidamente le risorse per le richieste diagnostiche o terapeutiche del gran numero di animali positivi (veri e falsi). In epidemiologia clinica, nella scelta di un test diagnostico, si dovrebbero sempre considerare le caratteristiche di sensibilità e specificità e privilegiare l'una o l'altra a seconda delle circostanze. Un test sensibile dovrebbe essere scelto quando le conseguenze di una mancata diagnosi sono particolarmente gravi (es. malattie ad esito solitamente mortale, ma che possono essere efficacemente curate). I test sensibili sono utili anche durante il processo diagnostico iniziale, al fine di ridurre il ventaglio di possibilità (diagnosi differenziale) quando esso è ampio. In tal caso, il test sensibile viene applicato soprattutto allo scopo di escludere una o più malattie. Infatti, un test sensibile è di maggior aiuto al clinico quando fornisce un risultato negativo. Un test specifico è particolarmente utile per confermare una diagnosi già effettuata con altri mezzi. Infatti, un test specifico raramente è positivo in assenza della malattia. I test altamente specifici sono particolarmente utili quando un risultato falso positivo risulta particolarmente dannoso (sotto l'aspetto organico, emotivo per il proprietario, finanziario ecc.). In sostanza, un test molto specifico è di maggior aiuto al clinico quando fornisce un risultato positivo.
288
11. Test di screening e diagnostici 11.6 Valori predittivi di un test OBIETTIVO: definire le caratteristiche e calcolare il valore predittivo positivo ed il valore predittivo negativo di un test
Anche per la comprensione del valore predittivo di in test conviene, come già avvenuto a proposito della sensibilità e della specificità, tenere presente la ormai ben nota (v. Unità precedente) Tabella di contingenza a due entrate, in cui le colonne indicano lo stato reale dell'animale (M+, malato; M-, sano) e le righe l'esito del test (T+, positivo, T-, negativo):
Il mio consiglio: prima di proseguire con questa Unità, assicurati di aver ben saldi i concetti di (v. sensibilità e specificità! È importante tenere ben separati i concetti di sensibilità (Se) e specificità (Sp) dal valore predittivo. La Se e la Sp sono caratteri propri del test e legati al suo intimo funzionamento. In genere essi sono dichiarati dal produttore e sono (o dovrebbero essere) noti prima dell'applicazione del test sulla popolazione: Se e Sp sono probabilità pre-test. Tuttavia, una volta eseguito il test, Se e Sp perdono importanza. Infatti, dopo uno screening di popolazione, o nell'attività diagnostica ambulatoriale, oppure - più in generale - quando si deve interpretare il risultato di un test, diventano importanti due probabilità post-test. Infatti, è auspicabile avere un'idea della quota di soggetti realmente ammalati (positivi veri, cella a) sul totale degli animali risultati positivi al test (celle a+b). Analogamente, è bene conoscere la quota di soggetti realmente sani, (negativi veri, cella d) sul totale dei negativi al test (celle c+d). Il valore predittivo positivo
289
Non tutti gli animali positivi ad un test sono realmente ammalati. Quindi, in presenza di un animale positivo ad un test, occorre rispondere alla seguente domanda:
La risposta a questa domanda può essere data solo in termini di probabilità, calcolando il valore predittivo positivo (VPP) che indica la probabilità che un animale test-positivo sia davvero ammalato. Esso rappresenta la proporzione di animali test-positivi che sono ammalati. A partire dalla tabella di contingenza, il VPP si calcola così: a/(a+b).
Il valore predittivo negativo Non tutti gli animali negativi ad un test sono realmente sani. Ecco quindi che, in presenza di un animale negativo ad un test, occorre rispondere alla seguente domanda:
290
Anche in questo caso, la risposta può essere data solo in termini di probabilità, calcolando il valore predittivo negativo (VPN) che indica la probabilità che un animale test-negativo sia davvero sano. Esso rappresenta la proporzione di animali test-negativi che sono sani. A partire dalla tabella di contingenza, il VPN si calcola così: c/(c+d).
Il valore predittivo positivo viene da alcuni detto «valore predittivo di un risultato positivo» oppure «valore predittivo di un test positivo». Analogamente dicasi per il valore predittivo negativo: «valore predittivo di un risultato negativo» o «valore predittivo di un test negativo». Calcolare i valori predittivi nella pratica: il Teorema di Bayes In questa Unità ti ho spiegato come si calcolano i valori predittivi, assumendo di possedere... poteri soprannaturali attraverso i quali si conosce non solo il risultato del test, ma anche lo stato reale (malato/sano) degli animali. A scopo didattico questa assunzione è stata necessaria, ma siamo rimasti su un piano teorico, un po' avulso dalla pratica. Infatti, ti chiederai senz'altro come sia possibile calcolare il valore predittivo di un test nella attività professionale di campo.
291
Questo problema può essere risolto per mezzo dell'inferenza bayesiana, basata sul Teorema di Bayes, uno studioso del XVIII secolo. L'inferenza bayesiana è una branca della statistica inferenziale, in cui le probabilità non sono intese come frequenze o proporzioni, bensì come livelli di fiducia nel verificarsi di un dato evento. La base teorica del Teorema è complessa, e coinvolge argomenti di probabilità e statistica che travalicano le competenze di un medico veterinario. Tuttavia, puoi vedere il Teorema può come una utile «scatola nera» che consente di acquisire conoscenze non raggiungibili in altro modo. Nel caso che ci interessa, l'utilizzo del Teorema di Bayes è abbastanza semplice: basta applicare la formula appropriata, ossia quella che consente di ottenere, conoscendo Se e Sp del test, la prevalenza reale a partire dalla prevalenza apparente. Una volta nota la prevalenza reale, sarà facile risalire al valore predittivo positivo e negativo. Per una spiegazione più dettagliata puoi fare riferimento ad una esempio pratico.
presentazione animata con un
Stima di un valore predittivo Come già detto a proposito della sensibilità e della specificità, anche per i valori predittivi si possono calcolare gli intervalli di confidenza, che rappresentano un buon indice della precisione dei valori ottenuti Per il calcolo degli intervalli di confidenza 95% di un dato valore predittivo positivo, si utilizza la formula seguente, in cui n corrisponde al totale degli animali risultati test-positivi:
Ovviamente la suddetta formula può, con le opportune variazioni, essere utilizzata anche per il calcolo dell'intervallo di confidenza del valore predittivo negativo: basta sostituire VPP con VPN e n con il totale degli animali test-negativi. ESEMPIO. Supponiamo che tu abbia effettuato uno screening applicando un test ad un campione composto da 95 animali, ottenendo i risultati riassunti nella Tabella a lato. [Nota che questa è una simulazione a scopo didattico in cui ti fornisco dati supplementari rispetto a quelli che ottieni in campo: infatti in realtà, nella pratica, dopo lo screening, non otterrai i 4 valori della tabella, ma soltanto i seguenti due dati: test-positivi n=42; test-negativi n=53]. I calcoli sono come segue:
Se vuoi ottenere l'IC99% (anzichè 95%), basta sostituire il coefficiente 1.96 con 2.54. L'interpretazione ed il significato dell'intervallo di confidenza sono già stati spiegati in una unità precedente.
292
Da cosa dipendono i valori predittivi? Il valore predittivo positivo dipende, come è lecito attendersi, dalla Se e dalla Sp del test; in particolare, esso aumenta con l'aumentare di questi due parametri. É però importante sottolineare un altro aspetto più sorprendente, e particolarmente importante nella pratica: il valore predittivo positivo dipende anche da un fattore indipendente dal test: la prevalenza della malattia nella popolazione sottoposta a screening. Questo aspetto come viene illustrato attraverso un apposito esempio nella prossima unità. Valore predittivo in epidemiologia clinica È già stato accennato al fatto che, nella scelta di un test diagnostico, il clinico dovrebbe considerare le caratteristiche di Se e Sp. Tuttavia, una volta che il test è stato effettuato ed ha fornito un risultato (non importa se positivo o negativo), la Se e la Sp perdono importanza. Infatti, Se e Sp si riferiscono a individui il cui stato di salute/malattia è noto. Ma se si conoscesse lo stato del paziente, non sarebbe necessario effettuare alcun test! Ecco quindi che, nell'attività del clinico, l'obiettivo è il seguente: determinare lo stato del paziente, dato il risultato di un test. In questa ottica, sono importanti i valori predittivi (negativo e positivo).
293
11. Test di screening e diagnostici 11.7 Relazione tra valori predittivi e prevalenza OBIETTIVO: valutare la relazione esistente fra i valori predittivi di un test di screening e la prevalenza della malattia
Fra il valore predittivo (VPP) e negativo (VPN) di un test e la prevalenza della malattia nella popolazione che viene sottoposta a screening esiste una relazione molto importante. La comprensione di questa relazione è facilitata ricorrendo ad un esempio-simulazione. Supponi di effettuare uno screening nei confronti della brucellosi bovina in 3 diverse aree geografiche (Area1, Area2, Area3), usando un test con sensibilità e specificità note. In ciascuna area sono presenti 30000 animali da sottoporre a screening. Ancora una volta, come già fatto nelle Unità precedenti, supponiamo di avere... poteri soprannaturali, e di conoscere la prevalenza reale in ciascuna area: • • •
AreaA: prevalenza = 0.1(10%); AreaB: prevalenza = 0.01 (1%); AreaC: prevalenza = 0.001 (0.1%).
Lo screening viene effettuato con test di «Agglutinazione rapida al Rosa bengala»(Rose Bengale Test, con Se=0.620 e Sp=0.995 [Gall D. & Nielsen K., Rev. sci. tech. Off. int Epiz., 2004, 23 (3), 989-1002]. Le 3 Tabelle sottostanti riassumono i risultati ottenuti nello scenario ora descritto.
294
Il valore predittivo positivo Come vedi, il valore predittivo positivo (VPP) diminuisce con il diminuire della prevalenza della malattia. Questo accade perché la diminuzione della prevalenza comporta l'incremento degli animali sani; ciò, a sua volta, fa sí che aumenti il numero di esiti positivi falsi. Commentiamo brevemente i risultati che hai ottenuto. Nella Area1, con prevalenza elevata, il VPP è di 0.932, ciò significa che su 100 bovini positivi al test, 93 sono ammalati, mentre 7 sono positivi falsi. Considera che la profilassi della brucellosi avviene per eradicazione, ed i bovini che risultano infetti devono essere abbattuti; se ci si basasse soltanto sull'esito di questo test di screening, nello scenario in questione si pagherebbe una sorta di «tassa a fondo perduto» del 7%, rappresentata dai bovini sani da abbattere erroneamente in quanto considerati infetti. L'entità (7%) di questo effetto collaterale sembra accettabile, considerando anche il beneficio rappresentato dal fatto che, dopo l'abbattimento, la prevalenza registra un notevole calo (da 0.1 a 0.039). Consideriamo l'Area2 e l'Area3, nelle quali il VPP è rispettivamente 0.556 e 0.110. Ciò comporta che il 44.4% e l'89.0% degli abbattimenti sarebbe ingiustificato, riguardando animali sani ma testpositivi. Questa situazione risulterebbe inaccettabile nella pratica per una serie di motivi, che possono essere riassunti in uno solo fonfamentale: un eccessivo rapporto costi / benefici (ossia il rapporto fra il costo delle azioni di profilassi ed i benefici indotti da tali azioni). Pertanto, in questi
295
casi dovranno essere adottate misure correttive per utilizzare due test invece di uno solo.
migliorare il VPP. Ad esempio, si potranno
Il grafico sottostante illustra l'andamento del valore predittivo positivo in rapporto alla prevalenza, per tre test di esempio a diversa sensibilità e specificità. È evidente che, quando la prevalenza della malattia nella popolazione è elevata, la performance di tutti i test è buona. Invece, per valori di prevalenza molto bassi il valore predittivo di tutti i test si avvicina a zero; in queste condizioni, qualsiasi test diagnostico diventa virtualmente inutile a scopo diagnostico. Puoi notare, confrontando l'andamento delle 3 curve, che l'effetto della prevalenza sul valore predittivo è proporzionale al decrescere della sensibilità e specificità del test.
Il fatto che il valore predittivo positivo dipenda dalla prevalenza sconsiglia l'effettuazione di azioni di screening per malattie rare. Infatti, uno screening per una malattia rara presenta i seguenti inconvenienti: (1) pochi individui ne trarranno beneficio (proprio in quanto malattia rara); (2) molti individui (i falsi-positivi) ne trarranno un danno, in quanto verranno ingiustamente considerati ammalati. Il valore predittivo negativo Analogamente al VPP, anche il VPN dipende dalla prevalenza della malattia nella popolazione. La relazione va in senso opposto rispetto a quanto hai visto per il VPP. Infatti, il VPN aumenta con il diminuire della prevalenza, come schematizzato nel grafico sottostante.
296
VPN: il rischio di importare un animale ammalato Quando si acquista un animale (o un prodotto di origine animale), è buona norma accertarsi che esso non sia affetto da malattie trasmissibili o contaminazioni che, in tal modo, potrebbero essere introdotte in un allevamento indenne (ossia nel quale l'agente della malattia non è presente). Di solito prima dell'acquisto l'animale viene sottoposto ad un test. Tuttavia, hai imparato che i test non sono infallibili. Perciò sorge legittima la domanda dell'allevatore: "se l'animale da acquistare è test-negativo, che probabilità ci sono che esso sia ammalato?"
Si può rispondere semplicemente che la probabilità è pari a (1-VPN). Infatti, ti ricordo che la probabilità si esprime con un numero compreso fra 0 (l'evento non si verifica mai) e 1 (l'evento si verifica sempre). Come ben ricordi, il VPN rappresenta la probabilità dell'evento "l' animale testnegativo è sano" di conseguenza (1-VPN) rappresenta la probabilità dell'evento alternativo, ossia "l'animale test-negativo è ammalato". Il punto importante è che, come hai appena visto, il VPN (ed anche il VPP) sono correlati alla sensibilità ed alla specificità del test, ma dipendono anche dalla prevalenza della malattia nella popolazione. Per questo motivo, anche conoscendo la sensibilità e la specificità del test, non è possibile rispondere direttamente alla domanda dell'allevatore, a meno di non conoscere (o stimare) la prevalenza. In tal caso, si può applicare il teorema di Bayes, usando la seguente formula:
ESEMPIO. Un bovino appartenente ad un gruppo in cui si stima che la prevalenza della brucellosi sia pari a 0.20 viene sottoposto con esito negativo al test di agglutinazione rapida al Rosa bengala
297
(Se=0.620 e Sp=0.995). Ci si domanda qual è: la probabilità quell'animale sia ammalato. Applichando la formula soprastante ottieni: 1.VPN=((0.2*0.380) / [(0.2*.380)+ (0.8*0.995)] = 0.0872 (8.72%). Foglio di calcolo per Microsoft Excel® che simula l'applicazione di un test in una popolazione e calcola Se, Sp, VPP e VPN. Foglio di calcolo per Microsoft Excel® per calcolare, conoscendo P, Se e Sp, la probabilità che un animale test-negativo sia ammalato. Foglio di calcolo per Microsoft Excel® per visualizzare l'andamento di VPP e VPN in rapporto a P, Se e Sp.
298
11. Test di screening e diagnostici 11.8 Metodi per migliorare il valore predittivo di un test di screening OBIETTIVO: individuare i metodi per migliorare il valore predittivo positivo (VPP) di un test da utilizzare per lo screening di popolazioni
Abbiamo visto nell'Unità precedente che il valore predittivo positivo (VPP) è un elemento di fondamentale importanza per la riuscita delle operazioni di screening. Abbiamo visto anche che il VPP è correlato alla prevalenza: esso decresce al diminuire della prevalenza, potendo raggiungere livelli inaccettabilmente bassi e tali da compromettere l'efficienza dell'azione di screening. Come migliorare il VPP? Il primo metodo per ottenere un accettabile VPP è quello di operare su popolazioni ad alto rischio, nelle quali la prevalenza si presume assuma valori elevati. Se questa opzione non è praticabile, allora si può cercare di individuare, nella popolazione, sottogruppi ad alto rischio sui quali concentrare il programma di screening. Fra gli interventi di diagnosi precoce dei tumori dell'uomo previsti dal Sistema Sanitario Nazionale, si annovera la mammografia. Il test viene effettuato allo scopo di individuare tempestivamente i tumori della mammella e prevede l'esame biennale delle donne di età compresa fra 50 e 69 anni. Questa fascia di età è più a rischio rispetto alle altre ed in essa l'incidenza è maggiore. Perciò il valore predittivo del test è più elevato rispetto a quanto si avrebbe esaminando indiscriminatamente tutte le donne. Il secondo metodo per migliorare il VPP è quello di utilizzare due (o, raramente, più di due) test. Operativamente, ciò può avvenire con due diverse modalità (che verranno prese in considerazione nelle prossime Unità): (1)
in serie, cioè prima un test e poi, su quelli risultati positivi, l'altro;
(2)
in parallelo su tutti gli animali.
L'interpretazione dei risultati di test in serie è ovvia: si considerano ammalati gli animali risultati positivi al primo ed al secondo test. Più complicata è l'interpretazione dei test in parallelo, per i quali si può adottare la strategia di interpretazione con modalità OR oppure con modalità AND. Questo argomento viene affrontato in una successiva unità. Riassumendo:
299
300
11. Test di screening e diagnostici 11.9 Test multipli: utilizzo di 2 test in serie OBIETTIVO: verificare, per mezzo di un esempio, il miglioramento del valore predittivo ottenibile utilizzando due test in serie
Per capire meglio il funzionamento di questa strategia di screening, ci serviremo di un esempio in cui i due test in serie vengono utilizzati su una popolazione di 8000 animali. Allo scopo di rendere l'esempio comprensibile, dobbiamo assumere di possedere... poteri soprannaturali che ci fanno conoscere lo stato reale (malato/sano) di ciascuno di questi 8000 animali. In particolare, sappiamo che 111 di essi sono ammalati e 7889 sono sani. I due test che hai a disposizione hanno le seguenti caratteristiche: • •
TEST1: Se=0.937, Sp 0.987 TEST2: Se=0.981, Sp=0.990; questo test è più costoso e più sensibile del TEST1
Sottoponi al TEST1 tutti gli 8000 soggetti della popolazione, e poi applichi il TEST2solo su quelli risultati positivi al TEST1. Otterrai questi risultati:
Se vuoi, puoi fare il seguente breve "ripasso" verificando che i risultati tabulati soddisfano i dati forniti:
301
TEST1: Se = 104/111 = 0.937; Sp=7789/7889 = 0.987; TEST2: Se = 102/104 = 0.981; Sp = 99/100 = 0.990 Come vedi, alla fine del procedimento di applicazione in serie del TEST1 e del TEST2, gli 8000 animali sono stati classificati come segue: - 103 positivi (di cui 102 positivi veri e 1 positivo falso) - 7897 negativi (7796 negativi al TEST1 + 101 negativi al TEST2). Fra questi 7987 negativi, 7888 sono negativi veri e 7+2 negativi falsi. Ora puoi calcolare Se, Sp e VPP complessive, ossia quelle ottenute utilizzando i due test in serie:
Nella Tabella che segue sono evidenziati in colore gli animali classificati incorrettamente (misclassificati). Puoi vedere che: - al TEST1 hai classificato come sani 7 animali che in realtà sono malati; questi 7 animali non verranno più testati; - al TEST1 hai classificato come malati 100 animali in realtà sani, che però verranno poi saggiati con il TEST2; - al TEST2 hai classificato come malato 1 animale che in realtà è sano; - al TEST1 hai classificato come sani 2 animali che in realtà sono malati.
302
Rispetto agli esiti del TEST1, al TEST2 sono stati dichiarati sani 2 animali che in realtà sono malati. Questo effetto negativo derivante dall'applicazione del TEST2 è largamente compensato dal fatto che con il secondo test si sono quasi annullati i positivi falsi, che passano da 100 a 1. Proviamo a fare qualche conto sui benefici della strategia «Due test in serie» utilizzando i dati dello scenario che hai appena visto, ed ipotizzando che un esame di laboratorio con il TEST1 costi 1€ e con TEST2 costi 10€: (a) se utilizzi soltanto TEST1, spendi 8000€ ed ottieni 107 mis-classificazioni: 100 positivi falsi e 7 negativi falsi); (b) se utilizzi soltanto TEST2, spendi 80000€ ed ottieni 81 mis-classificazioni: 79 positivi falsi e 2 negativi falsi (dati non mostrati nelle tabelle); (c) se utilizzi i due test in serie, spendi 10040€ ed ottieni 10 mis-classificazioni: 1 positivo falso e 9 negativi falsi. Ricordati che ti puoi attendere risultati simili a quelli dell'esempio soltanto se i due test sono biologicamente indipendenti l'uno dall'altro. Per «biologicamente indipendenti» si intende che i test sono basati su meccanismi diversi o, meglio, che misurano grandezze diverse (es. differenti classi di anticorpi). L'utilizzo di due test in serie è previsto, ad esempio, nell'ambito del piano di profilassi di Stato della brucellosi bovina, con l'impiego di due test sierologici: il test al rosa-bengala in prima istanza e quindi, sui positivi, la fissazione del complemento. Questi due test possono essere ritenuti «biologicamente indipendenti», in quanto misurano classi diverse di anticorpi, e quindi il loro impiego in serie risulta efficace. Se i due test sono biologicamente dipendenti, allora si otterranno probabilmente risultati meno brillanti di quelli dell'esempio. Infatti, in test biologicamente simili i risultati tendono ad essere correlati, nel senso che aumenta la probabilità che essi forniscano lo stesso risultato quando applicati allo stesso animale.
303
Attenzione a non commettere l'errore di confrontare il valore predittivo positivo del primo test con quello del secondo. Infatti nel nostro esempio: VPP TEST1 = 104/204 = 0.509 VPP TEST2 = 102/103 = 0.990 Apparentemente il TEST2 è di gran lunga superiore rispetto al TEST1; tuttavia, il confronto è viziato. Infatti occorre ricordare che il VPP è dipende (oltre che dalla specificità e sensibilità intrinseche del test), anche dalla prevalenza; in questo caso il TEST2 è stato applicato su un gruppo di animali già positivi al TEST1 test e nei quali, perciò, la prevalenza era molto elevata, come risulta dal seguente calcolo. Popolazione sottoposta al TEST1: - Prevalenza reale = 111/8000 = 0.013 - Prevalenza apparente (in base ai risultati del test) = 204/8000 = 0.025 Popolazione sottoposta al TEST2: - Prevalenza reale = 104/204 = 0.509 - Prevalenza apparente (in base ai risultati del test) = 103/204 = 0.505 La scelta dell'ordine di serie dei due test (prima TEST1 poi TEST2, oppure viceversa prima TEST2 poi TEST1) viene effettuata tenendo conto soprattutto dei costi e della praticità di esecuzione dei test. Infatti, evidentemente è preferibile che il primo test (quello applicato su un numero maggiore di individui) sia il meno costoso e/o quello di più facile esecuzione oppure meno invasivo per il paziente.
304
11. Test di screening e diagnostici 11.10 Test multipli: utilizzo di 2 test in parallelo OBIETTIVO: verificare i vantaggi derivanti dall'impiego di 2 test eseguiti in parallelo
Oltre all'utilizzo di test multipli in serie, già visto in precedenza, un altra modalità di impiego di test multipli è quella di applicare 2 (o più) test contemporaneamente agli animali della popolazione da saggiare. La sensibilità e la specificità della combinazione di test dipendono dalla modalità di interpretazione dei risultati. Infatti, potranno ottenere le seguenti combinazioni di risultati: • • • •
TEST1 positivo e TEST2 negativo (T1+/T2-) TEST1 negativo e TEST2 positivo (T1-/T2+) TEST1 positivo e TEST2 positivo (T1+/T2+) TEST1 negativo e TEST2 negativo (T1-/T2-)
Applicando due test contemporaneamente sorge un problema di interpretazione dei risultati. Infatti, è pacifico che gli animali T1+/T2+ siano considerati ammalati. Analogamente, è pacifico che gli animali T1-/T2- siano considerati sani. Ma come interpretare gli animali T1+/T2- e quelli T1-/T2+? Vi sono due possibilità: l'interpretazione «OR» e l'interpretazione «AND».
L'interpretazione in modalità OR considera infetto (o ammalato) un animale che è risultato positivo ad un test o all'altro o ad ambedue. Vengono quindi classificati come ammalati i seguenti animali: T+/T+, T+/T-, T-/T+. Questa interpretazione aumenta la sensibilità ma diminuisce la specificità. Ciò è intuitivo, in quanto si fornisce a ciascun animale una maggiore opportunità (=probabilità) di reagire positivamente.
305
Nota che, ai fini della sensibilità e della specificità globali, l'utilizzo di due test «in parallelo modalità AND» é sovrapponibile all'utilizzo degli stessi due test «in serie» (v. unità precedente). Però, nella pratica, fra le due strategie (serie/parallelo) vi è una differenza importante: nel caso dei test in serie il numero complessivo di test da effettuare é inferiore rispetto a quanto ai test in parallelo. Infatti, nel caso della strategia «in serie» si effettua il primo test su tutti gli animali, ed il secondo test solo su quelli risultati positivi. Invece, con la strategia «in parallelo» si saggiano tutti gli animali sia con il primo che con il secondo test. Per questo motivo la strategia «test in parallelo modalità AND» normalmente non viene utilizzata. L'interpretazione in modalità AND considera infetto (o ammalato) un animale che è risultato positivo ad entrambi i test. Vengono quindi classificati come ammalati i seguenti animali: T+/T+. Questa modalità consente di ottenere una maggiore specificità; ciò è facilmente intuibile se si pensa che, per ciascun animale saggiato, la probabilità di risultare positivo a entrambi i test è inferiore rispetto a quanto avviene interpretando i risultati con modalità OR.
306
11. Test di screening e diagnostici 11.11 Test in parallelo: interpretazione con modalità OR o AND OBIETTIVO: apprendere, per mezzo di un esempio, gli effetti su sensibilità e specificità quanto due test applicati in parallelo vengono interpretati con modalità OR o AND individuare le situazioni pratiche in cui è preferibile l'una o l'altra interpretazione
Proseguiamo l'Unità precedente ed esaminiamo una simulazione-esempio di applicazione di due test in parallelo. In questa simulazione, esamini una popolazione di 6000 bovini, applicando su ciascuno di essi due test (TEST1 e TEST2). Per rendere efficace l'esempio, supponiamo che tu conoscsa già lo stato reale di ciascuno dei 6000 animali (cosa che non avviene mai nella pratica!). In particolare, sai che 300 di essi sono ammalati, ed i restanti 5700 sono sani. Una volta effettuati i test, ordini i dati ottenuti in un database in un foglio di calcolo, di cui viene riportato qui sotto u estratto (se lo desideri, è disponibile anche il foglio di calcolo completo). Come vedi, nel database ogni riga rappresenta un animale, mentre ogni colonna contiene una variabile. Nota che i dati sono stati codificati secondo un metodo di uso comune, ossia utilizzando il codice «0» (che significa «0» oppure «negativo», o più in generale «assenza del fenomeno») oppure viceversa il codice «1». Ti ricordo che, come già visto nell'unità precedente, l'interpretazione OR considera ammalato l'animale risultato positivo ad un test, o all'altro o ad ambedue. L'interpretazione AND considera ammalato l'animale risultato positivo ad entrambi i test.
307
Ora, sempre utilizzando i dati del database, puoi allestire le tabelle di contingenza separatamente per ciascuno dei due test, e calcolarne la sensibilità e la specificità, come segue:
308
A questo punto puoi tabulare, sempre a partire dal database, i risultati combinati dei due test in parallelo, come nella Tabella sottostante. Per chiarire la lettura della Tabella, aggiungo che: - il valore 80 indica che 80 animali ammalati sono risultati «+/-», ossia positivi al TEST1 e negativi al TEST2; - il valore 200 indica che 200 animali sani sono risultati «+/-», ossia positivi al TEST1 e negativi al TEST2; - il valore 40 indica che 40 animali ammalati sono risultati «-/+», ossia negativi al TEST1 e positivi al TEST2; ... e così via.
Infine, puoi calcolare la sensibilità e la specificità dei due test in parallelo, sia con intepretazione in modalità «AND» che in modalità «OR». Il calcolo è illustrato graficamente, con l'aiuto dei colori, nella Tabella che segue.
309
In sintesi:
Infine, per riassumere il tutto, nella figura seguente vengono schematizzate le differenze fra l'interpretazione OR e quella AND.
310
Si può vedere come, nel caso dell'interpretazione «OR» è meno probabile - rispetto all'utilizzo di un singolo test - che un animale infetto sfugga alla diagnosi; tuttavia, si avrà un incremento dei falsi-positivi, ossia dei soggetti sani che vengono classificati come ammalati. Si ottiene un innalzamento della sensibilità, a scapito della specificità. Nel caso dell'interpretazione «AND», è più facile che sfuggano alla diagnosi animali infetti, però diminuisce la probabilità che un animale sano sia classificato come ammalato. La specificità aumenta, a scapito della sensibilità.
311
11. Test di screening e diagnostici 11.12 Validità di un test e concordanza fra test OBIETTIVO: apprendere un semplice criterio di valutazione della concordanza fra due test (o della efficienza di un test)
Validità di un test Abbiamo visto, nelle Unità precedenti, che dopo aver applicato un test su una popolazione assumono importanza due indici: il valore predittivo positivo ed il valore predittivo negativo, che misurano quanto i risultati ottenuti si avvicinano alla realtà. Ciò, però, può essere riassunto in un solo indice, detto validità (o efficienza, o accuratezza). La validità di un test è la sua capacità di classificare correttamente sia gli animali malati che quelli sani. La validità è tanto più alta quanto più il test classifica come positivi gli animali realmente malati e come negativi quelli realmente sani. In altri termini, la validità è la capacità di generare risultati rispondenti al vero sia negli individui ammalati che in quelli sani. La validità può essere calcolata facilmente qualora si conosca il vero stato degli individui che sono stati sottoposti al test. In tal caso, utilizzando la ben nota Tabella di contingenza, la validità si esprime con la proporzione: (a+d)/(a+b+c+d).
ESEMPIO. Abbiamo sottoposto 300 bovini al test della tubercolina per la diagnosi di tubercolosi; successivamente, i bovini sono stati macellati, e su di essi è stata effettuato un minuzioso esame anatomo-patologico di visceri e linfonodi per evidenziare le lesioni tipiche della tubercolosi. Hai
312
ottenuto i risultati riportati nella tabella. L'esame anatomo-patologico rappresenta il golden standard; infatti, puoi essere ragionevolmente certo che un animale privo di lesioni specifiche sia esente dall'infezione, e viceversa. La prova della tubercolina ha identificato correttamente 25 animali infetti e 253 animali sani (v. Tabella a lato). La validità della prova della tubercolina è: (25+253) / 300 = 0.928. Ciò significa che il test della tubercolina, nelle tue condizioni, ha identificato correttamente lo stato di un animale (non importa se malato o sano) nel 92.8% dei casi. Concordanza fra due test Quando si tratta di valutare la performance di un test, talvolta può essere necessario confrontarlo non con la realtà o con l'esito di golden test, bensì con un altro test, magari non eccellente ma di comune impiego nella pratica. In questo caso, non si parla più di validità, ma di «concordanza». La concordanza può riguardare non solo il grado di accordo che si osserva fra due test, ma anche quello fra due (o più) operatori che interpretano l'esito di uno stesso test (es. radiografie, elettrocardiogramma, auscultazione cardiaca ecc.), oppure fra due letture effettuate da uno stesso operatore in tempi diversi. Non si vuole stabilire quale classificazione sia più corretta, bensí stabilire se i criteri utilizzati per l'interpretazione del test siano efficienti, e se classificazione sia riproducibile. Il calcolo della concordanza è analogo a quello della validità. Supponendo quindi di confrontare due test (TestA e TestB), si ha quanto segue:
ESEMPIO. Hai saggiato 134 sieri suini con due test (TestA e TestB) allo scopo di verificare la presenza di paratubercolosi nel bovino, ottenendo i seguenti risultati: 18 positivi a entrambi i test; 102 negativi ad entrambi i test; 8 positivi a TestA e negativi a TestB; 6 negativi a TestA e positivi a TestB. La concordanza fra i due test è: (18+102)/(18+102+8+6) = 0.896.
313
L'indice «Kappa» di Cohen La concordanza calcolata come sopra descritto è criticabile in quanto non tiene conto della quota di concordanza dovuta al caso. Esempio. Due studenti decidono di valutare, ognuno per proprio conto, una serie di 100 radiografie dell'addome di altrettanti cani con sospetto di calcolosi epato-biliare. Gli studenti sono e classificano le immagini radiologiche attraverso... il lancio di una moneta. Verosimilmente, essi otterranno risultati simili a quelli della Tabella a lato, raggiungendo una concordanza del 50% in base al calcolo seguente: (25+25)/100=0.5. Come vedi, una classificazione puramente casuale, come quella ottenuta attraverso il lancio di una moneta, restituisce valori di concordanza prossimi a 50%, che sono ovviamente ingannevoli. Per calcolare la quota di concordanza «vera» occorre stabilire quanta parte della concordanza totale osservata è dovuta al caso, e quanta è invece dovuta al reale accordo tra gli osservatori o i test utilizzati. Ciò si ottiene attraverso un metodo statistico che, a partire dai dati della tabella di contingenza, consente di calcolare il Kappa di Cohen. L'interpretazione dei valori Kappa si esegue secondo le seguenti linee-guida: k<0.2= concordanza scarsa; k compreso fra 0.2 e 0.4 = concordanza modesta; fra 0.41 e 0.61 = moderata; fra 0.61 e 0.80 = buona; >0.80 = eccellente. Per maggiori informazioni sul Kappa di Cohen e per le modalità di calcolo, ti consiglio di consultare il «Libro» oppure questa presentazione animata. Foglio di calcolo per Microsoft Excel® che calcola il Kappa di Cohen a partire da una tabella di contingenza 2x2.
314
12. Trasmissione e mantenimento delle infezioni 12.1 Malattie trasmissibili OBIETTIVO: definire il concetto di "malattia trasmissibile" e mostrare come esistano malattie trasmissibili non contagiose
Per "malattia trasmissibile" si intende una malattia il cui agente causale può essere trasferito da un individuo ad un altro. Le malattie trasmissibili possono essere suddivise in infettive o non infettive. Ciascuna di queste due categorie comprende malattie contagiose o non contagiose:
Alcune malattie trasmissibili infettive non contagiose richiedono l'intervento di un vettore (questo punto di vista non è condiviso da tutti). Il vettore serve a propagare l'agente da un individuo all'altro. ESEMPIO. La anemia infettiva del cavallo è una malattia che si trasmette agli animali recettivi quasi esclusivamente attraverso l'intervento di insetti ematofagi (tafani, zanzare ecc.) che si comportano esclusivamente come vettori meccanici. Altre vie di trasmissione, non naturali e molto meno comuni, sono rappresentate da aghi di siringhe o altri strumenti contaminati da sangue proveniente da un animale infetto.
315
Esistono però anche malattie trasmissibili infettive non contagiose che non necessitano dell'intervento di un vettore, quali quelle sostenute da clostridi (es. tetano, botulismo, carbonchio ecc.). ESEMPIO. Il tetano si contrae attraverso contaminazione di ferite o soluzioni di continuo di cute o mucose da parte di terriccio o altro materiale contenente le spore. Le spore tetaniche sono molto diffuse in natura e si riscontrano con frequenza nel terreno, nei foraggi, nel letame ecc. L'animale ammalato di tetano non è contagiante, nel senso che la trasmissione ad un animale sano non si verifica. Le malattie trasmissibili non infettive e contagiose sono tipicamente quelle sostenute da parassiti. Infine, è da ricordare che le malattie trasmissibili non infettive e non contagiose comprendono alcune malattie genetiche (tipiche, nell'uomo, il daltonismo e l'emofilia) che si trasmettono per verticale.
via
Le malattie trasmissibili ed il concetto di " ZOONOSI" Da tempo immemorabile è noto che esistono malattie che possono trasmettersi dagli animali all'uomo; queste malattie vengono dette "zoonosi". Nel 1959 l'Organizzazione Mondiale della Sanità ha adottato la seguente definizione: "zoonosi = malattie e infezioni naturalmente trasmesse tra animali vertebrati e l'uomo" In questo contesto sono state considerate da alcuni soltanto le malattie trasmissibili, mentre altri vi hanno incluso anche le morsicature di serpente e le allergie dell'uomo causate da animali. È stata anche sottolineata l'opportunità di includere infezioni opportunistiche 'non-naturali', come ad esempio quelle che possono verificarsi in pazienti immunodepressi. L'interesse per le zoonosi ha portato ad un ampliamento delle conoscenze ed ha spinto ad approfondire anche alcuni aspetti socio-economici. In questa ottica, Mantovani ha recentemente proposto un allargamento della definizione di zoonosi: "zoonosi = danno alla salute e/o qualità della vita umana causato da relazione con (altri) animali vertebrati, o invertebrati commestibili o tossici" Se si accetta questa definizione allargata, in aggiunta alle classiche malattie trasmissibili, vengono considerate zoonosi anche: le malattie allergiche da contatto con animali o da ingestione di alimenti di origine animale; le malattie da sostanze chimiche (es. antibiotici) presenti negli alimenti di origine animale; i traumi (calci, morsicature ecc.); le malattie derivanti da morsi di serpente o da punture di artropodi; le malattie da inquinamento animale (sporcizia, rumore, sovraffollamento) e da sostanze chimiche usate per gli animali. Per notizie più esaurienti: A. Mantovani. Appunti sullo sviluppo del concetto di zoonosi. Atti III Convegno Nazionale di Storia della Medicina Veterinaria. Lastra a Signa (FI), 23-24 settembre 2000, pag. 119-129.
316
12. Trasmissione e mantenimento delle infezioni 12.2 Ciclo di una malattia trasmissibile OBIETTIVO individuare, su base temporale, i diversi stadi di una malattia trasmissibile
Il «ciclo di una malattia» comprende collettivamente i diversi stadi che si succedono nel corso di un evento morboso. La conoscenza del ciclo della malattia è importante, sia nel singolo animale (medicina clinica)che in popolazioni (epidemiologia), per la messa a punto di strategie di terapia e di profilassi. Il ciclo-tipo di una malattia può essere suddiviso in diverse fasi, alcune delle quali possono sovrapporsi. La figura soprastante rappresenta soltanto una schematizzazione estremamente semplificata degli eventi che si verificano in un animale ammalato in funzione del tempo. • •
• •
•
esposizione: è l'evento iniziale che, nel caso delle malattie infettive, dà origine alla infezione; periodo di incubazione: è il tempo che intercorre tra l'esposizione e la comparsa di sintomi clinici. Per le malattie non trasmissibili esso è detto periodo di latenza. Questo periodo varia ampiamente variabile in rapporto al tipo di agente, all'ospite ed a numerosi altri fattori; periodo prodromico: è il periodo di transizione tra lo stato di salute e quello di malattia, caratterizzato dai primi sintomi (spesso non specifici della malattia); malattia clinica (o subclinica): in questo periodo i sintomi della malattia raggiungono la loro massima evidenza. Se i sintomi sono molto marcati, la malattia è in "forma acuta"; se sono di minore intensità, allora la malattia è in "forma subacuta". Non sempre i sintomi sono presenti; nel caso in cui manchino, si parla di "malattia subclinica" o asintomatica. Se la malattia è grave, può verificarsi la morte dell'animale ammalato regressione: è il periodo in cui i sintomi si fanno meno intensi; spesso la regressione è dovuta alla reazione dell'ospite (es. produzione di anticorpi). Tuttavia, è possibile che l'ospite non riesca a
317
•
•
guarire completamente, e quindi la malattia entra in una lunga fase detta di «cronicizzazione», cioè acquisisce i caratteri della «malattia cronica»; convalescenza e guarigione: in questa fase si ha il ristabilimento completo delle funzioni dell'organismo, che ritorna in stato di salute. Notare che alcune malattie provocano lesioni permanenti e quindi inibiscono una guarigione perfetta; stato di portatore: ovviamente può realizzarsi soltanto nel caso delle malattie infettive: in questa fase, che in molti casi NON si verifica, l'animale alberga l'agente (ed è capace di trasmetterlo ad animali recettivi), senza manifestare alcun segno di malattia. L'animale «portatore» è in stato di infezione subclinica o di infezione latente.
Per le malattie infettive, il periodo di trasmissibilità o di contagiosità (cioè il lasso di tempo durante il quale l'animale può trasmettere l'infezione ad altri animali) dipende da molti fattori (tipo di malattia, tipo di ospite, ecc.). Come regola generale, questo periodo (evidenziato in arancio nello schema) inizia poco dopo l'infezione, persiste negli animali portatori ma si esaurisce dopo la guarigione.
318
12. Trasmissione e mantenimento delle infezioni 12.3 Infezione latente e stato di portatore OBIETTIVO apprendere il significato dei termini «infezione latente» e «portatore»
Per infezione latente (o, impropriamente, malattia latente) si intende una situazione in cui un agente patogeno è presente allo stato quiescente in un ospite. L'infezione o la malattia rimangono inapparenti per un periodo di tempo molto superiore rispetto al periodo di incubazione "normale" per quella malattia. Durante il periodo di infezione latente, la presenza dell'agente nell'ospite non può essere dimostrata con mezzi convenzionali. L'infezione latente ha durata indefinita, ma può essere riattivata (e quindi passare allo stato di malattia) per effetto di fattori diversi o eventi stressanti.
ESEMPIO. Talvolta i suini adulti, dopo infezione da parte del virus della pseudorabbia (Suid Herpesvirus 1, SHV1), detta anche Malattia di Aujeszky, rimangono clinicamente sani e non presentano mai segni clinici, oppure li presentano a distanza di mesi; tuttavia, normalmente, la malattia si manifesta dopo un periodo di incubazione di pochi giorni. L'animale con infezione latente è detto portatore. In senso lato, si possono riconoscere diversi tipi di portatore, in rapporto all'evento «malattia»: • • • •
portatore sano è l'animale in cui la malattia è destinata a non svilupparsi mai; portatore in incubazione è l'animale che si trova nel periodo di tempo compreso fra infezione e comparsa della sintomatologia; portatore latente è l'animale con infezione latente, nel quale la malattia non si sviluppa oppure si sviluppa in tempi molto più lunghi rispetto al periodo di incubazione normale per quella malattia; portatore convalescente è l'animale che ha superato la malattia e che continua ad albergare l'agente per un tempo variabile in rapporto al tipo di agente ed all'ospite.
319
320
12. Trasmissione e mantenimento delle infezioni 12.4 Trasmissione orizzontale e verticale OBIETTIVO: definire le modalità di trasmissione orizzontale e verticale ed evidenziarne le rispettive caratteristiche.
Le malattie diffusibili (infettive o parassitarie) conseguono alla penetrazione (o, più raramente, alla colonizzazione superficiale) nell'organismo da parte di agenti patogeni (virus, batteri, miceti, protozoi, elminti ecc.). Molto spesso l'agente patogeno non è in grado di replicare al di fuori dell'ospite; questo è sempre vero per i virus, i quali sono parassiti endocellulari obbligati e quindi necessitano assolutamente, per la loro «vita», di esseri viventi. Tutt'al più l'agente può «sopravvivere» (cioè resistere, ossia rimanere vitale, ma senza moltiplicarsi) al di fuori dell'ospite per un tempo più o meno lungo. É allora evidente che la sopravvivenza continuativa di un agente, sia essa associata o meno all'induzione di malattia nell'ospite, può avvenire soltanto se avviene la trasmissione a nuovi ospiti sensibili, nei quali l'agente replica. Oltre a replicare (o moltiplicarsi) nell'ospite, l'agente deve avere l'opportunità di essere trasmesso ad un altro ospite recettivo, in modo da dar luogo al cosiddetto «ciclo vitale». Tipicamente, la trasmissione avviene da un ospite ammalato ad uno sano recettivo:
La trasmissione può avvenire per via orizzontale (detta anche laterale) oppure per via verticale. La trasmissione orizzontale può essere di tipo diretto o indiretto; la trasmissione verticale può avvenire in utero (mammiferi) o in ovo (uccelli, pesci ecc.).
321
Trasmissione orizzontale Le malattie trasmesse orizzontalmente sono quelle trasmesse da un qualsiasi segmento di popolazione ad un altro. La trasmissione orizzontale può essere diretta o indiretta. La trasmissione orizzontale diretta si verifica quando un ospite recettivo si infetta per contatto fisico con un ospite infetto oppure con suoi escreti. La trasmissione orizzontale indiretta coinvolge un veicolo intermedio, animato o inanimato, che trasmette l'agente. Questo veicolo è detto «vettore», sebbene sia più corretto utilizzare questo termine soltanto per i veicoli animati. Il vettore è di specie diversa rispetto all'ospite primario e, molto spesso, è rappresentato da un artropode.
322
ESEMPIO di trasmissione DIRETTA. In un allevamento intensivo di polli da carne allevati su lettiera vi sono alcuni soggetti con coccidiosi (malattia intestinale sostenuta da specie diverse di un protozoo appartenente al genere Eimeria). Questi parassiti replicano nelle cellule della mucosa intestinale e vengono emessi all'esterno con le feci in una forma di resistenza detta «oocisti». I polli sani allevati nello stesso ambiente, ingerendo frammenti di lettiera oppure acqua o mangime contaminato da feci, acquisiscono l'infestione. In questo modo il parassita compie il suo «ciclo vitale». ESEMPIO di trasmissione INDIRETTA. Le encefalomieliti virali del cavallo (provocate da virus appartenenti alla famiglia Togaviridae, gen. Alphavirus) si trasmettono quasi esclusivamente attraverso vettori rappresentati da zanzare di varie specie. Per questo, le encefalomieliti virali del cavallo hanno un andamento stagionale che proporzionale al numero ed all'attività dei vettori: nelle zone temperate la frequenza maggiore si ha nella tarda estate, mentre nelle zone tropicali la frequenza aumenta durante la stagione umida. La trasmissione di agenti infettanti a lunga distanza attraverso l'aria, viene talvolta impropriamente ritenuta «indiretta», sebbene sia più corretto classificarla come diretta in quanto non è coinvolto alcun veicolo intermedio. Trasmissione verticale La trasmissione per via verticale avviene da una generazione dell'ospite alla successiva attraverso l'infezione dell'embrione o del feto in utero (mammiferi) o in ovo (uccelli, rettili, pesci, artropodi). Secondo alcuni anche la trasmissione alla progenie attraverso il latte è da considerarsi verticale. ESEMPIO. La leucosi enzootica del bovino è dovuta ad un virus appartenente alla famiglia Retroviridae, genere HTLV-BLV (Human T-cell Lymphotropic Virus - Bovine Leukemia Virus). Una delle vie di trasmissione di questa malattia è quella verticale: il feto si infetta per via diaplacentare. È possibile, anche se non frequente, l'infezione del neonato per ingestione di latte o colostro.
323
12. Trasmissione e mantenimento delle infezioni 12.5 Tipi di ospite OBIETTIVO: descrivere i diversi significati del termine «ospite» in base alle possibili interazioni agenteanimale
In biologia Con il termine di «ospite» si designa la specie al cui interno (o sulla cui superficie) è presente un altro essere vivente, in situazione di commensalismo, parassitismo o simbiosi mutualistica. L'attributo «ospite» viene usato anche per la cellula (cellula ospite) nella quale si riproduce un parassita intracellulare (es. un virus).La specie «ospite» deve essere intesa in senso lato, e quindi e comprende anche gli artropodi, che talvolta svolgono un ruolo importante nella diffusione delle malattie. Di solito, nell'ospite avviene la moltiplicazione o lo sviluppo dell'agente. Esiste una varietà di termini che descrivono le interazioni ospite-parassita; si tratta di termini usati da microbiologi, parassitologi, epidemiologi, infettivisti ecc. Ognuno di questi termini può assumere un significato specifico all'interno di ogni disciplina. In questa sede verrà fatto un breve cenno soltanto agli aspetti che riguardano l'epidemiologia. Ospite definitivo «Ospite definitivo» è un termine usato in parassitologia per indicare l'ospite in cui un parassita compie la fase di riproduzione sessuata.
ESEMPIO. Taenia pisiformis riconosce come ospite definitivo il cane, la volpe ed altri carnivori, nei quali il verme adulto si localizza a livello di intestino tenue. Ospiti intermedi sono soprattutto coniglio e lepre, animali nei quali, dopo ingestione di alimenti contaminati con feci di animali parassitati, si sviluppano larve cistiche (Cysticercus pisiformis) che si localizzano sulla sierosa peritoneale (Cisticercus pisiformis). Ospite primario e ospite secondario «Ospite primario» (o «ospite naturale»). Si tratta di una specie animale che mantiene un'infezione nella zona occupata dalla popolazione della specie animale stessa. Poiché un agente infettante
324
spesso dipende dall'ospite primario per la sopravvivenza a lungo termine, l'ospite primario è spesso detto anche «ospite di mantenimento». «Ospite secondario» è una specie addizionale (in aggiunta a quella dell'ospite primario) coinvolta nel ciclo vitale di un agente, specialmente al di fuori della zona endemica. Talvolta questa distinzione non è molto netta, ed anche un ospite secondario può agire come ospite di mantenimento.
ESEMPIO. La pseudorabbia (o malattia di Aujeszky) è una malattia virale che riconosce come ospite primario il maiale. In questa specie compaiono i diversi quadri di malattia, oppure infezioni asintomatiche o, ancora, infezioni latenti. La stessa malattia può colpire anche molte altre specie di animali domestici o selvatici; diversamente da quanto avviene nel maiale, in questi la malattia ha esito quasi costantemente letale. Ospite intermedio, accidentale, paratenico «Ospite intermedio»: ospite in cui un agente va incontro ad un qualche tipo di sviluppo. Il termine viene impiegato in parassitologia, e si riferisce più spesso ad una riproduzione di tipo asessuato. ESEMPIO. Railletina cesticillus è un cestode (verme piatto) che vive, allo stadio adulto, nell'intestino tenue del pollo, del fagiano e di altri volatili. Le proglottidi gravide, o parti di esse, emesse con le feci vengono ingerite da un ospite intermedio rappresentato da un insetto dell'ordine Coleoptera. Nell'ospite intermedio l'embrione si sviluppa, trasformandosi in larva cisticercoide. L'ospite definitivo si infesta ingerendo un ospite intermedio parassitato. «Ospite accidentale» (o incidentale, a fondo cieco, o dead-end): è un ospite che generalmente non trasmette la malattia e nel quale, quindi, l'agente non può completare il suo ciclo biologico. La definizione di "ospite accidentale" si applica soltanto ad una combinazione ospite-agente. Lo stesso ospite può essere definitivo, intermedio, accidentale ecc. per un diverso agente. ESEMPIO. Nella pseudorabbia (vedi sopra), l'infezione di specie diverse dal maiale è poco o nulla diffusibile (perché il virus non viene escreto da parte dell'ospite), e porta costantemente a morte gli
325
animali colpiti. Quindi le specie diverse da quella suina sono da considerare, nell'epidemiologia della pseudorabbia, come «a fondo cieco». «Ospite paratenico»: è un ospite attraverso il quale l'agente è trasferito meccanicamente e nel quale non compie alcuno sviluppo. Il termine «ospite paratenico» viene utilizzato esclusivamente in elmintologia. In altre discipline si usa il termine «vettore meccanico». Angiostrongylus cantonensis è un nematode che vive nelle arterie polmonari del ratto. Le uova deposte dalle femmine adulte passano ai capillari polmonari, dove si sviluppano e schiudono, producendo una larva (L1). Le larve L1 penetrano negli alveoli polmonari, risalgono la trachea, pervengono in faringe, vengono ingerite ed, infine, escono dall'ospite con le feci. All'esterno, le larve passano in diverse specie di molluschi terrestri (lumache) nei quali si sviluppano le forme larvale infestanti L3. Il ciclo si conclude quando il ratto ingerisce una lumaca parassitata. Tuttavia, numerosi altri animali (sia invertebrati (granchio, aragosta) che vertebrati (bovino, suino) , se ingeriscono il mollusco parassitato, possono agire come ospiti paratenici e veicolare le larve L3. Nell'uomo che si ciba di ospiti paratenici contenenti le larve L3, queste possono migrare alle meningi e provocare una meningoencefalite eosinofilica.
Ospite di amplificazione, ospite serbatoio «Ospite di amplificazione»: con questa denominazione si indica una specie animale che, per un cambiamento temporaneo nella dinamica della popolazione accompagnato da un incremento di numero degli individui, può improvvisamente consentire un aumento della concentrazione dell'agente.
326
«Ospite serbatoio» o «reservoir» è quello in cui un agente normalmente vive e si moltiplica, talvolta senza provocare malattia clinicamente evidente; un ospite di questo tipo rappresenta una temibile fonte di infezione per altri animali. Gli animali possono essere importanti reservoir di infezioni dell'uomo.
ESEMPIO. Brucella melitensis è l'agente principale della brucellosi degli ovini e dei caprini. In questi animali, il batterio causa una sintomatologia fugace, rappresentata - in sostanza - da aborto. Esso, in genere, si verifica una sola volta nella vita dell'animale; tuttavia, gli animali infetti restano per lungo tempo portatori ed escretori dell'agente. Pertanto, la pecora e la capra possono essere considerate «serbatoi» di B. melitensis. Esse rappresentano una importante fonte di infezione per l'uomo, anche in considerazione del fatto che Brucella melitensis può essere escreta con il latte.
327
12. Trasmissione e mantenimento delle infezioni 12.6 Tipi di vettore OBIETTIVO definire il termine «vettore» ed evidenziare le differenze fra vettore biologico e vettore meccanico
Etimologicamente «vettore» deriva dal latino vector, che significa "colui che porta". Questo termine può essere impiegato in senso lato o ristretto. In senso lato, per vettore si intende qualsiasi cosa, o essere vivente, che permette il trasporto o la trasmissione di un agente patogeno.
ESEMPIO. Nel diftero-vaiolo aviare (una malattia virale che colpisce numerose specie di uccelli, e sostenuta da virus appartenenti alla Famiglia Poxviridae) possono essere considerati vettori in senso lato: (1) un pollo ammalato introdotto in un gruppo di recettivi; (2) le croste provenienti dalle lesioni vaiolose; (3) un automezzo che ha trasportato polli ammalati; (4) un insetto che veicola materiale contaminato; (5) ecc. Se si utilizza il significato ampio, i vettori possono essere distinti in animati o inanimati. Nell'esempio precedente, i vettori (2) e (3) sono vettori inanimati. Questi ultimi sono detti anche fomiti. Quindi, «fomite» è sinonimo di «vettore inanimato»
328
Nel significato ristretto, un vettore è un essere vivente (quasi sempre un invertebrato, e più spesso un artropode) che, in virtù del suo comportamento ecologico, è capace di trasmettere un agente di malattia. Nell'ambito dei vettori (intesi in senso ristretto) possono essere riconosciute due categorie. I vettori meccanici sono quelli nei quali l'agente patogeno veicolato non compie alcuno sviluppo. I vettori biologici sono, invece, quelli in cui l'agente si moltiplica oppure deve compiere una parte importante del proprio ciclo vitale. Talvolta i vettori biologici «attivi», ed i vettori meccanici sono detti «passivi» .
ESEMPIO. Le zanzare possono veicolare meccanicamente il virus del vaiolo aviare, e rappresentano pertanto dei vettori passivi di questa malattia. Il plasmodio della malaria nelle zanzare del genere Anopheles compie una parte essenziale del ciclo di sviluppo; si tratta, in questo caso, di vettori attivi o biologici.
329
12. Trasmissione e mantenimento delle infezioni 12.7 Fattori associati alla diffusione delle infezioni OBIETTIVO inquadrare e schematizzare le variabili che condizionano la diffusione delle malattie infettive o parassitarie
Le malattie trasmissibili possono diffondere all'interno di una popolazione o di un territorio più o meno rapidamente e con modalità diverse. Fra le diverse variabili che intervengono nel processo di diffusione delle malattie trasmissibili, le più importanti sono legate alle caratteristiche dell'ospite, alle caratteristiche dell'agente ed alla efficienza del contatto.
Più in dettaglio (v. schema), l'ospite favorisce (o ostacola) la diffusione di una malattia a seconda di due caratteri principali: la recettività e la contagiosità. A sua volta, l'agente responsabile della malattia possiede almeno 3 caratteri importanti ai fini della trasmissione: l'infettività, la virulenza e la stabilità. I suddetti caratteri vengono brevemente sviluppati nelle due Unità che seguono.
330
12. Trasmissione e mantenimento delle infezioni 12.8 Diffusione delle infezioni e caratteristiche dell'ospite: recettività e contagiosità OBIETTIVO fornire i concetti di base su alcuni attributi dell'ospite che sono implicati nella diffusione delle malattie trasmissibili all'interno di una popolazione o fra popolazioni diverse
La capacità di un ospite a trasmettere una malattia è condizionata da numerosi fattori, tra i quali i più importanti sono la recettività (o suscettibilità) e la contagiosità. Parlando in generale, la recettività è la capacità di sviluppare un determinato evento. In epidemiologia però, per recettività molto spesso si intende la capacità di ospitare un agente patogeno e di permetterne lo sviluppo o la moltiplicazione.
Un fattore importante che condiziona la recettività è la specie animale. Infatti, a seconda della malattia, la recettività può essere molto ampia, oppure limitata ad una sola specie o a gruppi di specie. La gamma di specie animali recettive ad una malattia viene detta, nel suo complesso, «spettro d'ospite» ESEMPIO. La malattia di Marek è una malattia virale che colpisce esclusivamente il pollo; quindi, si dice che il virus della malattia di Marek ha uno «spettro d'ospite» molto ristretto. Al contrario, il virus della rabbia può infettare una vasta gamma di specie animali, e quindi esso ha uno spettro d'ospite allargato. Un altro fattore importante che influisce sulla recettività è l'immunità derivante da una pregressa infezione o da una vaccinazione. La recettività all'interno di una stessa specie può variare ampiamente ed essere accompagnata, ad esempio, alla selezione di animali geneticamente resistenti. L'animale recettivo può diventare vettore o portatore. La contagiosità è la propensione di una malattia o di un agente a diffondere all'interno di una popolazione recettiva per vie naturali (contatto diretto o indiretto).
331
La contagiosità dipende da moltissime variabili; fra esse, le più importanti sono, in genere: 1. durata del periodo in cui l'ospite è infettante; 2. quantità di agente escreto dall'ospite.
Vi sono anche altri fattori che influenzano la contagiosità. Ad esempio, un animale non diventa infettante subito dopo l'avvenuta infezione. Il tempo che intercorre tra l'infezione e la escrezione dell'agente è un altro fra i tanti elementi che contribuiscono a determinare la contagiosità di una malattia. Questo periodo di tempo assume denominazioni diverse a seconda del tipo di agente implicato. In particolare, esso viene denominato: • • •
periodo di prepatenza per le malattie parassitarie fase di eclisse per le malattie da virus periodo di latenza per le malattie da batteri.
Nel caso delle malattie non infettive, il «periodo di latenza» indica l'intervallo di tempo compreso tra l'esposizione alla causa e la comparsa della malattia.
332
12. Trasmissione e mantenimento delle infezioni 12.9 Diffusione delle infezioni e caratteristiche dell'agente OBIETTIVO illustrare alcuni caratteri dell'agente patogeno importanti ai fini della trasmissione della malattia
Fra le più importanti caratteristiche che influenzano la trasmissione degli agenti infettivi sono da annoverare: (1) infettività, (2) virulenza, (3) stabilità. L'infettività è un attributo dell'agente che misura con quanta facilità esso è in grado di infettare l'ospite. L'infettività è inversamente proporzionale al numero di organismi necessari per l'instaurarsi dell'infezione in un determinato ospite. L'infettività varia ampiamente in rapporto ad i diversi agenti. ESEMPIO. I virus che infettano i batteri (batteriofagi) hanno un'infettività molto elevata: 1 solo batteriofago può indurre infezione in un batterio. Al contrario, nel caso dei virus animali, l'infezione si instaura soltanto con quote di virus molto più elevate (es. 1000 o 100000 particelle infettanti). L'infettività può variare in rapporto ai differenti ceppi dello stesso agente e dipende anche da altri fattori quali la via di infezione, l'età dell'ospite, il suo stato di resistenza innata o acquisita ecc. Quando un agente è capace di infettare più di una specie animale, la sua infettività varia in rapporto alla specie ospite. In sostanza, l'infettività di un agente non è un parametro assoluto, ma deve essere specificata in correlazione con altre variabili. ESEMPIO. La dose infettante di Campylobacter jejuni isolato da pollo è di 500 batteri per il pollo e di 107 per il gabbiano. Il virus dell'encefalomielite aviare riproduce la malattia se somministrato in bassa dose a pulcini recettivi di 1 giorno di età; se si utilizzano pulcini di età superiore, sono necessarie dosi via via più elevate. Quindi, l'infettività del virus dell'encefalomielite aviare è strettamente correlata all'età. La virulenza misura la patogenicità (o potere patogeno) di un agente, ossia quanto esso è capace di provocare una malattia e di indurre lesioni nei tessuti colpiti. La stabilità di un agente è la sua capacità a sopravvivere per tempi più o meno lunghi al di fuori dell'ospite. Talvolta viene detta anche «resistenza». Gli agenti poco stabili nell'ambiente vengono detti «labili». Ovviamente la stabilità di un agente dipende molto dalle condizioni ambientali (temperatura, umidità radiazioni UV ecc.) in cui esso si viene a trovare. Le spore batteriche sono fra le forme di vita più più stabili conosciute, potendo rimanere vitali per anni. Al contrario, alcuni virus (es. alcuni coronavirus dell'uomo) resistono soltanto poche ore. Riassumendo:
333
Infettività, virulenza e stabilità in epidemiologia È da notare qui sopra sono state esposte le "classiche" definizioni di infettività, virulenza e stabilità, mutuate dalla microbiologia e che si riferiscono più all'interazione tra un agente ed un; singolo animale che a una popolazione. In epidemiologia, l'infettività viene invece misurata su popolazioni di animali, e si ottiene calcolando la proporzione di individui che si infettano sul totale di quelli esposti all'agente.
Sempre ragionando in termini di popolazione anziché di singolo individuo, si può affermare che la patogenicità (o potere patogeno) di un microrganismo è esprimibile con la proporzione di infetti che sviluppano malattia clinica. Attenzione a non confondere l'infettività con il concetto di morbosità, la quale invece misura la proporzione di ammalati sul totale di animali che possono contrarre quella malattia.
La virulenza di un agente è un altro fattore che influenza la trasmissione; essa è strettamente correlata alla patogenicità. Per un dato agente, la virulenza viene definita come la capacità di moltiplicarsi nell'ospite e di indurre malattia e lesioni. Anche in questo caso si tratta di una definizione riferita al singolo
334
animale. Per l'epidemiologo, la virulenza di un agente è correlata alla proporzione di animali ammalati che vanno incontro a malattia grave (o muoiono). Negli studi epidemiologici, la virulenza può essere stimata misurando la letalità.
ESEMPIO. Il virus della rabbia è provvisto di alta infettività, alta patogenicità ed alta virulenza. Infatti, gli individui che vengono esposti al virus (es. morsicati da un cane rabido [nota la terminologia: rabido, NON rabbioso!]) quasi certamente si infettano; inoltre, tutti quelli che si infettano vanno incontro a malattia e tutti gli ammalati muoiono. É da notare che una elevata virulenza non è necessariamente associata ad una maggiore diffusibilità dell'agente nella popolazione: infatti, un agente molto virulento provoca la morte dell'ospite un breve tempo, e questo riduce la probabilità che l'agente si trasmetta ad altri ospiti recettivi. Infine, il tempo durante il quale un microrganismo può rimanere infettante al di fuori dell'ospite è detto «stabilità». Alcuni organismi sopravvivono soltanto per breve tempo, cioè sono molto labili. La stabilità è aumentata dalla presenza, sull'agente, di una barriera protettiva (es. spora). ESEMPIO. Le leptospire, agenti di malattia in diverse specie animali, sono poco stabili in ambiente secco. Il virus del vaiolo è molto stabile e, al riparo dalla luce solare diretta, può conservare l'infettività per anni. Le forme vegetative di Bacillus anthracis (l'agente del carbonchio ematico) sono relativamente labili, mentre le spore dello stesso batterio (e le spore batteriche in genere) sono fra le più resistenti forme di vita note.
335
12. Trasmissione e mantenimento delle infezioni 12.10 Diffusione delle infezioni ed efficienza del contatto OBIETTIVO sottolineare il ruolo di alcune variabili riguardo al contatto tra animali infetti ed animali sani
L'efficienza del contatto descrive le condizioni che facilitano l'instaurarsi dell'infezione nel singolo animale e la sua diffusione a livello di popolazione. Per una particolare infezione, l'efficienza dipende dalla stabilità dell'agente, dalle vie di escrezione da parte dell'ospite infetto e dalla via di penetrazione nell'ospite suscettibile. Riguardo alla durata, il contatto può essere assai breve oppure prolungato. La durata della contagiosità determina il numero dei suscettibili che vengono infettati da un singolo soggetto infetto. Quindi, ad esempio, le infezioni virali dell'apparato respiratorio superiore hanno in genere una contagiosità breve (giorni) mentre bovine affette da TBC possono essere escretrici del bacillo col latte per anni. Anche il comportamento degli animali può condizionare l'efficienza del contatto. Esempio tipico è quello della rabbia, nel senso che animali per natura timidi e schivi, quando sono colpiti da rabbia tendono ad avvicinarsi all'uomo ed appaiono addirittura mansueti. Ciò incrementa la possibilità di contatto dell'uomo con il virus. La patogenesi della malattia può influenzare la probabilità di trasmissione; per es., le malattie respiratorie possono indurre tosse e starnuti, cui si accompagna diffusione dell'agente tramite aerosol.
336
12. Trasmissione e mantenimento delle infezioni 12.11 Vie di infezione OBIETTIVO apprendere un inquadramento ragionato delle vie di infezione (o di infestione)
La sede o le sedi attraverso le quali un agente penetra nell'ospite sono dette «vie di infezione» e sono riassunte schematicamente nella seguente figura. In essa l'organismo è rappresentato come un modello di forma sferica nel quale vengono evidenziate le possibili vie di penetrazione di un agente. Notare che le mucose dell'apparato respiratorio, digerente e genitale vengono considerate come «superfici» corporee, in quanto sono tutte a contatto più o meno diretto con l'ambiente esterno.
Fra le vie riportate nel modello, quelle più frequentemente utilizzate da agenti infettivi o parassitari sono: la via respiratoria, la via digerente, la via cutanea.
337
VIA ORALE La via orale è una delle più comuni, specialmente in relazione ai microrganismi con habitat intestinale che spesso vengono eliminati dall'ospite infetto con le feci. Agenti quali rotavirus, salmonelle e molti parassiti gastrointestinali possono contaminare acqua ed alimenti, che agiscono quindi come fomiti. Nel caso in cui gli agenti ingeriti vengano escreti con le feci, si parla di «ciclo oro-fecale». Gli agenti che penetrano per via orale possono essere disseminati dall'ospite infetto attraverso una varietà di vie, oltre a quella fecale. ESEMPIO. L'infezione da Brucella abortus nel bovino avviene più spesso per via orale, ma l'agente viene poi escreto col latte o con le secrezioni uterine al momento del parto o dell'aborto. I bassi valori di pH gastrico rappresentano una efficiente barriera alla trasmissione di questo tipo per numerosi agenti.
VIA RESPIRATORIA E' un altro frequente metodo di trasmissione per molti agenti infettivi. Gli agenti raramente si presentano come singole particelle in sospensione nell'aria, ma sono invece inglobati in materiale organico sotto forma di goccioline o polvere. La natura e le dimensioni di queste particelle influenzano la loro dispersione e stabilità. Negli animali l'aria inspirata viene sottoposta a filtrazione (seni nasali, turbinati ecc.) e, se questo sistema è ben funzionante, raramente le particelle sono in grado di raggiungere le vie respiratorie profonde (alveoli polmonari). Pertanto, almeno inizialmente, l'infezione si instaura a carico delle vie aeree superiori. Le infezioni che si trasmettono per via respiratoria si verificano con maggiore probabilità in presenza di un'elevata densità di popolazione e di scarsa ventilazione. Queste condizioni si riscontrano frequentemente nell'allevamento intensivo di diverse specie animali. ESEMPIO. Escherichia coli nel pollo può provocare una vasta gamma di malattie (artrite, sinovite, oviduttite, onfalite ecc.). Tuttavia, nell'allevamento intensivo del broiler, la forma più comune è quella respiratoria
338
In condizioni ambientali estreme, possono venire trasmesse per via respiratoria malattie che assai raramente lo sono in condizioni normali. ESEMPIO. Il virus della rabbia si trasmette normalmente attraverso il morso di animali infetti. Tuttavia, è stata dimostrata la possibilità acquisizione della malattia per via respiratoria dopo permanenza in caverne nelle quali si erano insediate colonie di pipistrelli.
VIA CUTANEA E TRANS-MUCOSALE La trasmissione attraverso la cute è detta percutanea. Alcuni agenti si localizzano soltanto a livello cutaneo e la trasmissione si verifica soltanto per contatto diretto o tramite fomiti (es. micosi cutanee, ectoparassiti). La incidenza di queste forme, e soprattutto di quelle che si trasmettono per contatto diretto, è fortemente influenzata dalla densità della popolazione di ospiti suscettibili. La cute integra è una efficace barriera per la maggior parte degli agenti infettanti; fra i microrganismi, soltanto pochi (es. leptospire) possono oltrepassare la cute integra o macerata da una lunga permanenza in acqua. Alcuni parassiti, e particolarmente gli stadi immaturi di alcuni nematodi e trematodi, possono penetrare attraverso la cute intatta (es. Schistosoma e Ancylostoma). Al contrario, sulla cute lesionata da tagli o abrasioni possono instaurarsi numerose infezioni che rimangono localizzate (es. infezioni da Staphylococcus aureus). Altri agenti, possono indurre una infezione generalizzata, con o senza localizzazione al punto di ingresso. Un'altra importante forma di infezione percutanea è quella derivante dal morso di vertebrati o dalla puntura di artropodi. Agenti che sono presenti nella saliva (virus della rabbia) possono essere trasmessi attraverso morsicature. Non sono da dimenticare le numerose malattie infettive o parassitarie trasmesse dalla puntura di artropodi. Nonostante poche malattie possano essere trasmesse attraverso la cute integra, numerosi agenti possono invece infettare le mucose integre. Ciò vale, in particolare, per gli agenti che sono labili nell'ambiente esterno e che richiedono, ad esempio, un contatto sessuale diretto (Tripanosoma equiperdum nel cavallo).
339
12. Trasmissione e mantenimento delle infezioni 12.12 Modalità di trasmissione OBIETTIVO esaminare le caratteristiche fondamentali delle principali vie di trasmissione delle malattie
INGESTIONE Può verificarsi attraverso veicoli meccanici (fomiti), per esempio acqua contaminata, o ingestione di ospiti intermedi (cisti di cestodi nella carne). Gli agenti ingeriti, dopo la replicazione e lo sviluppo, vengono solitamente escreti con le feci, originando un cosiddetto «ciclo fecale-orale». Per alcuni agenti, l'escrezione avviene esclusivamente per via fecale, in quanto l'infezione è localizzata al solo tratto intestinale (es. paratubercolosi del bovino). Altri agenti, una volta assunti per ingestione, possono invadere il torrente circolatorio ed essere escreti, oltre che per via fecale, anche per vie addizionali come l'urina o le secrezioni respiratorie (es. virus della peste bovina). INALAZIONE L'assunzione del contagio avviene attraverso aria contaminata. La modalità più comune prevede l'escrezione di patogeni attraverso l'apparato respiratorio da parte di soggetti infetti e la penetrazione nell'ospite recettivo per inalazione. A questo proposito è da sottolineare che le goccioline eventualmente presenti nell'aria espirata (es. colpi di tosse) sono di dimensioni relativamente grandi; esse tendono a sedimentare rapidamente per effetto del loro stesso peso e non viaggiano a lunga distanza. Pertanto, il rischio di infezione per inalazione di un aerosol espirato è limitata alla zona posta direttamente di fronte e nelle
340
immediate vicinanze dell'individuo infetto. Questa zona viene detta «cono espiratorio». Molto diversa è trasmissione per aerosol, che comporta la formazione di particelle molto piccole e che, quindi, sedimentano molto lentamente e sono facilmente veicolate dalle correnti d'aria. In questo caso, è possibile la trasmissione a lunga distanza. Propriamente, per «aerosol» si intende una sospensione colloidale di particelle molto piccole (11000 nanometri o nm) liquide o solide (fase dispersa) in un gas (fase disperdente). Pertanto, con il termine aerosol si può anche indicare una sospensione di particelle virali, mentre i batteri non possono formare «aerosol» in quanto hanno dimensioni maggiori (>1000 nm) rispetto a quelle colloidali. Le dimensioni delle particelle e la distribuzione dei flussi nelle vie aeree consentono di prevedere in quale regione anatomica avverrà il deposito. In linea di massima ed a titolo di esempio, si può affermare che, nell'uomo: • • • •
le particelle di diametro superiore a 10 micrometri sono intercettate a livello delle vie aeree alte quelle comprese fra 5 e 10 micrometri si depositano preferibilmente fra la faringe e la V/VI diramazione bronchiale quelle di 1-5 micrometri raggiungono e si depositano a livello delle diramazioni bronchiali più periferiche quelle di diametro <1 micrometro tendono ad essere riespirate
CONTATTO La trasmissione per contatto è quella che si verifica senza l'intervento di vettori o di elementi esterni. E' particolarmente importante nel caso degli agenti che vengono eliminati attraverso le superfici corporee (es. virus della malattia vescicolare o del vaiolo) e che penetrano nell'ospite recettivo per via cutanea. Pochissimi agenti vengono trasmessi per autentico 'contatto'; in genere è necessario che sulla cute del ricevente ci siano delle soluzioni di continuo, anche microscopiche. La trasmissione per contatto può verificarsi anche attraverso morsicatura (rabbia) o graffio (es. malattia da graffio del gatto). INOCULAZIONE É l'introduzione dell'agente nell'organismo ospite attraverso puntura della cute o attraverso una ferita. La forma più tipica di trasmissione per inoculazione avviene ad opera di artropodi che inoculano l'agente per puntura della cute. (es. mosca tsetse per Tripanosoma, che si sviluppa nelle ghiandole salivari ed intestino della mosca stessa). L'inoculazione è talvolta rappresenta un caso particolare di trasmissione per contatto (es. morsicatura di cane rabido, ossia affetto da rabbia). TRASMISSIONE IATROGENA Letteralmente significa «originata da un medico». Si riferisce a quel tipo di trasmissione che si verifica nel corso di pratiche mediche o chirurgiche. Può avvenire per introduzione di patogeni mediante (1) strumentazione non sterile (chirurgia in assenza di asepsi, tatuaggi), oppure (2) farmaci o vaccini accidentalmente contaminati da agenti patogeni (es. Pseudomonas aeruginosa in antibiotici per trattamento mastiti in asciutta).
341
ACCOPPIAMENTO Esistono agenti che possono essere trasmessi durante il coito; alcuni si trasmettono soltanto in questo modo e sono responsabili delle cosiddette «malattie veneree», oggi più comunemente definite come «malattie a trasmissione sessuale». La trasmissione sessuale può avvenire anche negli artropodi (es. virus della peste suina africana che può essere trasmesso dal maschio alla femmina di zecche del genere Ornithodoros).
342
12. Trasmissione e mantenimento delle infezioni 12.13 Trasmissione a lunga distanza di agenti di malattia OBIETTIVO esaminare e commentare le modalità di trasmissione a lunga distanza delle malattie diffusibili
Attraverso i metodi schematizzati nella figura, le malattie infettive o parassitarie possono essere trasmesse a lunga distanza per movimenti di animali, vettori e fomiti. Fino a tempi non molto lontani, il trasporto di persone, animali o cose avveniva per vie terrestri (carri, carovane) o marine. I viaggi a lunga distanza richiedevano settimane o mesi e ciò rappresentava, di per sé, un buon provvedimento di quarantena. Infatti, durante il viaggio, eventuali malattie in incubazione avevano modo di manifestarsi attraverso la comparsa di sintomi clinici; in tal modo, esse venivano individuate e ciò consentiva di adottare adeguati provvedimenti sanitari. L'incremento nell'uso del trasporto aereo ha incrementato la probabilità che animali con malattia in incubazione possano giungere a destinazione in breve tempo e prima della comparsa dei sintomi. Ad esempio, nel recente passato, il commercio ed il trasporto di cavalli, in occasione di competizioni sportive o per compravendita e riproduzione, ha contribuito alla diffusione su scala mondiale di alcune malattie diffusibili (metrite contagiosa, anemia infettiva, piroplasmosi, influenza equina). Lo stesso problema ovviamente si verifica anche nel caso dell'uomo, i cui frequenti viaggi rappresentano un rischio per la diffusione di malattie «esotiche». Non è da dimenticare l'importanza delle migrazioni di intere popolazioni animali. Tipico esempio è quello di numerose specie di uccelli, che migrano stagionalmente in direzione nord-sud e viceversa. Un altro sistema di trasmissione di malattie a lunga distanza è quello che prevede l'intervento di aerosol contenenti particelle solide molto piccole (2-1000 nm) dette «nuclei essiccati», assai stabili
343
e capaci di essere veicolate a lunga distanza dalle correnti aeree. La formazione di questi «nuclei» dipende in larga misura dalle condizioni ambientali (temperatura e umidità relativa). La pioggia provoca la sedimentazione dei nuclei. È da sottolineare che anche i vettori (artropodi ecc.) possono essere veicolati accidentalmente a lunga distanza con gli stessi mezzi di trasporto (aerei compresi) utilizzati per la movimentazione di uomini o cose. Infine, è da citare la possibilità (remota ma temibile) che agenti di malattia vengano disseminati attraverso somministrazione di prodotti (farmaci o vaccini) accidentalmente contaminati da un agente patogeno. ESEMPIO. Negli anni '70 comparve negli allevamenti di galline una malattia che provoca calo dell'ovodeposizione (perciò detta Egg Drop Syndrome '76) sostenuta da un Adenovirus. Si ritiene che la malattia sia stata disseminata su scala mondiale dall'impiego di un vaccino nei confronti di un'altra malattia aviare (malattia di Marek) accidentalmente contaminato dall'adenovirus in questione che, a quel tempo - non era ancora noto.
344
12. Trasmissione e mantenimento delle infezioni 12.14 Trasmissione delle malattie per via verticale OBIETTIVO illustrare le modalità di trasmissione per via verticale
La trasmissione verticale è quella basata sulla riproduzione e che prevede la trasmissione di un agente patogeno da un genitore alla discendenza. Vi sono due modalità di trasmissione verticale: ereditaria e congenita. Le malattie a «trasmissione ereditaria» sono legate al genoma di uno dei due genitori. Per esempio, alcuni retrovirus (virus che hanno la capacità di integrarsi con il genoma dell'ospite) possono essere trasmessi ereditariamente. Le malattie a «trasmissione congenita» o, più semplicemente «congenite» sono quelle che letteralmente - sono presenti alla nascita. Pertanto, in senso stretto anche le malattie ereditarie fanno parte di questo gruppo. Tuttavia nell'uso comune il termine «congenito» si riferisce a quelle malattie acquisite in utero (oppure in ovo) piuttosto che «ereditate». La trasmissione può avvenire a vari stadi dello sviluppo embrionale o fetale oppure si può avere l'infezione del nascituro durante l'attraversamento del canale del parto. L'infezione dell'embrione o del feto può indurre aborto (se incompatibile con la vita) oppure comparsa di deformazioni o mostruosità. Alternativamente, il neonato può presentare una infezione inapparente e continuativa («infezione innata»), non accompagnata da alcun sintomo clinico. Alcuni artropodi (soprattutto zecche ed acari) trasmettono batteri, virus e protozoi da una generazione all'altra attraverso le uova (trasmissione transovarica). ESEMPIO. Anaplasmosi bovina (malattia protozoaria, frequente nelle zone tropicali e sub-tropicali, trasmessa da diverse specie di zecche). Babesiosi del cane (trasmessa da zecche del genere Dermatocentor e Haemaphysalis).
345
Alcuni artropodi trasmettono l'infezione soltanto per via trans-stadiale, cioè da uno stadio di sviluppo all'altro. ESEMPIO. Theileriosi, causata da protozoi del genere Theileria che infettano bovino, pecora e capra e che sono trasmessi da zecche del genere Rhipicephalus.
346
12. Trasmissione e mantenimento delle infezioni 12.15 Strategie di mantenimento dell'agente OBIETTIVO elencare e commentare le strategie difensive e di mantenimento messe in atto dall'agente di infezione, sia all'interno che all'esterno dell'ospite
La trasmissione di un agente prevede momenti in cui l'agente è nell'ospite, altri in cui l'agente si trova nell'ambiente esterno o in un vettore. Dal punto di vista dell'agente, sia l'ambiente interno che quello esterno all'ospite presentano dei rischi per la sopravvivenza. AMBIENTE INTERNO ALL'OSPITE L'ospite possiede una vasta gamma di meccanismi di difesa naturali: agenti chimici di superficie, cellule difensive specifiche, fagociti, immunità umorale. Perché l'infezione abbia successo, l'agente deve essere capace di sfuggire - almeno in parte - a questi meccanismi, ma deve anche superare la competizione da parte di altri agenti che possono contemporaneamente competere per la stessa nicchia. Gli agenti hanno elaborato strategie diverse per resistere alle difese dell'ospite. ESEMPI. Cuticola acido-resistente degli elminti, utile per resistere all'acido gastrico; localizzazione intracellulare di virus e batteri per sfuggire all'immunità umorale; capsula, che protegge dalla fagocitosi i batteri che la possiedono; mutazione della struttura antigene, per eludere le difese immunitarie. AMBIENTE ESTERNO Due sono i rischi principali nell'ambiente esterno: l'essiccamento e le radiazioni ultraviolette. L'essiccamento non è sempre letale, ma spesso inibisce la moltiplicazione dei batteri; stesso effetto hanno le basse temperature. Le alte temperature che si raggiungono nei climi temperati non sono - in genere - letali per gli agenti, ma possono esserle nei climi tropicali. Molti agenti sono parzialmente protetti dall'essiccamento in quanto sono eliminati con le urine o le feci; essi possono persistere a lungo se pervengono in ambienti adatti. Ad es., le leptospire che sopravvivono molto più a lungo in terreni paludosi che in zone aride. Alcuni agenti sono straordinariamente resistenti all'essiccamento (es. poxvirus del diftero-vaiolo aviare, che può sopravvivere per mesi nelle croste essiccate). Molti altri agenti possono resistere a lungo in materiali inanimati nell'ambiente (fomiti) (es. salmonelle nei mangimi).
347
STRATEGIE DI MANTENIMENTO Possono essere classificate nelle 5 categorie schematizzate nella figura soprastante e che vengono brevemente descritte di seguito.
1) ANNULLAMENTO DELLO STADIO NELL'AMBIENTE ESTERNO Alcuni agenti si trasmettono da un ospite all'altro senza passaggio nell'ambiente; ciò può avvenire per mezzo di 4 metodi principali, indicati nello schema seguente.
2) FORME DI RESISTENZA Alcuni batteri (es. Clostridium e Bacillus) formano spore che resistono a lungo anche a temperature superiori a 100 °C e che possono "sopravvivere" nell'ambiente per decenni. Una particolare forma di resistenza è quella nei confronti degli antibiotici, basata su una modificazione genetica del batterio. Questa resistenza rappresenta un grave problema terapeutico, soprattutto delle malattie sostenute da alcuni generi batterici (Salmonella, Escherichia, Staphylococcus) che più spesso di altri presentano antibiotico-resistenza. Alcuni elminti e protozoi (es. coccidi) originano forme di resistenza (cisti) che possono anche proteggere l'agente dai meccanismi di difesa dell'ospite. Ad es., il protozoo Toxoplasma gondii può sopravvivere per anni in forma cistica all'interno dell'ospite.
348
3) RAPIDLY-IN, RAPIDLY-OUT Alcuni agenti penetrano nell'ospite, replicano e lo abbandonano molto rapidamente, prima che esso abbia avuto il tempo di attuare una risposta immune (o morire). Molti virus dell'apparato respiratorio compiono un ciclo di questo tipo in sole 24 ore. Questa strategia è condizionata dalla disponibilità continua di ospiti recettivi. Ciò potrebbe giustificare l'assenza di tali infezioni (enteriche o respiratorie, come ad esempio quella sostenuta dal virus del raffreddore) in popolazioni a bassa densità. Si ritiene anche che queste infezioni non fossero presenti nelle popolazioni preistoriche.
4) PERSISTENZA NELL'OSPITE Alcuni agenti possono persistere per lungo tempo nell'ospite, anche per tutta la vita. La persistenza si verifica perché le difese dell'ospite non sono in grado di eliminare l'agente. Ciò può essere la conseguenza del fatto che l'agente si è "adattato" ai fagociti o ha sviluppato altre strategie per sfuggire ai meccanismi immunitari. Fra questi meccanismi sono importanti l'immunodepressione e la tolleranza. La persistenza può essere associata ad un lungo periodo di incubazione o di prepatenza. Rientrano in questo gruppo le malattie da virus cosiddetti "lenti". Es.: Maedi-Visna, un virus lento della pecora, provoca sintomi respiratori e nervosi dopo un periodo di incubazione di oltre 2 anni. Similmente la scrapie provoca sintomi respiratori ed ha un periodo di incubazione di 1-5 anni. La persistenza di tale virus nell'ospite facilita la trasmissione verticale e, forse, anche quella orizzontale. Alternativamente, il periodo di prepatenza di un agente può essere relativamente breve, ma l'escrezione può protrarsi a lungo (cioè si ha un lungo periodo di contagiosità). L'escrezione può essere intermittente; per es., l'infezione da Salmonella spp può essere associata
349
con episodi intermittenti di malattia clinica o subclinica, durante i quali si ha escrezione del batterio. In alcune infezioni l'escrezione può essere continua (es. Leptospira hardjo nel bovino, escreta per 12-24 mesi). Il lungo periodo di contagiosità dell'ospite assicura all'agente la disponibilità di una popolazione recettiva (dovuta alle nuove nascite). Oltre che nell'ospite vertebrato, gli agenti possono persistere anche nel vettore artropode. Per es. il virus della peste suina africana persiste nelle zecche fino ad 8 mesi. Inoltre, alcuni agenti possono essere escreti dal vettore per lunghi periodi. 5) AMPLIAMENTO DELLO SPETTRO D'OSPITE Molti agenti possono infettare più di una specie. Ad esempio, l'80% dei microrganismi che infettano l'uomo riconoscono anche altre specie ospiti. Un importante ruolo del veterinario è proprio quello di controllare queste malattie (zoonosi). Alcune infezioni sono inapparenti in alcuni ospiti, e ciò ne rende difficile il controllo. Es. Borrelia burgdorferi, l'agente trasmesso da zecche e che provoca la malattia di Lyme nell'uomo ed in altri animali, provoca infezione inapparente anche in numerosi mammiferi domestici e selvatici ed in uccelli.
350
13. Pattern di malattia 13.1 Curve epidemiche e distribuzione spaziale delle malattie OBIETTIVO: apprendere come l'andamento di una malattia nel tempo possa essere rappresentato graficamente; apprendere un metodo di rappresentazione di una malattia attraverso una mappa.
Abbiano detto più volte che l'epidemiologia si occupa delle malattie in popolazioni. In questa ottica, è importante, più che occuparsi della malattia nei singoli casi, osservarne l'andamento nelle popolazioni, seguendone l'evoluzione sia nel tempo che nello spazio. Le curve epidemiche Una delle più comuni forme di visualizzazione dell'andamento nel tempo di una malattia in una popolazione è rappresentazione attraverso un grafico, in cui il numero di nuovi casi ( incidenza) si pone in ordinata ed il tempo in ascissa:
Il grafico che si ottiene dai dati raccolti durante una epidemia genera una «curva epidemica» (più correttamente rappresentata da un diagramma a barre). La curva epidemica fornisce indicazioni preziose riguardo all'andamento di una epidemia, e può contribuire a rispondere ad importanti domande quali: qual è stata la via di diffusione della malattia? quando si è verificata l'esposizione all'agente della malattia? quale è stato il periodo di incubazione? si sono verificati dei casi secondari? L'andamento nel tempo della malattia, riprodotto dalle barre o dalla forma della curva, può essere utile anche per sviluppare ipotesi riguardo alla causa della malattia e alle sue caratteristiche epidemiologiche, e per fare previsioni sull'andamento futuro. Nella figura che segue è rappresentato un esempio di andamento tipico di una curva epidemica di una malattia trasmissibile (nella pratica non sempre la curva epidemica ha questo aspetto).
351
Si può notare un andamento bi-modale: infatti la curva ha due «picchi» che testimoniano che la malattia è diffusiva. I primi casi formano la curva più piccola (detta curva primaria); successivamente essi contagiano altri individui della popolazione, che vanno a formare la curva secondaria. Ovviamente si tratta di una rappresentazione schematica, e non sempre in natura può essere evidenziato un andamento simile a questo. Infatti, l'aspetto della curva dipende da numerose variabili fra cui le più importanti sono: via di escrezione e velocità di propagazione dell'agente eziologico, densità della popolazione, proporzione di animali recettivi. Il lasso di tempo che separa la curva primaria dalla secondaria corrisponde approssimativamente al periodo di incubazione della malattia. Fra le tante variabili che condizionano l'andamento di una malattia in una popolazione, alcune fra le più importanti verranno descritte in una prossima unità. Sia chiaro fin d'ora, tuttavia, che una epidemia può verificarsi ed estendersi soltanto in presenza di una determinata densità minima di animali recettivi nel territorio. Questa densità minima è detta «livello di soglia» ed è stata definita matematicamente nel «Teorema della Soglia di Kendall». La distribuzione spaziale Se le curve epidemiche servono a rappresentare una malattia in funzione del tempo, vi sono casi in cui è invece utile illustrare la distribuzione geografica (o spaziale) della malattia. Nel caso più semplice, la distribuzione spaziale è riassunta in una mappa in cui è riportata la frequenza dei casi esistenti in un determinato istante (mappa di prevalenza) oppure dei nuovi casi comparsi in un dato periodo di tempo (mappa di incidenza). Nell'immagine a destra si trova un esempio di mappa in cui è raffigurata, attraverso un gradiente di colore, la prevalenza di
352
allevamenti bovini positivi per tubercolosi nell'anno 1998. La rappresentazione spaziale di una malattia può avere anche un altro scopo, e cioè quello di facilitare l'identificazione di concentramenti (cluster) di casi in determinate aree, con lo scopo di identificare una causa di malattia. Una mappa di questo tipo è già stata descritta a proposito dello studio delle epidemie di colera compiuto a Londra da John Snow nel 1849-53. Oggi sono disponibili sofisticate tecniche di analisi capace di individuare un anomalo concentramento (clustering) dei casi e di correlare il clustering con eventuali fattori di rischio. Questa possibilità può risultare molto utile nello studio delle cause di malattia a tutti i livelli, da quello del singolo allevamento fino a quello internazionale.
353
13. Pattern di malattia 13.2 Il teorema della soglia di Kendall OBIETTIVO: illustrare, per mezzo di un esempio, il teorema della soglia di Kendall
La propagazione di una epidemia di una malattia che si trasmette per dall'esistenza di una densità minima di animali.
contatto è condizionata
Il livello minimo di densità («livello di soglia») è stato definito in un modello matematico detto «Teorema della Soglia di Kendall». Nella figura è illustrato il teorema con un esempio che si riferisce alla rabbia in una popolazione di volpi. Al di sopra una certa densità di animali recettivi, una volpe ammalata può infettare, in media, più di una volpe recettiva. Ciò provoca un aumento progressivo del numero di volpi colpite dalla malattia, e quindi ha origine una epidemia. Più elevata è la densità degli animali, maggiore è la probabilità, per una volpe ammalata, di riuscire ad infettarne altre; quindi, più ripida sarà la fase di progressione della curva epidemica. Al contrario, nel caso in cui ogni volpe rabida riesca a contagiare, in media, meno di 1 volpe recettiva, si assisterà all'estinzione spontanea dell'epidemia. In uno scenario di questo tipo, il numero di nuovi casi decresce col passare del tempo; inoltre, gli animali colpiti vengono a morte, e quindi la malattia si esaurirà in un tempo più o meno lungo.
354
Il modello, così come illustrato qui, è molto schematizzato e non tiene conto di numerosi altri fattori che, in alcune situazioni, possono influenzare la trasmissione della malattia all'interno di una popolazione. Tuttavia, in casi particolari come quello della rabbia ora esemplificato, esso si è rivelato adeguato nel predire l'andamento della diffusione della malattia. Purtroppo, pochi valori di soglia sono noti riguardo alle malattie degli animali; ad esempio, è stato calcolato che una densità minima di 12 cani/km2 è necessaria perché possa comparire una epidemia di una malattia virale del cane: la parvovirosi.
355
13. Pattern di malattia 13.3 Andamento delle epidemie OBIETTIVO: illustrare un esempio di andamento tipico della diffusione di una malattia in una popolazione
Nello schema soprastante è illustrato l'andamento di una tipica epidemia che si verifica quando un agente infetta una popolazione costituita da animali pienamente recettivi. Ogni cerchio rappresenta un animale infetto; le linee nere indicano l'avvenuto trasferimento dell'infezione da un animale all'altro. I cerchi rossi rappresentano gli animali che riescono a trasmettere il contagio ad altri animali. I cerchi blu simboleggiano gli animali che non sono riusciti ad infettarne altri. Durante il I periodo, la maggior parte della popolazione è suscettibile (curva rossa), e quindi la malattia ha modo di diffondersi facilmente negli individui della popolazione. Contemporaneamente, si assiste ad un lieve incremento dell'immunità di popolazione, dovuta ai soggetti che si sono infettati e successivamente si sono immunizzati; l'andamento dell'immunità di popolazione nel tempo è rappresentata dalla curva blu sull'asse cartesiano.
356
Nel grafico, le curve della immunità di popolazione e della recettività di popolazione indicano la proporzione di animali della popolazione che, in rapporto al tempo, risultano rispettivamente immuni o suscettibili alla malattia. In altre parole, la curva blu rappresenta il tasso di immuni e la curva rossa il tasso di recettivi. Durante il II periodo, il numero di animali suscettibili diminuisce: ciò è la conseguenza del fatto che quelli ammalatisi durante il I periodo sono morti oppure sono passati nella categoria degli "immuni". Pertanto, aumenta il numero di infetti che, non avendo sufficienti contatti con animali recettivi, non riescono a trasmettere il contagio (cerchi blu); tuttavia, la malattia si manifesta ancora con discreta frequenza, in quanto i recettivi sono ancora relativamente numerosi. L'immunità di popolazione continua a crescere. Nel III periodo l'immunità di popolazione raggiunge il massimo livello. Il numero di contagianti si fa via via più basso, il numero di immuni più, e quindi l'epidemia si esaurisce spontaneamente.
Il modello ora utilizzato è semplicistico, in quanto presuppone una popolazione inizialmente del tutto recettiva e tiene conto - in sostanza - soltanto della variabile «immunità di popolazione». Tuttavia, è necessario ricordare che i fattori associati alla diffusione delle infezioni sono numerosi ed interagiscono fra loro e con altre variabili ambientali, per somma o sinergismo, formando un mosaico di grande complessità. Fra i più rilevanti, sono da ricordare alcuni fattori legati all'ospite ( recettività, contagiosità, vie di escrezione, periodo di incubazione), altri legati all'agente ( infettività, virulenza, stabilità) ed, infine, altri legati alla efficienza del contatto.
In alcuni casi, la frequenza della malattia ha un andamento temporale particolare, con fluttuazioni abbastanza prevedibili. Nota che, in questi casi, non si tratta di epidemie, in quanto nel concetto di «epidemia» è insita la imprevedibilità dell'evento. Le malattie che vengono trasmesse da punture di vettori (insetti e artropodi) hanno una forte predilezione per i mesi caldi (estate ed inizio autunno) in corrispondenza con la maggiore attività dei vettori. Anche malattie non trasmesse da artropodi o insetti possono manifestare un andamento stagionale, come la leptospirosi nell'uomo in alcune aree geografiche: la frequenza della malattia subisce un aumento in corrispondenza delle stagioni calde (estate-autunno). Ciò dipende dalle caratteristiche dell'agente e da motivi legati al comportamento dell'uomo, che durante la buona stagione buone trascorre più tempo all'aperto ed ha maggiori probabilità di infettarsi per contatto con animali
357
portatori. Anche la malattia di Lyme, una malattia dell'uomo trasmessa da una zecca, viene di solito contratta d'estate, quando le zecche sono più attive e le persone trascorrono molto tempo all'aperto e senza indumenti protettivi. Nel diagramma che segue è illustrato l'andamento stagionale della leptospirosi negli U.S.A.
In altri casi, le fluttuazioni avvengono in tempi più lunghi. In tal caso si parla di «andamento secolare». La registrazione della frequenza di casi di malattia in una popolazione per un lungo periodo (anni) è utile, oltre che conoscere meglio la storia naturale della malattia, anche per prevederne la probabile incidenza futura e per pianificare i più appropriati programmi di controllo o prevenzione. ESEMPIO. Nell'uomo la epatite virale si è manifestata fino al 1968 con cicli della durata di circa 7 anni. Una spiegazione di questo fenomeno è che la popolazione va incontro a modificazioni della suscettibilità, e che l'incremento della frequenza corrisponde ad un aumento della recettività. Poi, quando molti individui sono stati infettati, si instaura una immunità di popolazione che provoca un regresso della frequenza delle infezioni.
358
13. Pattern di malattia 13.4 Epidemie a sorgente comune e a propagazione OBIETTIVO: evidenziare le caratteristiche differenziali tra epidemie a sorgente comune ed epidemie a propagazione
In alcune situazioni, tutti i «casi» (intendendo per «caso» il singolo animale ammalato) hanno origine da una stessa causa (es. un animale infetto o un alimento contenente un agente patogeno). Una epidemia di questo tipo viene detta «epidemia a sorgente comune». Se il periodo di esposizione è breve, allora l'epidemia con sorgente comune è detta epidemia puntiforme o, meno bene, «puntuale» (in inglese: point source), e tutti i casi si verificano, all'incirca, entro un lasso di tempo corrispondente al periodo di incubazione. Tipiche epidemie a sorgente comune e con breve periodo di incubazione sono le «tossinfezioni» o «intossicazioni alimentari» che derivano dall'assunzione, da parte di una collettività, di alimenti contaminati da patogeni. Nell'uomo questo evento si può verificare, ad esempio, in occasione di pranzi di nozze oppure attraverso un alimento distribuito in una mensa. Nel grafico viene appunto illustrato l'andamento di una epidemia originata da una tossinfezione alimentare, in cui il periodo di esposizione alla causa è breve (e corrisponde alla durata del pasto); nell'esempio si vede come il periodo di incubazione corrisponda sia compreso fra 10 e 18 ore circa. Tipicamente, tutti i casi di una epidemia puntiforme si verificano entro un lasso di tempo corrispondente al periodo di incubazione dell'agente in causa.
359
Una «epidemia a propagazione» è, invece, quella causata da un agente che viene escreto inizialmente da uno o più casi primari, e quindi si propaga nel tempo ad individui recettivi che costituiscono casi secondari. Uno dei casi primari è spesso il «caso-indice», cioè il primo che è stato notato dagli investigatori. L'intervallo di tempo fra picchi di successivi picchi o «grappoli» (cluster) temporali di casi, che separa i casi primari da quelli secondari, riflette il periodo di incubazione della malattia.
L'andamento delle curve epidemiche, all'interno di una popolazione definita e soggetta a variabili note, può essere descritto attraverso modelli matematici. Uno dei modelli di base più noto è quello di Reed e Frost.
360
13. Pattern di malattia 13.5 Il sistema informativo WAHID OBIETTIVO: far conoscere l'esistenza di uno strumento di importanza fondamentale in epidemiologia veterinaria: il sistema informativo WAHID dell'OIE
Nella tua futura attività professionale di medico veterinario, ti capiterà sicuramente di dover rispondere ad interrogativi riguardo: • • • • • • • •
alla presenza o all'assenza di una determinata malattia in una data regione o area geografica; all'esistenza di eventi epidemiologici eccezionali; al numero di casi di zoonosi osservati; ai nominativi laboratori di referenza per la diagnosi di una specifica malattia; ai focolai di malattia in corso; alle misure di controllo adottate dagli Organismi preposti; al confronto - a scopo commerciale - della situazione sanitaria di Paesi diversi; ecc. ecc.
Le domande ora esposte interessano non soltanto i veterinari che si occupano di sanità pubblica o quelli inquadrati nelle ASL oppure negli Istituti Zooprofilattici ecc., ma anche i professionisti esercitano la clinica dei grandi o piccoli animali. Ad esempio, il proprietario di un cane presentato per un controllo nel tuo ambulatorio, e che dovrà compiere un viaggio in Grecia e Turchia, potrebbe chiederti se in questi Stati è presente la rabbia. Dove trovare una risposta attendibile, come quella mostrata nella figura che segue? Lo apprenderai in questa stessa unità!
.
361
Oggi è possibile rispondere a tutte le domande elencate sopra (ed a molte altre riguardanti lo stato sanitario delle popolazioni animali) ed ottenere le informazioni desiderate, aggiornate in tempo reale e riguardanti tutto il mondo. Ciò avviene attraverso l'interrogazione di un database dell'OIE. Questa sigla deriva dalla denominazione "Office International des Epizooties" (www.oie.int): fin dai primi anni del secolo scorso era emersa la necessità di combattere le malattie degli animali a livello mondiale, e ciò condusse alla creazione dell'OIE attraverso un accordo internazionale firmato nel 1924. Nel 2003 l'"Office" ha cambiato la sua denominazione in quella attuale "World organisation for animal health" (Organizzazione mondiale per la Salute Animale), mantenendo però la storica sigla OIE. L'OIE è l'organizzazione intergovernativa responsabile del miglioramento della salute degli animali in tutto il mondo, riconosciuta come organizzazione di riferimento da parte dell'Organizzazione Mondiale del Commercio (OMC). Nel 2010 contava 177 Paesi membri.
A partire dal 2007, l'OIE ha reso disponibile l'interfaccia WAHID (World Animal Health Information Database), che permette di interrogare un database mondiale di informazione zoosanitaria, liberamente accessibile a partire dal sito dell'OIE oppure all'indirizzo www.oie.int/wahid.
L'interfaccia WAHID consente di accedere a tutte le informazioni disponibili sulle malattie animali, zoonosi comprese, segnalate da Paesi, suddivise per regioni, per mese e per anno. L'interfaccia permette di ottenere anche moltissime altre informazioni, come ad esempio quelle sulla consistenza delle popolazioni animali a livello nazionale o regionale, oppure mappe epidemiologiche che descrivono la distribuzione delle malattie animali nel mondo, o ancora strumenti per comparare la situazione sanitaria di Paesi diversi ecc.. E' impossibile descrivere a parole tutti i contenuti e le potenzialità di WAHID. Oltre tutto, dilungarsi sulle potenzialità di WAHID sarebbe molto noioso. Ti consiglio di visitare il sito WAHID: in una decina di minuti potrai renderti di persona che la quantità e la qualità delle di informazioni disponibili sono davvero straordinarie. Qui di seguito, soltanto a titolo di esempio, inserisco la sintesi dei risultati di qualche semplice interrogazione.
362 Eventi epidemiologici eccezionali in Italia nel 2010
363 Casi di zoonosi denunciati in Italia nel 2010
364 Distribuzione della tubercolosi bovina nel mondo, gennaio-giugno 2010
365 Possibili rischi legati all'importazione di animali dall'Austria (al 2 gen 2011)
366
14. Modelli matematici 14.1 I modelli in epidemiologia OBIETTIVO: apprendere lo scopo e le caratteristiche di un "modello" costruire un semplice modello
Un modello è una rappresentazione che contiene la struttura essenziale di un oggetto o un processo o un evento reale. La rappresentazione può assumere due forme diverse: 1. forma fisica (come ad esempio il modello di un aereo o di un edificio) 2. forma simbolica (come nel linguaggio naturale, o in una simulazione al computer o in una serie di equazioni matematiche).
Caratteristiche importanti dei modelli sono le seguenti: •
i modelli sono necessariamente imperfetti
Proprio perché si tratta di una rappresentazione, il modello non può includere ogni aspetto della realtà. Prima di creare un modello, è necessario fare alcune assunzioni sulla struttura essenziale e le correlazioni fra gli eventi (o gli oggetti) nel mondo reale. Per esempio, uno studioso del comportamento potrebbe voler costruire un modello riguardo al tempo necessario ad un topo per attraversare un labirinto alla ricerca del cibo. Nella costruzione del modello si potrebbero includere fattori diversi, come ad esempio il tipo di cibo offerto, la preventiva conoscenza del labirinto da parte dell'animale, il tempo trascorso dall'ultimo pasto. Altri fattori, ritenuti poco importanti o ininfluenti ai fini della "struttura essenziale" del fenomeno da studiare (es. il sesso del topo, l'ora del giorno in cui viene eseguito l'esperimento ecc.) potrebbero invece essere esclusi dal modello. I fattori, noti o ignoti, che non vengono inclusi nel modello (perché non sono presi in considerazione, oppure sono ritenuti poco influenti o secondari) possono ridurre la capacità predittiva del modello stesso, nel caso essi esercitino invece un influsso sul fenomeno in studio. •
facilità
i modelli possono essere manipolati e modificati con relativa
Il disegnatore di un aliante costruisce fisicamente un modello di una nuova forma delle ali e ne saggia le caratteristiche nella galleria del vento. In base ai risultati ottenuti, la forma viene modificata ed il modello viene sottoposto a un nuovo test nella galleria del vento. Si esaminano di nuovo i risultati e si apportano le modifiche ritenute utili, e così via. La manipolazione dei modelli che vengono costruiti, anziché in forma fisica, in forma simbolica
367
(modelli matematici) è ancora più facile: molto spesso è sufficiente modificare il valore di una variabile o di una costante, o ritoccare un'equazione, oppure modificare i dati di input ecc.
La creazione di un modello inizia con una attenta osservazione del fenomeno in studio e poi, eventualmente, anche sulla sua manipolazione, osservandone gli effetti ed anche utilizzando il metodo scientifico di falsificazione dell'ipotesi. Tutte le osservazioni vengono interpretate per cogliere gli aspetti più importanti del fenomeno, tralasciando quelli ritenuti marginali. Poi, si costruisce il modello, lo si fa "funzionare" e si controlla se-e-quanto i risultati ottenuti corrispondono con la realtà. Infine, il modello viene riconsiderato e modificato per renderlo ancor più efficiente, e cosí di seguito.
Qual è l'utilità di un modello? La risposta è abbastanza ovvia: la rappresentazione di un processo per mezzo di un modello, pur essendo semplificata rispetto alla realtà, si rivela utile per individuare il funzionamento intimo del processo medesimo. In effetti, l'uso dei modelli ci permette di eliminare (almeno in teoria!) tutte le caratteristiche non significative del fenomeno e concentrarci soltanto sugli aspetti importanti. Ad esempio, esistono modelli che illustrano le associazioni e le interazioni tra i determinanti di malattia (modelli causali); si veda in proposito quello già illustrato a proposito della causalità delle associazioni. In epidemiologia i modelli fisici, ossia che riproducono in scala un qualche «oggetto» fisico (es. il modellino di una scuderia o di una stalla) non vengono utilizzati. Ci si avvale invece dei cosiddetti "modelli matematici". Un modello matematico è un modello simbolico costituito da una equazione (o una serie di equazioni) che prende in considerazione i diversi parametri che sono sono coinvolti nella genesi e nella evoluzione del fenomeno studiato (in genere: la malattia).
In buona sostanza, un modello matematico può essere considerato alla stregua di un "elaboratore specializzato" di informazioni: l'utilizzatore introduce i dati di input, il modello li «macina» effettuando i calcoli previsti ed, infine, restituisce i dati di output.
368
ESEMPIO. Costruiamo un semplice modello. Consideriamo una popolazione virtuale composta da infiniti animali che vivono all'infinito. Supponiamo che al tempo t 0 essi siano tutti esenti dalla malattia M. Al tempo t 1 aggiungiamo alla popolazione un numero D 1 di individui con una malattia contagiosa M che si trasmette da 1 animale ammalato ad 1 animale sano in 1 unità di tempo. Assumiamo D 1 =10; allora, al tempo t 2 gli animali ammalati saranno 20, a t 3 saranno 40, a t 4 saranno 80 e così via. Il numero di animali ammalati viene riprodotto dalla seguente equazione:
Per mezzo del modello possiamo prevedere la diffusione nel tempo della malattia all'interno della
popolazione: Ora perfezioniamo il modello, supponendo che la malattia sia capace di provocare la morte del 30% degli animali colpiti entro 1 unità di tempo dopo l'infezione. Allora si verificherà la seguente
situazione: Adesso il numero di animali ammalati presenti in un dato istante t n all'interno della nostra popolazione-modello può venire calcolato come:
In epidemiologia i modelli sono costruiti per scopi diversi: ad esempio, prevedere l'andamento di una malattia in determinate condizioni oppure prevedere l'effetto sulla prevalenza o sull'incidenza qualora vengano adottare determinate misure di controllo. Un buon modello permette di simulare "a tavolino" (o meglio: davanti al display di un computer) ciò che avverrà in natura (o nell'allevamento) e quindi può rappresentare un utilissimo strumento nello studio delle malattie.
369
In tempi recenti, modelli matematici sono stati utilizzati frequentemente per analizzare i rapporti costi/benefici di azioni di profilassi di molte malattie degli animali. Il rapporto costi/benefici deve essere sempre tenuto presente quando si effettuano azioni di profilassi, controllo, eradicazione ecc. a tutti i livelli (dal singolo allevamento fino alle grandi profilassi su scala nazionale). Un intervento sanitario su popolazioni può essere · efficace oppure · efficiente Attenzione a non confondere questi due attributi, che non sono sinonimi. Infatti, dato un certo intervento sanitario con un dato obiettivo, si dice che l'intervento è "efficace" quando esso "funziona", cioè consente di raggiungere il risultato voluto. Un intervento "efficiente" è invece qualcosa di più: esso consente di raggiungere il risultato voluto, ma utilizzando un dispendio minimo di risorse. Una azione sanitaria è efficiente (e quindi "buona" sotto tutti gli aspetti), quando la somma dei costi delle risorse impiegate (personale, laboratori, attrezzature, vaccini, farmaci, indennizzi agli allevatori, restrizioni nel commercio ecc. ecc.) è inferiore alla somma dei benefici ottenuti (abbassamento della mortalità, aumento della produttività, tutela della salute dell'uomo ecc. ecc.). Insomma, efficienza significa ...massima resa, minimo sforzo! Naturalmente, il rapporto costi/benefici dovrà sempre essere inferiore ad 1; ciò è particolarmente vero per i grandi piani su scala nazionale (es. brucellosi, tubercolosi ecc.) che assorbono risorse ingenti e quindi comportano costi ingenti a carico della collettività. ESEMPIO. Supponi che un ipotetico piano di lotta contro la poliomielite dell'uomo (malattia che colpisce soltanto durante l'infanzia) preveda la vaccinazione di tutta la popolazione (adulti e bambini). Poiché sono disponibili vaccini che inducono una protezione eccellente, il piano sará senz'altro efficace, in quanto la frequenza della malattia verrà notevolmente ridotta dall'intervento immunizzante. Tuttavia, il piano avrebbe potuto essere anche efficiente se fossero stati vaccinati soltanto i soggetti a rischio, ossia i bambini, evitando l'inutile e costosa immunizzazione degli adulti. Dopo questa breve parentesi sui costi/benefici, torniamo ai nostri modelli. Un modello è tanto migliore quanto meglio "mima" quanto succede (e prevede quanto succederà...) nella realtà. Per valutare a priori (e sempre con grande approssimazione!) la bontà di un modello, si possono considerare i seguenti interrogativi: • • •
il modello è costruito con "buon senso", ossia è rispettoso delle conoscenze sulla storia naturale della malattia? il modello prende in considerazione tutti i determinanti che sono associati alla malattia? a ciascuno dei determinanti considerati viene assegnata una importanza relativa adeguata? Il valore di ciascun determinante è già noto, oppure può essere stimato precisione accettabile?
Si comprende facilmente che la costruzione di un buon modello è un procedimento difficile; basta pensare a quanto già detto sulla varietà dei determinanti, sulla problematicità della loro quantificazione e sulla complessità delle interazioni tra i determinanti e l'ospite. L'utilità pratica di un modello epidemiologico non è assoluta; ad esempio, si ritiene che, almeno per ora, non si possano pianificare le strategie di controllo di una malattia sulla base soltanto delle
370
previsioni fornite dai modelli. Tuttavia, essi possono essere molto preziosi se usati in aggiunta ai metodi epidemiologici più tradizionali (v. epidemiologia descrittiva e epidemiologia analitica).
I modelli matematici possono essere classificati in diversi modi. Una classificazione prevede la suddivisione dei modelli in descrittivi o prescrittivi. I modelli descrittivi sono quelli che forniscono una descrizione (o anche una previsione) del funzionamento attuale (o futuro) di un fenomeno. I modelli prescrittivi offrono informazioni utili per prendere decisioni al fine di influenzare l'andamento di un fenomeno. Dunque, un modello descrittivo descrive i meccanismi che sottostanno ad un fenomeno, mentre un modello prescrittivo aiuta ad assumere una decisione (il minor costo, i migliori benefici ecc.). È logico supporre che nello studio di un fenomeno (es. una malattia) vengano dapprima messi a punto modelli di tipo descrittivo e soltanto in un secondo tempo modelli di tipo prescrittivo. Un altro tipo di classificazione, più interessante ed attuale, riguarda la capacità dei modelli di tener conto dell'effetto del caso e della variabilità dei dati di input. Su questa base i modelli possono essere classificati come "deterministici" o "stocastici". Questo argomento viene trattato nella prossima unità.
371
14. Modelli matematici 14.2 Modelli deterministici e modelli stocastici OBIETTIVO: differenziare, anche con l'aiuto di un semplice esempio, un modello deterministico da un modello stocastico
Una delle classificazioni più attuali dei modelli matematici utilizzati nei diversi settori delle Scienze, compreso quello dell'epidemiologia, prevede l'inquadramento nelle seguenti due tipologie: 1. modelli deterministici 2. modelli stocastici
I modelli deterministici sono i più semplici; in essi, le variabili di input assumono valori fissi. E' vero che i risultati (output) generati da questi modelli possono tener conto, entro certi limiti, della variabilità e dell'effetto del caso (ad esempio, con appropriati metodi statistici possono essere calcolati gli intervalli di confidenza); tuttavia, si tratta sempre di elaborazioni di tipo deterministico, in quanto non si tiene in considerazione l'incertezza associata alle variabili di input. L'ideale deterministico, tipico della cultura dell'era newtoniana, prevede che i fenomeni naturali possano essere considerati in una logica basata sul presupposto che ogni evento sia ricollegabile ad una causa che lo provoca. Sulla base di questo principio, formalizzato inizialmente da Laplace (1749-1827), molti scienziati ritennero che, una volta noto lo stato iniziale di un sistema e le forze agenti su di esso, fosse possibile individuare con precisione pressoché assoluta l'evolversi del sistema applicando le leggi della meccanica newtoniana. Pertanto, si riteneva che fosse possibile, almeno in via di principio, ottenere metodi di misura così precisi da eliminare ogni indeterminazione sui valori misurati. Attualmente questo approccio è stato abbandonato, in quanto incompatibile con il "principio di indeterminazione di Heisenberg", a favore della concezione probabilistica introdotta dalla meccanica quantistica. Al contrario, i modelli stocastici (stocastico = dovuto al caso, aleatorio, dal greco stochastikòs=congetturale) tengono in considerazione le variazioni (causali e non) delle variabili di input, e quindi forniscono risultati in termini di "probabilità". È importante sottolineare che ciò che differenzia i modelli deterministici da quelli stocastici è che in questi ultimi si tiene conto della variabilità dei dati di input. In genere i modelli stocastici hanno una struttura più complessa di quelli deterministici. Di maggiore complessità sono i calcoli, che vengono eseguiti sempre con l'ausilio del computer. Esistono anche applicazioni dedicate specificamente a questo scopo, fra le quali una delle più note è "@RISK" (Palisade Corp.). Ovviamente i modelli stocastici sono anche più affidabili in quanto, proprio perché tengono conto del caso, sono capaci di fornire risultati più aderenti alla realtà.
372
Un esempio di modello deterministico e di modello stocastico Supponiamo che, in base ad un nostro semplice ed immaginario modello, la incidenza di una malattia sia desumibile dal prodotto di due sole variabili, v 1 e v 2 , ciascuna delle quali può assumere un valore compreso fra 0 e 1. Possiamo allora creare il seguente modello:
Purtroppo non conosciamo con esattezza il valore di v 1 e v 2 , anche perché nel "mondo reale" questi valori sono soggetti a variazioni. Abbiamo però elementi che testimoniano che v 1 può oscillare fra 0.2 e 0.3 e che v 2 può oscillare fra 0.4 e 0.6. L'approccio deterministico è molto semplice. Ad esempio, la cosa più ragionevole potrebbe essere quella di utilizzare come input del modello i valori medi di v 1 e v 2 per calcolare uno scenario "medio"; alternativamente si potrebbero scegliere i valori estremi per calcolare il migliore o il peggiore scenario. Si otterrebbero rispettivamente i seguenti valori di incidenza: scenario medio: i 1 = 0.25 * 0.5 = 0.125 = 12.5% scenario migliore: i 2 = 0.2 * 0.4 = 0.08 = 8% scenario peggiore: i 3 = 0.3 * 0.6 = 0.18 = 18 % Il limite del modello è che fra le possibilità calcolate (migliore e peggiore) ve ne sono infinite altre che, per quanto possiamo dedurre dal modello, sono tutte egualmente probabili. L'approccio stocastico tiene invece conto della variabilità delle due variabili di input, i cui valori potrebbero assumere - ad esempio - una distribuzione simile a quella indicata nei due grafici sottostanti (generati con @Risk) ove le barre orizzontali sotto agli istogrammi indicano il 5° ed il 95° percentile.
373
Successivamente, il calcolo dell'incidenza viene effettuato attraverso una simulazione con il metodo "Montecarlo". In pratica, il programma ha estratto a caso, tenendo conto delle suddette distribuzioni di frequenza, un valore per v 1 ed un valore per v 2 . I due valori sono stati moltiplicati fra loro, ottenendo un valore di incidenza. Questo processo di estrazione e moltiplicazione di coppie di valori è stato ripetuto per centinaia di volte, ottenendo centinaia di valori diversi di incidenza, che sono stati utilizzati per generare la seguente distribuzione di frequenza.
Nota che il valore medio dell'incidenza (0.124) è analogo a quello medio ottenuto con il modello deterministico. Con il modello stocastico, si ha l'incomparabile vantaggio di poter prevedere - su base probabilistica - l'intera gamma di possibilità di andamento del fenomeno in studio. Ad esempio, dall'istogramma della distribuzione per incidenza si può desumere che: (1) la probabilità che l'incidenza sia <0.1023 è del 5%; (2) la probabilità che l'incidenza sia >a 0.1488 è del 5%; (3) la probabilità che l'incidenza sia compresa sia compresa fra 0.1023 e 0.1488 è del 90%.
374
14. Modelli matematici 14.3 Il modello di Reed e Frost OBIETTIVO: acquisire una conoscenza di base del classico modello deterministico di Reed e Frost e verificarne l'efficienza attraverso lo studio di una serie di esempi
L'aspetto di una curva epidemica in una epidemia a propagazione - all'interno di una data popolazione - può essere definito su base matematica, attraverso l'impiego di modelli. Uno dei modelli di base più famosi è quello di Reed e Frost. Si tratta di un modello deterministico che oggi assume un'importanza soltanto storica, via via che vengono messi a punto modelli più sofisticati, ma ha il pregio di essere facilmente comprensibile e quindi è molto utile a scopo didattico per la comprensione della intima "essenza" di un modello. Il modello di Reed e Frost è stato soggetto ad ampiamenti, affinamenti e modifiche. Nella sua forma originaria più semplice, che viene proposta qui a scopo didattico, prevede una suddivisione della popolazione in 3 gruppi, comprendenti animali (1) infetti, (2) recettivi e (3) immuni. Inoltre, è previsto che ogni animale infettato si ammali (cioè diventi un «caso») e poi guarisca e diventi immune (cioè resistente ad una reinfezione). Perciò questo modello rientra fra i modelli detti "SIR" (Susceptible, Infected, Resistant). Inoltre, il modello assume che: la malattia si trasmette con un'unica modalità; il periodo di incubazione è fisso; tutti gli animali si distribuiscono a caso nella popolazione e quindi sono soggetti alla stessa probabilità di venire a contatto con animali ammalati; la popolazione è chiusa (non c'è ingresso di animali dall'esterno); le condizioni rimangono costanti per tutta la durata dell'osservazione.
Secondo il modello, l'andamento della curva epidemica e l'immunità di popolazione dipendono (a) dal numero complessivo di individui che costituiscono la popolazione, (b) dal loro stato (contagianti, recettivi ed immuni) e (c) dalla capacità della malattia di trasmettersi da un individuo all'altro.
375
Supponendo breve il periodo di contagiosità degli animali infetti, e supponendo costante il periodo di incubazione, allora, partendo con un caso singolo (o con più casi con infezione contemporanea), i nuovi casi si svilupperanno in una serie di stadi. Il modello viene costruito utilizzando la seguente formula:
La durata dell'unità di tempo t viene di solito fatta coincidere con il periodo di incubazione o di latenza. Il valore q corrisponde a (1-p) dove p=probabilità, per un dato individuo, di avere un contatto efficiente con un altro individuo, in modo che si verifichi infezione se l'uno era recettivo e l'altro infettante. Il valore di p esprime una probabilità; esso è quindi compreso fra 0 e 1. poiché p è la probabilità di contrarre infezione, q (ossia (1-p)) è la probabilità di non contrarre infezione. Naturalmente il valore di p dipende da una varietà di fattori e non è facile da determinare. Di solito p viene stimato empiricamente mediante osservazione di epidemie reali. Simulazione di una epidemia con il modello di Reed e Frost Supponiamo che inizialmente (tempo 0) la nostra popolazione sia costituita da 199 animali recettivi, 1 caso e 0 immuni. Pertanto S t0 =199 C t0 =1 Supponiamo che la probabilità di avere un contatto efficiente sia pari a 0.06. Quindi p=0.06 q=1-0.06=0.94 Al tempo t+1: C t1 = 199(1-0.941)=12 e S t1 =199-12=187 Al tempo t+2 C t2 =187(1-0.9412)=98
376
e S t2 =187-98=89 e così via. Il numero di animali immuni a ciascun tempo è il totale cumulativo degli animali infetti durante il periodo precedente. Quindi al tempo t+1 il numero di animali immuni è: I t1 =1 al tempo t+2 I t2 =12+1=13 e così via. Nella figura sottostante sono riportati i dati ottenuti dal modello di Reed e Frost con i parametri in esempio, per l'intera durata dell'epidemia.
Dall'esame del modello si evince che la probabilità che si verifichi un'epidemia e l'aspetto della curva epidemica sono funzioni del contatto efficiente e del numero di animali recettivi. La proporzione di una popolazione che risulta recettiva viene usata spesso come guida generale della probabilità di diffusione di un'infezione. Si ritiene che - in genere e con larga approssimazione - almeno il 20-30% della popolazione debba essere recettiva perché abbia luogo una epidemia. Ne consegue che l'infezione non diffonderà se il 70-80% della popolazione è immune. Questo è utile a prevenire epidemie di grandi dimensioni, tuttavia, è da notare che l'infezione potrà diffondere ugualmente, anche in presenza di una elevata immunità di popolazione, se il numero di animali recettivi è tale che (p * St) > 1 Negli esempi che seguono sono riportate alcune curve epidemiche simulate su popolazioni numericamente diverse ed utilizzando parametri diversi per il rapporto immuni/recettivi e per la probabilità di contatto efficiente. ESEMPIO 1. C=1 S=999 I=500 p=0.005
377
ESEMPIO 2. C=200 S=800 I=0 p=0.005 ESEMPIO 3. C=1 S=99999 I=0 p=0.001 ESEMPIO 4. C=50 S=190 I=760 p=0.004 ESEMPIO 5. C=500 S=1000 I=4500 p=0.06 Foglio di calcolo per Microsoft Excel® che fornisce una rappresentazione grafica di un modello di Reed e Frost, con parametri che possono essere variati a piacere.
378
14. Modelli matematici 14.4 Infezione da Neospora caninum nel bovino: un modello matematico OBIETTIVO: apprendere come si possa utilizzare un modello matematico per prevedere l'andamento dell'infezione da Neospora caninum in una popolazione bovina e per individuare le misure di controllo più efficaci
Per una migliore comprensione del modello, è consigliabile conoscere gli elementi essenziali dell'infezione. Vedi: L'infezione da Neospora caninum nel bovino: una breve sintesi La presente unità didattica è basata sul seguente lavoro: N. P. French, D. Clancy, H. C. Davison and A. J. Trees - Mathematical models of Neospora caninum infection in dairy cattle: transmission and options for control. International Journal for Parasitology, 1999, 29, 1671-1704. Il documento full-text è accessibile [solo per gli utenti dell'Università di Parma - dominio: unipr.it] in Internet via ScienceDirect nel formato HTML o nel formato PDF. [Equazioni e dati utilizzati con il permesso degli Autori]. Il modello usa un sistema di equazioni differenziali per descrivere la trasmissione del parassita in un allevamento di bovini da latte. Secondo quanto finora noto, l'infezione da Neospora canis nel bovino possiede le seguenti caratteristiche peculiari: • • • •
un animale è sano oppure è colpito da infezione persistente gli animali si infettano ma non si ammalano - e quindi non guariscono l'animale che si è infettato rimane infetto per tutta la vita l'infezione non induce immunità protettiva, quindi tutti gli animali non infetti sono recettivi
Nella realtà i fattori ora accennati semplificano l'andamento dell'infezione nella popolazione; perciò anche il modello può essere semplice ed al tempo stesso efficiente. In questa unità didattica viene illustrata soltanto una parte del modello deterministico descritto dagli Autori, i quali hanno creato anche un più complesso modello stocastico. Il modello deterministico dell'infezione da Neospora prende in considerazione un allevamento in cui siano presenti bovine infette (il cui numero è indicato con Y) e bovine non infette (X). L'andamento dell'infezione nell'allevamento viene descritto con un modello matematico che considera i seguenti parametri
379
ro = tasso di natalità •
In effetti, nel modello non si utilizza il vero tasso di natalità, ma bensì il tasso con cui le manze vengono aggiunte al gruppo delle bovine in lattazione (ro1 = manze infette; ro2 = manze non infette). In UK i dati demografici degli allevamenti bovini da latte indicano che ro=0.2. Per semplicità nel modello non si tiene conto del periodo intercorrente tra nascita e prima lattazione (2-3 anni); ciò consente di mantenere semplice il modello senza influenzarne apprezzabilmente l'output.
mu = tasso di mortalità/riforma •
Rappresenta il tasso annuo con cui le bovine vengono rimosse dal gruppo (mu1= bovine infette; mu2= bovine non infette) perché muoiono spontaneamente (mortalità) oppure, molto più frequentemente, perché non più produttive (riforma). In UK i dati demografici indicano che mu=0.3.
fi = trasmissione verticale, per via transplacentare •
In base ai dati disponibili, questa probabilità è pari a 0.95 (si ritiene che da 100 vacche infette nascano in media 95 vitelli infetti e 5 vitelli sani).
beta = trasmissione orizzontale all'interno del gruppo •
Questo parametro dipende dalla prevalenza dell'infezione. I meccanismi di questo tipo di trasmissione sono per ora poco noti; uno di essi è rappresentato dalla somministrazione ai vitelli di pool di colostro.
tau = trasmissione orizzontale dall'esterno del gruppo •
Anche questa è poco conosciuta, e chiama in causa verosimilmente ospiti diversi dal bovino, come ad esempio il cane.
Il modello funziona secondo lo schema seguente:
380
Nel modello i parametri di natalità e di mortalità/riforma per gli animali infetti possono essere scelti a piacere; poi, nella elaborazione dei dati, tali parametri vengono mantenuti fissi. Il tasso di mortalità/riforma deve essere sempre superiore al tasso di natalità (mu1 > ro1), così come avviene in realtà. Inoltre, per semplicità, si assume che la numerosità del gruppo resti costante; ciò si ottiene lasciando variare liberamente la crescita netta della popolazione non infetta: ro2-mu2 = ((mu1-ro1)Y)/X
In termini matematici, lo schema sopra riportato viene espresso nella seguente forma:
da cui si vede che il numero di suscettibili X (riquadro verde): • •
viene aumentato per: (1) nascita di vitelli sani da vacche infette (per i quali la trasmissione verticale non è avvenuta) e (2) nascita di vitelli da vacche non infette viene diminuito per (1) tasso di mortalità o riforma di animali sani e (2) avvenuta infezione per via orizzontale
381
Dallo schema si vede anche che il numero di infetti Y (riquadro rosso): • •
viene aumentato per (1) nascita di vitelli infetti da vacche infette e (2) infezione di animali sani per via orizzontale viene diminuito per mortalità o riforma di animali infetti
Le equazioni del modello sono le seguenti:
Il funzionamento e le previsioni che si possono trarre dal modello vengono meglio apprezzate utilizzando il Foglio di calcolo per Microsoft Excel® allegato a questa unità didattica. Qui di seguito vengono riportati alcuni esempi di grafici (brevemente commentati) dell'andamento della prevalenza in un allevamento in presenza di valori diversi dei parametri. I grafici sono stati generati con il predetto foglio di calcolo.
382
383
384
Foglio di calcolo per Microsoft Excel® che fornisce una rappresentazione grafica di alcuni aspetti del modello di French e coll., con parametri che possono essere variati a piacere.