La medicina basata sulle evidenze si fonda, in larga misura, sui trial clinici randomizzati (RCT). Eppure, anche la cosiddetta “gold standard” della ricerca può nascondere insidie statistiche difficili da intuire. Lo dimostra un nuovo studio pubblicato sul Journal of Clinical Endocrinology & Metabolism, che ha sottoposto a stress test statistico i risultati di 27 RCT di fase 3 o 4 sull’efficacia antifratturativa dei farmaci per l’osteoporosi, pubblicati negli ultimi trent’anni nelle riviste scientifiche di maggior impatto. Il risultato? Le evidenze che guidano le attuali decisioni cliniche si rivelano sorprendentemente fragili.
Quando basta cambiare nove pazienti
La fragilità delle evidenze è stata misurata con due parametri: il Fragility Index (FI), che indica quanti eventi in più nel gruppo trattato (cioè quante fratture aggiuntive) sarebbero sufficienti a rendere non più statisticamente significativa una differenza inizialmente considerata “efficace”; e il Fragility Quotient (FQ), che rapporta il FI alla dimensione del campione. Ebbene, il valore mediano del FI nei 141 risultati analizzati era 9. In altre parole, in uno studio medio, se 9 pazienti nel gruppo trattato si fossero fratturati in più, l’evidenza dell’efficacia del farmaco sarebbe evaporata. Nove su una popolazione media di 1910 arruolati: appena lo 0,51%.
Ancora più preoccupante: nel 60% dei casi, il numero di pazienti persi al follow-up superava il FI calcolato. Il che significa che, teoricamente, la semplice sorte clinica ignota di chi non ha completato lo studio potrebbe essere sufficiente a ribaltare i risultati.
Romosozumab, il più solido. Denosumab e integratori, i più fragili
Tra i farmaci valutati, romosozumab ha dimostrato la maggiore solidità statistica, con un FI mediano di 19,5. Molto buona anche la robustezza dei dati su stronzio ranelato (FI 18,5). All’estremo opposto, l’evidenza sull’efficacia antifratturativa del denosumab si regge su un FI mediano di appena 4, e quella su calcio e vitamina D su un FI di 7.
Bisogna tuttavia tener conto anche della qualità dei singoli studi: quelli in cui la frattura era l’endpoint primario e quelli con p-value < 0,001 avevano FI sensibilmente più alti (rispettivamente 14 e 26), a indicare una maggiore robustezza.
Fratture vertebrali: più eventi, più robustezza
Il tipo di frattura analizzata ha un impatto rilevante. Le fratture vertebrali morfometriche sono state l’outcome più studiato e mostravano valori di FI mediamente più alti (11) rispetto alle fratture non vertebrali (FI mediano 5) o femorali (FI 5). In questi ultimi casi, bastava un numero molto esiguo di eventi in più (in alcuni casi 4 o 5) per invalidare la significatività dei risultati.
I limiti del p-value e l’utilità clinica del FI
Lo studio si inserisce nel dibattito crescente sul superamento del semplice p-value come criterio assoluto per giudicare l’efficacia di un trattamento. Il p-value, infatti, è notoriamente sensibile alla dimensione del campione e può oscillare ampiamente anche in presenza di differenze minime. Al contrario, il FI fornisce una misura intuitiva, clinicamente significativa e facile da comunicare anche al paziente: “basta che 9 pazienti su quasi duemila si fratturino per far crollare la significatività statistica dello studio”.
Non sorprende che molti esperti stiano proponendo di integrare il FI nei criteri di valutazione degli RCT e perfino nella progettazione degli studi, ad esempio prevedendo un FI minimo desiderato in fase di calcolo del campione.
Implicazioni per la pratica clinica
Per gli specialisti della salute ossea, il messaggio è chiaro: non tutte le evidenze sono uguali. Nella pratica clinica quotidiana, ciò implica che la scelta del farmaco dovrebbe basarsi non solo sulla significatività statistica, ma anche sulla robustezza dell’evidenza che la sostiene. Il rischio, altrimenti, è quello di affidarsi a dati troppo sensibili a piccole variazioni nei risultati, con potenziali implicazioni importanti per la sicurezza e l’efficacia del trattamento.
L’introduzione del Fragility Index rappresenta un passo avanti nella lettura critica della letteratura clinica. Sebbene non intenda sostituire il p-value, può affiancarlo in modo complementare per valutare la solidità delle evidenze. In un campo delicato come quello dell’osteoporosi, dove le fratture possono avere conseguenze gravissime, disporre di strumenti più raffinati per interpretare i dati è essenziale per una medicina davvero basata sulle evidenze—e non solo sulle apparenze statistiche.
Lo studio
Nick Tran, Thach S Tran, Tuan V Nguyen, Fragility of Evidence for the Efficacy of Anti-Fracture Medications, The Journal of Clinical Endocrinology & Metabolism, 2025.