Home
Nach oben

Mathematische Beschreibung der Qualität eines medizinischen Tests im Bayes-Theorem

Einen medizinischen Test kann man verstehen als einen dichotomen Wahrscheinlichkeits-Wandler, der je nach Testresultat testpositiv oder testnegativ eine prätest-Krankheitswahrscheinlichkeit (prätest-KWS sive prätest-Probabilität sive Prävalenz PV) umwandelt in eine "positive" posttest-KWS (pKWS im Falle eines positiven Testresultats) oder in eine "negative" posttest-KWS (nKWS im Falle eines negativen Testresultats). Eine Wahrscheinlichkeit (Probabilität, p) ist eine relative Häufigkeit, die üblicherweise in Prozenten der Bezugsgesamtheit (Referenz) angegeben wird. Innerhalb eines Rechenprozesses verwendet man als Masseinheit einfacher den absoluten Wert einer Wahrscheinlichkeit (p = 1.0 = 100%).

Das Bayes-Theorem ist ein Instrument zur Beschreibung der Testqualität. Dabei sind die Qualitäten Ergebnisqualität (EQ, Wahrscheinlichkeiten in wagrechter Richtung testpositiv vs testnegativ) und rechnerische Funktionsqualität des Wahrscheinlichkeitswandlers (FQ, Wahrscheinlichkeiten in senkrechter Richtung krank vs gesund) strikte voneinander zu unterscheiden :
• Die Ergebnisqualität EQ wird mit den sogenannten prädiktiven Werten umschrieben. Dabei ist der prädiktive Wert eines positiven Tests (pPDW) der posttest-Krankeitswahrscheinlichkeit nach einem positiven Test (pKWS) gleichzusetzen, der prädiktive Wert eines negativen Tests (nPDW) der posttest-Wahrscheinlichkeit [1 - nKWS]. Die nPDW ist also die zu eins komplementäre Grösse der posttest-Krankheitswahrscheinlichkeit nach einem negativen Test (nKWS). Die Ergebnisqualität (EQ) ist abhängig von der prätest-Wahrscheinlichkeit (PV), nebst natürlich der rechnerischen Funktionsqualität des gewählten Testes (FQ, Trennschärfe). Die Ergebnisqualität (EQ) verschiedener Tests kann also nur bei identischer Krankheitsprävalenz in den Referenzkollektiven (PV) direkt miteinander verglichen werden.
• Die rechnerische Funktionsqualität FQ (Trennschärfe) eines Testes umschreibt sich mathematisch in senkrechter Richtung der 4-Felder-Tafel mit den Wahrscheinlichkeiten Sensitivität (SE) und Spezifität (SP). Diese Grössen sind PV-unabhängig und allein bestimmt durch die Lage des Cutpointes (Dichotomierungsschnitt) im Überlappungsbereich "Krank" und "Gesund" des Referenzkollektivs. SE und SP sind die Determinanten der Likelihood-Ratio (LR), welche als zentraler Rechenprozessor (Bayes-Kernel) die Wahrscheinlichkeitswandlung von der prätest-KWS zur posttest-KWS in Form eines Multiplikators in der sogenannten Fagan-Rechnung vollzieht.

Vergleicht man einen Test mit einem Handspiegel, welcher posttest-Wahrscheinlichkeiten widerspiegelt, so entspräche die Ergebnisqualität (EQ) der Spiegelfläche und die Funktionsqualität (FQ) dem Handgriff, an welchem man die Trennschärfe des Testes einstellt. Ändert man die EQ (bei konstanter FQ), so fokussiert man eine andere PV. Ändert man die FQ, so ändert man den Test selbst und erhält bei gleicher Prävalenz eine andere EQ. Ändert man gleichzeitig die EQ und die FQ, so unternimmt man eine Anpassungsmodifikation der Test-FQ mit dem Ziel für eine der klinischen Fragestellung optimal angepasste EQ die notwendige PV (Prävalenz, prätest-KWS) zu bestimmen. Dieses Procedere entspricht einer Fokussierung der Test-Trennschärfe auf die PV, ist ziemlich konfusionsträchtig und kann am ehesten mit dem Justieren eines binokularen Mikroskops an eine gegensinnige Sichtigkeit der Augen verglichen werden.

Der Bayes-Kernel ist der zentrale Rechenprozessor des Bayes-Theorems und wird üblicherweise einfach mit "Likelihood-Ratio (LR)" bezeichnet, nämlich mit einer positiven LR (pLR) im Falle eines positiven Tests und einer negativen LR (nLR) im Falle eines negativen Tests. Seine mathematische Definition findet sich unten. Die LR ist keine Wahrscheinlichkeit im üblichen Sinne (relative Häufikeit, Risiko, Ereignisrate im Bezugskollektiv, pars pro toto) sondern eine odds-Wahrscheinlichkeit (Chance, pars zu pars, wie Fussballresultat). Die LR wiedergibt somit die mathematische Kapazität der Wahrscheinlichkeitswandlung (WS-Verstärkung, Amplifizierung, Trennschärfefokussierung) und ist im Falle eines positiven Tests > 1 (gute Diskrimination, wenn pLR ≥ 10) bzw. im Falle eines negativen Tests < 1 (gute Diskrimination wenn nLR ≤ 0.10). Eine LR von 1 ist ohne Diskriminationskraft.
Die Charakteristik des Bayes-Kernels wird üblicherweise mit ROC-Kurven (Receiver Operator Characteristic) beschrieben. Auf diesen Charakter-Kurven kann für jeden Messpunkt (bzw. jeden Cutpoint unmittelbar darunter) die LR abgelesen werden. Für pLR und nLR sind die ROC-Kurven unterschiedlich. Meist beschränkt man sich auf die Darstellung der pLR-ROC-Kurve SE/[1-SP].
Mit Hilfe des Bayes-Kernels lässt sich für jedes Test-Messergebnis (also stufenlos) die EQ (posttest-KWS) in Abhängigkeit einer beliebig variablen prätest-Krankheitswahrscheinlichkeit errechnen, welche dann je nach selektionierter Grösse des Messergebnisses mit einem Regler abgerufen werden kann. Dieses Vorgehen entspricht einer stufen"losen" (soviele Stufen wie cutpoints auf der ROC-Kurve) Dichotomierung des Testreferenzkollektivs, ist die dynamische Anwendung eines Tests, in welcher der Bayes-Kernel seine Grösse nach Vorgabe der ROC-Kurve laufend ändert und versteht sich analog dem klinischen Denken in der Beurtelung von Messresultaten, nämlich "tiefe Werte = eindeutig gesund, hohe Werte = eindeutig schwer krank". Diese eben beschriebene dynamische, multivariante Anwendung des Bayes-Theorems ist die logische Fortentwicklung seiner klassischen, rein statischen, univarianten Anwendung in der Qualitätsbeschreibung eines Tests mit einer einzigen fixen Funktionsqualität (FQ, Sensitivität und Spezifität). Der Vorteil des Bayeskernels (LR) zur Berechnung von posttest-Wahrscheinlichkeiten (EQ) auf Basis der prätest-Wahrscheinlichkeit und umgekehrt scheint so gesehen auf der Hand zu liegen.

Die rechnerische Wahrscheinlichkeitswandlung erfolgt in der FAGAN-Rechnung, am exaktesten mit einem Fagan-Kalkulator oder - weniger exakt - mit einem altmodischen Fagan-Nomogramm (welches oft verzerrt dargestellt eine mangelhafte Ergebnisqualität liefert). Bei dieser Rechnung handelt es sich um eine Amplifizierung von Odds-Wahrscheinlichkeiten anhand der LR. Dazu ist die Beherrschung der Wandlung der Wahrscheinlichkeits"währungen" odds nach risk und umgekehrt allerdings unabdingbar (vergl. Zusammenfassung unten).

Tabellarische Darstellung des Bayes-Theorems und mathematische Definition der wichtigsten Eckparameter. "Gesund" steht für Zielkrankheit abwesend.
TEST KRANK + GESUND - Randsumme
quer
ERGEBNIS-
QUALITÄT EQ
wagrecht, quer
BEMERKUNG
Test positiv + TP = RP =
SS1*[SE]
fp =
SS2*[1-SP]
QS1 = TP + fp
Quersumme
R1 = pPDW = pKWS R1 = TP/QS1 = pPDW = pKWS =
1/(1/(PVodds*pLR)+1)
Test negativ - fn =
SS1*[1-SE]
TN = RN
SS2*[SP]
QS2 = fn + TN
Quersumme
(1-R2) = nPDW =
(1-nKWS)
(1-R2) = TN/QS2 = nPDW = (1-nKWS) ;
R2 = fn/QS2 = (1-nPDW) =
nKWS = 1/(1/(PVodds*nLR)+1)
Randsumme
senkrecht
SS1 = TP + fn =
TOTAL*[PV]
SS2 = fp + TN =
TOTAL*[1-PV]
TOTAL
= QS1 + QS2
= SS1 + SS2
PV = SS1/TOTAL PVodds = pKWSodds/pLR
PVodds = nKWSodds/nLR
PV=PVodds/(PVodds+1);PVodds=PV/(1-PV)
TESTFUNKTIONS-
QUALITÄT FQ
senkrecht
SE = TP / SS1 SP = TN / SS2 Accuracy =
[SE + SP]/2
Accuracy =
(TP+TN)/TOTAL
Bayes-Kernel :
pLR=[SE]/[1-SP]=SE/falsch positive Rate
nLR=[1-SE]/[SP]=falsch negative Rate/SP

• Die Ergebnisqualität EQ beschreibt sich durch die posttest-KWS nach einem positiven Test (pKWS, ist die TP-Rate im Kollektiv der Testpositiven) bzw. die posttest-KWS nach einem negativen Test (nKWS, ist die fn-Rate im Kollektiv der Testnegativen). Die pKWS beträgt maximal 1.0, wenn fp = 0. Die nKWS beträgt im besten Fall 0, wenn fn = 0. Als Einzelparameter für die EQ bietet sich das Relative Risiko sive Risk Ratio RR = R1 / R2 = pKWS / nKWS = pPDW/(1-nPDW) an (analog der Risikoberechnung in der 4-Felder-Tafel). RR strebt gegen ∞ , wenn die nKWS gegen 0 strebt.

• Die Testfunktionsqualität FQ beschreibt sich durch die vertikalen Wahrscheinlichkeiten Sensitiviät (SE, TP-Rate im Kollektiv der Kranken) und Spezifität (SP, TN-Rate im Kollektiv der Gesunden). SE und SP betragen im besten Fall 1.0 (100%), wenn fn bzw. fp = 0 sind.

• Die Qualität des Bayes-Kernels definiert sich mit der Likelihood-Ratio, nämlich pLR = [SE] / [1-SP] bzw. nLR = [1-SE] / [SP].
Die odds ratio der relativen Häufigkeiten in der Vertikalen der 4-Felder-Tafel, nämlich die OR = Kreuzprodukt [SE]*[SP] / Kreuzprodukt [1-SE]*[1-SP] = pLR / nLR, entspricht in der elog-Transformation log(OR) = log(pLR) minus log(nLR) = ln(pLR) minus ln(nLR und wiedergibt die Diskriminationskapazität eines Tests.
Das Produkt pLR * nLR = ln(pLR) + ln(nLR) = ([SE]*[1-SE]) / ([1-SP]*[SP]) wiedergibt die Gewichtung eines Testes. Beträgt das LR-Produkt 1 (ln-Saldo = 0) , so ist die FQ ausgeglichen. Bei einem spezifisch gewichteten Test ist das Produkt pLR*nLR > 1 (ln-Saldo > 0), bei einem sensitiv gewichteten Test < 1 (ln-Saldo < 0).

• Auf die Berechnung der Konfidenzintervalle des Bayes-Theorems wird im Rechner BayesFagan_Calculator.html näher eingegangen. Die Konfidenzintervalle für die Ergebnis- und die Funktionsqualitäten werden gemäss Wilson/Newcombe berechnet. Dies sind gebräuchliche Methoden zur Berechnung von unabhängigen Proportionen (%-Häufigkeiten).
Problematisch bleibt die Berechnung des Konfidenzintervalles des Bayes-Kernels selbst (LR, likelihood ratio), da er 2-dimensional determiniert ist und somit ein 2-dimensionales Vertrauensintervall besitzt (obschon er seine Kernfunktion eigentlich nur in einer Dimension, nämlich in der Horizontalen ausübt und die 2. Dimension, nämlich die Vertikale eigentlich nur zur leicht verständlichen Umschreibung seiner Funktionsqualität dient). Als gut akzeptabler Kompromiss zur Lösung dieses "Dimensionenproblems" bietet sich die gängige Formel zu Berechnung des Konfidenzintervalles einer OR an, nämlich
e ln(LR) ± (k*SD) mit einer SD(z.B. für die pLR) = √((1/RP)+(1/fp)+(1/Anzahl Kranke)+(1/Anzahl Gesunde) .
Sie ist die Rücktransformation (antilog) einer Intervallberechnung in der Logtransformation und ergibt Intervalle, die leicht weiter gefasst sind als diejenigen mit der Methode "EQ m" im kombinierten BayesFagan-Kalkulator.
Im zitierten Rechner finden sich 6 verschiedene Möglichkeiten zur Beschreibung des Konfidenzintervalles des Bayes-Kernels, die alle ihre eigene logische Begründung haben und vor allem dazu dienen, die zahlreichen und unterschiedlichsten Methoden zur Berechnung eines LR-Konfidenzintervalles im www und in diversen Statistikprogrammen (die mathematische Phantasie schein auf diesem Gebiet grenzenlos) vernünftig einzuordnen.

• Die Fagan-Rechenformel zur WS-Amplifikation lautet ganz simpel PV-odds * LR = posttest-KWS-odds.
Die Umrechnung einer odds-Wahrscheinlichkeit (pars zu pars) in eine risk-Wahrscheinlichkeit (pars pro toto) lautet risk = 1/((1/odds)+1), die Umwandlung einer risk-Wahrscheinlichkeit in eine odds-Wahrscheinlichkeit lautet odds = 1/((1/risk)-1) oder ganz einfach odds = risk / (1-risk) bzw. risk = odds / (odds+1), vergl. Tabelle 2.
Tabelle 2): Die Konversion der Risiko"währung" in einem Computerprogramm :
Konstellation odds risk
3 + 4 = 7 3 : 4 = 0.75 3 / 7 = 0.428571428
odds = risk / (1-risk) 0.428571428 / 0.571428571 = 0.749999999
risk = odds / (odds + 1) 0.75 / 1.75 = 0.428571428


Die notwendigen mathematischen Instrumente finden sich bei www.kardiolab.ch als Bayes-Calculator , als kombinierter BayesFagan-Kalkulator und als Risiko-Kalkulator .

DISKUSSION :

• In dem in sich geschlossenen Bayes-Theorem als Instrument zur Qualitätskontrolle eines medizinischen Tests determinieren sich die drei Eckpfeiler Krankheitsprävalenz (PV, prätest-Krankheitswahrscheinlichkeit), Funktionsqualität FQ (SE + SP, bzw. pLR + nLR) und Ergebnisqualität EQ (prädiktive Werte bzw. posttest-Krankheitswahrscheinlichkeit) gegenseitig und zwar in folgender Weise:
- PV und FQ determinieren die EQ
- EQ und FQ determinierten die PV
- PV und EQ determinieren die FQ

• Die evidenzbasierte Diagnostik und Prognostik steht und fällt mit der klinischen und mathematischen Qualität der Referenzkollektive eines Tests. Fehlerquellen und Faktoren, die zu einer Verzerrung (bias) der Ergebnisqualität EQ führen können, sind zahlreich und bei neuen Testmethoden zu Beginn meist unbekannt (vergl. die lehrreiche Geschichte des Belastungs-EKG der 60iger bis 80iger Jahre).

• Aus der Sicht des Testanwenders sollte die Beschreibung der klinischen Qualität einer Testreferenz zumindest folgende Punkte berücksichtigen:
1.) Differenzierte Umschreibung der Eingangspunkte mit exakter Definition und Prävalenz des Begriffes "Krankheit" (inklusive klinische Situation und Krankheitsschweregrad, z.B. coronare 1-Ast- oder coronare 3-Ast-Erkrankung, mit/ohne stattgehabtem Myokardinfarkt) und ihre Abgrenzung gegenüber "Gesundheit". Auch Alter und Geschlecht des Referenzkollektivs sind wichtige Eingangsinformationen: z.B. macht es keinen Sinn eine junge Frau mit atypischer Angina pectoris im Belastungs-EKG die FQ der Testreferenz von 60-jährigen Männern mit typischer Anginga pectoris anzuwenden.
2.) Korrelation der Testwerte zum Schweregrad einer Erkankung und mögliche Einflussfaktoren, die zu einem falsch positiven oder falsch negativen Testresultat führen können (z.B. LSB verunmöglicht die Beurteilung einer ST-Senkung, i.m. Injektion führt zu CK-Erhöhung, etc., wir alle kennen die Beispiele des klinischen Alltags).
3.) Exakte Beschreibung der Endpunkte (z.B. Morbidität, Mortalität, Hospitalisationsrate, Rezidivereignisse etc.). Es macht z.B. keinen Sinn in der Stufendiagnostik eine Morbiditäts-Testreferenz auf einen Mortalitätstest aufzupfropfen, da ein solches Vorgehen mit Bestimmtheit zu einer verzerrten EQ führt.
Vielleicht sollte man im Rahmen der TFOVRP einmal eine Check-Liste verfassen, auf welche klinische Qualitätsmerkmale der User in der Beschreibung eines Testes prinzipiell nicht verzichten kann.

• Die Bayes-mathematische Test-Qualität umschreibt sich mit der Funktionsqualität FQ (Sensitivität, Spezifität und dem resultierenden Bayes-Kernel). Aus der Sicht der Bayes-Fagan-Mathematik ist ein Test bezüglich seiner Ergebnisqualität dann verlässlich, wenn er bei vergleichbar schwerer Krankheit und vergleichbarem Cutpoint auch bei unterschiedlicher Prävalenz in den diversen Testreferenzkollektiven eine möglichst vergleichbare FQ (d.h. innerhalb der Konfidenzintervalle von SE und SP berechnet nach Wilson oder Newcombe, "stabile" FQ) aufweist. Ist dies bei dem gewählten Test nicht der Fall, so selektioniert man als Beurteilungsbasis vorzugsweise dasjenige Referenzkollektiv, welches bezüglich seiner PV der prätest-Wahrscheinlichkeit des Patienten am nächsten kommt, ansonsten man eine verzerrte EQ in Kauf nimmt. Tests ohne stabile FQ eignen sich nicht für eine evidenzbasierte Stufen-Diagnostik/Prognostik, da das Bayes-Theorem ohne stabile FQ irgendwie "in der Luft hängt". Solche bezüglich FQ "instabile Tests" können höchstens noch am Ende einer Testabfolge eingesetzt werden, wenn die Diagnose/Prognose eigentlich schon genügend bayes-basierte Evidenz für den zu fällenden klinischen Entscheid aufweist.

FAZIT :

• Das Bayes-Theorem und sein Kernel in der Fagan-Rechnung sind mathematisch einfach und klar definierte Instrumente zur Berechnung von posttest-Krankheitswahrscheinlichkeiten und eignen sich auch hervorragend für die Anwendung in der Stufendiagnostik/-prognostik.
• Die eigentliche Crux der evidenzbasierten Stufendiagnostik liegt jedoch nicht in der mathematischen Berechnung von Wahrscheinlichkeiten sondern in der Auswahl der für die klinische Fragestellung akkuraten Tests, die es gilt in passender Sequenz zu einem sinnvollen Abklärungsalgorithmus zusammenzufügen. Dazu ist eine genaue Beschreibung der Testreferenzkollektive, die nebst Beschreibung der Prävalenz, der Funktionsqualität FQ und der Ergebnisqualität EQ eben auch die genaue Umschreibung der Eingangspunkte mit der exakter Definition von "krank" und "gesund" sowie der Endpunkte mit beinhaltet, unerlässlich.


.F.A. Romanens und Ackermann , 14.04.2006 / 17.6.06