P4P als lerntheoretisch begründetes Feedback-System bedarf, wie im vorangehenden Abschnitt ausgeführt, der Erweiterung
um Instrumente der Verhaltensänderung aus dem Bereich des organisatorischen Wandels und Kontext-Lernens, um gut
bedachte und fein justierte ökonomische Kontextfaktoren sowie um politische Weichenstellungen, die sich gut mit dem Begriff
direction pointing beschreiben lassen. Allerdings nützt dies alles nichts, wenn der eigentliche Feedbackmechanismus selbst
nicht intakt ist. In diesem Abschnitt werden daher kurz die technischen und methodischen Aspekte, die die Voraussetzung für
das Funktionieren des Feedback-Mechanismus bilden, dargestellt und unter Einbeziehung des Rahmenkonzeptes (s. Kap. 7.3.)
diskutiert. Weitergehende, die technische Ebene überschreitende Aspekte werden werden in den nächsten Kapiteln behandelt.
Die Darstellung hat folgende Gliederung:
● Indikatoren-Konzept
● Inhaltliche Auswahl der Indikatoren
● Administrative vs. klinische Daten
● Prozess- vs. Ergebnisindikatoren I
● Risikoadjustierung
● Gaming
● Adressaten des Feedback
● Wirkung des Feedback: Zeitnähe
● Ceiling
► Indikatoren-Konzept: In Ergänzung zu den grundlegenden Aussagen zu Indikatoren in Kap. 1.4. sollen hier nur zwei Dinge
hervorgehoben werden, die bei der Arbeit mit Indikatoren immer wieder zu Verwirrung führen. Zunächst muss man klären, ob
man eine Vollerhebung eines Qualitäts-relevanten Parameters anstrebt (z.B. rechtzeitige Blutkultur bei Pneumonie), oder ob
man einen Indikator mit Vorhersagefunktion implementieren will. Der erste Fall verstärkt die Tendenz von P4P zur
Einzelleistungsvergütung (zur diesbezüglichen Bedeutung der Informationsasymmetrie s. 7.6. Empfehlung 21). Will man im
Sinne des Indikatorenkonzeptes einen Indikator mit Vorhersagefunktion z.B. für einen Versorgungsbereich einführen und
nutzen, tritt die direkte Qualitätsfunktion des Indikatores in den Hintergrund (z.B. Desinfektionsmittelverbrauch - eo ipso kein
Qualitätsaspekt, wohl aber ein gutes Surrogat für nosokomiale Infektionen); neben die Selektivität des Indikators tritt die
Abstraktion (s. Schrappe 2010). Dies hat für die (politisch) Handelnden zwei Konsequenzen, man muss sich nämlich weniger
mit der Gefahr der Mengenausweitung durch P4P selbst (u.U. innerhalb eines stark Volumen-orientierten Systems wie DRG,
dessen Mengenanreiz somit noch weiter verstärkt würde, s. hierzu 5.3.) auseinandersetzen, und zweitens - vielleicht lästige
Pflicht - können und müssen politische, aufgrund strategischer Überlegungen für notwendig erachtete Schwerpunktsetzungen
und Schwachpunktanalysen greifen. Um es kurz zu sagen: kein echter Indikator ohne Problemanalyse. So kann man z.B. die in
Kap. 5.1. bzw. 7.3. genannten grundsätzlichen Charakteristika des deutschen Gesundheitssystems heranziehen und
entsprechende Indikatoren z.B. zur Stärkung der Versorgung chronisch Kranker oder der Prävention auswählen, und zwar mit
dem Ziel, einen ganzen Versorgungsbereich zu verbessern (und nicht nur eine einzelne Leistung einzukaufen). Im weiteren
bleiben die Aussagen zur den Charakteristika valider Indikatoren (s. Kap. 1.4.) bestehen, insbesondere sollte ein Indikator
zuverlässig zu messen sein, valide (sensitiv) das betreffende Qualitätsproblem vorhersagen (die Spezifität steht nicht im
Vordergrund), und das Qualitätsproblem muss veränderbar sein.
Empfehlung 4: Die Wahl von Indikatoren mit Vorhersagefunktion erfordert eine strategische Problemanalyse
Am Anfang der Implementierung eines P4P-Programmes steht die Entscheidung, ob einzelne (Qualitäts-relevante) Leistungen
eingekauft werden sollen oder ob Indikatoren mit Vorhersagefunktion für die Qualitätsprobleme eines Versorgungsbereiches
genutzt werden sollen. Im ersten Fall etabliert man eine Einzelleistungsvergütung, im zweiten Fall kann man von P4P im
eigentlichen Sinne sprechen, weil die Problemlösungskompetenz der Leistungsanbieter vor Ort anerkannt wird. Eine vorherige
ProblemanaIyse ist jedoch unverzichtbar.
► Inhaltliche Auswahl von Indikatoren: Eng mit der vorgeschalteten Problemanalyse verknüpft ist die Auswahl des
inhaltlichen Problemfeldes, für das Indikatoren eingesetzt werden. Grundsätzlich werden Indikatoren wahlweise nach
epidemiologischen Kriterien, nach Inhalt, Qualitäts-Systematik, Erhebungsmethodik und eingenommener Perspektive eingeteilt.
Die Systematisierung nach inhaltlichen Kriterien umfasst wiederum Fach- und Diagnose-bezogene Indikatoren, organisatorische
Indikatoren, Patientensicherheitsindikatoren und Indikatoren auf der Basis von Patientenerfahrungen. Es ist sehr interessant,
wie stark die großen aktuellen P4P-Projekte in den USA (Value-Based Purchasing (VBP), s. Ryan et al. 2012C) und in
Großbritannien (Quality and Outcome Framework (QOL), s. NHS 2013A) ihren Schwerpunkt auf Patientensicherheits-
Indikatoren (s. Kap. 2.4.) und auf Patienten-Erfahrungen bzw. patient-reported outcomes (s. Kap. 2.4., 2.5.) legen. Im VBP-
Programm machen diese beiden Gruppen 60% der Indikatoren und der Zahlungen (!) aus (Ryan et al. 2012C).
Empfehlung 5: Patientensicherheits-Indikatoren und Patientenerfahrungen integrieren
Im Vordergrund der internationalen P4P-Programme stehen Patientensicherheits- und Indikatoren auf der Basis von
Patientenerfahrungen. Neben strategisch positionierten Indikatoren zu verstärkter Integration, Behandlung chronischer
Erkrankungen und zur Stärkung der Prävention sollten diese auch in Deutschland besonders beachtet werden.
► Administrative vs. klinische Daten: Ein weiterer “Evergreen” ist die Frage der Verwendung administrativer oder
klinischer Daten (zur umfangreichen Literatur s. Kap. 1.3.). Administrative Daten sind primär für Vergütungszwecke und nicht
für Qualitätsmessungen entwickelt worden (so auch das G-DRG-System) und weisen in vielen Fällen deutliche
Sensitivitätsdefizite auf, erfüllen also hiermit das wichtigste Validitätskriterium eines Indikators nicht. Es besteht die Gefahr einer
Mengenausweitung, wenn insensitive administrative Indikatoren bei Leistungen mit entsprechendem Potential einsetzt werden
(s. Kap. 5.3.). In Einzelfällen können sie begleitend jedoch eingesetzt werden (z.B. standardisierte Mortalität), sie geben u.U.
sinnvolle Hintergrundsinformationen. Allerdings verstärken sie in der Expertenorganisation die Spaltung zwischen Management
und operating core, also den Experten, die diese Indikatoren - bei aller Erleichterung, dass sie mit der Datenerhebung nichts zu
tun haben - als management-business abtun. Klinische Daten haben ihrerseits den klaren Nachteil, dass sie aufwendiger und
nicht rein administrativ, sondern nur unter Beteiligung von Experten zu erheben sind. In Teilbereichen haben sie sich jedoch
längst durchgesetzt, z.B. als epidemiologische Falldefinitionen in nosokomialen Infektionserfassungen (vgl. hierzu Talbot et al.
2013). Streng ist hierbei darauf zu achten, dass epidemiologische Falldefinitionen keine klinischen Diagnosen darstellen, selbst
wenn diese Falldefinitionen sich klinischer Parameter bedienen, sondern lediglich einer standardisierten Erfassung dienen.
Empfehlung 6: Administrative Indikatoren haben schlechte Sensitivität , klinische Indikatoren sind keine Diagnosen
Administrative Indikatoren sollten wegen ihrer mangelnden Sensitivität nur in P4P-Konzepten mit Einzelleistungsvergütungs-
Charakter verwendet werden (s. Empfehlung 4). Wenn man auf administrative Indikatoren setzt, läuft man die Gefahr einer
verstärkten Mengenausweitung, außerdem wird der Qualitätsgedanke geschwächt, weil diese Indikatoren nicht sensitiv genug
sind, also die Ereignisse, die abgebildet werden sollen, nur unvollständig wiedergeben; Qualitätserfassung wird folglich in der
Expertenorganisation als management-business angesehen. Bei der Verwendung von klinischen Indikatoren ist der
Erhebungsaufwand einzuplanen (und in der Höhe der Anreize zu berücksichtigen), weiterhin ist auf den Unterschied von
epidemiologischen Falldefinitionen (s. nosokomiale Infektionen) zu klinischen Diagnosen hinzuweisen.
► Prozess- vs. Ergebnisindikatoren: Zur Abwägung zwischen Prozess- bzw. Ergebnisindikatoren ist in dieser Arbeit bereits
mehrfach Stellung genommen worden (Kap.1.3., 2.2., 2.4., 2.5., 4.2. bzw. 1.3., 2.4., 4.2.). Die großen laufenden P4P-Projekte in
den USA (Value-Based Purchasing (VBP), s. Ryan et al. 2012C) und in Großbritannien (Quality and Outcome Framework
(QOL), s. NHS 2013A) verwenden fast ausschließlich Prozessindikatoren (s. Kap. 2.4., 2.5.). Allerdings ist das Argument nicht
von der Hand zu weisen, dass Prozessindikatoren sich nicht immer sehr deutlich in den Ergebnissen niederschlagen, ein
erstaunlicher Befund, denn es handelt sich um gut untersuchte, Evidenz-basierte Prozessindikatoren (Horn 2006). Es ist
durchaus ein (hoch-signifikanter) Effekt nachweisbar, wie Werner et al. (2006) bei immerhin 3657 Krankenhäusern in den USA
anhand der Daten aus dem Hospital Compare Programm, einem Vorläufer von HQIP, nachweisen konnte (ähnlich wie auch Jha
et al. 2007, weiterhin Haller et al. 2005, Higashi et al. 2005, Houck et al. 2005, Peterson et al. 2006), aber quantitativ
enttäuschen die Ergebnisse. Evtl. sind hierfür auch nicht die “schwächelnden” Prozessindikatoren verantwortlich, sondern die
Studiendesigns, die verwendet werden und den komplexen Bedingungen, in denen solche Prozessparamter wirken, nicht
gerecht werden (Horn 2006). Außerdem ist natürlich auch deshalb in den USA der Ruf nach Ergebnisindikatoren deutlich
vernehmbar, weil ihnen eine größere Relevanz zugemessen wird als Prozessindikatoren (Rosenthal et al. 2007, Shekelle et al.
2001), aber die Problematik ihres Einsatzes (Risikoadjustierung und strukturelle Benachteiligung kleiner Häuser) ist gut
dokumentiert und gibt schlussendlich den Ausschlag zugunster der Prozessindikatoren (Cannon 2006, Davidson et al. 2007,
Nicholson et al. 2008, Scott und Ward 2006). Weiterhin in zu berücksichtigen, dass die Leistungsanbieter - aus ihrer Sicht -
Prozesse und evtl. auch die Struktur gut beeinflussen können, dies aber wegen der ihrem Zugriff entzogenen Risikoverteilung
nicht für die Ergebnisse gilt, und sie daher sie weniger auf Ergebnisindikatoren reagieren (Frolich et al. 2007). Ungeachtet der
entsprechenden Beiträge der principal-agent Theorie (s. Empfehlung 21), wo die Thematik wieder aufgenommen wird, kann
man zusammenfassend konstatieren, dass man zumindestens für den Beginn den Schwerpunkt auf die Prozessindikatoren
legen sollte, häufig wechselnd und Patientensicherheit (unerwünschte Ereignisse, Komplikationen, nosokomiale Infektionen)
sowie koordinative Prozesse betonend (z.B. in der Behandlung von chronischen Erkrankungen, transsektorale Koordination).
Besonders ist hier auf die Notwendigkeit vorangehender strategischer Überlegungen zu verweisen, da diese Indikatoren sinnvoll
positioniert werden müssen (vgl. Handlungfeld Politik). Für die weitere Entwicklung ist der Einsatz von Ergebnisindikatoren nicht
ausgeschlossen, wenn sich die Praxis von P4P eingespielt hat und die methodischen Probleme erfolgreich bearbeitet wurden;
besonders Outcome-relevante Patientensicherheits-Indikatoren (z.B. vermeidbare nosokomiale Infektionen in ihrer Mittelstellung
zwischen Prozess und Ergebnis) sind hier zu diskutieren (s. Entwicklung in Maryland, Calikoclu et al. 2012). Die Validität des
Indikators Mortalität im Krankenhaus in seinen unterschiedlichen Spielarten (30-Tage, standardisiert) ist auf Systemebene
sinnvoll (Heller 2010), auf der Ebene der einzelnen Einrichtungen jedoch schlecht, insbesondere kleine Häuser snd
benachteiligt (Davidson et al. 2007, Scott und Ward 2006). Indikatoren der Strukturqualität sind meist weitgehend bekannt, ein
reiner Investitionszuschuss wäre sinnvoller ( s. Kap. 4.2.).
Empfehlung 7: Prozessindikatoren sind entscheidend, Ergebnisindikatoren können ergänzen
Im Mittelpunkt sollten wie in den großen internationalen Referenzprojekten (USA, UK) Prozessindikatoren stehen, da bei
Ergebnisindikatoren die Problematik der Risikoselektion zu gewichtig ist, und selbst wenn die Risikoadjustierung perfekt
entwickelt wäre, kleine Einrichtungen systematisch schlechter gestellt werden. Zu den Prozessindikatoren werden hier auch
Komplikationen, unerwünschte Ereignisse und nosokomiale Infektionen gerechnet. Für die Zukunft sind jedoch
Ergebnisindikatoren nicht völlig ausgeschlossen (in erster Linie Outcome-relevante Patientensicherheits-Indikatoren (z.B.
Katheterinfektionen)).
► Risikoadjustierung: Die Leistungsanbieter stehen unter dem Eindruck, dass die natürliche Varianz höher ist als der Einfluss
einer eventuellen Qualitätsverbesserung (Pronovost und Kazandjian 1999). Aus dieser Sicht ist es nicht unverständlich, dass
eine Risikoselektion zu den Verhaltensoptionen unter einer Qualitäts-orientierten Vergütung gehört. Es besteht dabei die Gefahr,
dass der Anreiz zur Risikoselektion verstärkt wird, der bereits vom zugrundeliegenden Vergütungssystem ausgeht, in das P4P
integriert ist. Um so weitergehend die Pauschalierung ist (bis hin zum Übergang der Versicherungsfunktion auf die
Leistungserbringer bei Managed Care), um so mehr profitieren die Anbieter von der Vermeidung von Patienten mit teuren
Erkrankungen bzw. hoher Komorbidität (vgl. Kap. 5.3.). Man kann durch die Wahl von Prozessindikatoren und/oder eine
adäquate Risikoadjustierung von Ergebnisindikatoren gegensteuern. Die Risikoadjustierung findet jedoch ihre Grenzen bei
Erkrankungen mit geringerer Fallzahl, bei denen es zu einer Benachteiligung von kleineren Einrichtungen kommt (s. Kap. 1.3.).
Erkrankungen und Behandlungen ohne die Möglichkeit zur Risikoselektion (Unfälle oder Geburten bei Aufnahmezwang,
Impfungen) sind davon ausgenommen. Eine weitere Möglichkeit ist die Einrichtung eines exception reportings (s. Kap. 2.5.), das
es unter bestimmten Bedingungen möglich macht, Patienten aus dem P4P-Programm herauszunehmen, insbesondere wenn
Patienten-seitige Gründe für ein Nicht-Erreichen des angestrebten Ziels vorliegen (NHS 2013A). Diese Regelung soll einer
Risikoselektion und Schlechterstellung (bzw. niedrigerer Attraktivität) von Praxen in sozial unterprivilegierten Wohngegenden
entgegenwirken. Wenn keine oder eine ungenügende Risikoadjustierung durchgeführt wird, besteht die Gefahr einer daraus
resultierenden Unterversorgung als schwerwiegender unerwünschter Nebeneffekt der P4P-Einführung (s. Kap. 2.6.).
Empfehlung 8: Risikoselektion bedeutet Unterversorgung
Besonders bei zugrundeliegenden Vergütungsansätzen (z.B. Pauschalen), die bereits ihrerseits zur Risikoselektion neigen, ist
eine zusätzliche P4P-bedingte Risikoselektion geeignet, eine relevante Unterversorgung zu verusachen. Zumindest soweit
Ergebnisindikatoren eingesetzt werden, ist daher eine möglichst optimale Risikoadjustierung notwendig. Prozessindikatoren
bedürfen im allgemeinen keiner Risikoadjustierung.
► Gaming: Das gaming durch Mängel der Dokumentation und Fälschung der Daten ist von anderen Formen der mangelnden
Reliabilität abzugrenzen (s. Kap. 2.6.2.) und betrifft die Organisationskultur bzw. die Fähigkeit zum organisatorisches Lernen
(Maisey et al. 2008). Regelmäßige, nicht angemeldete Stichproben und andere Reliabilitätsüberprüfungen sind nicht verzichtbar.
Empfehlung 9: Sobald Indikatoren finanziell relevant werden, sind effektive Stichproben notwendig
Eine P4P-Einführung ohne die gleichzeitige Implementierung von Stichproben zur Kontrolle des gaming ist nicht sinnvoll.
► Adressaten des Feedback: Zwei Komplexe sind hier zu diskutieren. Für ein funktionierendes Feedback ist es einerseits von
größter Bedeutung, die Adressaten der Belohnungskomponente richtig auszuwählen, mit anderen Worten Verantwortung und
Anreiz zur Deckung zu bringen (vgl. Kap. 3.5.1.). Die entsprechende Literatur scheint sich auf den ersten Blick mehrheitlich
dafür auszusprechen, die für die Behandlung verantwortlichen Ärzte direkt anzusprechen (Petersen et al. 2013, Torchiana et al.
2013), die nähere Analyse der Arbeiten zeigt aber, dass sich diese Empfehlungen auf die ambulante Versorgung beziehen, im
Krankenhaus dagegen eher die Gesamtorganisation als Adressat präferiert wird (Berenson 2013, Rolnick et al. 2002). Bei
persönlichem Anreiz wird eine Verstärkung der Risikoselektion befürchtet (Werner et al. 2011). Der zweite Komplex geht jedoch
dahin, ob es in einem als desintegriert und stark sektoriert bezeichneten Gesundheitssystem grundsätzlich überhaupt möglich
ist, einzelne Ärzte bzw. Abteilungen zusätzlich Qualitäts-bezogen zu vergüten, weil die Abgrenzung des Verantwortungsbereichs
zwischen den einzelnen Leistungserbringern kaum machbar erscheint (Cannon 2006). Diese Schwierigkeit wird bei Verwendung
von Summenscores noch verstärkt (Tompkins et al. 2009). Dieser Punkt ist insofern sehr wichtig, als dass die in dieser Arbeit
präferierten Prozessindikatoren mit Schwerpunkt Koordination und Behandlung chronischer Erkrankungen naturgemäß mehrere
Versorger und Versorgungssektoren betreffen. Es muss bei der Wahl der Indikatoren also darauf hingewirkt werden, dass die
die finanziellen Anreize auch die notwendigen organisatorischen Voraussetzungen betreffen, angefangen von der Schaffung
gemeinsamer Dokumentation (IT) bis hin zu gemeinsamer Führung der Patienten. In den USA werden diesbezüglich bundled
payment und die accordable care organizations diskutiert (Ryan et al. 2012C). Dass dies die schon genannten strategischen
Vorüberlegungen voraussetzt, ist offensichtlich.
Empfehlung 10: Die organisatorischen Voraussetzungen einer verbesserten Integration der Versorgung fördern
Da in einem stark sektorierten Gesundheitssystem Verantwortungsbereich und Anreiz nur schwer in Deckung zu bringen sind,
müssen die Indikatoren (Prozessindikatoren) auch organisatorische Aspekte einer verstärkten Integration (IT, gemeinsame
Verantwortung für die Patienten) mit einbeziehen (s. QOF-Projekt in Großbritannien).
► Wirkung des Feedback - Zeitnähe: Es ist keine Frage, zu den Grundregeln eines funktionierenden Feedback gehört die
Zeitnähe der Rückkopplung, in unserem Beispiel P4P also die Zeitnähe der Zahlung des P4P-Bestandteiles der Vergütung. In
einer Studie werden z.B. mit sehr guten Ergebnissen 6 Monate gewählt (Torchiana et al. 2013). Einer der Gründe bezieht sich
auf die Diskontierung, die nicht nur um so höher ausfällt, je länger der Zeitraum ist, über den diskontiert wird, sondern auch je
höher die Unsicherheit der entgültigen Zahlung ist (zur Risikoaversion s. Kap. 7.6., s. auch Damberg et al. 2007, Torchiana et al.
2013). Ein weiterer Aspekt betrifft die Überschätzung relativer Risiken: wenn die qualitäts-orientierte Vergütung z.B. im
Gesamterlös untergeht, übt er eine sehr viel geringere Anreizwirkung aus als wenn es sich um eine eigenständige Zahlung
handelt (s. Kap. 7.6.).
Empfehlung 11: Feedback nur zeitnah gestalten!
Der Feedback muss zeitnahe gestaltet sein, am besten außerhalb der normalen Erlösvergütung , so dass die P4P-bezogene
Vergütung klar als Anreiz erkennbar ist und nicht von Zeitferne und Unsicherheit geschmälert wird.
► Ceiling: Sowohl im HQIP-Programm in den USA (Ryan et al. 2011) als auch im QOF-Pilotprojekt in Großbritannien gab es
Hinweise auf ausbleibende Wirkungen von P4P durch Erreichen der maximal erreichbaren Performance. In der Evaluation von
Campbell et al. (2007) war in einer interrupted time-series-Analyse die Qualitätsverbesserung insbesondere bei den
Krankheitsbildern Asthma und Typ 2-Diabetes von dem langjährigen säkularen Trend einer langsamen auch ohne Intervention
sichtbaren Verbesserung deutlich abzugrenzen, dieser Effekt war aber in den Jahren danach nicht mehr nachweisbar (Campbell
et al. 2009). Dieser Effekt werden als ceiling-Effekt interpretiert und z.B. eine Anhebung der Grenzwerte empfohlen (Doran und
Roland 2010). Verstärkt wird dieser Effekt durch nicht aktuelle Indikatoren (s. Kap. 7.6.) und Aufhebung der
Informationsasymmetrie, weil dann ein zusätzlicher Mengenanreiz auftritt (s. Kap. 7.6.).
Empfehlung 12: Ein ceiling-Effekt muss bedacht und verhindert werden
Ein ceiling-Effekt tritt vor allem bei Übergang in Einzelleistungsvergütung und bei nicht aktuellen Indikatoren auf.
Weiter: 7. Empfehlungen für die zukünftige Nutzung von P4P, 7.5. Organisation und System beachten!
Seite
Kapitel
Seite
Kapitel
7. Empfehlungen für die zukünftige Nutzung von P4P
7.4. Gestaltung des Feedback
© Prof. Dr. med. Matthias Schrappe, Venloer Str. 30, D-50672 Köln
Impressum und Datenschutz
Schrappe, M.: P4P: Aktuelle Einschätzung, konzeptioneller
Rahmen und Handlungsempfehlungen, Version 1.2.1.
M. Schrappe
P4P: Aktuelle Einschätzung,
konzeptioneller Rahmen und
Handlungsempfehlungen