Vorsicht bei Künstlicher Intelligenz in Medizinprodukten
Anbieter zum Thema
In Medizinprodukten kommt vermehrt Künstliche Intelligenz zum Einsatz. Doch Vorsicht ist geboten, denn die Entscheidungen der KI müssen nachvollziehbar und verifizierbar sein. Für die Sicherheit der Patienten.

Anfang Januar 2020 informierte die Weltgesundheitsorganisation (WHO) über einen besonderen Grippefall in Wuhan, China. Bereits Ende Dezember des Vorjahres warnte ein kanadisches Unternehmen, das auf die mit Künstlicher Intelligenz (KI) basierter Überwachung der Ausbreitung von Infektionskrankheiten spezialisiert ist, seine Kunden über die Gefahr einer Epidemie in China [1]. Dazu analysierte ein auf KI-gestütztes System Nachrichtenmeldungen und Beiträge in Online-Netzwerken für Tier- und Pflanzenkrankheiten. Durch den Zugang zu weltweiten Flugticketdaten wurde die Ausbreitung des Corona-Virus in den Tagen nach seinem ersten Auftreten durch die KI korrekt prognostiziert.
Das Beispiel zeigt, wie leistungsfähig eine KI und maschinelles Lernen (ML) bereits sind. Immer mehr Medizinprodukte greifen auf KI und ML zurück, beispielsweise in Form von integrierten Schaltungen. Trotz verbundener Risiken enthalten die gängigen Regelwerke noch keine spezifischen Vorgaben für den Einsatz. So definiert beispielsweise die Medizinprodukte-Verordnung (MDR) lediglich allgemeine Anforderungen an Software: Sie muss nach dem Stand der Technik entwickelt und hergestellt werden und so ausgelegt sein, dass sie sich bestimmungsgemäß verwenden lässt.
Das setzt implizit voraus, dass sich KI vorhersagbar und reproduzierbar verhält. Dafür ist ein verifiziertes und validiertes KI-Modell notwendig. Die Anforderungen an die Validierung und Verifizierung sind in den beiden Software-Standards IEC 62304 und IEC 82304 beschrieben. Es bestehen jedoch fundamentale Unterschiede zwischen konventioneller Software und KI mit maschinellem Lernen. Maschinelles Lernen fußt auf dem Training eines Modells mit Daten, ohne die Abläufe explizit zu programmieren. Durch Änderungen an sogenannten Hyperparametern wird das Modell im Laufe des Trainings stetig optimiert.
Die Trainingsdaten prüfen und Umfang festlegen
Die Qualität der Daten ist entscheidend auf die von der KI gemachten Vorhersagen. Häufige Probleme sind verzerrte Trainingsdaten (Bias), die Über- und Unteranpassung (Over-Fitting/Under-Fitting) des Modells oder Kennzeichnungsfehler (Labeling Error) bei überwachten Lernmodellen. Das kann eine gewissenhafte Prüfung aufdecken. Dabei zeigt sich, dass die Verzerrungen und Kennzeichnungsfehler oft unbeabsichtigt durch eine nicht ausreichende Vielfalt in den Trainingsdaten entstehen.
Wenn ein KI-Modell beispielsweise Äpfel erkennen soll und darauf trainiert wird und die Trainingsdaten hauptsächlich grüne Äpfel in unterschiedlichen Formen und Größen enthalten, dann kann es passieren, dass eine grüne Birne als Apfel erkannt wird, ein roter Apfel hingegen nicht. Zufällige oder unbeabsichtigte Gemeinsamkeiten in einem nebensächlichen Aspekt können von der KI unter Umständen als maßgeblich eingestuft werden. Die statistische Verteilung der Daten muss begründet und dem realen Umfeld entsprechen. Das Vorhandensein von zwei Beinen darf beispielsweise nicht entscheidend dafür sein, von einer KI als Mensch klassifiziert zu werden.
Fehler bei der Datenkennzeichnung
Kennzeichnungsfehler entstehen zudem durch Subjektivität („Schwere der Krankheit“) oder für den Zweck des Modells ungeeignete Bezeichner. Das Kennzeichnen großer Mengen an Daten und die Auswahl geeigneter Bezeichner ist zeit- und kostenintensiv. Oft wird nur ein sehr geringer Anteil der Daten händisch bearbeitet, die KI wird damit geschult und angewiesen die verbleibenden Daten zu kennzeichnen – was nicht immer fehlerfrei gelingt und Fehler reproduziert.
Neben der Datenqualität ist die Menge der verwendeten Daten entscheidend. Es existieren kaum Erfahrungswerte dafür, wie viele Daten für einen Algorithmus nötig sind. Grundsätzlich gilt zwar, dass bei ausreichender Datenmenge ein schwacher Algorithmus gut funktioniert. Die Verfügbarkeit von (markierten) Daten und Rechenleistung begrenzt die Möglichkeiten. Der mindestens erforderliche Datenumfang hängt von der Komplexität des Problems und der Komplexität des KI-Algorithmus ab – wobei nichtlineare Algorithmen in der Regel mehr Daten benötigen als lineare. Üblicherweise werden 70 bis 80% der verfügbaren Daten zum Training des Modells und der Rest zur Verifizierung der Vorhersagen verwendet. Dabei sollten die Trainingsdaten eine maximale Bandbreite von Attributen abdecken.
Eine Künstliche Intelligenz darf keine Black Box sein
Klinisch relevant und erklärbar muss der KI-Algorithmus in einem Medizinprodukt sein. Aufgrund der stark verschachtelten und nichtlinearen Struktur von KI-Modellen verhalten sich diese häufig als Black-Box und die Entscheidungen der KI sind nicht nachvollziehbar. In diesem Fall könnte nicht spezifiziert werden, welcher Teil der Eingabedaten (diagnostische Bilder) zur Entscheidung der KI führt (im Bild gefundenes Krebsgewebe).
Auch KI-Methoden zur MRT- und CT-Bildrekonstruktion haben sich in Praxis sich immer wieder als instabil erwiesen. Schon geringfügige Änderungen an den Eingabebildern können zu völlig unterschiedlichen Ergebnissen führen. Ein Grund dafür ist, dass die Algorithmen nicht immer ausreichend verstanden werden. Ohne transparente und nachvollziehbare KI-Vorhersagen lässt sich die medizinische Aussagekraft der Entscheidung anzweifeln. Einige aktuelle Fehlverhalten von KI in pre-klinischen Anwendungen verstärken diese Zweifel. Eine KI-Entscheidung erklären zu können ist jedoch die Voraussetzung für eine sichere Anwendung am Patienten. Nur so lässt sich Vertrauen gewinnen und erhalten.
Diesen Beitrag lesen Sie auch in der Fachzeitschrift ELEKTRONIKPRAXIS Ausgabe 21/2020 (Download PDF)
Referenzen
[1] Coronavirus: Warum ein Algorithmus zuerst von der Pandemie wusste.
[2] Fragenkatalog: „Künstliche Intelligenz bei Medizinprodukten“
* Dr. Abtin Rad ist Global Director Functional Safety, Software and Digitization, TÜV SÜD Product Service.
(ID:46920575)