Wie gut ist diese KI?
2 Minuten gelesen
Auf einen Blick:
KI-Tools, die schnell und präzise detaillierte Berichte über den CT-Scan oder die Röntgenaufnahme eines Patienten erstellen, können vielbeschäftigten Radiologen die Arbeit erheblich erleichtern.
Anstatt lediglich das Vorhandensein oder Nichtvorhandensein von Anomalien auf einem Bild zu identifizieren, vermitteln diese KI-Berichte komplexe Diagnoseinformationen, detaillierte Beschreibungen, differenzierte Ergebnisse und angemessene Unsicherheitsgrade. Kurz gesagt, sie spiegeln wider, wie menschliche Radiologen beschreiben, was sie auf einem Scan sehen.
Weitere HMS-Neuigkeiten finden Sie hier
Mehrere KI-Modelle, die in der Lage sind, detaillierte narrative Berichte zu erstellen, sind auf den Markt gekommen. Mit ihnen sind automatisierte Bewertungssysteme entstanden, die diese Tools regelmäßig bewerten, um ihre Entwicklung zu informieren und ihre Leistung zu steigern.
Wie gut messen die aktuellen Systeme die radiologische Leistung eines KI-Modells?
Die Antwort ist gut, aber nicht großartig, so eine neue Studie von Forschern der Harvard Medical School, die am 3. August in der Zeitschrift Patterns veröffentlicht wurde.
Die Sicherstellung, dass Bewertungssysteme zuverlässig sind, sei von entscheidender Bedeutung für die weitere Verbesserung der KI-Tools und für das Vertrauen der Kliniker in sie, sagten die Forscher. Allerdings konnten die in der Studie getesteten Metriken klinische Fehler in den KI-Berichten, von denen einige erheblich waren, nicht zuverlässig identifizieren. Das Ergebnis, so die Forscher, verdeutlicht einen dringenden Verbesserungsbedarf und die Bedeutung der Entwicklung von High-Fidelity-Bewertungssystemen, die die Werkzeugleistung zuverlässig und genau überwachen.
Herz Gesundheit. Ernährung. Gehirngesundheit. Und mehr.
Das Team testete verschiedene Bewertungsmetriken anhand von KI-generierten narrativen Berichten. Die Forscher baten außerdem sechs menschliche Radiologen, die von der KI erstellten Berichte zu lesen.
Die Analyse ergab, dass automatisierte Bewertungssysteme im Vergleich zu menschlichen Radiologen schlechtere Ergebnisse bei der Bewertung der von der KI generierten Berichte erzielten. Sie interpretierten die klinischen Fehler des KI-Tools falsch und übersahen sie in einigen Fällen.
„Die genaue Bewertung von KI-Systemen ist der entscheidende erste Schritt zur Erstellung klinisch nützlicher und vertrauenswürdiger Radiologieberichte“, sagte der leitende Autor der Studie, Pranav Rajpurkar, Assistenzprofessor für biomedizinische Informatik am Blavatnik Institute der HMS.
Um bessere Bewertungsmetriken zu entwickeln, entwickelte das Team eine neue Methode (RadGraph F1) zur Bewertung der Leistung von KI-Tools, die automatisch radiologische Berichte aus medizinischen Bildern erstellen.
Sie haben außerdem ein zusammengesetztes Bewertungstool (RadCliQ) entwickelt, das mehrere Metriken in einem einzigen Score kombiniert, der besser dazu passt, wie ein menschlicher Radiologe die Leistung eines KI-Modells bewerten würde.
Mithilfe dieser neuen Bewertungstools zur Bewertung mehrerer hochmoderner KI-Modelle stellten die Forscher eine deutliche Lücke zwischen der tatsächlichen Bewertung der Modelle und der höchstmöglichen Bewertung fest.
„Die Messung des Fortschritts ist unerlässlich, um die KI in der Medizin auf die nächste Stufe zu bringen“, sagte Co-Erstautorin Feiyang „Kathy“ Yu, eine wissenschaftliche Mitarbeiterin im Rajpurkar-Labor. „Unsere quantitative Analyse bringt uns näher an die KI heran, die Radiologen dabei unterstützt, eine bessere Patientenversorgung zu gewährleisten.“
Langfristig besteht die Vision der Forscher darin, allgemeine medizinische KI-Modelle zu entwickeln, die eine Reihe komplexer Aufgaben erfüllen, einschließlich der Fähigkeit, noch nie zuvor aufgetretene Probleme zu lösen. Solche Systeme könnten laut Rajpurkar fließend mit Radiologen und Ärzten über medizinische Bilder kommunizieren, um bei Diagnose- und Behandlungsentscheidungen zu helfen.
Ziel des Teams ist es außerdem, KI-Assistenten zu entwickeln, die Patienten Bildgebungsbefunde in alltäglicher, einfacher Sprache direkt erklären und kontextualisieren können.
„Durch die bessere Abstimmung mit Radiologen werden unsere neuen Metriken die Entwicklung von KI beschleunigen, die sich nahtlos in den klinischen Arbeitsablauf integriert, um die Patientenversorgung zu verbessern“, sagte Rajpurkar.
Urheberschaft, Finanzierung, Offenlegung
Zu den Co-Autoren gehören Mark Endo, Ryan Krishnan, Ian Pan, Andy Tsai, Eduardo Pontes Reis, Eduardo Kaiser, Ururahy Nunes Fonseca, Henrique Min, Ho Lee, Zahra Shakeri, Hossein Abad, Andrew Ng, Curtis P. Langlotz und Vasantha Kumar Venugopal.
Die Unterstützung für diese Arbeit wurde teilweise vom Medical Imaging Data Resource Center im Rahmen der Verträge 75N92020C00008 und 75N92020C00021 des National Institute of Biomedical Imaging and Bioengineering der National Institutes of Health bereitgestellt.
Pan ist Berater für MD.ai und Diagnosticos da America. Langlotz ist Mitglied des Vorstands und Aktionär von Bunkerhill Health. Er ist Berater und Optionsinhaber für GalileoCDS, Sirona Medical, Adra und Kheiron. Er ist Berater von Sixth Street und Optionsinhaber bei Whiterabbit.ai. Sein Forschungsprogramm erhielt Zuschüsse oder Schenkungen von Carestream, Clairity, GE HealthCare, Google Cloud, IBM, IDEXX, Hospital Israelita Albert Einstein, Kheiron, Lambda, Lunit, Microsoft, Nightingale Open Science, Nines, Philips, Subtle Medical, VinBrain, Whiterabbit.ai, der Paustenbach Fund, die Lowenstein Foundation und die Gordon and Betty Moore Foundation.
Auf einen Blick:Neue Studie identifiziert besorgniserregende Lücken zwischen der Bewertung der Genauigkeit von KI-generierten Radiologieberichten durch menschliche Radiologen und der Bewertung durch automatisierte Systeme.Die Forscher entwickelten zwei neuartige Bewertungssysteme, die aktuelle automatisierte Systeme zur Bewertung der Genauigkeit von KI-Berichten übertreffen.Zuverlässige Bewertungssysteme, die die Leistung von KI-Modellen genau messen, sind entscheidend, um sicherzustellen, dass sich die KI weiter verbessert und Ärzte ihnen vertrauen können.Weitere HMS-Neuigkeiten finden Sie hierVerbesserung der PunktzahlUrheberschaft, Finanzierung, Offenlegung