Wahrung der Privatsphäre bei der chirurgischen Videoanalyse mithilfe eines Deep-Learning-Klassifikators zur Identifizierung
Wissenschaftliche Berichte Band 13, Artikelnummer: 9235 (2023) Diesen Artikel zitieren
129 Zugriffe
6 Altmetrisch
Details zu den Metriken
Die chirurgische Videoanalyse erleichtert Ausbildung und Forschung. Allerdings können Videoaufzeichnungen von endoskopischen Eingriffen datenschutzrelevante Informationen enthalten, insbesondere wenn die endoskopische Kamera aus dem Körper des Patienten herausbewegt wird und außerkörperliche Szenen aufgezeichnet werden. Daher ist die Identifizierung außerkörperlicher Szenen in endoskopischen Videos von großer Bedeutung, um die Privatsphäre von Patienten und OP-Personal zu schützen. Diese Studie entwickelte und validierte ein Deep-Learning-Modell zur Identifizierung außerkörperlicher Bilder in endoskopischen Videos. Das Modell wurde anhand eines internen Datensatzes von 12 verschiedenen Arten von laparoskopischen und robotergestützten Operationen trainiert und ausgewertet und extern anhand von zwei unabhängigen multizentrischen Testdatensätzen von laparoskopischen Magenbypass- und Cholezystektomie-Operationen validiert. Die Modellleistung wurde im Vergleich zu menschlichen Ground-Truth-Annotationen bewertet, bei denen der Betriebscharakteristikbereich des Empfängers unter der Kurve (ROC AUC) gemessen wurde. Der interne Datensatz bestehend aus 356.267 Bildern aus 48 Videos und die beiden multizentrischen Testdatensätze bestehend aus 54.385 bzw. 58.349 Bildern aus 10 bzw. 20 Videos wurden annotiert. Das Modell identifizierte außerkörperliche Bilder mit 99,97 % ROC AUC im internen Testdatensatz. Der Mittelwert ± Standardabweichung ROC AUC für den multizentrischen Magenbypass-Datensatz betrug 99,94 ± 0,07 % bzw. 99,71 ± 0,40 % für den multizentrischen Cholezystektomie-Datensatz. Das Modell kann außerkörperliche Bilder in endoskopischen Videos zuverlässig identifizieren und wird öffentlich geteilt. Dies erleichtert die Wahrung der Privatsphäre bei der chirurgischen Videoanalyse.
„Und was auch immer ich im Laufe meines Berufs sehen oder hören werde, […] wenn es etwas ist, das nicht im Ausland veröffentlicht werden darf, werde ich es niemals preisgeben, da ich solche Dinge für heilige Geheimnisse halte.“1
hippokratischer Eid
Die chirurgische Videoanalyse erleichtert die Ausbildung (Überprüfung kritischer Situationen und individuelles Feedback)2,3, die Zertifizierung (videobasierte Beurteilung)4 und die Forschung (Standardisierung der chirurgischen Technik in multizentrischen Studien5, Beurteilung der chirurgischen Fähigkeiten)6,7. Trotz ihrer zunehmenden Nutzung wurde das volle Potenzial der chirurgischen Videoanalyse bisher nicht ausgeschöpft, da die manuelle Fallprüfung zeitaufwändig und kostspielig ist, Expertenwissen erfordert und Bedenken hinsichtlich des Datenschutzes aufwirft.
Daher wurden in letzter Zeit chirurgische datenwissenschaftliche Ansätze übernommen, um die chirurgische Videoanalyse zu automatisieren. Modelle der künstlichen Intelligenz (KI) wurden darauf trainiert, Phasen eines Eingriffs8,9,10, Werkzeuge8,11 und Aktionen12 in Operationsvideos zu erkennen. Dies ermöglicht nachgelagerte Anwendungen wie die Schätzung der verbleibenden Operationsdauer13, die automatisierte Dokumentation kritischer Ereignisse14, die Bewertung der chirurgischen Fähigkeiten15 und des Erreichens von Sicherheitskontrollpunkten16 oder die intraoperative Führung17.
KI wird die Kosten und den Zeitaufwand für Experten, die Operationsvideos überprüfen, weiterhin reduzieren. Allerdings wurden die Datenschutzbedenken hinsichtlich der Aufzeichnung, Speicherung, Handhabung und Veröffentlichung von Patientenvideodaten bisher nicht umfassend berücksichtigt. Das Arzt-Patienten-Privileg, das aus dem Hippokratischen Eid stammt, schützt medizinische Daten und die Identität von Patienten vor rechtlichen Ermittlungen. Eine Verletzung der ärztlichen Schweigepflicht durch medizinisches Personal ist in den meisten Ländern strafbar. Besonders empfindlich sind endoskopische Videos, die während der Narkose des Patienten im Operationssaal (OP) aufgenommen werden. Sie enthalten häufig Szenen aus dem OP-Bereich, die möglicherweise sensible Informationen wie die Identität von Patienten oder OP-Personal preisgeben könnten. Werden zudem im Raum vorhandene Uhren oder Kalender im Video erfasst, lässt sich die Uhrzeit bzw. das Datum des jeweiligen Eingriffs erkennen. Informationen über Datum und Uhrzeit einer Operation erleichtern die Identifizierung des operierten Patienten. Diese außerhalb des Körpers des Patienten aufgenommenen Szenen werden als außerkörperliche Szenen bezeichnet. Wenn die Videoaufzeichnung bereits vor dem Einführen des Endoskops in den Patienten gestartet wurde, nach Beendigung der Operation nicht gestoppt wurde oder jedes Mal, wenn das Endoskop während der Operation gereinigt wird, werden außerkörperliche Szenen erfasst.
Die jüngsten Entwicklungen in den Bereichen Computer Vision und Deep Learning werden durch umfangreiche und öffentlich verfügbare Datensätze vorangetrieben. Im Gegensatz dazu sind medizinische Anwendungen von Deep Learning oft durch kleine und eingeschränkte Datensätze eingeschränkt. Die Deidentifizierung endoskopischer Videos durch Unschärfe oder Löschung von Szenen außerhalb des Körpers ermöglicht die Aufzeichnung, Speicherung, Handhabung und Veröffentlichung von Operationsvideos ohne das Risiko einer Verletzung der ärztlichen Schweigepflicht.
In diesem Artikel wird über die Entwicklung und Validierung eines auf Deep Learning basierenden Bildklassifikators zur Identifizierung außerkörperlicher Szenen in endoskopischen Videos berichtet, genannt Out-of-Body Network (OoBNet). OoBNet ermöglicht den Schutz der Privatsphäre von Patienten und OP-Personal durch die automatische Erkennung außerkörperlicher Szenen in endoskopischen Videos. Die externe Validierung von OoBNet wird an zwei unabhängigen multizentrischen Datensätzen von laparoskopischen Roux-en-Y-Magenbypass- und laparoskopischen Cholezystektomie-Operationen durchgeführt. Das trainierte Modell und eine ausführbare Anwendung von OoBNet werden veröffentlicht, um Chirurgen, Datenwissenschaftlern und Krankenhausverwaltungspersonal ein benutzerfreundliches Tool zur Anonymisierung endoskopischer Videos bereitzustellen.
Der für die Entwicklung von OoBNet verwendete Datensatz wurde aus Operationen erstellt, die im Universitätskrankenhaus Straßburg, Frankreich, aufgezeichnet wurden18. Vier Videoaufzeichnungen für jedes der folgenden endoskopischen Verfahren wurden willkürlich ausgewählt: Laparoskopische Nissen-Fundoplikatio, Roux-en-Y-Magenbypass, Hülsengastrektomie, Leberchirurgie, Pankreaschirurgie, Cholezystektomie, Sigmoidektomie, Eventration, Adrenalektomie, Hernienchirurgie, robotische Roux-en-Operation -Y-Magenbypass und robotische Schlauchmagenoperation. Der Datensatz mit 48 Videos wurde in Trainings-, Validierungs- und Test-Set aufgeteilt, einschließlich 2, 1 bzw. 1 Video jedes Verfahrens.
Die externe Validierung des Modells erfolgte anhand einer Zufallsstichprobe von 5 Videos aus 6 Zentren und zwei unabhängigen multizentrischen Datensätzen. (1) Ein Datensatz von 140 laparoskopischen Roux-en-Y-Magenbypass-Videos aus dem Universitätsklinikum Straßburg, Frankreich und dem Inselspital, Universitätsklinikum Bern, Schweiz19. (2) Ein Datensatz von 174 Videos zur laparoskopischen Cholezystektomie aus vier italienischen Zentren: Policlinico Universitario Agostino Gemelli, Rom; Azienda Ospedaliero-Universitaria Sant'Andrea, Rom; Fondazione IRCCS Ca' Granda Ospedale Maggiore Policlinico, Mailand; und Monaldi Hospital, Neapel. Dieser Datensatz wurde für die multizentrische Validierung von EndoDigest gesammelt, einer Computer-Vision-Plattform zur Videodokumentation der kritischen Sicht auf Sicherheit (CVS)20.
Eine Darstellung der Datensatzaufteilung für Modellentwicklung, interne und multizentrische externe Validierung ist in Abb. 1 dargestellt.
Darstellung von Datensatzaufteilungen für Modellentwicklung, interne und externe Validierung. Jedes Quadrat repräsentiert ein Video. Videos aus demselben Zentrum haben dieselbe Farbe.
Jedes Krankenhaus erfüllte die Anforderungen des örtlichen Institutional Review Board (IRB). Die Patienten stimmten entweder der Aufzeichnung ihres Eingriffs oder der Nutzung ihrer Gesundheitsakte für Forschungszwecke zu. Alle Videos wurden als Rohvideomaterial ohne identifizierende Metadaten geteilt. Daher wurde auf die Notwendigkeit einer ethischen Genehmigung verzichtet, mit Ausnahme des Inselspitals, Universitätsspital Bern, Schweiz, wo die ethische Genehmigung vom örtlichen IRB erteilt wurde (KEK Bern 2021-01666).
Jedes Video wurde mit einer Rate von 1 Bild pro Sekunde in Bilder aufgeteilt. Alle Bilder wurden binär kommentiert und befanden sich entweder im Bauch des Patienten oder außerhalb des Körpers. Das Ventil des Trokars war der visuelle Hinweis für den Übergang von innen nach außen. Alle Fassungen, bei denen die Klappe des Optiktrokars sichtbar ist, gelten aus Sicherheitsgründen als außerhalb des Körpers liegende Fassungen, um die Privatsphäre zu wahren. Alle Datensätze wurden von einem einzigen Annotator (AV) mit Anmerkungen versehen. Randfälle wurden von einem staatlich geprüften Chirurgen mit umfassender Erfahrung in der chirurgischen Videoanalyse (JLL) überprüft.
OoBNet ist ein Deep-Learning-basierter Bildklassifikator, der MobileNetV221 als Rückgrat verwendet, gefolgt von Dropout (mit Dropout-Rate 0,5), einem langen Kurzzeitgedächtnis (LSTM mit 640 Einheiten)22, linearen und sigmoiden Schichten. Die Ebenennormalisierung wurde vor den Dropout- und linearen Ebenen angewendet. MobileNetV2 ist eine Modellarchitektur, die für die Bilderkennung mit geringen Rechenressourcen wie in mobilen Geräten und Smartphones entwickelt wurde. Die LSTM-Schicht enthält Speichergatter, die Kontextbewusstsein in die Frame-Klassifizierung bringen. Im Rahmen der Vorverarbeitung wurde die Größe der Eingabebilder auf 64 × 64 Pixel geändert und anschließend durch zufällige Rotation und Kontrast ergänzt. Die Datenerweiterung ist eine gängige Methode, um Varianz im Eingabedatensatz zu erzeugen und so die Robustheit des Modells zu verbessern. Die Ausgabe von OoBNet ist ein wahrscheinlichkeitsähnlicher Wert, der dann entweder auf 0 oder 1 binarisiert wird, um vorherzusagen, ob es sich bei dem Bild um einen Frame innerhalb oder außerhalb des Körpers handelt (Abb. 2).
Modellarchitektur von OoBNet. Die Größe des Eingabebildes wird auf 64 × 64 Pixel geändert und durch zufällige Drehung und Kontrast erweitert. Anschließend wird es dem tiefen neuronalen Netzwerk mit einem konsekutiven Langzeit-Kurzzeitgedächtnis (LSTM) zugeführt, das einen wahrscheinlichkeitsähnlichen Wert ausgibt, unabhängig davon, ob das Bild außerhalb des Körpers liegt oder nicht. Diese Wahrscheinlichkeit wird bei einem Schwellenwert von 0,5 entweder auf 0 (innerhalb des Körpers) oder 1 (außerhalb des Körpers befindliches OOB) gerundet.
Das Netzwerk wurde an Videoclips von 2048 aufeinanderfolgenden Bildern über 300 Epochen (Zyklen) trainiert, wobei ein früher Stopp entsprechend dem höchsten F1-Score des Validierungsdatensatzes angewendet wurde. Der verwendete Optimierer war Adam23 mit einer Lernrate von 0,00009 und einer Batchgröße von 2048. Das trainierte Modell und eine ausführbare Anwendung von OoBNet sind unter https://github.com/CAMMA-public/out-of-body-detector verfügbar.
OoBNet wurde anhand des Testdatensatzes ausgewertet, der weder für das Modelltraining noch für die Validierung verwendet wurde. Darüber hinaus wurde eine externe Bewertung an zwei unabhängigen und multizentrischen Datensätzen durchgeführt, wie oben beschrieben. Die Vorhersagen von OoBNet wurden mit menschlichen Ground-Truth-Annotationen verglichen. Die Leistung von OoBNet wurde als Präzision, Rückruf, F1-Score, durchschnittliche Präzision und Receiver Operating Characteristic Area Under the Curve (ROC AUC) gemessen. Präzision ist der Anteil richtig positiver Ergebnisse an allen positiven Vorhersagen (wahre und falsche positive Ergebnisse), auch positiver Vorhersagewert genannt. Unter Recall versteht man den Anteil wahr-positiver Ergebnisse an allen relevanten Vorhersagen (wahr-positive und falsch-negative Ergebnisse), auch Sensitivität genannt. Der F1-Score ist das harmonische Mittel für Präzision und Erinnerung. Die durchschnittliche Präzision ist die Fläche unter der Präzisions-Erinnerungskurve. ROC AUC ist die Fläche unter der Betriebskennlinie des Empfängers, die durch Auftragen der Empfindlichkeit gegen die 1-Spezifität erstellt wird. Sie wird auch als C-Statistik bezeichnet.
OoBNet wurde anhand eines internen Datensatzes von 48 Videos mit einer mittleren Dauer ± Standardabweichung (SD) von 123 ± 79 Minuten trainiert, validiert und getestet. mit insgesamt 356.267 Bildern. Davon waren 112.254 (31,51 %) Außerkörperaufnahmen. Die externe Validierung von OoBNet wurde anhand eines Magenbypass-Datensatzes von 10 Videos mit einer mittleren Dauer ± SD von 90 ± 27 Minuten durchgeführt. mit insgesamt 54.385 Bildern (4,15 % außerkörperliche Bilder) und auf einem Cholezystektomie-Datensatz von 20 Videos mit einer mittleren Dauer ± SD von 48 ± 22 Minuten. Enthält insgesamt 58.349 Frames (8,65 % Out-of-Body-Frames). Die vollständigen Datensatzstatistiken und die Verteilung der Frames über Trainings-, Validierungs- und Testsätze werden in Tabelle 1 angezeigt.
Die am Testsatz bewertete ROC-AUC von OoBNet betrug 99,97 %. Die mittlere ROC AUC ± SD von OoBNet, ausgewertet anhand des multizentrischen Magenbypass-Datensatzes, betrug 99,94 ± 0,07 %. Die mittlere ROC AUC ± SD von OoBNet, ausgewertet anhand des multizentrischen Cholezystektomie-Datensatzes, betrug 99,71 ± 0,40 %. Die vollständigen quantitativen Ergebnisse sind in Tabelle 2 aufgeführt. Die Verwirrungsmatrizen des Testsatzes, des multizentrischen Magenbypass-Datensatzes und des multizentrischen Cholezystektomie-Datensatzes sind in Abb. 3A–G dargestellt. OoBNet wurde anhand von insgesamt 111.974 Frames ausgewertet, von denen 557 Frames (0,50 %) fälschlicherweise als im Körper befindliche Frames klassifiziert wurden, obwohl es sich um Frames außerhalb des Körpers handelte (falsch negative Vorhersagen). Qualitative Ergebnisse, die falsch positive und falsch negative Vorhersagen von OoBNet veranschaulichen, sind in Abb. 4 dargestellt. Ein Video mit qualitativen Ergebnissen von OoBNet ist in der Ergänzung enthalten (Ergänzungsvideo S1, das zeigt, wie endoskopische Videos mit OoBNet anonymisiert werden können).
Verwirrungsmatrizen. (A) Testsatz; (B) und (C) Zentren 1 und 2 (multizentrischer Magenbypass-Datensatz); (D–G) Zentren 3, 4, 5 und 6 (multizentrischer Cholezystektomie-Datensatz).
Qualitative Ergebnisse. Obere Reihe: Falsch positive Modellvorhersagen (OoBNet sagt voraus, dass der Frame außerhalb des Körpers liegt, obwohl dies nicht der Fall ist). Untere Reihe: Falsch negative Modellvorhersagen (OoBNet sagt voraus, dass sich der Frame innerhalb des Körpers befindet, obwohl er sich außerhalb des Körpers befindet). Unter jedem Bild werden die binären menschlichen Ground-Truth-Anmerkungen und die wahrscheinlichkeitsähnlichen Modellvorhersagen bereitgestellt. In (A) beeinträchtigt chirurgischer Rauch das Sehvermögen. In (B–D) sind ein Netz, ein Tupfer und Gewebe so nah beieinander, dass es – ohne den zeitlichen Kontext – selbst für einen menschlichen Annotator schwierig ist zu unterscheiden, ob es sich außerhalb des Körpers befindet oder nicht. In (E) und (F) ahmen Blut auf dem Endoskop und ein Handschuh mit Blutflecken eine Innenansicht nach. In (G) bedeckt ein OP-Handtuch den größten Teil des Körpers des Patienten, sodass dem Modell visuelle Hinweise auf eine Außerkörperaufnahme fehlen. In (H) wird das Endoskop in einer Thermoskanne gereinigt, die das Innere eines Metalltrokars nachahmt.
Diese Studie berichtet über die Entwicklung und multizentrische Validierung eines auf Deep Learning basierenden Bildklassifikators zur Erkennung außerkörperlicher Bilder in endoskopischen Videos. OoBNet zeigte eine Leistung von 99 % ROC AUC bei der Validierung von drei unabhängigen Datensätzen. Mithilfe des bereitgestellten trainierten Modells oder der ausführbaren Anwendung kann OoBNet problemlos zur nachträglichen Anonymisierung endoskopischer Videos eingesetzt werden. Dies ermöglicht die Erstellung von Videodatenbanken unter Wahrung der Privatsphäre des Patienten und des OP-Personals und erleichtert darüber hinaus die Verwendung endoskopischer Videos für Bildungs- oder Forschungszwecke, ohne dass vertrauliche Informationen preisgegeben werden.
Unseres Wissens ist OoBNet der erste Out-of-Body-Bildklassifizierer, der anhand von Videos mehrerer Eingriffe trainiert und anhand von zwei externen Datensätzen validiert wurde. Frühere Arbeiten unserer Gruppe verwendeten einen unbeaufsichtigten Computer-Vision-Ansatz, um außerkörperliche Frames zu identifizieren. Basierend auf den Rötungs- und Helligkeitsgraden der Bilder wurden sie anhand eines empirisch festgelegten Schwellenwerts als innerhalb des Körpers oder außerhalb des Körpers klassifiziert24. Zohar et al. verwendeten einen halbüberwachten Ansatz des maschinellen Lernens, um außerkörperliche Szenen in einem großen Datensatz von Videos zur laparoskopischen Cholezystektomie zu erkennen, was eine Genauigkeit von 97 % ergab25. Diese frühere Studie weist jedoch zwei wesentliche Einschränkungen auf. Einerseits ist die wichtigste Leistungsmetrik die Genauigkeit. Die Genauigkeit hängt von der Datenverteilung oder der Häufigkeit einer bestimmten Beobachtung ab. Andererseits wurde das Training nur anhand eines Datensatzes eines einzelnen Interventionstyps durchgeführt. Dies stellt nicht sicher, dass das Modell auf andere Interventionstypen verallgemeinert werden kann.
Typischerweise werden Bildklassifikatoren darauf trainiert, visuell unterschiedliche Klassen zu unterscheiden. Die Klassifizierung von Bildern eines endoskopischen Videos als innerhalb oder außerhalb des Körpers scheint analog. Allerdings gibt es zwischen dem Inneren und dem Äußeren des Körpers einen Übergang, bei dem die Kamera innerhalb oder außerhalb des Körpers bewegt wird, was möglicherweise mehrdeutig erscheint. Daher ist die Definition, wann sich ein Bild innerhalb oder außerhalb des Körpers befindet, von entscheidender Bedeutung. Wir haben definiert, dass das Ventil des Optiktrokars der visuelle Hinweis für den Übergang vom Inneren zum Außerkörperlichen und umgekehrt ist. Um auf der Seite des Schutzes der Privatsphäre zu irren: Sobald das Ventil sichtbar ist, gilt der Rahmen als außerhalb des Körpers befindlicher Rahmen, auch wenn sich die Kamera noch im Optiktrokar befindet. Mithilfe eines LSTM-Moduls in der Modellarchitektur haben wir den zeitlichen Kontext von Frames innerhalb und außerhalb des Körpers berücksichtigt und eine Fehlklassifizierung beim Phasenübergang von innerhalb zu außerhalb des Körpers und umgekehrt aufgrund von Phasenflimmern vermieden.
Trotz der hervorragenden Leistung von OoBNet, selbst bei externer Validierung, hat das Modell seine Grenzen. Nicht jeder Frame wurde korrekt klassifiziert. Der ideale Klassifikator hätte weder falsch positive (vom Modell als außerhalb des Körpers vorhergesagt, obwohl er sich im Körper befindet) noch falsch negative Vorhersagen (vom Modell als außerhalb des Körpers vorhergesagt, obwohl er sich außerhalb des Körpers befand). Um jedoch auf der Website zum Schutz der Privatsphäre einen Fehler zu machen, müssen falsch-negative Vorhersagen minimiert werden. Mit anderen Worten: Der Schwellenwert des Klassifikators muss hinsichtlich der Empfindlichkeit (Rückruf) optimiert werden. Maximale Empfindlichkeit und keine falsch-negativen Vorhersagen können jedoch nur dann erreicht werden, wenn jedes Bild als außerhalb des Körpers klassifiziert wird. Allerdings wäre dies ein völlig unspezifischer Klassifikator, der zu einem völligen Verlust der inneren Körperbilder führen würde, die für die chirurgische Videoanalyse relevant sind. Daher muss ein Kompromiss zwischen Präzision und Rückruf geschlossen werden. Da der F1-Score das harmonische Mittel aus Präzision und Erinnerung ist, optimiert ein Klassifikator mit maximalem F1-Score gleichzeitig Präzision und Erinnerung. In dieser Studie wurde der maximale F1-Score des Validierungssatzes als frühes Stoppkriterium für das Modelltraining verwendet und bei einem Klassifikatorschwellenwert von 0,73 erreicht. Da dieser Schwellenwert jedoch mehr falsch-negative Vorhersagen zugunsten weniger falsch-positiver Vorhersagen ergab, haben wir den Standardschwellenwert von 0,5 verwendet. Bemerkenswert ist, dass der Klassifikatorschwellenwert in dieser Studie nicht durch Modelltraining gelernt, sondern manuell eingestellt wurde, um falsch-negative Vorhersagen bei einer akzeptablen falsch-positiven Rate zu minimieren. Die Verwendung eines Schwellenwerts < 0,5 hätte die Anzahl der falsch-negativen Ergebnisse jedoch weiter reduziert und die Anzahl der falsch-positiven Ergebnisse erhöht (siehe die Anzahl der falsch-negativen und falsch-positiven Vorhersagen bei unterschiedlichen Schwellenwerten für alle drei Testsätze, ergänzende Abbildung S1). .
Wie qualitative Ergebnisse zeigen (Abb. 4), war die Leistung von OoBNet eingeschränkt, wenn die endoskopische Sicht durch chirurgischen Rauch, Nebel oder Blut beeinträchtigt war. Darüber hinaus sagte OoBNet falsch positive Ergebnisse voraus, wenn sich Objekte (Netz, Tupfer, Gewebe) so nahe an der Kamera befanden, dass die Sicht verschwommen war und es selbst für einen menschlichen Annotator schwierig war zu unterscheiden, ob ein bestimmtes Bild außerhalb des Körpers liegt oder nicht. Weitere Arbeiten zur Verbesserung der Leistung von OoBNet würden ein Modelltraining für eine größere Anzahl dieser Randfälle mit eingeschränkter endoskopischer Sicht umfassen. Darüber hinaus sagte OoBNet falsch negative Ergebnisse voraus, wenn ein außerhalb des Körpers befindliches Bild optisch einer Innenszene ähnelte. Die manuelle Überprüfung aller falsch-negativen Vorhersagen (n = 557) in allen Testdatensätzen ergab drei datenschutzrelevante Bereiche, in denen möglicherweise OP-Personal identifiziert worden sein könnte. Von den 111.974 Frames, die OoBNet ausgewertet hat, ergab jedoch kein einziger Frame die Identität des Patienten, die Uhrzeit oder das Datum des Eingriffs. Dennoch müssen mit OoBNet anonymisierte Videos manuell überarbeitet werden, um die ärztliche Schweigepflicht zu gewährleisten, bevor sie gespeichert, geteilt oder veröffentlicht werden. Allerdings reduziert OoBNet den Zeitaufwand für die manuelle Überarbeitung, da falsch-negative Vorhersagen häufig in zeitlicher Nähe zu wirklich positiven Vorhersagen liegen.
Bei der externen Validierung zeigte OoBNet einen Rückgang des F1-Scores um bis zu 6,7 % Punkte. Dies steht im Einklang mit Ergebnissen der multizentrischen Validierung anderer KI-Modelle im chirurgischen Bereich. Beispielsweise haben hochmoderne chirurgische Phasenerkennungsmodelle eine unterschiedliche Leistung bei der multizentrischen Validierung gezeigt26,27. Darüber hinaus zeigte EndoDigest, eine Computer-Vision-Plattform für die Videodokumentation von CVS bei der laparoskopischen Cholezystektomie, bei Validierung an einem multizentrischen externen Datensatz eine erfolgreiche CVS-Dokumentation von 64–79 % im Vergleich zu 91 % erfolgreicher CVS-Dokumentation am internen Datensatz14,20. Daher sollte die Leistung von KI-Modellen, die anhand eines einzelnen Datensatzes trainiert und bewertet werden, mit Vorsicht betrachtet werden, und diese Ergebnisse unterstreichen die Notwendigkeit einer externen Validierung von KI-Modellen. Es hat sich jedoch gezeigt, dass sich unser Modell gut auf Videos von mehreren externen Zentren übertragen lässt.
Die Bedeutung von OoBNet liegt in seiner hohen Zuverlässigkeit bei der Identifizierung außerkörperlicher Frames in endoskopischen Videos. OoBNet ist auf eine Reihe äußerst unterschiedlicher endoskopischer Operationen, einschließlich Roboteroperationen, geschult, um den unterschiedlichen visuellen Erscheinungsbildern von Anatomie, Instrumenten und Operationssälen Rechnung zu tragen. Darüber hinaus wird OoBNet anhand von zwei unabhängigen Datensätzen evaluiert, um seine Fähigkeit zur Verallgemeinerung über Zentren hinweg zu zeigen. OoBNet wird öffentlich als Tool zur Erleichterung der Speicherung, Handhabung und Veröffentlichung endoskopischer Videos unter Wahrung der Privatsphäre genutzt.
Zusammenfassend lässt sich sagen, dass OoBNet außerkörperliche Frames in endoskopischen Videos unserer Datensätze mit einer ROC-AUC von 99 % identifizieren kann. Es wurde umfassend anhand interner und externer multizentrischer Datensätze validiert. OoBNet kann mit hoher Zuverlässigkeit zur Anonymisierung endoskopischer Videos für Archivierungs-, Forschungs- und Bildungszwecke verwendet werden.
Der Code des Modells, die trainierten Modellgewichte und eine ausführbare Datei sind unter https://github.com/CAMMA-public/out-of-body-detector verfügbar. Aus Datenschutzgründen können die in der vorliegenden Arbeit verwendeten Datensätze nicht öffentlich geteilt werden.
Hippokrates von Kos. Der Eid. (1923) https://doi.org/10.4159/DLCL.hippocrates_cos-oath.1923.
Bonrath, EM, Gordon, LE & Grantcharov, TP Charakterisierung von „Beinaheunfällen“ in komplexen laparoskopischen Eingriffen durch Videoanalyse. BMJ-Qualifikation. Sicher. 24, 490–491 (2015).
Artikel Google Scholar
Bonrath, EM, Dedy, NJ, Gordon, LE & Grantcharov, TP Umfassendes chirurgisches Coaching verbessert die chirurgischen Fähigkeiten im Operationssaal: Eine randomisierte kontrollierte Studie. Ann. Surg. 262, 205–212 (2015).
Artikel PubMed Google Scholar
Miskovic, D. et al. Ist eine Kompetenzbeurteilung auf Fachebene erreichbar? Eine Studie für das National Training Program in laparoskopischer kolorektaler Chirurgie in England. Ann. Surg. 257, 476–482 (2013).
Artikel PubMed Google Scholar
Harris, A. et al. Entwicklung eines zuverlässigen chirurgischen Qualitätssicherungssystems für die zweizeitige Ösophagektomie in randomisierten kontrollierten Studien. Ann. Surg. 275, 121–130 (2022).
Artikel PubMed Google Scholar
Birkmeyer, JD et al. Chirurgische Fähigkeiten und Komplikationsraten nach bariatrischer Chirurgie. N. engl. J. Med. 369, 1434–1442 (2013).
Artikel CAS PubMed Google Scholar
Fecso, AB, Bhatti, JA, Stotland, PK, Quereshy, FA & Grantcharov, TP Technische Leistung als Prädiktor für klinische Ergebnisse bei der laparoskopischen Magenkrebschirurgie. Ann. Surg. 270, 115–120 (2019).
Artikel PubMed Google Scholar
Twinanda, AP et al. EndoNet: Eine tiefe Architektur für Erkennungsaufgaben auf laparoskopischen Videos. IEEE Trans. Med. Bildgebung 36, 86–97 (2017).
Artikel PubMed Google Scholar
Hashimoto, DA et al. Computer-Vision-Analyse von intraoperativem Video: Automatisierte Erkennung operativer Schritte bei der laparoskopischen Hülsengastrektomie. Ann. Surg. 270, 414–421 (2019).
Artikel PubMed Google Scholar
Ramesh, S. et al. Zeitliche Multitasking-Faltungsnetzwerke zur gemeinsamen Erkennung chirurgischer Phasen und Schritte bei Magenbypass-Eingriffen. Int. J. Comput. Helfen. Radiol. Surg. 16, 1111–1119 (2021).
Artikel PubMed PubMed Central Google Scholar
Nwoye, CI, Mutter, D., Marescaux, J. & Padoy, N. Schwach überwachter Faltungs-LSTM-Ansatz für die Werkzeugverfolgung in laparoskopischen Videos. Int. J. Comput. Helfen. Radiol. Surg. 14, 1059–1067 (2019).
Artikel PubMed Google Scholar
Nwoye, CI et al. Erkennung von Instrument-Gewebe-Interaktionen in endoskopischen Videos über Aktionstripletts. In MICCAI 2020. Vorlesungsunterlagen in Informatik (Springer, 2020) https://doi.org/10.1007/978-3-030-59716-0_35.
Twinanda, AP, Yengera, G., Mutter, D., Marescaux, J. & Padoy, N. RSDNet: Lernen, die verbleibende Operationsdauer aus laparoskopischen Videos ohne manuelle Anmerkungen vorherzusagen. IEEE Trans. Med. Bildgebung 38, 1069–1078 (2019).
Artikel PubMed Google Scholar
Mascagni, P. et al. Eine Computer-Vision-Plattform zur automatischen Lokalisierung kritischer Ereignisse in Operationsvideos: Dokumentation der Sicherheit bei der laparoskopischen Cholezystektomie. Ann. Surg. 274, e93–e95 (2021).
Artikel PubMed Google Scholar
Lavanchy, JL et al. Automatisierung der Beurteilung chirurgischer Fähigkeiten mithilfe eines dreistufigen Algorithmus für maschinelles Lernen. Wissenschaft. Rep. 11, 5197 (2021).
Artikel ADS CAS PubMed PubMed Central Google Scholar
Mascagni, P. et al. Künstliche Intelligenz für chirurgische Sicherheit. Ann. Surg. 275, 955–961 (2022).
Artikel PubMed Google Scholar
Aspart, F. et al. ClipAssistNet: Bringt Echtzeit-Sicherheitsfeedback in Operationssäle. Int. J. Comput. Helfen. Radiol. Surg. 17, 5–13 (2022).
Artikel PubMed Google Scholar
Yu, T. et al. Live-Laparoskopischer Videoabruf mit komprimierter Unsicherheit. Vorabdruck unter http://arxiv.org/abs/2203.04301 (2022).
Lavanchy, JL et al. Vorschlag und multizentrische Validierung einer Ontologie der laparoskopischen Roux-en-Y-Magenbypass-Operation. Surg. Endosz. https://doi.org/10.1007/s00464-022-09745-2 (2022).
Artikel PubMed PubMed Central Google Scholar
Mascagni, P. et al. Multizentrische Validierung von EndoDigest: Eine Computer-Vision-Plattform zur Videodokumentation der kritischen Sicht auf die Sicherheit bei der laparoskopischen Cholezystektomie. Surg. Endosz. https://doi.org/10.1007/s00464-022-09112-1 (2022).
Artikel PubMed Google Scholar
Sandler, M., Howard, A., Zhu, M., Zhmoginov, A. & Chen, L.-C. MobileNetV2: Invertierte Residuen und lineare Engpässe. Im Jahr 2018 IEEE/CVF-Konferenz zu Computer Vision und Mustererkennung 4510–4520 (IEEE, 2018) https://doi.org/10.1109/CVPR.2018.00474.
Hochreiter, S. & Schmidhuber, J. Langes Kurzzeitgedächtnis. Neuronale Berechnung. 9, 1735–1780 (1997).
Artikel CAS PubMed Google Scholar
Kingma, DP & Ba, J. Adam: Eine Methode zur stochastischen Optimierung. (2014) https://doi.org/10.48550/ARXIV.1412.6980.
Twinanda, AP, Marescaux, J., de Mathelin, M. & Padoy, N. Klassifizierungsansatz für die automatische Organisation laparoskopischer Videodatenbanken. Int. J. Comput. Helfen. Radiol. Surg. 10, 1449–1460 (2015).
Artikel PubMed Google Scholar
Zohar, M., Bar, O., Neimark, D., Hager, GD & Asselmann, D. Präzise Erkennung von außerkörperlichen Segmenten in chirurgischen Videos mithilfe von halbüberwachtem Lernen. In Proc. Mach. Lernen. Res. MITTE 2020, 923–936.
Bar, O. et al. Einfluss von Daten auf die Verallgemeinerung von KI für Anwendungen der chirurgischen Intelligenz. Wissenschaft. Rep. 10, 22208 (2020).
Artikel ADS CAS PubMed PubMed Central Google Scholar
Kirtac, K. et al. Erkennung chirurgischer Phasen: Von öffentlichen Datensätzen zu realen Daten. Appl. Wissenschaft. 12, 8746 (2022).
Artikel CAS Google Scholar
Referenzen herunterladen
Joël L. Lavanchy wurde vom Schweizerischen Nationalfonds (P500PM_206724) gefördert. Diese Arbeit wurde durch französische staatliche Mittel unterstützt, die von der ANR im Rahmen des National AI Chair-Programms unter Grant ANR-20-CHIA-0029-01 (Chair AI4ORSafety) und im Rahmen des Investments for the Future-Programms unter Grant ANR-10-IAHU-02 verwaltet wurden (IHU Straßburg). Eine frühere Version dieses Manuskripts wurde auf arXiv hinterlegt: https://doi.org/10.48550/arxiv.2301.07053.
Diese Autoren haben gleichermaßen beigetragen: Joël L. Lavanchy und Armine Vardazaryan.
Eine Liste der Autoren und ihrer Zugehörigkeiten erscheint am Ende des Papiers.
IHU Straßburg, 1 Place de l'Hopital, 67091, Straßburg Cedex, Frankreich
Joël L. Lavanchy, Armine Vardazaryan, Pietro Mascagni, Didier Mutter und Nicolas Padoy
Abteilung für Viszeralchirurgie und Medizin, Inselspital, Universitätsspital Bern, Universität Bern, Bern, Schweiz
Joel L. Lavanchy
ICube, Universität Straßburg, CNRS, Straßburg, Frankreich
Armine Vardazaryan & Nicolas Padoy
Agostino Gemelli University Hospital Foundation IRCCS, Rom, Italien
Peter Mascagni
Universitätsklinikum Straßburg, Straßburg, Frankreich
Didier Mutter
Abteilung für Chirurgie, Clarunis – Universitätszentrum für Magen-Darm- und Lebererkrankungen, St. Clara und Universitätsspital Basel, Basel, Schweiz
Joel L. Lavanchy
Institut für Forschung gegen Verdauungskrebs (IRCAD), Straßburg, Frankreich
Bernard Dallemand
Krankenhaus Sant'Andrea, Universität La Sapienza, Rom, Italien
Giovanni Guglielmo Laracca
Monaldi-Krankenhaus, AORN dei Colli, Neapel, Italien
Ludovica Guerriero & Diego Cuccurullo
IRCCS Ca' Granda Foundation Ospedale Maggiore Policlinico di Milano, Universität Mailand, Mailand, Italien
Andrea Spota, Ludovica Baldari, Elisa Cassinotti und Luigi Boni
Agostino Gemelli Universitätskrankenhaus IRCCS, Rom, Italien
Claudio Fiorillo, Giuseppe Quero, Segio Alfieri und Guido Costamagna
Sie können diesen Autor auch in PubMed Google Scholar suchen
Sie können diesen Autor auch in PubMed Google Scholar suchen
Sie können diesen Autor auch in PubMed Google Scholar suchen
Sie können diesen Autor auch in PubMed Google Scholar suchen
Sie können diesen Autor auch in PubMed Google Scholar suchen
JLL und AV haben zu gleichen Teilen beigetragen und teilen sich die Erstautorenschaft. JLL, AV und NP haben die Studie entworfen. JLL, AV, PM und das AI4SafeChole Consortium haben die Daten gesammelt. Das Modell wurde von AV entwickelt. Die Ergebnisse wurden von JLL, AV und NP analysiert. Das Manuskript wurde von JLL und AV verfasst und die Abbildungen 1–4 von JLL erstellt. Alle Autoren überprüften das Manuskript.
Korrespondenz mit Joël L. Lavanchy.
Die Autoren geben an, dass keine Interessenkonflikte bestehen.
Springer Nature bleibt neutral hinsichtlich der Zuständigkeitsansprüche in veröffentlichten Karten und institutionellen Zugehörigkeiten.
Zusatzvideo 1.
Open Access Dieser Artikel ist unter einer Creative Commons Attribution 4.0 International License lizenziert, die die Nutzung, Weitergabe, Anpassung, Verbreitung und Reproduktion in jedem Medium oder Format erlaubt, sofern Sie den/die Originalautor(en) und die Quelle angemessen angeben. Geben Sie einen Link zur Creative Commons-Lizenz an und geben Sie an, ob Änderungen vorgenommen wurden. Die Bilder oder anderes Material Dritter in diesem Artikel sind in der Creative Commons-Lizenz des Artikels enthalten, sofern in der Quellenangabe für das Material nichts anderes angegeben ist. Wenn Material nicht in der Creative-Commons-Lizenz des Artikels enthalten ist und Ihre beabsichtigte Nutzung nicht gesetzlich zulässig ist oder über die zulässige Nutzung hinausgeht, müssen Sie die Genehmigung direkt vom Urheberrechtsinhaber einholen. Um eine Kopie dieser Lizenz anzuzeigen, besuchen Sie http://creativecommons.org/licenses/by/4.0/.
Nachdrucke und Genehmigungen
Lavanchy, JL, Vardazaryan, A., Mascagni, P. et al. Wahrung der Privatsphäre bei der chirurgischen Videoanalyse mithilfe eines Deep-Learning-Klassifikators zur Identifizierung außerkörperlicher Szenen in endoskopischen Videos. Sci Rep 13, 9235 (2023). https://doi.org/10.1038/s41598-023-36453-1
Zitat herunterladen
Eingegangen: 02. März 2023
Angenommen: 03. Juni 2023
Veröffentlicht: 07. Juni 2023
DOI: https://doi.org/10.1038/s41598-023-36453-1
Jeder, mit dem Sie den folgenden Link teilen, kann diesen Inhalt lesen:
Leider ist für diesen Artikel derzeit kein gemeinsam nutzbarer Link verfügbar.
Bereitgestellt von der Content-Sharing-Initiative Springer Nature SharedIt
Durch das Absenden eines Kommentars erklären Sie sich damit einverstanden, unsere Nutzungsbedingungen und Community-Richtlinien einzuhalten. Wenn Sie etwas als missbräuchlich empfinden oder etwas nicht unseren Bedingungen oder Richtlinien entspricht, kennzeichnen Sie es bitte als unangemessen.