Begrenzte Generalisierbarkeit eines einzelnen tiefen neuronalen Netzwerks für die Segmentierung chirurgischer Instrumente in verschiedenen chirurgischen Umgebungen
HeimHeim > Blog > Begrenzte Generalisierbarkeit eines einzelnen tiefen neuronalen Netzwerks für die Segmentierung chirurgischer Instrumente in verschiedenen chirurgischen Umgebungen

Begrenzte Generalisierbarkeit eines einzelnen tiefen neuronalen Netzwerks für die Segmentierung chirurgischer Instrumente in verschiedenen chirurgischen Umgebungen

Dec 30, 2023

Wissenschaftliche Berichte Band 12, Artikelnummer: 12575 (2022) Diesen Artikel zitieren

917 Zugriffe

2 Altmetrisch

Details zu den Metriken

Die Klärung der Generalisierbarkeit von Deep-Learning-basierten Segmentierungsnetzwerken für chirurgische Instrumente in verschiedenen chirurgischen Umgebungen ist wichtig, um die Herausforderungen einer Überanpassung bei der Entwicklung chirurgischer Geräte zu erkennen. Diese Studie untersuchte umfassend die Generalisierbarkeit tiefer neuronaler Netzwerke für die Segmentierung chirurgischer Instrumente anhand von 5238 Bildern, die zufällig aus 128 intraoperativen Videos extrahiert wurden. Der Videodatensatz enthielt 112 laparoskopische kolorektale Resektionen, 5 laparoskopische distale Gastrektomien, 5 laparoskopische Cholezystektomien und 6 laparoskopische partielle Hepatektomie. Die Deep-Learning-basierte Segmentierung chirurgischer Instrumente wurde für Testsätze mit (1) den gleichen Bedingungen wie der Trainingssatz durchgeführt; (2) das gleiche chirurgische Erkennungszielinstrument und der gleiche Operationstyp, aber unterschiedliche laparoskopische Aufzeichnungssysteme; (3) das gleiche laparoskopische Aufzeichnungssystem und der gleiche Operationstyp, aber leicht unterschiedliche laparoskopische chirurgische Pinzetten für das Erkennungsziel; (4) das gleiche laparoskopische Aufzeichnungssystem und das gleiche Erkennungsziel-Chirurgieinstrument, aber unterschiedliche Operationsarten. Die mittlere durchschnittliche Präzision und die mittlere Schnittmenge über der Vereinigung für die Testsätze 1, 2, 3 und 4 betrugen 0,941 und 0,887, 0,866 und 0,671, 0,772 und 0,676 bzw. 0,588 und 0,395. Daher nahm die Erkennungsgenauigkeit auch unter leicht unterschiedlichen Bedingungen ab. Die Ergebnisse dieser Studie zeigen die begrenzte Generalisierbarkeit tiefer neuronaler Netze im Bereich der chirurgischen künstlichen Intelligenz und warnen vor verzerrten Datensätzen und Modellen, die auf Deep Learning basieren.

Registrierungsnummer der Studie: 2020-315, Datum der Registrierung: 5. Oktober 2020.

Minimalinvasive Chirurgie (MIS), einschließlich Roboterchirurgie, wird immer häufiger eingesetzt1. MIS, das Endoskope zur Beobachtung der inneren Anatomie verwendet, wird für viele chirurgische Eingriffe bevorzugt, da durch das Endoskop ein vergrößertes chirurgisches Sichtfeld erhalten werden kann. Darüber hinaus können chirurgische Eingriffe als Videodaten gespeichert werden; Daher erleichtert dieser Ansatz nicht nur die chirurgische Ausbildung und Ausbildung, sondern auch die chirurgische Datenwissenschaft2, beispielsweise Computer Vision mithilfe von Deep Learning.

Computer Vision ist ein Forschungsgebiet, das das maschinelle Verständnis von Bildern und Videos beschreibt. Bedeutende Fortschritte haben dazu geführt, dass Maschinen in Bereichen wie der Objekt- und Szenenerkennung Fähigkeiten auf menschlichem Niveau erreichen3. Die wichtigste gesundheitsbezogene Arbeit im Bereich Computer Vision ist die computergestützte Diagnose, wie z. B. die Erkennung von Dickdarmpolypen4,5 und die Erkennung von Hautkrebs6,7; Allerdings hat auch die Anwendung der computergestützten Chirurgie zugenommen8,9. Insbesondere die Segmentierung chirurgischer Instrumente und die Verfolgung ihrer Spitzen sind wichtige zugrunde liegende Technologien, da sie auf die Beurteilung chirurgischer Fähigkeiten angewendet werden können10,11 und für die Verwirklichung einer automatischen und autonomen Chirurgie unerlässlich sind12.

Segmentierung ist eine Computer-Vision-Aufgabe, bei der ganze Bilder in Pixelgruppen unterteilt werden, die beschriftet und klassifiziert werden können. Insbesondere versucht die semantische Segmentierung, die Rolle jedes Pixels in Bildern semantisch zu verstehen13. Die Instanzsegmentierung, die die semantische Segmentierung erweitert, segmentiert verschiedene Instanzen von Klassen, dh sie kennzeichnet fünf Individuen mit fünf verschiedenen Farben; Daher kann es die Grenzen, Unterschiede und Beziehungen zwischen Objekten für mehrere überlappende Objekte identifizieren14.

Diese Computer-Vision-Ansätze eignen sich hervorragend für die Erkennung chirurgischer Instrumente in intraoperativen Videos für MIS, und in den letzten Jahren wurden zahlreiche Anstrengungen unternommen, um die Segmentierung chirurgischer Instrumente zu entwickeln15,16. Unter anderem hat die Medical Image Computing and Computer Assisted Interventions Society internationale Herausforderungen veranstaltet, die auf der Erkennungsgenauigkeit für die Segmentierung chirurgischer Instrumente und der Endoscopic Vision Challenge basieren15,17,18,19; Neuartige tiefe neuronale Netze haben den Rekord für hochmoderne Segmentierungsgenauigkeit gebrochen. Diese Bemühungen wurden jedoch an Videodatensätzen durchgeführt, die der gleichen Art von Operation entsprachen, unter Verwendung eines festen chirurgischen Instruments und der gleichen Art von laparoskopischem Aufzeichnungssystem, im Gegensatz zu realen chirurgischen Umgebungen. In der Praxis gibt es in realen chirurgischen Situationen viele verschiedene Bedingungen. Beispielsweise werden in verschiedenen Krankenhäusern unterschiedliche Arten von laparoskopischen Aufzeichnungssystemen und laparoskopischen chirurgischen Instrumenten verwendet. Darüber hinaus werden chirurgische Geräte modernisiert und ihre Form ändert sich alle paar Jahre leicht. Bei der Betrachtung der allgemeinen Eigenschaften eines einzelnen Erkennungsnetzwerks für chirurgische Instrumente ist es auch wichtig, die Anwendbarkeit des Netzwerks auf andere Arten von Operationen zu überprüfen, d. h. den Unterschied in der Erkennungsgenauigkeit zu verdeutlichen, wenn ein Erkennungsnetzwerk entwickelt wurde Basierend auf den Daten einer bestimmten Art von Operation wird sie auf eine andere Art von Operation angewendet. Obwohl solche Bedingungen im Zusammenhang mit der Erkennungsgenauigkeit verdeutlichen können, dass die Erstellung eines intraoperativen Videodatensatzes mit Diversität wichtig ist, wurde keine umfassende Studie zur Generalisierbarkeit eines einzelnen Netzwerks zur Erkennung chirurgischer Instrumente veröffentlicht. Daher sind die Ergebnisse dieser Studie wichtig, da sie wertvolle Informationen für die zukünftige chirurgische Entwicklung und Implementierung liefern.

Ziel dieser Studie war es, die Generalisierbarkeit eines einzelnen tiefen neuronalen Netzwerks für eine umfassende Segmentierung chirurgischer Instrumente zu bewerten und so den Unterschied in der Segmentierungsgenauigkeit zu verdeutlichen, wenn ein einzelnes Netzwerk auf verschiedene Situationen angewendet wird, z. B. auf die Art des laparoskopischen Aufzeichnungssystems oder das Erkennungsziel chirurgischer Instrumente und Chirurgie.

Diese Forschung umfasste eine retrospektive experimentelle Beobachtungsstudie unter Verwendung eines intraoperativen Videodatensatzes von fünf Institutionen. Insgesamt wurden 5238 Bilder verwendet, die zufällig aus 128 intraoperativen Videos extrahiert wurden. Das Kriterium für die Bildauswahl bestand darin, dass das chirurgische Zielinstrument deutlich sichtbar sein muss. Unscharfe Bilder und/oder Bilder mit Nebel wurden ausgeschlossen. Der Videodatensatz enthielt 112 laparoskopische kolorektale Resektionen (LCRR), 5 laparoskopische distale Gastrektomien (LDG), 5 laparoskopische Cholezystektomien (LC) und 6 laparoskopische partielle Hepatektomie (LPH).

Diese Studie folgte den Berichtsrichtlinien zur Stärkung der Berichterstattung über Beobachtungsstudien in der Epidemiologie (STROBE)20. Das Protokoll für diese Studie wurde von der Ethikkommission des National Cancer Center Hospital East, Chiba, Japan (Registrierungsnummer: 2020-315) überprüft und genehmigt. Die Einverständniserklärung wurde in Form eines Opt-outs auf der Studienwebsite eingeholt und Daten von denjenigen, die die Teilnahme abgelehnt haben, wurden ausgeschlossen. Die Studie entsprach den Bestimmungen der Deklaration von Helsinki aus dem Jahr 1964 (und 2013 in Brasilien überarbeitet).

Das Trainingsset enthielt 4074 Bilder, die zufällig aus 85 intraoperativen Videos von LCRR extrahiert wurden, und in jedem Bild wurde mindestens eine der folgenden drei Arten von chirurgischen Instrumenten erfasst: (T1) Harmonic Shears (Ethicon Inc., Somerville, NJ, USA), (T2) endoskopische chirurgische Elektrokauterisation (Olympus Co., Ltd., Tokio, Japan) und (T3) atraumatische Universalzange Aesculap AdTec (B Braun AG, Melsungen, Deutschland). Repräsentative Bilder von T1–3 sind in Abb. 1A dargestellt. Jedes intraoperative Video wurde mit einem Endoeye-Laparoskop (Olympus Co., Ltd., Tokio, Japan) und dem Visera Elite II-System (Olympus Co., Ltd, Tokio, Japan) aufgezeichnet.

Repräsentative Bilder zur Erkennung chirurgischer Instrumente in dieser Studie. (A) Im Trainingsset enthaltene chirurgische Instrumente (T1: harmonische Schere; T2: endoskopische chirurgische Elektrokauterisation; T3: Aesculap AdTec atraumatische Universalzange). (B) Laparoskopische chirurgische Pinzetten, die nicht im Trainingsset enthalten sind (T4: Maryland; T5: Croce-Olmi; T6: Nadelhalter).

Der Validierungssatz enthielt 345 Bilder aus neun intraoperativen Videos, und die Bedingungen, zu denen die Art des laparoskopischen Aufzeichnungssystems, das chirurgische Erkennungszielinstrument und die Operation gehörten, waren dieselben wie für den Trainingssatz.

Testsatz 1 enthielt 369 Bilder aus 10 intraoperativen Videos und die Bedingungen waren die gleichen wie beim Trainingssatz.

Testsatz 2 enthielt 103 Bilder, darunter chirurgische Instrumente, die aus fünf intraoperativen Videos extrahiert wurden. Obwohl das Erkennungsziel für chirurgische Instrumente und Operationstypen mit denen im Trainingssatz übereinstimmte, wurden die Videos mit verschiedenen Arten von laparoskopischen Systemen aufgezeichnet, darunter einem 1488 HD 3-Chip-Kamerasystem (Stryker Corp., Kalamazoo, MI, USA). und Image 1 S Kamerasystem (Karl Storz SE & Co., KG, Tuttlingen, Deutschland).

Testsatz 3 enthielt 124 Bilder mit chirurgischen Instrumenten, die aus drei intraoperativen Videos extrahiert wurden. Obwohl das laparoskopische Aufzeichnungssystem und die Operationstypen mit denen des Trainingssatzes identisch waren, handelte es sich bei den Erkennungszieltypen um die folgenden laparoskopischen chirurgischen Pinzetten mit etwas anderen Spitzenformen als T3: (T4) Maryland (Olympus Co., Ltd., Tokio). , Japan); (T5) Croce-Olmi (Karl Storz SE & Co., KG, Tuttlingen, Deutschland); (T6) Nadelhalter (Karl Storz SE & Co., KG, Tuttlingen, Deutschland). T4–T6 waren nicht im Trainingssatz enthalten und wir haben getestet, ob sie als T3 erkannt werden konnten. Repräsentative Bilder von T4–T6 sind in Abb. 1B dargestellt.

Testsatz 4 enthielt 223 Bilder, die chirurgische Instrumente erfassten, die aus 16 intraoperativen Videos verschiedener Arten von Operationen, einschließlich LDG, LC und LPH, extrahiert wurden. Die anderen Bedingungen, einschließlich der Arten des laparoskopischen Aufzeichnungssystems und des chirurgischen Erkennungszielinstruments, waren dieselben wie für das Trainingsset.

Jedes Bild, das in jedem Set für Schulung, Validierung und Test enthalten ist, erfasst mindestens einen Typ von chirurgischem Instrument. Die Eigenschaften des Trainingssatzes, des Validierungssatzes und jedes Testsatzes sind in Tabelle 1 zusammengefasst.

Die Anmerkungen wurden von 14 Nicht-Ärzten unter der Aufsicht von Chirurgen durchgeführt und alle mit Anmerkungen versehenen Bilder wurden von Chirurgen noch einmal überprüft. Die Anmerkungsbeschriftungen wurden manuell Pixel für Pixel zugewiesen, indem mit Wacom Cintiq Pro (Wacom Co., Ltd., Saitama, Japan) und Wacom Pro Pen 2 (Wacom Co., Ltd.) direkt auf den Bereich jedes chirurgischen Instruments in den Bildern gezeichnet wurde. , Saitama, Japan). Die repräsentativen kommentierten Bilder sind in der ergänzenden Abbildung 1 dargestellt.

Jedes intraoperative Video wurde in das MP4-Videoformat mit einer Anzeigeauflösung von 1280 × 720 Pixeln und einer Bildrate von 30 Bildern pro Sekunde (fps) konvertiert, und es wurde weder Upsampling noch Downsampling durchgeführt.

Die Datenaufteilung wurde auf der Ebene pro Fall statt auf der Ebene pro Frame durchgeführt; Daher erschien in den Testsätzen kein Bild, das aus einem intraoperativen Video im Trainingssatz extrahiert wurde.

Als Instanzsegmentierungsmodell bzw. Backbone-Netzwerk wurden ein maskenbereichsbasiertes Faltungs-Neuronales Netzwerk (R-CNN) mit verformbarer Faltung14,21 und ResNet5022 verwendet, und jedes annotierte Bild im Trainingssatz wurde in das Modell eingegeben. Die Modellarchitektur und der Arbeitsablauf des tiefen neuronalen Netzwerks sind in der ergänzenden Abbildung 2 dargestellt. Das Netzwerkgewicht wurde auf den ImageNet23- und COCO24-Datensätzen auf ein vorab trainiertes Gewicht initialisiert, und anschließend wurde eine Feinabstimmung für den Trainingssatz durchgeführt. ImageNet ist eine große visuelle Datenbank, die für die Verwendung bei visuellen Objekterkennungsaufgaben entwickelt wurde. Es enthält mehr als 14 Millionen Bilder mit Beschriftungen aus mehr als 20.000 typischen Kategorien, wie zum Beispiel „Ballon“ und „Erdbeere“. COCO ist ein umfangreicher Datensatz zur Objekterkennung, Segmentierung und Beschriftung. Es enthält mehr als 120.000 Bilder mit mehr als 880.000 beschrifteten Instanzen für 80 Objekttypen.

Das Modell wurde trainiert und getestet, um zwischen T1, T2 und T3 zu unterscheiden. Für Testsatz 3 wurde das Modell darauf getestet, ob T4, T5 und T6 als T3 erkannt werden konnten. Basierend auf der Modellleistung des Validierungssatzes wurde das beste Epochenmodell ausgewählt. Zur Datenerweiterung wurden horizontale und vertikale Spiegelungen verwendet. Die für das Modelltraining verwendeten Hyperparameter sind in der Ergänzungstabelle 1 aufgeführt.

Der Code wurde mit Python 3.6 (Python Software Foundation, Wilmington, DE, USA) geschrieben und das Modell wurde basierend auf MMDetection25 implementiert, einer Open-Source-Python-Bibliothek zur Objekterkennung und Instanzsegmentierung.

Für das Netzwerktraining wurde ein Computer verwendet, der mit einer NVIDIA Quadro GP100 GPU mit 16 GB VRAM (NVIDIA, Santa Clara, CA, USA) und einer Intel® Xeon® CPU E5-1620 v4 bei 3,50 GHz mit 32 GB RAM ausgestattet war.

Der Schnittpunkt über der Vereinigung (IoU) und die durchschnittliche Präzision (AP) wurden als Metriken verwendet, um die Modellleistung für die Segmentierungsaufgabe chirurgischer Instrumente zu bewerten.

Die IoU wurde für jedes Paar aus

Der mittlere AP (mAP) ist eine Metrik, die häufig für Objekterkennungs- und Instanzsegmentierungsaufgaben23,24,26 verwendet wird. Sie wird aus der Fläche unter der Präzisions-Recall-Kurve berechnet, die anhand der Anzahl der echten Positiven (TP), falsch negativen Ergebnisse (FN) und falsch positiven Ergebnisse (FP) beschrieben wird. Zugewiesene Paare von

Um die Reproduzierbarkeit der Ergebnisse zu bestätigen, haben wir fünf Modelle für jeden Testsatz mit unterschiedlichen Zufallsstartwerten trainiert und die über die fünf Modelle gemittelten Metriken als Mittelwert (± Standardabweichung) angegeben.

Ethikkommission des National Cancer Center Hospital East, Chiba, Japan (Registrierungsnummer: 2020-315).

Die Einverständniserklärung wurde in Form eines Opt-outs auf der Studienwebsite eingeholt.

Die Autoren bestätigen, dass die menschlichen Forschungsteilnehmer eine informierte Einwilligung zur Veröffentlichung der Bilder in den Abbildungen gegeben haben.

Die Ergebnisse für Testsatz 1 sind in Abb. 2A dargestellt. Der mAP und der mittlere IoU (mIoU) für Testsatz 1 betrugen 0,941 (± 0,035) bzw. 0,887 (± 0,012), und der AP und der IoU für T1, T2 und T3 betrugen 0,958 und 0,892, 0,969 und 0,895 bzw. 0,895 bzw. 0,876 (Abb. 2A). Diese Ergebnisse wurden in dieser Studie als Kontrollwerte zum Vergleich verwendet.

Ergebnisse zur Genauigkeit der Erkennung chirurgischer Instrumente (durchschnittliche AP-Präzision, IoU-Schnittpunkt über Vereinigung, mittlere mAP-Durchschnittspräzision, mIoU-mittlerer Schnittpunkt über Vereinigung). (A) AP und IoU unter den gleichen Bedingungen wie im Trainingssatz (T1: harmonische Scherung; T2: endoskopische chirurgische Elektrokauterisation; T3: Aesculap AdTec atraumatische Universalzange). (B) MAP und MIOU für verschiedene Arten von laparoskopischen Aufzeichnungssystemen. (C) AP und IoU für verschiedene Arten von laparoskopischen chirurgischen Zangen (T3: Aesculap AdTec atraumatische Universalzange; T4: Maryland; T5: Croce-Olmi; T6: Nadelhalter). (D) Karte und mIoU für verschiedene Arten von Operationen (LCRR laparoskopische kolorektale Resektion, LDG laparoskopische distale Gastrektomie, LC laparoskopische Cholezystektomie, LPH laparoskopische partielle Hepatektomie).

Der mAP und der mIoU für Testsatz 2 betrugen 0,866 (± 0,035) bzw. 0,671 (± 0,082). Diese Ergebnisse deuten darauf hin, dass sich bei Verwendung verschiedener laparoskopischer Aufzeichnungssysteme der mAP und der mIoU im Vergleich zu den Kontrollwerten leicht verschlechterten, obwohl die anderen Bedingungen mit denen des Trainingssatzes identisch waren. Die miAP- und mIoU-Werte, die mit den laparoskopischen Aufzeichnungssystemen der Stryker- und Karl-Storz-Kameras ermittelt wurden, betrugen 0,893 und 0,608 bzw. 0,839 und 0,735 (Abb. 2B). Die repräsentativen Bilder, die von jedem laparoskopischen Aufnahmesystem aufgenommen wurden, sind in Abb. 3 dargestellt. Jeder Farbton ist leicht unterschiedlich, selbst bei der makroskopischen Beobachtung.

Repräsentative Bilder, die von jedem laparoskopischen Aufzeichnungssystem aufgezeichnet wurden. (A) Endoeye-Laparoskop (Olympus Co., Ltd., Tokio, Japan) und Visera Elite II-System (Olympus Co., Ltd, Tokio, Japan). (B) 1488 HD 3-Chip-Kamerasystem (Stryker Corp., Kalamazoo, MI, USA). (C) Image 1 S Kamerasystem (Karl Storz SE & Co., KG, Tuttlingen, Deutschland).

Der mAP und der mIoU für Testsatz 3 betrugen 0,772 (± 0,062) bzw. 0,676 (± 0,072). Obwohl T4–T6 im weitesten Sinne auch als laparoskopische chirurgische Pinzetten klassifiziert werden, ist die Erkennungsgenauigkeit für T4–T6 im Vergleich zu T3 schlechter. AP und IoU für T4, T5 und T6 betrugen 0,715 und 0,678, 0,756 und 0,592 bzw. 0,846 und 0,758 (Abb. 2C).

Der mAP und der mIoU für Testsatz 4 betrugen 0,588 (± 0,151) bzw. 0,395 (± 0,127). Bei einer anderen Art von Operation verschlechterten sich die mAP- und mIoU-Werte im Vergleich zu den Kontrollwerten deutlich, obwohl die anderen Bedingungen mit denen des Trainingssatzes identisch waren. Der mAP und der mIoU für LDG, LC und LPH betrugen 0,782 und 0,565, 0,468 und 0,300 bzw. 0,513 und 0,319 (Abb. 2D). Die repräsentativen Bilder für jede Art von Operation sind in Abb. 4 dargestellt. Die chirurgischen Instrumente im Vordergrund sind die gleichen, insbesondere bei LC und LPH; Allerdings unterscheidet sich der Hintergrund deutlich vom LCRR-Fall, selbst bei der makroskopischen Beobachtung.

Repräsentative Bilder jeder Art von Operation. (A) LCRR; (B) LDG; (C) LC; (D) LPH.

Die Genauigkeit der Segmentierung chirurgischer Instrumente und repräsentative Segmentierungsergebnisse für jeden Testsatz sind in Tabelle 2 bzw. in der ergänzenden Abbildung 3 dargestellt.

In dieser Studie haben wir gezeigt, dass unser Netzwerk zur Segmentierung chirurgischer Instrumente eine hohe Genauigkeit besitzt (mAP: 0,941, mIoU: 0,887). Die Generalisierbarkeit eines einzelnen tiefen neuronalen Netzwerks, das auf die laparoskopische Chirurgie angewendet wird, unterliegt jedoch Einschränkungen, d. h. eine geringfügige Änderung der Bedingungen der laparoskopischen Operation beeinträchtigt die Erkennungsgenauigkeit des chirurgischen Instruments erheblich.

Erstens legen diese Ergebnisse nahe, dass der von einem einzelnen laparoskopischen Aufzeichnungssystem aufgezeichnete intraoperative Videodatensatz nicht ausreicht, um ein tiefes neuronales Netzwerk zu verallgemeinern. Die Erkennungsgenauigkeit für Testsatz 2 verschlechterte sich leicht, da der Farbton zwischen den von den einzelnen Systemen aufgenommenen Bildern leicht unterschiedlich war, obwohl in jedem Bild die gleichen Objekte erfasst wurden. Zweitens muss der Schulungssatz aktualisiert werden, wenn sich die Gerätepalette und -versionen in den Krankenhäusern ändern, da es zahlreiche Arten von chirurgischen Instrumenten, Unterschiede zwischen Krankenhäusern und Aktualisierungen der von den einzelnen Unternehmen hergestellten Versionen chirurgischer Geräte alle paar Jahre gibt. Drittens: Selbst wenn ein hochpräzises Erkennungsnetzwerk für chirurgische Instrumente erfolgreich für eine Art von Operation entwickelt wurde, kann es nicht mit ähnlicher Genauigkeit auf andere Arten von Operationen angewendet werden. Insbesondere ist die Erkennungsgenauigkeit umso geringer, je stärker sich der Bildhintergrund vom Trainingssatz unterscheidet. Zusammenfassend lässt sich sagen, dass die Diversität des Trainingssatzes in Bezug auf die Art des laparoskopischen Aufzeichnungssystems, die Arten und Versionen der chirurgischen Instrumente sowie die Art der als Bildhintergrund verwendeten Operation als entscheidend angesehen wird, wenn ein tiefes neuronales Netzwerk auf die multiinstitutionelle Chirurgie in a angewendet wird reale chirurgische Umgebung.

Mehrere frühere Wissenschaftler haben die Generalisierbarkeit tiefer neuronaler Netze untersucht, insbesondere den sogenannten „Domain Shift“, der sich auf das Training eines Netzwerks anhand von Daten aus einer Domäne und dessen Anwendung auf Daten aus einer anderen bezieht. Zech et al. untersuchten das Training eines CNN für das Lungenentzündungs-Screening auf Brust-Röntgenaufnahmen, das auf neue Kohorten übertragen wurde, und stellten eine deutlich geringere Leistung fest, wenn das Netzwerk auf Röntgenbilder angewendet wurde, die von Krankenhäusern gesammelt wurden, die nicht im Trainingsset enthalten waren27. Frühere Forscher haben die Bilderkennungsleistung der CNN-basierten Magnetresonanztomographie (MRT) des Gehirns untersucht und gezeigt, dass die Leistung eines auf MRT-Bildern aus homogenen Forschungskohorten trainierten CNN im Allgemeinen abnimmt, wenn es auf andere Kohorten angewendet wird28,29. Nach unserem besten Wissen ist die vorliegende Studie jedoch die erste, in der die Generalisierbarkeit eines einzelnen tiefen neuronalen Netzwerks für die Segmentierung chirurgischer Instrumente umfassend untersucht wurde.

Die automatische Erkennung chirurgischer Instrumente kann auf die folgenden beiden Hauptforschungsbereiche angewendet werden: Robotik und Fähigkeitsbewertung. Visuelles Servoing wird „aktiv gesteuert“, was bedeutet, dass visuelle Informationen verwendet werden, um die Pose des Roboter-Endeffektors relativ zu einem Zielobjekt zu steuern30. Laparoskophalterroboter mit visueller Servosteuerung können Chirurgen dabei unterstützen, sich voll und ganz auf die chirurgische Aufgabe zu konzentrieren. Bei Robotern mit Laparoskophalter ist der Schlüssel zur visuellen Servosteuerung das markerfreie Tracking-Framework der chirurgischen Instrumente31,32. Daher wird in der Zukunft des chirurgischen Bereichs die Technologie zur automatischen Erkennung chirurgischer Instrumente eine entscheidende Rolle bei der Entwicklung von Laparoskop-Halterrobotern und der Realisierung autonomer MIS spielen. Zur objektiven Bewertung der grundlegenden chirurgischen Fähigkeiten von chirurgischen Auszubildenden wurden Instrumente zur Bewertung chirurgischer Fertigkeiten eingesetzt, beispielsweise die objektive strukturierte Beurteilung technischer Fertigkeiten33 und die globale operative Beurteilung laparoskopischer Fertigkeiten34. Diese Instrumente basieren jedoch auf den Beobachtungen und Urteilen einer Person35, die unweigerlich mit Subjektivität und Voreingenommenheit verbunden sind. Daher hat in den letzten Jahren eine faire und objektive automatische Beurteilung der chirurgischen Fähigkeiten ohne einen zeitaufwändigen Videoüberprüfungsprozess Aufmerksamkeit erregt. Die automatische Erkennung chirurgischer Instrumente spielt auch eine entscheidende Rolle bei der Extraktion kinematischer Daten im Zusammenhang mit chirurgischen Fähigkeiten im MIS.

Bei der überwachten Deep-Learning-Forschung stellen die Kosten und der Zeitaufwand des manuellen Annotationsprozesses, der zur Erstellung umfangreicher Datensätze verwendet wird, die repräsentativ für reale Umgebungen sind, große Einschränkungen dar. Selbst wenn ein tiefes neuronales Netzwerk, das unter bestimmten Bedingungen eine hohe Leistung zeigen kann, für eine Segmentierungsaufgabe bei chirurgischen Instrumenten entwickelt wird, ist sein Nutzen darüber hinaus begrenzt, da die realen Bedingungen vielfältig und variabel sind und es fast unmöglich ist, sie alle zu berücksichtigen. Daher ist die Klärung der Bedingungen, unter denen ein einzelnes Netzwerk zur Segmentierung chirurgischer Instrumente angewendet werden kann, für die zukünftige Entwicklung und Implementierung im Hinblick auf die Reduzierung von Annotationskosten und -zeit äußerst wichtig. Da die Ergebnisse dieser Studie zeigten, dass selbst geringfügige Änderungen im Bildhintergrund die Genauigkeit der Erkennung chirurgischer Instrumente beeinträchtigen, wird das Weglassen des Anmerkungsschritts nicht empfohlen. Angesichts der Eigenschaften tiefer neuronaler Netze, insbesondere CNN-basierter Bilderkennungsansätze, bei denen versucht wird, Merkmale aus jedem Pixel in einem Bild zu extrahieren, erscheinen diese Ergebnisse vernünftig. Es könnte jedoch möglich sein, die für die Annotation erforderlichen Arbeitsstunden zu eliminieren, indem ein halbüberwachtes Segmentierungsnetzwerk auch in verschiedenen chirurgischen Umgebungen eingeführt wird. Dies sollte in zukünftigen Studien überprüft werden.

Diese Studie weist mehrere Einschränkungen auf. Das Ziel dieser Studie bestand zunächst darin, zu klären, wie die Generalisierbarkeit tiefer neuronaler Netze im Forschungsbereich der chirurgischen künstlichen Intelligenz begrenzt war, und warnte auch vor verzerrten Datensätzen und darauf basierenden Modellen. Die Generalisierbarkeit kann durch die Einführung unterschiedlicher Datenerweiterungsmethoden oder unterschiedlicher Modellarchitekturen verbessert werden; Da dies jedoch nicht das primäre Ziel dieser Studie war, wurde es nicht berücksichtigt. Zweitens handelte es sich um eine retrospektive experimentelle Beobachtungsstudie, und obwohl der in dieser Studie verwendete Videodatensatz relativ große multiinstitutionelle Daten enthielt, wurde keine prospektive Validierung durchgeführt. Da der Datensatz außerdem nur Bilder mit chirurgischen Instrumenten enthielt, spiegelte sich der FP in Bildern ohne chirurgische Instrumente nicht in den Ergebnissen wider. Drittens gelten die Studienergebnisse zwar als äußerst wichtige Maßstäbe für zukünftige Forschung und Entwicklung mit tiefen neuronalen Netzen in der Chirurgie, bieten jedoch derzeit keinen direkten klinischen Nutzen, da wir uns noch in der Anfangsphase befinden.

Zusammenfassend lässt sich sagen, dass bei einer Segmentierungsaufgabe für chirurgische Instrumente die Generalisierbarkeit eines einzelnen tiefen neuronalen Netzwerks begrenzt ist, dh die Erkennungsgenauigkeit verschlechtert sich selbst unter leicht unterschiedlichen Bedingungen. Um die Generalisierungsfähigkeit eines tiefen neuronalen Netzwerks zu verbessern, ist es daher entscheidend, einen Trainingssatz zu erstellen, der die Vielfalt der chirurgischen Umgebung in einer realen chirurgischen Umgebung berücksichtigt.

Die im Rahmen dieser Studie generierten und analysierten Datensätze sind auf begründete Anfrage beim entsprechenden Autor erhältlich.

Auf begründete Anfrage über GitHub verfügbar.

Siddaiah-Subramanya, M., Tiang, KW & Nyandowe, M. Eine neue Ära der minimalinvasiven Chirurgie: Fortschritte und Entwicklung wichtiger technischer Innovationen in der allgemeinen Chirurgie im letzten Jahrzehnt. Surg. J. (NY) 3, e163–e166 (2017).

Artikel Google Scholar

Maier-Hein, L. et al. Chirurgische Datenwissenschaft für Interventionen der nächsten Generation. Nat. Biomed. Ing. 1, 691–696 (2017).

Artikel Google Scholar

Hashimoto, DA, Rosman, G., Rus, D. & Meireles, OR Künstliche Intelligenz in der Chirurgie: Versprechen und Gefahren. Ann. Surg. 268, 70–76 (2018).

Artikel Google Scholar

Mori, Y. et al. Echtzeit-Einsatz künstlicher Intelligenz bei der Identifizierung kleiner Polypen während der Koloskopie: Eine prospektive Studie. Ann. Praktikant. Med. 169, 357–366 (2018).

Artikel Google Scholar

Li, C. et al. Entwicklung und Validierung eines auf endoskopischen Bildern basierenden Deep-Learning-Modells zur Erkennung von nasopharyngealen Malignomen. Krebskommun. (Lond.) 38, 59 (2018).

Artikel Google Scholar

Dascalu, A. & David, EO Hautkrebserkennung durch Deep Learning und Klanganalysealgorithmen: Eine prospektive klinische Studie eines elementaren Dermatoskops. EBioMedicine 43, 107–113 (2019).

Artikel CAS Google Scholar

Phillips, M. et al. Bewertung der Genauigkeit eines Algorithmus der künstlichen Intelligenz zur Erkennung von Melanomen in Bildern von Hautläsionen. JAMA Netw. Offen 2, e1913436 (2019).

Artikel Google Scholar

Hashimoto, DA et al. Computer-Vision-Analyse von intraoperativem Video: Automatisierte Erkennung operativer Schritte bei der laparoskopischen Hülsengastrektomie. Ann. Surg. 270, 414–421 (2019).

Artikel Google Scholar

Ward, TM et al. Automatisierte Identifizierung der operativen Phase bei der peroralen endoskopischen Myotomie. Surg. Endosz. 35, 4008–4015 (2021).

Artikel Google Scholar

Lee, D. et al. Bewertung der chirurgischen Fähigkeiten während der Roboterchirurgie durch Deep-Learning-basierte Verfolgung mehrerer chirurgischer Instrumente in der Ausbildung und bei tatsächlichen Operationen. J. Clin. Med. 9, 1964 (2020).

Artikel Google Scholar

Levin, M., McKechnie, T., Khalid, S., Grantcharov, TP & Goldenberg, M. Automatisierte Methoden zur Beurteilung technischer Fähigkeiten in der Chirurgie: Eine systematische Übersicht. J. Surg. Educ. 76, 1629–1639 (2019).

Artikel Google Scholar

Zhang, J. & Gao, Int. J. Comput. Helfen. Radiol. Surg. 15, 1335–1345 (2020).

Artikel Google Scholar

Shelhamer, E., Long, J. & Darrell, T. Vollständig Faltungsnetzwerke für die semantische Segmentierung. IEEE Trans. Muster Anal. Mach. Intel. 39, 640–651 (2017).

Artikel Google Scholar

He, K., Gkioxari, G., Dollar, P. & Girshick, R. Mask R-CNN. IEEE Trans. Muster Anal. Mach. Intel. 42, 386–397 (2020).

Artikel Google Scholar

Hasan, SMK & Linte, CA U-NetPlus: Eine modifizierte Encoder-Decoder-U-Net-Architektur für die Semantik- und Instanzsegmentierung chirurgischer Instrumente aus laparoskopischen Bildern. Biol. Soc. Annu. Int. Konf. IEEE Eng. Med. 2019, 7205–7211 (2019).

Google Scholar

Kanakatte, A., Ramaswamy, A., Gubbi, J., Ghose, A. & Purushothaman, B. Segmentierung und Lokalisierung chirurgischer Instrumente mithilfe eines räumlich-zeitlichen Tiefennetzwerks. Annu. Int. Konf. IEEE Eng. Med. Biol. Soc. Annu. Int. Konf. IEEE Eng. 2020, 1658–1661 (2020).

Google Scholar

Ni, ZL et al. RASNet: Segmentierung zur Verfolgung chirurgischer Instrumente in chirurgischen Videos mithilfe eines verfeinerten Aufmerksamkeitssegmentierungsnetzwerks. Int. Konf. IEEE Eng. Med. Biol. Soc. Annu. Int. Konf. IEEE Eng. 2019, 5735–5738 (2019).

Google Scholar

Du, X. et al. Artikulierte 2D-Posenschätzung mit mehreren Instrumenten unter Verwendung vollständiger Faltungsnetzwerke. IEEE Trans. Med. Bildgebung 37, 1276–1287 (2018).

Artikel Google Scholar

Zhao, Z., Cai, T., Chang, F. & Cheng, X. Echtzeiterkennung chirurgischer Instrumente in der robotergestützten Chirurgie mithilfe einer Faltungskaskade eines neuronalen Netzwerks. Gesundheitc. Technol. Lette. 6, 275–279 (2019).

Artikel Google Scholar

von Elm, E. et al. Die Stellungnahme zur Stärkung der Berichterstattung über Beobachtungsstudien in der Epidemiologie (STROBE): Leitlinien für die Berichterstattung über Beobachtungsstudien. Int. J. Surg. 12, 1495–1499 (2014).

Artikel Google Scholar

Dai, J. et al., (2017). Verformbare Faltungsnetzwerke in Proc. ICCV 764–773.

He, K., Zhang, X., Ren, S. & Sun, J., (2016). Tiefes Restlernen für die Bilderkennung. Proz. IEEE Conf. CVPR 770–778.

Russakovsky, O. et al. ImageNet – groß angelegte visuelle Erkennungsherausforderung. Int. J. Comput. Vis. 115, 211–252 (2015).

Artikel MathSciNet Google Scholar

Lin, TY et al. Microsoft COCO: Gemeinsame Objekte im Kontext. Vorlesungsskript in Informatik. Proz. IEEE ECCV, 740–755 (2014).

Chen, K. et al. MMDetection: Öffnen Sie die MMLab-Erkennungs-Toolbox und den Benchmark. arXiv:1906.07155 (2019).

Everingham, M., Van Gool, L., Williams, CKI, Winn, J. & Zisserman, A. Die Herausforderung der visuellen Objektklassen (VOC) von Pascal. Int. J. Comput. Vis. 88, 303–338 (2010).

Artikel Google Scholar

Zech, JR et al. Variable Generalisierungsleistung eines Deep-Learning-Modells zur Erkennung von Lungenentzündung in Röntgenaufnahmen des Brustkorbs: Eine Querschnittsstudie. PLoS Med. 15, e1002683 (2018).

PubMed PubMed Central Google Scholar

AlBadawy, EA, Saha, A. & Mazurowski, MA Deep Learning zur Segmentierung von Hirntumoren: Auswirkungen institutionenübergreifender Schulungen und Tests. Med. Physik. 45, 1150–1158 (2018).

Artikel Google Scholar

Mårtensson, G. et al. Die Zuverlässigkeit eines Deep-Learning-Modells in klinischen Out-of-Distribution-MRT-Daten: Eine Multikohortenstudie. Med. Bild Anal. 66, 101714 (2020).

Artikel Google Scholar

Hutchinson, S., Hager, GD & Corke, PI Ein Tutorial zur visuellen Servosteuerung. IEEE Trans. Roboter. Automat. 12, 651–670 (1996).

Artikel Google Scholar

Uecker, DR, Lee, C., Wang, YF & Wang, Y. Automatisierte Instrumentenverfolgung in der robotergestützten laparoskopischen Chirurgie. J. Bildanleitung. Surg. 1, 308–325 (1995).

3.0.CO;2-E" data-track-action="article reference" href="https://doi.org/10.1002%2F%28SICI%291522-712X%281995%291%3A6%3C308%3A%3AAID-IGS3%3E3.0.CO%3B2-E" aria-label="Article reference 31" data-doi="10.1002/(SICI)1522-712X(1995)1:63.0.CO;2-E">Artikel CAS Google Scholar

Ko, SY, Kim, J., Kwon, DS & Lee, WJ Intelligente Interaktion zwischen Chirurgen und laparoskopischem Assistenzrobotersystem. RÖMISCH. IEEE Int. Funktioniert Robotersummen. Interagieren. Komm. 20, 60–65 (2005).

Google Scholar

Martin, JA et al. Objektive strukturierte Beurteilung der technischen Fähigkeiten (OSATS) für Assistenzärzte in der Chirurgie. Br. J. Surg. 84, 273–278 (1997).

CAS PubMed Google Scholar

Vassiliou, MC et al. Ein globales Bewertungstool zur Bewertung intraoperativer laparoskopischer Fähigkeiten. Bin. J. Surg. 190, 107–113 (2005).

Artikel Google Scholar

Gofton, WT, Dudek, NL, Wood, TJ, Balaa, F. & Hamstra, SJ Die Bewertung der chirurgischen Kompetenz im Operationssaal von Ottawa (O-SCORE): Ein Instrument zur Bewertung der chirurgischen Kompetenz. Acad. Med. 87, 1401–1407 (2012).

Artikel Google Scholar

Referenzen herunterladen

Innovationsbüro für chirurgische Geräte, National Cancer Center Hospital East, 6-5-1, Kashiwanoha, Kashiwa, Chiba, 277-8577, Japan

Daichi Kitaguchi, Toru Fujino, Nobuyoshi Takeshita, Hiro Hasegawa und Masaaki Ito

Abteilung für kolorektale Chirurgie, National Cancer Center Hospital East, 6-5-1, Kashiwanoha, Kashiwa, Chiba, 277-8577, Japan

Daichi Kitaguchi, Nobuyoshi Takeshita, Hiro Hasegawa und Masaaki Ito

Graduiertenschule für Informatik, Universität Nagoya, Furo-cho, Chikusa-ku, Nagoya, Aichi, 464-8601, Japan

Kensaku Mori

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Alle Autoren haben zur Konzeption und Gestaltung der Studie beigetragen. Die Materialvorbereitung, Datenerfassung und Analyse wurden von DK, TF, NT, HH und MI durchgeführt. Der erste Entwurf des Manuskripts wurde von DK verfasst und alle Autoren kommentierten frühere Versionen des Manuskripts. Alle Autoren haben das endgültige Manuskript gelesen und genehmigt.

Korrespondenz mit Masaaki Ito.

Die Autoren geben an, dass keine Interessenkonflikte bestehen.

Springer Nature bleibt neutral hinsichtlich der Zuständigkeitsansprüche in veröffentlichten Karten und institutionellen Zugehörigkeiten.

Open Access Dieser Artikel ist unter einer Creative Commons Attribution 4.0 International License lizenziert, die die Nutzung, Weitergabe, Anpassung, Verbreitung und Reproduktion in jedem Medium oder Format erlaubt, sofern Sie den/die Originalautor(en) und die Quelle angemessen angeben. Geben Sie einen Link zur Creative Commons-Lizenz an und geben Sie an, ob Änderungen vorgenommen wurden. Die Bilder oder anderes Material Dritter in diesem Artikel sind in der Creative Commons-Lizenz des Artikels enthalten, sofern in der Quellenangabe für das Material nichts anderes angegeben ist. Wenn Material nicht in der Creative-Commons-Lizenz des Artikels enthalten ist und Ihre beabsichtigte Nutzung nicht gesetzlich zulässig ist oder über die zulässige Nutzung hinausgeht, müssen Sie die Genehmigung direkt vom Urheberrechtsinhaber einholen. Um eine Kopie dieser Lizenz anzuzeigen, besuchen Sie http://creativecommons.org/licenses/by/4.0/.

Nachdrucke und Genehmigungen

Kitaguchi, D., Fujino, T., Takeshita, N. et al. Begrenzte Generalisierbarkeit eines einzelnen tiefen neuronalen Netzwerks für die Segmentierung chirurgischer Instrumente in verschiedenen chirurgischen Umgebungen. Sci Rep 12, 12575 (2022). https://doi.org/10.1038/s41598-022-16923-8

Zitat herunterladen

Eingegangen: 09. September 2021

Angenommen: 18. Juli 2022

Veröffentlicht: 22. Juli 2022

DOI: https://doi.org/10.1038/s41598-022-16923-8

Jeder, mit dem Sie den folgenden Link teilen, kann diesen Inhalt lesen:

Leider ist für diesen Artikel derzeit kein gemeinsam nutzbarer Link verfügbar.

Bereitgestellt von der Content-Sharing-Initiative Springer Nature SharedIt

Durch das Absenden eines Kommentars erklären Sie sich damit einverstanden, unsere Nutzungsbedingungen und Community-Richtlinien einzuhalten. Wenn Sie etwas als missbräuchlich empfinden oder etwas nicht unseren Bedingungen oder Richtlinien entspricht, kennzeichnen Sie es bitte als unangemessen.