FR3164308A1

FR3164308A1 - Procédé de classification d’images de vidéos en phases chirurgicales

Info

Publication number: FR3164308A1
Application number: FR2407365A
Authority: FR
Inventors: Grégory FLANDIN; Thibaut BOISSIN; Yannick PRUDENT
Original assignee: Centre Hospitalier Universitaire de Toulouse; Universite Toulouse III Paul Sabatier
Current assignee: Centre Hospitalier Universitaire de Toulouse; Universite de Toulouse
Priority date: 2024-07-05
Filing date: 2024-07-05
Publication date: 2026-01-09

Abstract

Procédé (20) de traitement d’une vidéo chirurgicale pour associer une succession d’images extraites de ladite vidéo à des phases chirurgicales distinctes (P1-P11), comprenant : (S211) une extraction de ladite succession d’images à partir de la vidéo, lesdites images étant associées à des instants successifs distincts,(S212) une classification desdites images, en associant lesdites images à des phases chirurgicales prédites parmi un ensemble prédéfini de phases chirurgicales, mise en œuvre par un modèle de classification,(S224) une correction de la classification par un modèle de Markov caché (S223), mis en œuvre sur les phases chirurgicales prédites en tant qu’observations, des phases chirurgicales réelles associées à la succession d’images étant des états cachés dudit modèle de Markov caché. Figure de l’abrégé : Figure 1

Description

Procédé de classification d’images de vidéos en phases chirurgicales

La présente divulgation relève du domaine du traitement de données, dont des images de vidéos d’opérations chirurgicales, pour prédire et extraire des phases chirurgicales distinctes des vidéos.

Il est connu d’enregistrer, sous formes de successions d’images ou de vidéos, des séquences d’actions ou de gestes dans le cadre d’actes ou d’opérations suivant des protocoles bien définis. En particulier, dans le domaine médical, l’enregistrement de vidéos d’opérations chirurgicales est fréquemment mis en œuvre, par exemple à des fins de formation ou encore d’automatisation d’actions (dans la salle d’opération par exemple) déclenchées par la détection en temps réel de certains actes.

Dans le cadre des vidéos d’opérations chirurgicales, ces dernières constituent souvent plusieurs heures d’enregistrement, allant de la préparation de l’opération chirurgicale au retrait ou à la désactivation de la caméra. Il est donc difficile et chronophage d’exploiter ces enregistrements, notamment à des fins de détection ou d’évaluation efficaces.

Des solutions de découpage de vidéos en phases chirurgicales existent, afin d’identifier et de distinguer des temps chirurgicaux durant lesquels le(s) praticien(s) réalise(nt) des étapes chirurgicales spécifiques par rapport à des temps morts par exemple. De telles solutions s’appuient notamment sur des procédés de traitement d’images et de segmentation permettant d’associer une image ou un ensemble d’images enregistrées à une phase donnée. Néanmoins, la plupart des solutions de classification existantes peinent à fournir une précision satisfaisante. Certaines solutions existantes comportent par ailleurs des processus de traitement post-prédictifs lourds, énergivores en ressources de calcul et/ou requérant des temps d’exécution considérables. De telles solutions ne sont alors notamment pas adaptées à des prédictions de phases chirurgicales en temps réel, qui requièrent une détection à la fois précise et rapide, afin de déclencher des actions sur détection d’un acte chirurgical donné (e.g., allumage d’un appareil, contrôle de la lumière, activation automatique de fonctionnalités de robots chirurgicaux).

D’autres solutions proposent également des traitements post-prédictifs des prédictions de classification de vidéos chirurgicales en considérant des vecteurs de caractéristiques issus du modèle de classification employé. Une telle solution est par exemple mise en œuvre dans le document [CADENE 2016]. Néanmoins, un tel traitement requiert, afin d’exploiter les vecteurs de caractéristiques prédits, l’adoption d’hypothèses et d’approximations (en l’occurrence une hypothèse gaussienne dans le cas de [CADENE 2016]), qui biaisent l’exactitude des résultats prédits.

Par ailleurs, de telles solutions existantes manquent d’explicabilité et de transparence quant aux prédictions obtenues, de sorte que les modèles de classification de vidéos chirurgicales existants peuvent difficilement être enrichis par une expertise médicale ou théorique.

Résumé

La présente divulgation répond à ces problèmes et améliore la performance des solutions de découpage de vidéos en phases chirurgicales, en augmentant l’exactitude des prédictions de phases chirurgicales, tout en simplifiant le processus de prédiction.

Selon un premier aspect de la présente divulgation, il est proposé un procédé de traitement d’une vidéo chirurgicale pour associer une succession d’images extraites de ladite vidéo à des phases chirurgicales distinctes, comprenant :

une extraction de ladite succession d’images à partir de la vidéo, lesdites images étant associées à des instants successifs distincts,
une classification desdites images, en associant lesdites images à des phases chirurgicales prédites parmi un ensemble prédéfini de phases chirurgicales, mise en œuvre par un modèle de classification,
une correction de la classification par un modèle de Markov caché, mis en œuvre sur les phases chirurgicales prédites en tant qu’observations, des phases chirurgicales réelles associées à la succession d’images étant des états cachés dudit modèle de Markov caché.

Par conséquent, le procédé proposé permet avantageusement de classifier des images d’une vidéo chirurgicale de sorte à automatiser et simplifier l’identification de moments clés de la vidéo correspondant aux phases chirurgicales. Ainsi, un tel procédé permet d’éviter aux praticiens (ou plus généralement à tout individu concerné) le visionnage de plusieurs heures de vidéo et la mise en œuvre d’un découpage manuel de la vidéo. De plus, le procédé proposé permet d’affiner la précision de la classification des images de la vidéo, en combinant la mise en œuvre d’un modèle de classification et la correction de la classification par un tel modèle.

En particulier, l’étape de correction de la classification telle que proposée permet avantageusement de corriger les potentielles erreurs de prédiction du modèle de classification de façon locale et globale en considérant l’ensemble des phases chirurgicales prédites et la succession d’images dans son ensemble. De plus, une telle correction de la classification ne requiert aucun réglage (e.g., d’hyperparamètre) lié au modèle de classification, de sorte que l’étape de correction proposée peut être mise en œuvre quel que soit le modèle de classification mis en œuvre. La correction proposée apporte ainsi une amélioration supplémentaire dans la précision de prédiction des phases chirurgicales via une brique de traitement distincte, compatible avec toute classification des images et pouvant ainsi être intégrée facilement à une chaîne de traitement d’images en tant qu’étape de correction post-prédiction. La correction proposée s’appuie uniquement sur les résultats en sortie du modèle de classification (notamment, les phases chirurgicales prédites), de sorte qu’elle permet une mise en œuvre simple, transparente pour l’utilisateur et plus généralement décorrélée de l’étape de classification.

De plus, une telle brique de correction distincte de l’étape de classification permet notamment d’affiner, d’adapter ou d’améliorer la phase de correction sans nécessairement affecter ou corriger les paramètres et/ou hyperparamètres du modèle de classification (par exemple, sans modifier les poids du modèle, ou encore sans requérir un réentraînement du modèle de classification, lorsque le modèle de classification est un modèle d’apprentissage).

Par une vidéo chirurgicale, il est entendu une succession d’images consécutives capturées d’une scène correspondant à une opération chirurgicale capturée par un ou plusieurs équipements intégrant une ou plusieurs caméras, typiquement un endoscope. Une opération chirurgicale peut être de tout type, par exemple une opération de cataracte ou une cholécystectomie. Une telle succession d’images formant la vidéo est capturée sur une durée (ou période) délimitée, pouvant correspondre à plusieurs minutes ou plusieurs heures par exemple. Une fréquence d’extraction d’images peut être choisie pour la vidéo, de sorte que deux images extraites de la vidéo peuvent être considérées comme successives selon une granularité (temporelle) choisie. Par exemple, il est possible de considérer qu’une image est extraite toutes les secondes ou toutes les millisecondes.

Par une succession d’images extraites à partir de la vidéo et associées à des instants successifs distincts, il est donc entendu des images successives extraites de la vidéo et formant l’ensemble ou une partie de la vidéo. Par exemple, lorsque la succession d’images extraites forme l’ensemble des images de la vidéo, la classification des images est assimilable à un découpage de la vidéo, de sorte que la vidéo est partitionnée en phases chirurgicales distinctes. La succession d’images extraites peut former une partie de la vidéo, par exemple si une ou plusieurs portions de la vidéo ne sont pas exploitées/exploitables ou ne sont pas assimilables à des phases chirurgicales. Ainsi, le découpage de la vidéo correspond à un cas particulier de la classification des images successives extraites de la vidéo, correspondant au cas où les images successives extraites forment l’ensemble des images de la vidéo.

Par des phases chirurgicales, il est entendu des catégories ou labels prédéfinis pouvant être associés à des images de la vidéo chirurgicale et représentant une étape chirurgicale capturée à un instant donné pendant l’opération chirurgicale. L’ensemble des phases chirurgicales distinctes pouvant être associées à des images d’une vidéo chirurgicale est fini et connu. Un tel ensemble de phases chirurgicales peut varier en taille et en nature selon la vidéo chirurgicale considérée (notamment selon le type d’opération chirurgicale filmé) ou non. Des exemples de phases chirurgicales peuvent être les suivants : phase de préparation, phase de nettoyage, phase d’incision, phase d’irrigation, phase de dissection, phase de suture etc.

De plus, l’ensemble des phases chirurgicales peut présenter des contraintes. Par exemple, les phases chirurgicales peuvent être mutuellement exclusives (pour une image donnée ne peut être associée à deux phases chirurgicales distinctes), ordonnées (si une phase chirurgicale a suit une phase chirurgicale b, l’inverse n’est pas possible), linéaires ou se suivre selon une structure d’arbre etc. De telles contraintes peuvent notamment être prédéfinies et dépendre de plusieurs paramètres comme du type d’opération chirurgicale ou de règles ou protocoles de procédures.

Par une classification des images, il est entendu une prédiction des phases chirurgicales prédites par le modèle de classification respectivement associées aux images de la succession d’images extraites. Pour cela, le modèle de classification peut typiquement être un modèle de prédiction par apprentissage supervisé. Par exemple, le modèle de classification utilisé peut être le modèle TMRnet, décrit dans la publication [JIN 2021]. Plus généralement, le modèle de classification peut correspondre à tout modèle de classification connu ou adapté à partir d’un modèle de classification connu (par exemple, parfine-tuning) configuré pour prédire des phases chirurgicales associées à chacune des images extraites. Les phases chirurgicales prédites correspondent donc à des prédictions du modèle de classification, à la différence des phases chirurgicales réelles, qui correspondent aux véritables phases chirurgicales associées aux images extraites et qui sont inconnues lors de la mise en œuvre du procédé. Ainsi, plus les phases chirurgicales prédites correspondent aux phases chirurgicales réelles, plus l’étape de classification (et donc le modèle de classification sous-jacent) est performante (ou précise).

Par une correction de la classification, il est entendu une étape de traitement supplémentaire venant s’ajouter à l’étape de classification, de sorte à affiner la prédiction des phases chirurgicales prédites à l’étape de classification. Une telle correction vise à potentiellement corriger les phases chirurgicales prédites par le modèle de classification, en modélisant l’enchaînement des phases chirurgicales dans la vidéo chirurgicale comme un modèle de Markov caché. Ainsi, la correction de la classification résulte en, pour une séquence d’images successives extraites d’une longueur donnée, une séquence de phases chirurgicales prédites (et corrigées) correspondante, de même longueur (i.e., avec, pour chaque image extraite de la vidéo, une phase chirurgicale prédite corrigée déterminée).

Par une correction de la classification par un modèle de Markov caché, il est entendu que la succession d’images de la vidéo associées à des phases chirurgicales est modélisée par une chaîne de Markov cachée (ouHidden Markov Modelou HMM), ce qui revient à inférer les phases chirurgicales réelles en tant qu’états cachés à partir des phases chirurgicales prédites par le modèle de classification, en tant qu’observations (ou états observables). Ainsi, le procédé de la présente divulgation propose de s’appuyer directement sur les prédictions catégorielles (i.e., des phases chirurgicales prédites) comme observations.

Les caractéristiques exposées dans les paragraphes suivants peuvent, optionnellement, être mises en œuvre, indépendamment les unes des autres ou en combinaison les unes avec les autres :

Dans un mode de réalisation, le modèle de classification est préalablement entraîné et validé à partir d’un ensemble d’images labellisées, lesdites images labellisées correspondant à une succession d’images associées à des phases chirurgicales connues. Optionnellement, le modèle de classification est préalablement entraîné, validé et testé à partir d’un ensemble d’images labellisées.

Par conséquent, la prédiction des phases chirurgicales prédites sur les images successives extraites peut présenter un premier niveau de précision, qui sera amélioré grâce à l’étape de correction ultérieure. Par ailleurs, les résultats et performances d’un tel modèle de classification peuvent être améliorés sans affecter le paramétrage intrinsèque du modèle de classification, ce qui permet de superposer l’étape de correction (correspondant à un post-traitement) sur les résultats de tout modèle de classification.

Autrement dit, le modèle de classification utilisé peut être un modèle d’apprentissage quelconque (e.g., d’apprentissage profond, un réseau de neurones). Le modèle de classification peut être préexistant et affiné pour la détection de phases chirurgicales. Le modèle de classification peut par exemple correspondre au modèle TMRNet décrit dans la publication [JIN 2021]. Le modèle de classification peut être unChannel -Separated Convolutional Network(ou CSN) décrit dans la publication [TRAN 2019], notamment le modèleCSN-R101.

Un tel modèle de classification est entraîné sur des images de vidéos chirurgicales labellisées (i.e., associées à des phases chirurgicales connues) formant un set d’entraînement. Le modèle de classification, une fois entraîné, est validé sur des images de vidéos chirurgicales labellisées (différentes des images du set d’entraînement) formant un set de validation (ou set de calibration). Une telle phase de validation permet alors une calibration des erreurs du modèle de classification sur le set de validation (qui n’a pas été vu par le modèle de classification entraîné) et l’ajustement de paramètres/hyperparamètres du modèle de classification de sorte à améliorer sa performance. Enfin, le modèle de classification résultant peut être testé sur des images de vidéos chirurgicales labellisées (différentes des images des sets d’entraînement et de validation) formant un set de test.

Ainsi, l’ensemble d’images labellisées doit être de taille suffisante pour permettre au moins l’entraînement et la validation du modèle de classification. L’ensemble d’images labellisées peut correspondre à des images d’opérations chirurgicales associées à un label correspondant à la phase chirurgicale connue. L’ensemble d’images labellisées peut également être extrait à partir de vidéos chirurgicales labellisées découpées en phases chirurgicales connues. Par exemple, l’ensemble d’images labellisées peut correspondre à un ou plusieurs des jeux de données suivants : Cholec80, Cataract-101, qui seront détaillés plus loin dans la présente divulgation.

Dans un mode de réalisation, le procédé comprend, avant l’étape de correction :

un calcul d’une matrice de transitions associées aux phases chirurgicales distinctes à partir au moins des phases chirurgicales connues associées aux images labellisées,
un calcul d’une matrice de confusion à partir du modèle de classification mis en œuvre sur au moins une partie des images labellisées pour une étape de calibration,

et dans lequel la correction de la classification dépend de la matrice de transition et de la matrice de confusion.

Par une matrice de transition, il est entendu une matrice (ou de façon équivalente, un tableau à double entrée) dont les coefficients correspondent à des probabilités d’observer (directement) une transition, entre deux images successives, d’une phase chirurgicale (e.g., sur les lignes de la matrice) à une autre (sur les colonnes de la matrice). Par une transition d’une phase chirurgicale à une autre entre deux images successives, il est entendu l’observation des phases chirurgicales de deux images successives, chacune étant associée à une phase chirurgicale donnée. En particulier, la transition entre deux phases chirurgicales dans le contexte de la matrice de transition peut correspondre à une transition vers une même phase chirurgicale (par exemple, lorsque les deux images successives sont associées à la même phase chirurgicale) ou à une transition de changement de phase chirurgicale (par exemple, lorsque les deux images successives sont respectivement associées à deux phases chirurgicales différentes). Dans le contexte de la présente divulgation (qui est celui d’un modèle de Markov), la matrice de transition est une matrice théoriquement stochastique, reflétant que, d’une phase chirurgicale donnée, seule une transition vers une phase chirurgicale (la même ou une autre) parmi l’ensemble des phases chirurgicales distinctes défini est possible. Les coefficients de la première ligne correspondent à des probabilités de passer, pour une image donnée, d’une première phase chirurgicale à, pour l’image successive, toutes les autres phases chirurgicales. Les coefficients sur la diagonale de la matrice de transition reflètent alors la probabilité de répétition d’une phase chirurgicale, c’est-à-dire la probabilité, entre deux images successives, d’être dans la même phase chirurgicale. Un coefficient m_T, _i,jde la matrice de transition de 1.0 (ou 100 %) reflète une transition certaine, c’est-à-dire qu’une phase chirurgicale i est systématiquement directement suivie d’une phase chirurgicale j (du moins sur l’ensemble des images successives observées). Au contraire, un coefficient m_T, _i,jde 0.0 (ou 0 %) reflète une transition impossible (du moins sur l’ensemble des images successives observées), c’est-à-dire qu’une phase chirurgicale i n’est jamais suivie directement d’une phase chirurgicale j sur l’ensemble des images successives observées. En particulier, dans le contexte de la présente divulgation, la matrice de transition est calculée à partir des images labellisées (et plus particulièrement des phases chirurgicales connues associées aux images labellisées), par exemple les images labellisées du set de validation. Chaque coefficient m_T,i,jde la matrice de transition peut alors être calculé par exemple par une moyenne sur l’ensemble des transitions entre deux images labellisées successives observées (i.e., à partir du nombre d’occurrences de la transition entre les phases chirurgicales i et j observées sur tous les couples d’images labellisées successives observés). En particulier, les coefficients en diagonale de la matrice de transition (i.e., m_T,i,j, où i=j) peuvent être non nuls, reflétant ainsi que d’une image labellisée à l’autre, il existe une probabilité non nulle d’observer la même phase chirurgicale connue. En pratique, lorsque les phases chirurgicales s’étendent sur une certaine durée (en tout cas supérieure à la période d’acquisition ou d’extraction des images successives des vidéos), de tels coefficients sont non nuls, voire plutôt élevés (i.e., proches de 1 ou 100%), puisqu’il existe une grande probabilité d’observer la même phase chirurgicale d’une image à l’autre. Les coefficients non diagonaux de la matrice de transition (i.e., m_T,i,j, où i différent j) peuvent être non nuls et dépendent notamment des contraintes de déroulement des phases chirurgicales au sein d’un type d’opération chirurgicale.

Par une matrice de confusion, il est entendu une matrice dont les coefficients reflètent un degré de performance (ou de la même façon, d’erreur) du modèle de classification. Typiquement, les coefficients de la matrice de confusion peuvent être déterminés à partir des performances du modèle de classification entraîné sur le set de validation à des fins de calibration de l’algorithme ultérieur de correction de la classification. Les lignes de la matrice de confusion peuvent correspondre aux phases chirurgicales connues et les colonnes de la matrice de confusion peuvent correspondre aux phases chirurgicales prédites. Ainsi, plus tous les coefficients de la diagonale de la matrice de confusion sont proches de 1 (et les autres coefficients sont proches de 0), plus le modèle de classification est performant.

Dans un mode de réalisation, des coefficients de la matrice de transition dépendent d’au moins un élément parmi : un type d’opération chirurgicale capturé dans la vidéo chirurgicale, un ordonnancement des phases chirurgicales de l’ensemble prédéfini de phases chirurgicales.

Avantageusement, la matrice de transition permet de refléter des informations interprétables et ajustables par des humains et notamment par des experts du corps médical. En effet, les coefficients de la matrice de transition peuvent être déterminés de façon empirique, à partir des phases chirurgicales connues associées aux images labellisées, comme décrit précédemment. De tels coefficients de la matrice de transition peuvent être également déterminés, complétés, affinés ou enrichis par des connaissances ou données d’expertise fournies. En effet, certains types d’opération chirurgicale (voire l’ensemble des types d’opérations chirurgicales) présentent des spécificités (par exemple l’absence d’une phase chirurgicale, auquel cas tout coefficient de la matrice de transition traduisant une transition depuis, dans ou vers cette phase chirurgicale devrait être nul ; ou encore un enchaînement systématique de deux phases chirurgicales, auquel cas le coefficient correspondant dans la matrice de transition devrait être non nul). Les opérations chirurgicales peuvent également suivre une séquentialité stricte du fait de la nature protocolaire des interventions chirurgicales. Ainsi, un ordonnancement linéaire des phases chirurgicales peut exister et permettre de déterminer ou d’affiner les coefficients de la matrice de transition. De telles spécificités peuvent notamment varier selon le type d’opération chirurgicale : le nombre de phases chirurgicales, leur nature et/ou leur ordre peuvent varier. Une telle correction manuelle possible de la matrice de transition permet alors d’enrichir les données issues des images labellisées par des données d’expertise extérieures, ce qui améliore la pertinence de la matrice de transition et donc l’étape de correction.

Avantageusement, les coefficients de la matrice de transition peuvent être déterminés de sorte à maximiser le caractère creux (ousparsity) de la matrice de transition. En effet, plus le nombre de coefficients nuls est important, plus le type d’opération chirurgicale sous-jacent présente une linéarité et donc une séquentialité stricte. Un grand nombre de coefficients nuls dans la matrice de transition permet avantageusement une plus grande efficacité de l’étape de correction de la classification, en ce que des erreurs de prédiction par le modèle de classification peuvent être plus facilement identifiées lors de l’étape de correction, dans le cas d’une linéarité stricte des phases chirurgicales.

Plus généralement, en ayant recours au calcul d’une matrice de transition et d’une matrice de confusion pour corriger la classification des images, le procédé proposé permet avantageusement de s’appuyer sur des données pouvant être humainement interprétées, manuellement ajustées ou adaptées, notamment par des experts du corps médical, en fonction du type d’opération chirurgicale concerné ou encore des spécificités opérationnelles et/ou procédurales changeantes. En effet, comme décrit précédemment, les coefficients de la matrice de transition peuvent être ajustés manuellement lorsque des transitions spécifiques entre certaines phases chirurgicales peuvent être précisées (typiquement, lorsque certaines transitions entre phases chirurgicales sont obligatoires ou au contraire impossibles). Un tel ajustement manuel permettant d’améliorer la précision des matrices, et donc du modèle de Markov caché, peut être mis en œuvre sans intervenir sur le modèle de classification ni le fonctionnement sous-jacent du modèle de Markov caché. Cela permet à la fois d’enrichir le modèle par des données ou connaissances humaines additionnelles de façon simple, et de fournir une interprétabilité et une transparence du procédé appliqué sur les vidéos chirurgicales, une telle interprétabilité étant essentielle dans le domaine médical. La matrice de confusion permet également de fournir une interprétabilité du procédé, en traduisant un degré de performance du modèle de classification.

Dans un mode de réalisation, le modèle de Markov caché est appliqué avec la matrice de transition en tant que matrice de transition des états cachés dudit modèle et avec la matrice de confusion en tant que matrice de distribution des observations dudit modèle.

Dans un mode de réalisation, des coefficients de la matrice de confusion et/ou de la matrice de transition sont lissés par un lissage de Laplace.

Le lissage de Laplace permet d’ajuster des coefficients des matrices de transition et/ou de confusion pour lesquels l’ensemble d’images labellisées ne permet pas un calcul représentatif ou suffisamment précis. En particulier, le lissage de Laplace peut remplacer des coefficients non calculés, nuls par défaut ou calculés sur la base d’une ou de peu d’images labellisées par des valeurs lissées, faibles mais non nulles. Typiquement, si une phase chirurgicale n’est pas représentée dans l’ensemble d’images labellisées, les coefficients de la matrice de transition correspondant à une transition vers ou depuis une telle phase chirurgicale et les coefficients de la matrice de confusion pour la prédiction correcte de cette phase chirurgicale seront nuls par défaut, ce qui crée un biais de prédiction (e.g., des transitions vers, dans ou depuis cette phase chirurgicale seront considérées comme impossible alors que ce n’est pas nécessairement le cas). Le lissage de Laplace permet alors avantageusement de compenser une telle insuffisance ou sous-représentation d’informations, ce qui contribue à améliorer l’efficacité de la correction de la classification. Dans un mode de réalisation, un lissage de Laplace peut être mis en œuvre sur la matrice de transition de façon sélective, en identifiant les coefficients nuls dans la matrice de transition mais qui correspondent à des transitions théoriquement possibles (e.g., en utilisant un graphe de déroulement de l’opération chirurgicales, des données d’experts médicaux…) et en affectant ainsi des faibles valeurs non nulles à ces coefficients spécifiques.

Dans un mode de réalisation, la correction de la classification inclut une maximisation d’une vraisemblance totale d’une séquence d’états cachés associés à la succession d’images, ladite maximisation résultant en des phases chirurgicales corrigées associées aux images de la succession d’images.

En particulier, une telle maximisation peut être mise en œuvre via un algorithme de Viterbi.

Avantageusement, la mise en œuvre d’un algorithme de Viterbi permet une exécution rapide de l’étape de correction de la classification, comparée à d’autres algorithmes d’apprentissage profonds. L’étape de correction peut alors être exécutée pour traiter des grandes quantités de données, des vidéos de plusieurs heures et permettre une analyse rapide des vidéos chirurgicales. Le procédé peut alors être avantageusement mis en œuvre pour des applications de détection de phases chirurgicales en temps réel ou quasi réel, par exemple pour le déclenchement d’actions ou de processus spécifiques dépendant de la phase chirurgicale détectée (e.g., émission d’alertes ou de notifications spécifiques à certaines phases chirurgicales, réglage automatique de la luminosité ou de paramètres d’équipements médicaux…).

Dans un autre mode de réalisation, une telle maximisation peut également être mise en œuvre par tout autre type d’algorithme équivalent.

Selon un deuxième aspect de la présente divulgation, il est proposé un dispositif comprenant des moyens d’acquisition d’une vidéo chirurgicale et un calculateur configuré pour mettre en œuvre le procédé tel proposé selon le premier aspect. Un tel dispositif correspond par exemple à un dispositif médical utilisé pendant l’opération chirurgicale, typiquement un endoscope.

Selon un autre aspect, il est proposé un programme informatique comportant des instructions pour la mise en œuvre de tout ou partie d’un procédé tel que défini dans le premier aspect lorsque ce programme est exécuté par un processeur. Selon un autre aspect, il est proposé un support d’enregistrement non transitoire, lisible par un ordinateur, sur lequel est enregistré un tel programme.

D’autres caractéristiques, détails et avantages apparaîtront à la lecture de la description détaillée ci-après, et à l’analyse des dessins annexés, sur lesquels :

Fig. 1

FIG. 1illustre une classification d’images d’une vidéo en phases chirurgicales.

Fig. 2

FIG. 2illustre des étapes d’un procédé de classification d’images d’une vidéo en phases chirurgicales selon un mode de réalisation.

Fig. 3

FIG. 3illustre des étapes de construction d’un modèle de classification selon un mode de réalisation.

Fig. 4

FIG. 4montre un graphe de déroulement d’un type d’opération chirurgicale selon un premier exemple.

Fig. 5

FIG. 5montre une matrice de confusion selon le premier exemple.

Fig. 6

FIG. 6montre une matrice de confusion lissée selon le premier exemple.

Fig. 7

FIG. 7montre un graphe de déroulement d’un type d’opération chirurgicale selon un deuxième exemple.

Il est fait référence à laFIG. 1. LaFIG. 1illustre schématiquement des exemples de découpages D_r, D_p, D_cd’une même vidéo en phases chirurgicales P1-P7. Dans la suite de la présente description, il sera fait référence à un découpage de la vidéo, c’est-à-dire une classification de l’ensemble des images successives formant la vidéo. Néanmoins, comme précisé précédemment, la classification des images successives peut concerner une partie de la vidéo, de sorte que le découpage de la vidéo peut être compris comme le découpage d’images successives formant une portion de la vidéo. La vidéo considérée peut être définie comme une succession d‘images consécutives dans le temps t, s’étalant sur une durée délimitée. Par exemple, en référence à laFIG. 1, la vidéo considérée s’étale d’un instant de début T0 à un instant de fin TN = T7. Les images successives formant la vidéo ne sont pas discrétisées et ne sont donc pas représentées une par une sur laFIG. 1.

LaFIG. 1illustre un découpage réel D_rd’une vidéo. Un tel découpage réel D_rcorrespond à une classification réelle (ou labels) des images de la vidéo. Un tel découpage réel D_rpeut typiquement être obtenu de façon manuelle, par exemple par un membre du corps médical compétent, en visionnant l’ensemble de la vidéo entre les instants T1 à TN et en associant une phase chirurgicale à chaque image visionnée. Ainsi, un tel découpage réel D_rpeut être considéré comme étant le découpage sensiblement correct de la vidéo et sert de découpage de référence. En référence à laFIG. 1, le découpage réel D_rde la vidéo associe une phase chirurgicale P1 aux images acquises entre les instants T0 et T1>T0, une phase chirurgicale P2 aux images acquises entre les instants T1 et T2 > T1, une phase chirurgicale P3 aux images acquises entre les instants T2 et T3 > T2, une phase chirurgicale P4 aux images acquises entre les instants T3 et T4 > T3, une phase chirurgicale P5 aux images acquises entre les instants T4 et T5 > T4, une phase chirurgicale P6 aux images acquises entre les instants T5 et T6 > T5 et une phase chirurgicale P7 aux images acquises entre les instants T6 et T7 > T6.

LaFIG. 1illustre également un exemple d’un découpage prédit D_pde la vidéo. Un tel découpage prédit D_pcorrespond typiquement à un découpage résultant d’une prédiction d’un modèle de classification. Un tel modèle de classification peut correspondre à tout modèle de prédiction connu configuré pour prédire des phases chirurgicales associées à des images. Comme illustré sur laFIG. 1, le découpage prédit D_ppermet d’obtenir un découpage estimé de la vidéo en phases chirurgicales. Certaines prédictions peuvent être correctes, par exemple les images comprises entre les instants T1 et T2 sont correctement prédites comme correspondant à la phase chirurgicale P2. Néanmoins, les phases chirurgicales prédites peuvent comporter plusieurs erreurs. Par exemple, entre les instants T0 et T1, certaines images sont prédites comme correspondant à la phase chirurgicale P2, P6 ou encore P7 tandis que ces images correspondent en réalité à la phase chirurgicale P1. De la même façon, entre les instants T4 et T6, certaines images sont prédites comme appartenant à la phase chirurgicale P7, qui est donc prédite comme ayant lieu entre les phases chirurgicales P5 et P6, tandis qu’en réalité, les phases chirurgicales P5 et P6 sont consécutives.

LaFIG. 1illustre enfin également un exemple d’un découpage corrigé D_cde la vidéo, obtenu suite à la mise en œuvre du procédé proposé, qui sera décrit plus en détail enFIG. 2. Le découpage corrigé D_cpermet ainsi d’obtenir une classification améliorée du découpage de la vidéo en phases chirurgicales par rapport au découpage prédit D_psans étape de correction post-prédiction. En effet, le découpage corrigé D_cse rapproche du découpage réel D_rde la vidéo.

Il est à présent fait référence à laFIG. 2. LaFIG. 2schématise des étapes d’un procédé 20 pour associer des images extraites d’une vidéo à des phases chirurgicales distinctes selon un mode de réalisation proposé par la présente divulgation. Le procédé 20 peut être mis en œuvre par un dispositif (non représenté sur les figures) comprenant au moins un calculateur, un tel calculateur incluant au moins un processeur et une unité mémoire. Un tel calculateur peut notamment être relié à des moyens d’acquisition d’une vidéo, qui peuvent être compris dans le dispositif ou dans un autre dispositif, de tels moyens d’acquisition étant disposés de sorte à acquérir un flux d’images d’une opération chirurgicale, par exemple en étant disposés dans un bloc opératoire. Le dispositif peut par exemple correspondre à un endoscope.

De façon générale, le procédé 20 comprend notamment une séquence d’étapes S21 (incluant les étapes S211 et S212) de classification d’images en phases chirurgicales et une séquence d’étapes S22 (incluant les étapes S221, S222, S223 et S224) de correction de la classification. Ces séquences d’étapes S21, S22 peuvent représenter deux briques de traitement distinctes et peuvent donc être mises en œuvre par deux entités de traitement distinctes. LaFIG. 2illustre ces deux séquences d’étapes S21, S22 à la suite au sein d’un même procédé 20, mais la personne du métier comprendra que ces deux séquences d’étapes S21, S22 sont autonomes et que par exemple, la séquence d’étapes S22 peut être mise en œuvre à partir de phases chirurgicales prédites obtenues à l’issue de toute séquence de classification.

À une étape S211, une succession d’images est obtenue à partir d’une vidéo chirurgicale. Dans des modes de réalisation, l’étape S211 peut inclure ou être précédée d’une étape d’acquisition de la vidéo chirurgicale par des moyens d’acquisition comme une caméra et une étape d’extraction de la succession d’images. Une telle succession d’images extraites peut résulter d’un découpage de la vidéo ou d’une ou plusieurs portions de la vidéo avec une fréquence d’extraction choisie, par exemple une image toutes les secondes de la vidéo. La fréquence d’extraction de la succession d’images peut être choisie en fonction d’un ou plusieurs facteurs comme la durée totale de la vidéo ou encore un degré de précision attendu du procédé 20.

À l’issue de l’étape S211, il est obtenu une succession d’images associées à des instants successifs, chaque image représentant une scène acquise à l’instant correspondant de l’opération chirurgicale. Il est à noter que les phases chirurgicales respectivement associées à ces images successives ne sont pas connues (ce ne sont donc pas des images labellisées).

À une étape S212, la succession d’images est transmise à un modèle de classification, typiquement un modèle d’apprentissage entraîné sur un ensemble d’images chirurgicales labellisées tel que décrit précédemment et configuré pour classifier des images en des phases chirurgicales prédites. La configuration du modèle de classification à cette fin sera décrite plus en détail dans laFIG. 3.

À l’étape S212, le modèle de classification effectue une classification des images extraites, en associant chacune de ces images à une phase chirurgicale prédite. Ainsi, à l’issue de l’étape S212, le modèle de classification peut retourner une succession de valeurs (par exemple sous forme de liste) correspondant à des numérotations de phases chirurgicales prédites (e.g., 1 pour la phase chirurgicale P1, 2 pour la phase chirurgicale P2 etc.). Le nombre de valeurs retournées est alors égal au nombre d’images extraites et données au modèle de classification.

Dans un autre mode de réalisation, une telle classification peut être mise en œuvre par toute autre entité de traitement distante et l’étape S212 peut comprendre de recevoir des valeurs correspondant aux phases chirurgicales prédites par une telle entité de traitement distante.

Au stade de l’étape S212, une classification des images à des phases chirurgicales prédites a eu lieu. Une telle classification résulte typiquement en le découpage prédit D_pde laFIG. 1, qui comprend potentiellement des erreurs de prédiction. Les étapes suivantes du procédé 20 permettent alors la mise en œuvre d’une correction d’une telle classification.

Aux étapes S221 et S222, une matrice de transition et une matrice de confusion du problème de classification sont respectivement calculées.

Dans un mode de réalisation, la matrice de transition et la matrice de confusion peuvent alors être calculées de façon empirique, à partir d’au moins une partie de l’ensemble d’images chirurgicales labellisées, typiquement distinctes de celles ayant servi à l’apprentissage du modèle de classification. Par exemple, pour la matrice de transition, de telles images chirurgicales labellisées représentent un échantillon à partir duquel des probabilités de transition entre des phases chirurgicales d’images successives peuvent être empiriquement calculées. Pour la matrice de confusion, les performances du modèle de classification sur une partie des images chirurgicales labellisées (e.g., set de validation) permettent de calculer empiriquement les coefficients de la matrice de confusion.

Des exemples de matrices de transition et de confusion seront décrits en détail dans deux exemples.

Dans un mode de réalisation particulier, les matrices de transition et de confusion peuvent être calculées ou ajustées avec l’intervention d’une étape optionnelle S220 d’ajustement manuel de la matrice de transition et/ou de la matrice de confusion. Typiquement, une telle étape S220 peut être mise en œuvre à partir d’informations additionnelles transmises par un expert du corps médical (e.g., un chirurgien spécialiste de l’opération chirurgicale filmée dans la vidéo chirurgicale). De telles informations peuvent être spécifiques à l’opération chirurgicale ou non, incluant par exemple :

la présence ou l’absence de certaines phases chirurgicales,
un ordonnancement impossible, systématique, préféré ou possible de certaines phases chirurgicales,
des événements spécifiques dans le cadre de l’opération chirurgicale filmée,
des informations procédurales ou protocolaires chirurgicales.

À partir de telles informations additionnelles, les matrices de transition et de confusion peuvent être ajustées afin de respecter les informations transmises. Par exemple, l’étape S220 peut indiquer que toute opération chirurgicale doit débuter par une phase de préparation, unique dans l’opération chirurgicale, de sorte que tous les coefficients de la matrice de transition correspondant à une transition d’une phase chirurgicale donnée (autre que la phase de préparation) vers la phase de préparation doivent être nuls.

L’étape S220 peut notamment inclure l’ajustement manuel direct des coefficients des matrices.

Dans une étape optionnelle, non représentée enFIG. 2, les coefficients des matrices peuvent être lissés par un lissage de Laplace.

Il est à noter que les étapes S220, S221 et S222 ne dépendent ni de l’extraction des images successives de la vidéo chirurgicale à l’étape S211, ni des phases chirurgicales prédites à l’étape S212. En particulier, laFIG. 2illustre les étapes S220, S221 et S222 comme étant mises en œuvre après la séquence S21 mais dans d’autres modes de réalisation, ces étapes peuvent être implémentées avant ou pendant la séquence S21.

À une étape S223, le problème de classification des images successives extraites de la vidéo chirurgicale à des phases chirurgicales distinctes est modélisé en un modèle (ou une chaîne) de Markov caché.

Dans un tel modèle de Markov caché, la succession d’images extraites de la vidéo chirurgicale est modélisée comme un système passant d’un état à un autre parmi un ensemble fini d’états, de tels états correspondant aux phases chirurgicales, qui sont en nombre fini. Le modèle de Markov est dit caché en ce que de telles phases chirurgicales (réelles) sont cachées (i.e., inconnues du problème) et sont inférées à partir d’observations connues, correspondant aux phases chirurgicales prédites par le modèle de classification à l’étape S212.

En résumé, le modèle de Markov caché proposé est décrit par :

un ensemble d’états, i.e., de phases chirurgicales existantes P = {1,2,…N} (ou P = {P1,P2,…PN}
des instants t, respectivement associés aux images successives extraites,
des états cachés H_t, à valeurs dans P, inconnus dans la description du problème,
des états observables X_t, à valeurs dans P, correspondant aux phases prédites par le modèle de classification
une matrice de transition des états cachés M_T, qui correspond à la matrice de transition calculée à l’étape S221, où chaque coefficient m_T,i,jreprésente la probabilité de transition de l’état caché H_ià l’état caché H_j: m_T,i,j= P(H_t+1= j | H_t= i)
une matrice d’émission (ou de distribution des observations), qui est choisie dans le présent procédé 20 comme étant la matrice de confusion calculée à l’étape S222, où chaque coefficient m_C,i,jreprésente la probabilité qu’une phase chirurgicale i soit prédite en phase chirurgicale j : m_C,i,j= P(X_t= j | H_t= i).

À une étape S224, la correction des états observables, i.e. des phases chirurgicales prédites par le modèle de classification est mise en œuvre afin de déterminer les états cachés associés à de tels états observables. Autrement dit, l’objectif est de déterminer une séquence d’états cachés associés à la succession d’images, de tels états cachés étant inférés à partir des états observables respectifs.

Pour cela, l’étape S224 peut inclure une maximisation d’une vraisemblance totale de la séquence d’états cachés associés à la succession d’images, i.e., de trouver la séquence d’états cachés qui maximise une vraisemblance, sachant une séquence d’états observables X_t. Une telle étape de maximisation de vraisemblance revient alors à affiner les phases chirurgicales prédites du modèle de classification, de sorte à maximiser la probabilité de leur enchaînement.

Une telle maximisation peut notamment être mise en œuvre via un algorithme de Viterbi ou tout type d’algorithme équivalent. Lors de l’étape S224, un tel algorithme construit et explore un arbre de probabilités de chaque séquence d’états cachés possible afin de déterminer celle qui maximise une vraisemblance.

Ainsi, en reprenant l’exemple de laFIG. 1, le modèle de classification a déterminé un découpage prédit D_pavec certaines images entre les instants T2 et T3 associées à des phases chirurgicales prédites P4 (de telles prédictions sont donc fausses puisque les images extraites entre les instants T2 et T3 sont en réalité toutes associées à la phase chirurgicale P3, comme illustré par D_r). La correction proposée permet alors, à l’étape S224, de déterminer que la vraisemblance de la séquence d’états cachés est maximisée lorsque les images entre les instants T2 et T3 sont toutes associées à la phase P3 (et non par exemple lorsque les images aux alentours de l’instant T3 sont associées à la phase P4 typiquement, ce qui pourrait être le cas avec d’autres procédés post-prédictifs se contentant de lisser ou filtrer les prédictions).

Il est maintenant fait référence à laFIG. 3. LaFIG. 3illustre des étapes de construction d’un modèle de classification configuré pour déterminer des phases chirurgicales prédites associées à une succession d’images extraites d’une vidéo chirurgicale. Un tel modèle de classification est typiquement utilisé pour déterminer les phases chirurgicales prédites à l’étape S212 du procédé 20.

À une étape S31, des images successives extraites d’une ou plusieurs vidéos chirurgicales sont collectées. Une telle étape S31 peut inclure la collecte d’une pluralité de vidéos chirurgicales et l’extraction (ou le découpage) d’images successives à partir de telles vidéos chirurgicales. Les images successives peuvent représenter des types d’opérations chirurgicales différents, comporter des phases chirurgicales de natures différentes, ordonnancées différemment ou en nombre différents.

En particulier, les images collectées à l’étape S31 sont labellisées, c’est-à-dire que chaque image est associée à une phase chirurgicale connue parmi un ensemble prédéfini de phases chirurgicales. Ainsi, une succession d’images labellisées collectées à l’étape S31 présentent une succession connue de phases chirurgicales. Il est à noter que des images labellisées successives peuvent être associées à un même label (i.e., à une même phase chirurgicale), notamment lorsqu’une phase chirurgicale s’étend temporellement sur une durée supérieure à la période d’extraction de chaque image labellisée (e.g., si une phase chirurgicale dure environ une minute et que la fréquence d’extraction est d’une image par seconde, environ soixante images successives seront associées à un même label).

L’étape S31 peut également inclure un prétraitement des images successives extraites. Un tel prétraitement peut par exemple inclure d’effectuer une augmentation de données à partir des images successives extraites, afin d’augmenter le nombre d’images associées à un même label (i.e., à une même phase chirurgicale). Pour cela, des transformations aléatoires sur les images successives extraites telles que des translations, zooms, rotations, changements de luminosité peuvent être mis en œuvre sur la succession d’images labellisées, de sorte à obtenir à l’étape S31 des successions d’images labellisées augmentées. Une telle augmentation de données est particulièrement pertinente lorsque peu ou insuffisamment d’images labellisées sont disponibles ou afin d’améliorer la généralisation du modèle d’apprentissage. Par exemple, une ou plusieurs des méthodes d’augmentation suivantes peuvent être utilisées :RandAugment,CutOut(remplacement d’une partie d’une image par un bruit aléatoire),MixupouCutMix(mélange de deux images pour former une nouvelle image).

À une étape S32, l’ensemble des images successives labellisées (et éventuellement augmentées) sont réparties en différents sets, dont un set d’entraînement et un set de validation. Un set de test peut également être prévu. Par exemple, 40% des images labellisées collectées peuvent former le set d’entraînement, 10% des images labellisées collectées peuvent former le set de validation et 50% des images labellisées collectées peuvent former le set de test.

À une étape S33, un modèle de classification est entraîné sur le set d’entraînement. Un tel modèle de classification peut correspondre à un modèle d’apprentissage supervisé, d’apprentissage profond (deep learning), adapté pour la classification d’images successives en phases chirurgicales. En particulier, un tel modèle de classification peut être un modèle pré-entraîné (par exemple sur des images variées différentes de l’ensemble d’images labellisées, correspondant ou non à des images d’opérations chirurgicales), qui est ensuite spécialisé à l’étape S33 d’entraînement sur le set d’entraînement (parfine tuning), de sorte à être capable de classifier spécifiquement des images de vidéos chirurgicales en phases chirurgicales.

À une étape S34, le modèle de classification entraîné est validé sur le set de validation. Pour cela, le modèle de classification, une fois entraîné sur le set d’entraînement, est mis en œuvre sur les images du set de validation de sorte à évaluer les performances de prédiction du modèle de classification. Selon de telles performances, les hyperparamètres du modèle de classification peuvent être ajustés.

Comme décrit précédemment, le set de validation peut également servir à calibrer la séquence S22 de correction de la classification, notamment pour le calcul de la matrice de confusion à l’étape S222, qui détermine une estimation représentative des erreurs faites par le modèle de classification entraîné sur des images que le modèle de classification n’a jamais vues lors de l’étape S33 d’entraînement. Cela explique notamment l’importance d’avoir une quantité suffisante de données dans le set de validation, afin que la calibration soit la plus représentative d’une réalité de diversité de successions d’images labellisées.

À une étape S35 optionnelle, le modèle de classification peut être testé sur le set de test. Une telle étape de test permet de déterminer la performance du modèle de classification. Plus généralement, un tel set de test peut également être utilisé pour déterminer la performance de l’ensemble du procédé 20, i.e., du modèle de classification mais également de la correction de la classification.

Exemples

Les exemples ci-après, implémentés le 22 avril 2024, illustrent deux exemples détaillés de mise en œuvre du procédé 20 sur deux jeux de données distincts, pour la classification d’images successives issues de ces deux jeux de données.

Pour chaque exemple, le même modèle de classification est utilisé, à savoir leCSN-101qui correspond à une architecture de typeChannel - Separated Convolutional Network(CSN), telle que décrite dans la publication [TRAN 2019]. Dans chacun des exemples présentés, le modèle de classification mis en œuvre est construit à partir d’un même modèle prédictif initial (backbone) de typeResNet-101pré-entraîné, puis spécialisé (fine-tuned) sur des images de chacun des jeux de données considérés.

En particulier, chaque exemple de jeux de données est également implémenté - à titre de comparaison avec le procédé 20 proposé - avec l’algorithme adoptant une hypothèse gaussienne, décrit dans la publication [CADENE 2016] mentionné dans l’état de la technique de la présente divulgation. Un tel algorithme sera désigné ci-après par « algorithme gaussien ».

Afin d’évaluer les performances respectives de chacun du procédé 20 et de l’algorithme gaussien sur chaque jeu de données, les métriques de performance suivantes sont définies. De telles métriques sont typiquement évaluées avec le set de test.

L’indice de Jaccard, désigné ci-après par « Jaccard », permet d’évaluer la similarité entre deux ensembles. Il est calculé en divisant le nombre d’éléments à l’intersection des ensembles par le nombre d’éléments à l’union des ensembles.

La précision globale, désignée ci-après par « Accuracy », permet de mesurer la proportion de prédictions correctes par rapport au total d’images examinées (typiquement, le nombre d’images dans le set de test). De telles prédictions correctes incluent à la fois les vrais-positifs (e.g., si une phase chirurgicale P1 est prédite comme telle à l’issue du procédé 20) et les vrais négatifs (ici, si une phase chirurgicale absente d’images successives n’est pas prédite comme présente). On a :

La précision (simple), désignée ci-après par « Precision », permet de mesurer la proportion de prédictions positives correctes (e.g., une phase chirurgicale P1 est prédite comme telle) par rapport au nombre total de prédictions positives (i.e., phases chirurgicales prédites comme présentes dans la séquence, que cela soit correct (vrais positifs) ou non (faux positifs)). Autrement dit, la précision permet d’évaluer quelle proportion d’identifications positives de phases chirurgicales était effectivement correcte. On a :

Le rappel, désigné ci-après par « Recall », permet de mesurer la proportion de prédictions positives correctes (i.e., vrais positifs) par rapport au nombre total de cas réellement positifs (qu’ils aient été correctement prédits ou non). Autrement dit, le rappel permet d’évaluer la proportion de positifs réels qui ont été correctement identifiés. On a :

Exemple 1 : Jeu de donnéesCholec80

Le premier exemple s’appuie sur un jeu de donnéesCholec80, contenant quatre-vingts (80) vidéos d’opérations chirurgicales de cholécystectomie effectuées par treize (13) chirurgiens différents. Un tel jeu de données est décrit dans la publication [TWINANDA 2016] (section IV, A).

Les vidéos chirurgicales du jeu de donnéesCholec80présentent des successions de sept phases chirurgicales distinctes (en particulier, l’opération chirurgicale de cholécystectomie présente sept phases chirurgicales distinctes) :Preparation(P1),CalotTriangleDissection(P2),ClippingCutting(P3),GallbladderDissection(P4),Gallbladder Packaging(P5),CleaningCoagulation(P6) etGallbladderRetractation(P7). De telles phases chirurgicales P1-P7 et leur déroulement au sein de l’opération de cholécystectomie sont, à titre illustratif, schématisés à laFIG. 4sous la forme d’un graphe de déroulement de l’opération de cholécystectomie. Le graphe de déroulement de laFIG. 4permet notamment de représenter la succession (théorique) des changements de phases chirurgicales parmi les 7 phases chirurgicales P1-P7 observables dans les opérations chirurgicales de cholécystectomie. Par exemple, en partant de l’état initial (représenté parStartsur laFIG. 4) correspondant au début de l’opération de cholécystectomie, le graphe de déroulement de l’opération illustré enFIG. 4indique deux phases chirurgicales théoriquement possibles pour débuter l’opération de cholécystectomie : la phase chirurgicale de préparation (Preparation) P1 (dans 89% des cas) ou la phase de dissection du triangle de Calot (CalotTriangleDissection) P2 (dans 11% des cas). Dans un autre exemple, les phases P1, P2, P2, P3 et P4 sont séquentielles avec une probabilité de 1, de sorte qu’une phase conduit nécessairement à une unique prochaine phase chirurgicale possible. Un tel graphe de déroulement de l’opération de cholécystectomie peut par exemple être représenté à partir d’informations théoriques ou expérimentales provenant d’experts médicaux et permet de visualiser l’enchaînement théorique des phases chirurgicales pour l’opération en question.

À titre de remarque, un tel graphe de déroulement permet d’illustrer que les phases chirurgicales considérées dans l’opération de cholécystectomie ne sont pas toutes ordonnées. Par exemple, il est possible de passer de la phase P6 à la phase P7 et inversement, de même pour les phases P5 et P6.

À partir d’un tel jeux de données, une pluralité de séquences de trente-deux (32) images successives ont été extraites, avec une fréquence d’extraction de 1 image par seconde. Les séquences d’images successives sont labellisées et sont divisées en set d’entraînement, de validation et de test.

Le modèle de classification pré-entraîné décrit précédemment est alors entraîné (spécialisé parfine tuning) sur le set d’entraînement, puis validé sur le set de validation.

Une matrice de transition associée au présent exemple peut ensuite être calculée (correspondant à une matrice de transition calculée spécifiquement pour l’opération chirurgicale de cholécystectomie, représentée par le jeu de données Cholec80).

La matrice de transition calculée sur la base du jeu de données Cholec80 pour l’opération chirurgicale de cholécystectomie, notée M_T,Cholec80, représente les probabilités (moyennes), entre deux images successives parmi le set de validation du jeu de données Cholec80, de transiter d’un état de départ (représenté sur les lignes de M_T,Cholec80) vers un état d’arrivée (représenté sur les colonnes de M_T,Cholec80). Par exemple, un coefficient m_T,i,jreprésente la proportion moyenne observée sur l’ensemble des successions d’images observées dans le set de validation du jeu de données Cholec80, d’une transition entre les phases chirurgicales i et j. En particulier, lorsque i diffère de j, le coefficient en position i, j (ligne i, colonne j) de M_T,Cholec80représente la probabilité d’un changement de phase chirurgicale entre les phases chirurgicales i et j d’une image successive à l’autre. Lorsque i est égal à j, le coefficient de M_T,Cholec80est un coefficient diagonal et représente alors la probabilité de rester dans l’état i d’une image successive à l’autre. De tels états comprennent un état initial (représenté parStartsur laFIG. 4), correspondant au début de l’opération chirurgicale, les phases chirurgicales P1-P7 de l’opération de cholécystectomie et un état final (représenté parEndsur laFIG. 4), correspondant à la fin de l’opération chirurgicale.

Par exemple, une telle matrice de transition de phases chirurgicales associées aux images successives du set de validation du jeu de données Cholec80 peut être représentée de la façon suivante :

La matrice de transition M_T,Cholec80est une matrice de taille 9x9, les lignes représentant les états de départ (états actuels ou phase chirurgicale de l’image actuelle) et les colonnes représentent les états d’arrivée (prochains états, phase chirurgicale de la prochaine image). Ainsi, le coefficient en position i, j (ligne i, colonne j) représente la probabilité de transiter de l’état i vers l’état j d’une image à l’autre. De tels états comprennent un état initial (représenté parStartsur laFIG. 4), correspondant au début de l’opération chirurgicale, les phases chirurgicales P1-P7 et un état final (représenté parEndsur laFIG. 4), correspondant à la fin de l’opération chirurgicale.

Il est à noter que la matrice de transition M_T,Cholec80présente des coefficients diagonaux non nuls, voire même ayant des valeurs au voisinage de 1. En effet, de telles coefficients diagonaux reflètent que d’une image labellisée à une autre, la probabilité d’observer la même phase chirurgicale est quasi certaine (et du fait qu’une phase chirurgicale dure généralement plus d’une seconde). La probabilité de passer à une (prochaine) phase chirurgicale distincte est faible et non nulle. En particulier, les coefficients hors diagonale non nuls d’une telle matrice de transition M_T,Cholec80sont logiquement liés aux probabilités de changements de phases chirurgicales observables théoriquement lors du déroulement d’une opération de cholécystectomie telle que représenté sur laFIG. 4: si une transition est observée entre deux états i et j distincts de deux images successives (i.e., que le coefficient m_T,i,jde la matrice M_T,Cholec80est non nul), alors a priori le changement d’état est théoriquement observable (i.e., qu’une arête reliant les nœuds correspondant aux phases i et j dans le graphe de déroulement de l’opération de laFIG. 4existe).

Par ailleurs, la matrice de transition M_T,Cholec80est théoriquement stochastique (la somme de chaque ligne vaut 1) : elle reflète donc l’ensemble des transitions possibles depuis chaque phase chirurgicale (même au sein d’une même phase chirurgicale). Néanmoins, la présentation de la matrice de transition avec des coefficients limités à quelques décimales près peut conduire à des sommes de coefficients sur chaque ligne différant légèrement de 1, comme illustré par la matrice de transition M_T,Cholec80. En pratique, la précision de la matrice de transition utilisée dans l’étape de correction est suffisamment importante (e.g.,float64 bits) pour qu’une telle approximation soit largement négligeable.

La matrice de transition M_T,Cholec80ainsi calculée (à l’étape S221) et utilisée pour la modélisation du problème selon un modèle de Markov caché.

La matrice de confusion associée au présent exemple est également calculée. Une telle matrice de confusion est par exemple représentée enFIG. 5. La matrice de confusion est une matrice carrée de taille 7 x 7 (car le type d’opération chirurgicale considéré dans le présent exemple contient 7 phases chirurgicales) et représente en lignes, les phases chirurgicales connues (i.e., labels des images successives du set de validation) et en colonnes, les phases chirurgicales prédites par le modèle de classification entraîné pour ces images successives labellisées du set de validation, qui n’ont jamais été vues par le modèle de classification à l’entraînement. En effet, une telle matrice de confusion est calculée notamment à partir du set de validation formé avec une partie du jeu de données Cholec80.

Ainsi, en référence à la matrice de confusion illustrée enFIG. 5, il est observé que le modèle de classification entraîné reconnaît le mieux la phase chirurgicale P4 (parmi les images du set de validation associées à la phase chirurgicale P4, 90% ont été correctement classifiées), tandis que la phase chirurgicale P1 est la moins bien identifiée (parmi les images du set de validation associées à la phase chirurgicale P1, 46% ont été correctement classifiées).

En référence à laFIG. 5, il est observé que plusieurs coefficients sont non définis (notés NA dans la matrice de confusion). De tels coefficients non définis peuvent typiquement correspondre à des prédictions n’ayant pas eu lieu sur la base du set de validation. Par exemple, le coefficient m_C,3,1en troisième ligne et en première colonne reflète la proportion d’images labellisées avec la phase chirurgicale P3 qui seraient prédites comme étant associées à la phase chirurgicale P1. Ce coefficient m_C,3,1n’est pas défini ici car un tel scénario de prédiction n’a pas eu lieu. Il en va de même par exemple pour les coefficients m_C, ₄ _,1, m_C,5,1, m_C,6,1, m_C,7,1ou encore m_C,7,3. Une telle matrice de confusion serait alors exploitée aux étapes ultérieures (notamment lors de la séquence de correction de classification) en interprétant les coefficients non définis NA par des valeurs nulles. Une telle interprétation biaiserait les résultats, en ce qu’elle revient à surestimer les performances du modèle de classification. En effet, les coefficients m_C,3,1et m_C,1,3nuls reviennent à conclure que le modèle ne confond jamais les phases chirurgicales P1 et P3. Une telle hypothèse n’est pas forcément vraie, par exemple si le set de validation n’est pas suffisamment représentatif de toutes les phases chirurgicales et/ou que les performances du modèle de classification sur un tel set de validation ne suffisent pas à refléter la capacité réelle de prédiction du modèle pour certaines phases chirurgicales.

Afin de limiter ce biais d’interprétation, la matrice de confusion peut être lissée, de sorte à remplacer les coefficients non définis NA par des valeurs faibles (proches de zéro) mais non nulles. Un tel lissage peut par exemple être mis en œuvre par un lissage de Laplace. La matrice de confusion lissée par un tel lissage de Laplace est par exemple illustrée enFIG. 6, où ne figure plus de coefficients non définis NA.

Les données du premier exemple sont alors modélisées en un problème selon un modèle de Markov caché comme décrit précédemment et une séquence de phases chirurgicales (états cachés) est déterminée (par exemple par l’algorithme de Viterbi), en correction de la succession de phases chirurgicales prédites par le modèle de classification.

Le tableau suivant donne un résumé des performances moyennes comparées du procédé 20 et de l’algorithme gaussien sur le jeu de donnéesCholec80.

Algorithme	Jaccard	Accuracy	Precision	Recall
Procédé 20 (proposé dans la présente divulgation)	90.18	95.26	95.27	95.17
Gaussien ([CADENE 2016])	89.17	93.22	94.43	94.48

Le tableau suivant donne les scores détaillés par phase chirurgicale prédite (numérotée conformément à laFIG. 4) des performances comparées du procédé 20 et de l’algorithme gaussien sur le jeu de donnéesCholec80.

	Procédé 20 (proposé dans la présente divulgation)	Algorithme gaussien ([CADENE 2016])
Phases chirurgicales	Jaccard	Precision	Recall	Jaccard	Precision	Recall
P1	90.4737	97.3587	91.6677	94.5789	97.2044	95.9409
P2	93.8034	97.5425	96.3291	92.0838	98.7617	93.4425
P3	86.8653	94.0433	93.0921	81.9997	90.3500	90.2381
P4	96.2441	98.0478	98.3570	92.7252	95.0402	97.8201
P5	91.6667	95.6185	96.7166	87.3143	91.2263	96.9537
P6	85.883	93.1348	94.4853	85.1635	91.7518	94.9539
P7	86.3345	91.1576	95.5599	90.3437	96.684	91.9852
Moyenne	90.1815	95.2719	95.1725	89.1727	94.4312	94.4763

On observe donc de meilleures performances globales avec le procédé 20 proposé dans la présente divulgation par rapport à l’algorithme gaussien.

Exemple 2 : Jeu de donnéesCataract-101

Le deuxième exemple s’appuie sur un jeu de donnéesCataract-101, contenant cent une (101) vidéos d’opérations chirurgicales de cataracte effectuées par quatre (4) chirurgiens différents. Un tel jeu de données est décrit dans la publication [SCHOEFFMANN 2018] (Abstract).

Les vidéos chirurgicales du jeu de donnéesCataract-101présentent des successions de onze phases chirurgicales distinctes, incluant une phase associée aux temps morts (en particulier, l’opération chirurgicale de cataracte présente dix phases chirurgicales (actives) distinctes et une phase de temps morts) :None(P1, phase de temps morts),Incision(P2),Viscous Agent Injection(P3),Rhexis(P4),Hydrodissection(P5),Phacoemulsification(P6),Irrigation and Aspiration(P7),Capsule Polishing(P8),Lens Implant Setting Up(P9),Viscous Agent Removal(P10) etTonifying and Antibiotics(P11). De la même façon que pour le jeu de données Cholec80, la succession de telles phases chirurgicales, et donc le déroulement théorique d’une opération chirurgicale de cataracte, peut être illustrée à l’aide d’un graphe de déroulement de l’opération de cataracte tel que représenté sur laFIG. 7. Le graphe de déroulement représenté enFIG. 7permet alors de représenter les possibilités théoriques d’enchaînement entre les phases chirurgicales parmi les 11 phases chirurgicales P1-P11 observables dans les opérations chirurgicales de cataracte. Par exemple, en partant de l’état initial (représenté parStartsur laFIG. 7) correspondant au début de l’opération de cataracte, le graphe de déroulement illustre que deux phases sont possibles pour débuter l’opération : une phase de temps mort (None) P1 (dans 96% des cas) ou une phase chirurgicale d’incision (Incision) P2 (dans 4% des cas).

En particulier, un tel graphe de déroulement permet d’illustrer, en comparaison avec le graphe de déroulement de la cholécystectomie de laFIG. 4, la diversité des phases chirurgicales et des déroulements possibles selon le type d’opération chirurgicale considéré. En effet, ici, on observe une plus grande flexibilité dans les séquencements possibles des phases chirurgicales, là où l’opération de cholécystectomie présente une plus grande séquentialité stricte entre les phases chirurgicales.

À titre de remarque, les phases chirurgicales considérées ne sont pas ordonnées. Les éléments décrits dans le cadre du premier exemple s’appliquent au deuxième exemple.

À partir d’un tel jeux de donnéesCataract- 101, une pluralité de séquences de trente-deux (32) images successives ont été extraites, avec une fréquence d’extraction de 2,5 images par seconde. Une telle pluralité de séquences d’images successives sont labellisées et sont divisées en set d’entraînement, de validation et de test.

Le même modèle de classification pré-entraîné que pour le premier exemple et décrit précédemment est alors entraîné (spécialisé parfine tuning) sur le set d’entraînement deCataract- 101, puis validé sur le set de validation deCataract- 101.

De la même façon que pour le jeu de données Cholec80, une matrice de transition associée au présent exemple peut alors être calculée (correspondant à la matrice de transition calculée pour l’opération chirurgicale de cataracte représentée par le jeu de données). Une telle matrice de transition, notée M_{T,Cataract-101}, peut être calculée à partir du set de validation du jeu de données Cataract-101 et définie de la façon suivante :

La matrice de transition M_T, _Cataract-101est une matrice de taille 13x13, les lignes représentant les états de départ (états actuels ou phases chirurgicales possibles sur une image donnée) et les colonnes représentent les états d’arrivée (prochains états, phases chirurgicales possibles sur l’image qui suit). Ainsi, le coefficient en position i, j (ligne i, colonne j) représente la probabilité moyenne de transiter de l’état i vers l’état j entre deux images successives du set de validation de Cataract-101 (une telle transition pouvant être comprise comme une stagnation dans un même état lorsque i est égal à j). De tels états comprennent un état initial (représenté parStartsur laFIG. 7), correspondant au début de l’opération chirurgicale, les phases chirurgicales P1-P11 et un état final (représenté parEndsur laFIG. 7), correspondant à la fin de l’opération chirurgicale.

De la même façon, une matrice de confusion (non détaillée ici) peut être calculée pour le deuxième exemple.

La mise en œuvre du procédé 20 sur les données du présent exemple est similaire à celle du premier exemple.

Le tableau suivant donne un résumé des performances moyennes comparées du procédé 20 et de l’algorithme gaussien sur le jeu de donnéesCataract-101.

Algorithme	Jaccard	Accuracy	Precision	Recall
Procédé 20 (proposé dans la présente divulgation)	80.91	90.04	88.35	88.13
Gaussien ([CADENE 2016])	79.61	92.34	83.27	84.28

Le tableau suivant donne les scores détaillés par phase chirurgicale prédite (numérotée conformément à laFIG. 7) des performances comparées du procédé 20 et de l’algorithme gaussien sur le jeu de donnéesCataract-101.

	Procédé 20 (proposé dans la présente divulgation)	Algorithme gaussien ([CADENE 2016])
Phases chirurgicales	Jaccard	Precision	Recall	Jaccard	Precision	Recall
P1	72.4027	80.9249	82.9738	75.9315	84.0690	85.7554
P2	76.1418	91.5747	79.5010	74.2002	87.2836	80.8290
P3	76.2342	83.5272	85.4539	81.2424	94.2249	90.9431
P4	95.2858	97.2371	96.4944	96.3047	98.1428	96.7086
P5	90.0247	92.4760	95.3933	91.4843	93.836	95.3573
P6	97.6229	98.2644	98.8250	97.6891	99.7078	97.4719
P7	96.2835	97.0598	97.7151	95.3960	95.6580	98.4390
P8	88.0190	86.1480	96.9070	89.9395	88.1408	98.0103
P9	93.9096	95.8653	94.7464	86.9860	88.6776	94.9086
P10	73.7818	91.8067	73.9418	86.4942	96.2475	88.6519
P11	30.2976	56.9979	67.5	0	0	0
Moyenne	80.9094	88.3529	88.1320	79.6062	83.27	84.2796

Il est à noter que les exemples décrits précédemment ont une visée purement illustrative et non limitative de la mise en œuvre de la présente divulgation et des étapes décrites en figures 2 et 3. En particulier, d’autres jeux de données et d’autres modèles de classification (pré-entraînés et entraînés puis validés) peuvent être mis en œuvre dans le cadre du procédé 20 proposé.

Claims

Procédé (20) de traitement d’une vidéo chirurgicale pour associer une succession d’images extraites de ladite vidéo à des phases chirurgicales distinctes (P1-P11), comprenant :
(S211) une extraction de ladite succession d’images à partir de la vidéo, lesdites images étant associées à des instants successifs distincts,

(S212) une classification desdites images, en associant lesdites images à des phases chirurgicales prédites parmi un ensemble prédéfini de phases chirurgicales, mise en œuvre par un modèle de classification,

(S224) une correction de la classification par un modèle de Markov caché (S223), mis en œuvre sur les phases chirurgicales prédites en tant qu’observations, des phases chirurgicales réelles associées à la succession d’images étant des états cachés dudit modèle de Markov caché.
Procédé (20) selon la revendication 1, dans lequel le modèle de classification est préalablement entraîné (S33), validé (S34) et de préférence testé (S35) à partir d’un ensemble d’images labellisées, lesdites images labellisées correspondant à une succession d’images associées à des phases chirurgicales connues.
Procédé (20) selon la revendication 2 et comprenant en outre, avant l’étape de correction (S224) :
(S221) un calcul d’une matrice de transitions associées aux phases chirurgicales distinctes à partir au moins des phases chirurgicales connues associées aux images labellisées,

(S222) un calcul d’une matrice de confusion à partir du modèle de classification mis en œuvre sur au moins une partie des images labellisées pour une étape de calibration,
et dans lequel la correction de la classification (S224) dépend de la matrice de transition et de la matrice de confusion.
Procédé (20) selon la revendication 3, dans lequel des coefficients de la matrice de transition dépendent d’au moins un élément parmi : un type d’opération chirurgicale capturé dans la vidéo chirurgicale, un ordonnancement des phases chirurgicales de l’ensemble prédéfini de phases chirurgicales.
Procédé (20) selon l’une des revendications 3 et 4, dans lequel le modèle de Markov caché est appliqué avec la matrice de transition en tant que matrice de transition des états cachés dudit modèle et avec la matrice de confusion en tant que matrice de distribution des observations dudit modèle.
Procédé (20) selon l’une des revendications 3 à 5, dans lequel des coefficients de la matrice de confusion et/ou de la matrice de transition sont lissés par un lissage de Laplace.
Procédé (20) selon l’une des revendications précédentes, dans lequel la correction de la classification (S224) inclut une maximisation d’une vraisemblance totale d’une séquence d’états cachés associés à la succession d’images, ladite maximisation résultant en des phases chirurgicales corrigées associées aux images de la succession d’images.
Procédé (20) selon la revendication 7, dans lequel ladite maximisation est mise en œuvre via un algorithme de Viterbi.
Dispositif comprenant des moyens d’acquisition d’une vidéo chirurgicale et un calculateur configuré pour mettre en œuvre le procédé (20) selon l’une des revendications précédentes.
Programme informatique comportant des instructions pour la mise en œuvre du procédé (20) selon l’une des revendications 1 à 8 lorsque ce programme est exécuté par un processeur.
Support d’enregistrement non transitoire lisible par un ordinateur sur lequel est enregistré un programme pour la mise en œuvre du procédé (20) selon l’une des revendications 1 à 8 lorsque ce programme est exécuté par un processeur.