FR2948475A1

FR2948475A1 - Procede de caracterisation d'objets tridimensionnels

Info

Publication number: FR2948475A1
Application number: FR0903674A
Authority: FR
Original assignee: Bionext SA
Current assignee: Bionext SA
Priority date: 2009-07-24
Filing date: 2009-07-24
Publication date: 2011-01-28
Also published as: US20130035244A1; WO2011009965A1; EP2465066A1; US20160125126A1; FR2963134B1; US20120330636A1; WO2011009964A1; EP2457190A1; FR2948476A1; FR2963134A1; SG178888A1; FR2948476B1; CA2769341A1

Abstract

L'invention concerne un procédé de caractérisation d'objets tridimensionnels comprenant les étapes consistant à : i) générer une reconstruction tridimensionnelle d'un objet tridimensionnel; ii) générer un maillage de l'objet, ledit maillage étant constitué et points reliés deux à deux par une arête ; iii) caractériser les points et/ou les facettes du maillage de l'objet en fonction des états respectifs de propriétés remarquables en ces points ; et iv) segmenter l'objet en régions tridimensionnelles contigües à partir du maillage et de la caractérisation des points de l'objet.

Description

PROCEDE DE CARACTERISATION D'OBJETS TRIDIMENSIONNELS

La présente invention concerne les procédés de caractérisation, de comparaison et de criblage d'objets tridimensionnels dans le but notamment de les analyser, de les comparer à d'autres éléments connus ainsi que de détecter, évaluer ou approfondir les possibles interactions physiques entre ces objets. La reconnaissance d'objets tridimensionnels appartient entre autres au domaine de la reconnaissance de forme et comporte de nombreuses applications, notamment en physique, (interaction entre objets, calcul des surfaces de contacts et potentiels énergétiques correspondants) en biologie (criblage de régions et de molécules, spécificité des régions), en chimie (prédiction d'interactions entre composés synthétisables) en chirurgie (détection fines des régions à opérer, malgré les variations inter-patients) en biométrie (reconnaissance d'empreintes), en robotique (détermination des objets qui peuvent-être saisis par un bras mécanique), dans l'aérospatiale, ou plus généralement dans toutes les branches de l'industrie où la reconnaissance systématique et rapide d'objets complexes est nécessaire.

L'invention vise plus particulièrement la reconnaissance de forme de molécules et les approches dites in silico (c'est-à-dire par des approches purement numériques), par exemple afin de déterminer de manière systématique les molécules portant une région fonctionnelle donnée, ou de déterminer de manière systématique les interactions moléculaires (i.e. les partenaires d'une cible) et les structures des assemblages moléculaires correspondants, quelle que soit leur taille. On connaît par exemple des méthodes de criblage in silico de petits motifs structuraux (tels que les sites catalytiques), des méthodes de criblage in vitro ou in vivo (double hybride (Y2H), TAP-TAG) de macromolécules, ou encore le docking (méthode in silico qui consiste à prédire la forme de l'assemblage d'un ligand avec un récepteur pour former un complexe stable, mais dont la durée d'exécution varie de quelques heures à plusieurs jours pour un seul assemblage, ce qui le rend difficilement applicable aux problématiques de criblage).

Les approches in vitro/in vivo à haut débit demeurent longues, coûteuses et difficiles à mettre en oeuvre, et ne permettent pas d'obtenir des résultats suffisamment précis, limitant ainsi leurs applications et leur efficacité dans des domaines tels que ceux de l'industrie pharmaceutique, cosmétique, chimique ou agro-alimentaire.

En effet, les approches in vitro/in vivo à hauts débits ont des sensibilités et des spécificités démontrées dans la littérature comme étant trop faibles pour identifier avec un haut degré de confiance les interactions moléculaires. D'autres approches in vitro/in vivo permettent d'identifier et de caractériser avec une quasi-certitude des interactions moléculaires (notamment la cristallographie, la résonance magnétique nucléaire, la thermodynamique) mais demandent de plusieurs semaines à plusieurs mois (voire plusieurs années) pour valider une seule interaction. Par ailleurs, les approches in silico courantes ne permettent pas à l'heure actuelle de faire du criblage de macromolécules, ni de déterminer à haut débit les sites de liaisons de ces assemblages moléculaires. In vitro/ln vivo, la détermination de la localisation de ces sites de liaisons nécessite par exemple d'effectuer de nombreuses expériences de mutagénèse qui sont longues et coûteuses. Ces sites de liaisons sont pourtant fondamentaux pour la compréhension des mécanismes moléculaires du fonctionnement cellulaire et des pathologies. Ils sont pour l'industrie pharmaceutique comme pour l'industrie cosmétique, une clé essentielle pour aider à la création de composés actifs et spécifiques. L'invention a donc pour objectif de proposer un procédé de caractérisation d'éléments tridimensionnels permettant de comparer, de cribler, de regrouper et/ou de différencier les structures d'objets tridimensionnels. Ô Un autre objectif de l'invention est de déterminer in silico les spécificités de certaines parties des objets tridimensionnels, notamment des propriétés géométriques et/ou physico-chimiques et/ou évolutives remarquables ; c'est-à-dire des propriétés présentant un intérêt dans le domaine et dans l'application étudiés L'invention vise également à proposer, pour un objet tridimensionnel donné ayant des propriétés d'intérêt dans son domaine et/ou l'application, un procédé de caractérisation permettant de trouver un ou plusieurs objets ayant des propriétés complémentaires ou similaires desdites propriétés.

Un autre objectif de l'invention est de proposer un procédé de caractérisation qui permet de cribler de manière efficace, rapide et robuste des objets tridimensionnels, quelles que soient leur taille, leur type ou leurs propriétés. Enfin, un objectif de l'invention est de fournir une cartographie d'un objet tridimensionnel donné, en regroupant l'ensemble des informations portant sur cet objet dans une visualisation tridimensionnelle simple et descriptive. Les objectifs précités sont atteints grâce à un procédé de caractérisation d'objets tridimensionnels comprenant les étapes consistant à : i) générer une reconstruction tridimensionnelle d'un objet tridimensionnel; ii) générer un maillage de l'objet, ledit maillage étant constitué et points reliés deux à deux par une arête ; iii) caractériser les points et/ou les facettes du maillage de l'objet en fonction des états respectifs de propriétés remarquables en ces points ; et iv) segmenter l'objet en régions tridimensionnelles contigües à partir du maillage et de la caractérisation des points de l'objet.

Selon un deuxième aspect, l'invention propose également un procédé de caractérisation d'objets tridimensionnels, dans lequel l'objet I tridimensionnel est une molécule, ledit procédé comprenant les étapes consistant à : i) générer une reconstruction tridimensionnelle de la molécule; ii) générer un maillage de l'objet, ledit maillage étant constitué et points reliés deux à deux par une arête ; iii) caractériser les points et/ou les facettes du maillage de la molécule en fonction des états respectifs de propriétés remarquables en ces points ; et iv) segmenter la molécule en régions tridimensionnelles contigües à partir du maillage et de la caractérisation des points de la molécule.

D'autres caractéristiques, buts et avantages apparaîtront mieux à la lecture de la description détaillée qui va suivre, et en regard des dessins annexés donnés à titre d'exemples non limitatifs et sur lesquels : La figure 1 illustre le calcul de la courbure locale d'une zone d'une région selon l'invention ; La figure 2 illustre la différence entre une distance géodésique et une distance euclidienne ; La figure 3 illustre une première forme de réalisation de l'alignement de deux régions à comparer ; Les figures 4a et 4b illustrent une deuxième forme de réalisation de l'alignement de deux régions à comparer ; La figure 5 illustre de manière générale le procédé selon l'invention, appliqué au domaine de la biologie moléculaire ; Les figure 6 et 7 sont deux graphes la spécificité du FAD (Flavine Adénine Dinucléotide) et du mannose respectivement par rapport au nombre de structures.

Un objet tridimensionnel est défini par la localisation spatiale d'un ensemble de points dans un repère arbitraire, où chaque point peut être caractérisé par une taille, une probabilité de distribution sur sa localisation, et un ensemble de propriétés distinctes qui permettent une description détaillée de l'objet en ce point. L'objet tridimensionnel peut être creux (i.e. défini uniquement par les 5 points de son enveloppe), ou plein (c'est le cas notamment des molécules, où chaque point définissant l'objet correspond à un atome). L'enveloppe (ou surface) de l'objet tridimensionnel définit l'ensemble des points de l'objet en contact direct avec le milieu extérieur, ou suffisamment proches pour pouvoir participer aux contacts avec le milieu 10 extérieur sous certaines conditions (cas notamment des objets déformables). Un objet tridimensionnel est dit déformable si sa structure est malléable, c'est-à-dire si tout ou partie de ses points est susceptible de pouvoir changer de localisation spatiale. 15 Ces changements, qui altèrent les coordonnées de tout ou partie des points de l'objet, peuvent avoir des conséquences importantes comme la définition d'une nouvelle enveloppe de l'objet tridimensionnel. Par exemple, une molécule est considérée comme un objet plein et déformable, tandis qu'un tube industriel est considéré comme un objet 20 creux et indéformable. Les atomes formant une molécule ont différentes tailles qui dépendent notamment de leurs environnements local et global. La modélisation des surfaces moléculaires est donc particulièrement complexe, dans la mesure ou il faut à la fois tenir compte des interactions atomiques 25 intermoléculaires, mais également des déformations de ces surfaces induites à la fois par ces interactions avec des partenaires et par des variations plus ou moins fines dans leur environnement.

Modélisation de l'objet tridimensionnel 30 Nous allons décrire le procédé de caractérisation selon l'invention pour un objet tridimensionnel quelconque. Selon l'invention, on modélise tout d'abord cet objet par une reconstruction de sa surface et éventuellement de son volume interne.

Pour cela, de nombreux algorithmes existent et permettent une reconstruction plus ou moins fidèle de la surface et du volume interne d'un objet. On distingue notamment la reconstruction exacte, servant davantage à la visualisation qu'à l'analyse informatique en raison de sa complexité importante, et la reconstruction simplifiée, discrétisant la surface de l'objet à des fins d'analyses informatiques. En général, une reconstruction simplifiée permet de caractériser les propriétés d'un objet avec des résultats proches de ceux obtenus par une reconstruction exacte. Parmi les reconstructions simplifiées, on notera en particulier le pavage de Voronoï (qui permet de déterminer la zone d'influence de chaque point) à partir duquel peut-être construit le complexe de Delaunay, dans lequel l'ensemble de l'objet est segmenté de sorte que chaque arête relie d'une certaine façon les points les plus proches dans une direction donnée. En particulier, la forme alpha obtenue à partir du complexe de Delaunay (également appelée forme duale lorsque alpha = 0) permet d'obtenir une enveloppe de l'objet tridimensionnel, et donc de modéliser sa surface. En variante, la reconstruction surfacique et/ou volumique de l'objet tridimensionnel est mise en oeuvre selon la forme alpha d'Edelsbrunner, une approche de type marching cube ou une approche de type marching tetraedra. La surface obtenue par cette reconstruction est simplifiée dans la mesure où chaque point de l'objet représente un point de la surface (par opposition aux approches de reconstructions exactes, dans lesquelles un point de l'objet est généralement défini par plusieurs points de surface).

Lors de l'analyse systématique des objets, on choisit donc de préférence une reconstruction simplifiée ou une reconstruction exacte sans interpolation et avec une résolution adéquate au problème afin d'en simplifier la représentation. En particulier, il est possible d'utiliser des représentations de faible résolution afin d'effectuer un premier filtrage avant des comparaisons plus lourdes et détaillées. Par ailleurs, l'intérieur de l'objet correspond aux points de l'objet qui ne sont pas suffisamment proches du milieu extérieur. Par exemple, dans le cas des molécules, les atomes formant l'intérieur de l'objet sont les atomes qui ne sont pas accessible au milieu extérieur (via un calcul de l'accessibilité de l'atome), ou qui sont suffisamment proches de l'enveloppe de surface (en accord avec la notion de profondeur). Ce calcul d'accessibilité ou de profondeur développé pour l'analyse moléculaire reste cependant valide pour tout autre type d'objet tridimensionnel plein. Dans le cas où l'on souhaite également obtenir une représentation du volume intérieur de l'objet, il est possible d'utiliser notamment le complexe de Delaunay, car il permet de segmenter un objet plein en tétraèdres, qui est une structure géométrique pouvant être mise à profit pour la détermination des points internes de l'objet, et par conséquent pour la construction de régions internes (ne comprenant pas de points de surface) et de régions intermédiaires (comprenant à la fois des points de surface et des points internes). A partir de la modélisation de l'objet tridimensionnel par l'une de ces différentes reconstructions de surface (ou en volume), on génère un maillage de l'objet, c'est-à-dire une triangulation (ou dérivé de triangulation) des points de l'objet et/ou des points de surface afin de créer et de représenter son volume tridimensionnel. Avantageusement, le maillage est ensuite transposé dans des 30 graphes de différents types. s Cette transposition du maillage de l'objet dans un graphe est optionnelle mais permet de bénéficier directement des algorithmes robustes et performants de la Théorie des Graphes pour la description, l'analyse et la comparaison des surfaces, des régions intermédiaires et des régions internes de l'objet. En effet, la Théorie des Graphes propose des solutions particulièrement optimisées. On notera en particulier l'intérêt dans le cadre des graphes d'algorithmes tels que le plus court chemin de Dijkstra, la détermination de composantes connexes, et dans le cadre des graphes connexes et triangulés, des algorithmes de correspondance de graphes (également appelée graph matching ) et de détection de Cliques. Par exemple, le maillage peut être transposé dans un graphe dans lequel chaque point du maillage correspond à un noeud du graphe et la triangulation du maillage définit les arêtes du graphe.

Il est également possible de définir une pluralité de graphes dans lesquels un noeud du graphe correspond à plusieurs points du maillage, et la définition d'une arête dans le graphe repose sur un ou plusieurs critères, tel que le fait d'avoir au moins un nombre déterminé d'arêtes du maillage entre deux ensembles de points formant deux noeuds du graphe pour que ces deux noeuds soient reliés par une arête dans le graphe. De préférence, le maillage est transposé dans un graphe connexe et triangulé de sorte à pouvoir bénéficier de certains algorithmes et heuristiques de la Théorie des Graphes, notamment pour la correspondance de graphes.

Selon une forme de réalisation, les points de l'objet tridimensionnel sont regroupés en une pluralité d'ensembles de points préalablement à la modélisation de sa surface. Ainsi, le maillage de l'objet est généré à partir de ces ensembles de points, et sa transposition dans un graphe résulte en une triangulation de ces ensembles.

Dans le cas des surfaces moléculaires, quatre graphes peuvent être décrits simplement : les graphes des points de surface, les graphes des atomes de surface, les graphes des résidus de surface et les graphes de regroupements fonctionnels. Dans un graphe des points de surface, chaque point du maillage de surface correspond à un noeud du graphe et chaque arête de la 5 triangulation du maillage correspond à une arête dans le graphe. Ce graphe est définissable pour les surfaces de tout objet tridimensionnel. Dans un graphe des atomes de surface, chaque atome de surface (accessible au milieu extérieur, i.e. ayant une zone de surface accessible (ou ASA, pour Accessible Surface Area) positive) correspond à un noeud du 10 graphe et chaque intersection entre atomes de surface correspond à une arête dans le graphe. On remarquera d'ailleurs que dans le cas de la forme duale, les graphes des points de surface et les graphes des atomes de surface sont strictement identiques étant donné qu'un point de surface correspond à un 15 atome. Dans les graphes des résidus de surface, chaque résidu accessible (ASA > 0) ou résidu de surface correspond à un noeud du graphe et un nombre déterminé d'intersections entre les atomes de ces résidus (ou la distance entre les barycentres des résidus) permet de décrire une arête 20 dans le graphe. Enfin, dans les graphes des groupements fonctionnels de surface, tous les atomes voisins formant un même groupement fonctionnel (hydroxyle, carboxyle, cétone, etc.) sont rassemblés pour former un noeud dans le graphe, et l'arête relie les groupements fonctionnels en contact 25 (intersection des rayons atomiques des groupements voisins) ou suffisamment proches (critère arbitraire de distance auquel peuvent s'ajouter des critères d'orientations et d'accessibilités des groupements). Plus généralement, à partir du maillage d'un objet tridimensionnel, il est donc possible de créer une pluralité de graphes caractérisant des 30 propriétés et des phénomènes propres à l'objet, à sa surface, à son volume intérieur ou à ses zones intermédiaires.

Par exemple, quelque soit l'objet tridimensionnel, il est possible de définir un graphe des courbures de surface dans lequel tous les points de surface de l'objet ayant des valeurs de courbure respectives proches dans une région de l'objet sont regroupés dans un noeud du graphe, et où une arête entre deux noeuds est définie soit par des critères arbitraires tels que la distance ou l'orientation des sous-régions comprenant les points du noeuds, soit par le contact direct dans le maillage de ces sous-régions. Pour tout objet possédant une distribution spatiale des charges (comme une prise électrique, un dipôle, un circuit intégré, ou une molécule), il est également possible de définir un graphe de surface qui caractérise cette distribution de charges en regroupant dans un noeud du graphe l'ensemble des points du maillage qui portent une charge équivalente, et où la définition d'arête est définie par des critères arbitraires ou par le contact dans le maillage des sous-régions comprenant les points des noeuds associés. Il est en outre possible de faire un graphe combinant à la fois la courbure et la distribution de charges, auquel cas les régions d'un objet complexe ou les zones importantes de l'objet doivent exhiber à la fois une forme (courbure) et une charge (ex: borne cationique ou anionique, zone d'attache conductrice ou isolante, etc.). En effet, s'il est possible à partir d'un maillage de définir des graphes caractérisant une propriété précise de l'objet tridimensionnel, il est également possible de définir des graphes caractérisant un ensemble de propriétés de l'objet tridimensionnel en regroupant tous les points pour lesquels la distance entre les valeurs numériques de leurs propriétés est suffisamment faible. Lorsque l'objet est plein et que la représentation permet une triangulation ou une tétraédrisation des points internes, il est également possible de définir des graphes des régions internes de l'objet.

On différencie les graphes de surface comprenant uniquement les points de surface, les graphes internes comprenant uniquement les points e internes (qui ne sont pas de surface), et les graphes intermédiaires comprenant à la fois des points de surface et des points internes. Néanmoins, dans cette description, l'ensemble des étapes du procédé selon l'invention qui sont mises en oeuvre sur le fondement des graphes de surface peut être transposé directement aux graphes internes ainsi qu'aux graphes intermédiaires.

Génération de réqions et/ou d'empreintes structurales Selon l'invention, le procédé de caractérisation comporte une étape au cours de laquelle on segmente l'objet étudié en régions, de manière à accélérer l'étape de comparaison avec d'autres objets tridimensionnels et à ouvrir de nouveaux champs d'applications permettant d'accroître de façon systématique et automatisée les connaissances sur l'objet.

Pour cela, on génère une ou plusieurs régions de l'objet, puis on les compare à d'autres régions appartenant à d'autres objets tridimensionnels de manière à déterminer notamment si ces régions sont similaires ou complémentaires, et afin d'évaluer notamment la représentativité de ces régions par rapport à un ensemble d'objets.

Avantageusement, selon le type d'objet tridimensionnel considéré (microscopique ou macroscopique) et sa déformabilité, on génère différentes formes (ou conformations) de l'objet suivant des approches usuelles pour obtenir plusieurs objets secondaires à analyser suivant le procédé de l'invention. Optionnellement, on génère les conformations stables des régions obtenues suite à la segmentation de l'objet plutôt que celles de l'objet tridimensionnel. Dans le cas des molécules, la dynamique moléculaire et la mécanique moléculaire permettent de décrire leurs mouvements avec précision et finesse, et donc de nouveaux jeux de coordonnées spatiales I pour chacun des points de l'objet, que ceux-ci aient une localisation interne ou de surface. Dans le cas de la dynamique moléculaire, il est même envisageable d'analyser les changements de conformation possibles sur un intervalle de 5 temps donné (typiquement de l'ordre de la microseconde). D'autres approches existent, notamment les modes normaux applicables à tout objet tridimensionnel, selon laquelle on applique une tension de ressort à chacune des arêtes du maillage afin de générer ses modes normaux. Les différentes conformations sont obtenues rapidement 10 mais sont moins fines que dans le cas de la dynamique moléculaire ou de la mécanique moléculaire. Elles permettent néanmoins de renseigner sur les grandes tendances possibles ainsi que sur les conformations les plus stables de l'objet tridimensionnel, de sa surface et de ses points internes. Aussi, lorsque l'on cherche à comparer deux objets déformables 15 comme des molécules, on génère avantageusement les conformations les plus stables de ces objets tridimensionnels, et l'on applique le procédé selon l'invention à chacune de ces configurations de l'objet, plutôt qu'à une seule. On obtient alors davantage de régions à comparer, et éventuellement davantage de propriétés remarquables intéressantes dans l'application qui 20 est étudiée. Typiquement, et comme il va être décrit par la suite, on détermine, pour chacune des configurations de l'objet, les propriétés remarquables au niveau de chaque point du maillage (ou noeud du graphe), avant (ou éventuellement après) la segmentation de chaque conformation stable de l'objet tridimensionnel en régions, puis on les compare à d'autres 25 collections de régions de manière à déterminer un ensemble de régions similaires ou complémentaires. On remarquera que lorsque la probabilité de distribution de la localisation des points de l'objet existe (ce qui est le cas notamment du b- facteur pour les molécules), on peut utiliser cette information pour générer 30 de nouvelles conformations ou pour guider la génération des conformations les plus stables selon l'une des méthodes énumérées ci-dessus (dynamique moléculaire, mécanique moléculaire ou modes normaux). Cette étape optionnelle de génération de tout ou partie des conformations permet d'accroître la sensibilité de l'approche, mais peut réduire la spécificité du criblage si trop de conformations sont considérées. L'invention propose toutefois de compenser cette perte de spécificité lors de l'évaluation de la qualité de l'alignement des régions, comme nous le verrons dans la suite de la description. Le procédé est ensuite appliqué directement à l'objet tridimensionnel 10 ou aux objets secondaires issus de la génération de ses différentes conformations stables.

On génère enseuite un ensemble de régions selon un ou plusieurs critères déterminés à partir de la représentation de l'objet tridimensionnel, 15 qu'il s'agisse de son maillage ou de son graphe. Plusieurs méthodes existent pour définir des régions d'un objet tridimensionnel. Néanmoins, ces méthodes ne permettent pas d'assurer la notion de contiguïté de la région, ni de générer de façon systématique et rapide un catalogue exhaustif des régions d'un objet avec ou sans 20 contraintes de forme.

Une première méthode existante consiste à regrouper tous les points de l'objet à l'intérieur d'une sphère d'un rayon choisi. Cependant, la définition de telles régions de surface n'assure pas la notion de contigüité. 25 Cette notion est cependant importante dans les étapes suivantes du procédé de comparaison. En particulier, lorsque l'on cherche à décrire un objet par l'intermédiaire de ses régions, il est préférable de travailler sur des régions contigües de manière à pouvoir ensuite les réunir ou les diviser, et former 30 ainsi un nouvel ensemble de régions contigües. En particulier, lorsque l'on recherche un motif de taille importante, il est possible de le diviser en sous- régions contigües et de les cribler séparément, de manière à faire apparaître des sous-régions spécifiques de l'objet et de détailler la fonctionnalité de l'objet. Dans les exemples qui suivront, le procédé de segmentation est mis en oeuvre sur le fondement d'un graphe dans lequel on a .transposé le maillage de l'objet. Ceci n'est cependant pas limitatif dans la mesure où ces procédés peuvent également être mis en oeuvre directement sur le fondement du maillage, la différence étant que la mise en oeuvre de la Théorie des Graphes nécessitera une ou plusieurs étapes supplémentaires d'adaptation des algorithmes. Il est possible de mettre en oeuvre une approche de segmentation des surfaces en régions contigües soit en fonction d'un critère de distance, soit en fonction d'un critère sur le nombre de points formant la région, soit en fonction de propriétés remarquables des points de l'objet, soit en fonction d'une combinaison de ces critères. Dans le cas de la génération de régions sur le fondement d'états de propriétés remarquables, la région obtenue est une empreinte structurale : elle caractérise plus particulièrement une région de l'objet obtenue sans à priori de formes ou de tailles, omme cela est le cas selon le critère de distance. L'utilisation du maillage et du graphe associé permet alors de générer des régions par extension depuis un point du graphe, ce qui assure la contigüité de la région.

Dans ce qui va suivre, plusieurs critères de segmentation d'un objet tridimensionnel en régions tridimensionnelles vont être décrits. Cette liste de critères n'est cependant pas limitative et n'est donnée qu'à titre d'illustration. Par ailleurs, selon le procédé de l'invention, les régions et empreintes structurales peuvent être obtenue à partir d'un seul ou d'une combinaison de ces critères de segmentation, de manière à obtenir un grand nombre de types régions et empreintes structurales.

Critère de distance spatiale Pour chaque point (ou sous-groupe de points) de surface, il est possible d'approximer et de calculer la distance géodésique qui le sépare de tout autre point de surface.

La distance géodésique entre deux points de l'objet est approximée comme étant la longueur du chemin le plus court û ou de l'un des chemins les plus courts s'il en existe plusieurs û entre les deux points correspondants du graphe : elle est donc propre à la représentation de surface choisie.

Dans le cadre de l'invention, les distances géodésiques sont utilisées pour regrouper tous les points de surface suffisamment proches (selon le critère de distance et/ou du nombre de points) et former ainsi la région contiguë. Par exemple, dans le cas du graphe des points de surface, chaque 15 arête a pour poids la distance euclidienne qui sépare ces deux points. Une approximation de la distance géodésique entre deux points S, et S2 correspond alors à la somme des distances euclidiennes des arêtes formant le plus court chemin entre ces deux points. En reprenant l'algorithme performant de Dijkstra pour la 20 détermination du plus court chemin pour l'approximation du calcul des distances géodésiques, il est possible d'établir un nouvel algorithme plus rapide en établissant de nouveaux critères de fin afin de limiter le calcul aux seules distances géodésiques qui sont nécessaires à la segmentation de l'objet en régions. 25 Pour cela, on transpose le maillage de l'objet dans un graphe G(S, A) connexe triangulé avec S sommets et A arêtes. On définit alors un ensemble (non vide) de points de surface à partir duquel on souhaite créer une région, et l'on choisit un ou plusieurs point(s) Pc dans cette région. A chaque point de l'ensemble est assignée une 30 distance infinie alors qu'au(x) point(s) Pc est assignée une distance nulle.

Le parcours des points voisins permet alors de déterminer le plus court chemin (et donc les distances géodésiques) entre les points de l'ensemble et tous les autres points de surface. On remarquera à cet égard que les graphes de surface étant connexes et les poids toujours positifs (dans la mesure où il s'agit d'une distance), il existe toujours un plus court chemin entre deux points S, et S2 du graphe. On intègre alors un critère de fin à cet algorithme afin de ne calculer que les distances nécessaires. Ce critère de fin peut notamment être un critère de distance, ou un 10 critère du nombre. Selon le critère de distance, on détermine lors de l'itération de l'algorithme le point le plus proche du point choisi Pc parmi la liste des points qu'il reste à traiter (i.e des points pour lesquels il faut encore assigner la distance du plus court chemin au(x) point(s) Pc). Dès lors que la distance 15 entre ce point et le point Pc est plus grande qu'un seuil prédéterminé, l'algorithme s'arrête et renvoie la liste des points qui ont été traités. Les points traités correspondent à l'ensemble des points contigus au(x) point(s) Pc et qui sont à une distance inférieure ou égale à la distance géodésique seuil choisie. Tous les autres points qui n'ont pas été traités sont 20 nécessairement à une distance géodésique du(des) point(s) Pc qui est supérieure à la distance seuil. Selon le critère du nombre, l'itération de l'algorithme s'arrête lorsque l'on a sélectionné au plus un nombre déterminé de points. En variante, on génère des régions en forme d'anneau en ne 25 sélectionnant pas (ou en éliminant de la région obtenue) l'ensemble des points pour lesquels la distance les séparant du point (ou des points) Pc choisi est inférieure à une distance minimale seuil.

Critère de distance dépendant de propriétés remarquables 30 Selon une autre forme de réalisation, la segmentation des surfaces en régions contigües est mise en oeuvre en fonction de l'état de propriétés remarquables, c'est-à-dire des propriétés géométriques, physico-chimiques ou évolutives, etc. ayant un intérêt pour le domaine ou l'application de l'objet qui est étudié, de manière à générer en automatique des régions correspondant à une ou plusieurs de ces propriétés. Ces régions caractérisant des états bien précis de l'objet sont construites sans à priori de forme ni de taille et sont des empreintes structurales. Bien entendu, l'une au moins de propriétés utilisées pour la génération de l'empreinte structurale peut être une propriété de localisation spatiale : on obtient alors simplement une région selon le critère de distance, qui peut en outre éventuellement caractériser des propriétés remarquables de l'objet. Typiquement, il s'agit (1) de la localisation spatiale (coordonnées de points du graphe) ; (2) de la courbure locale d'une surface,; (3) de l'orientation de la normale locale de surface ; (4) de l'indice de flexibilité local (obtenu par exemple par des approches de dynamique ou mécanique moléculaire, ainsi que par les modes normaux); (5) de l'indice de malléabilité local (obtenu par exemple soit à partir des données de flexibilité et/ou à partir de la localisation spatiale des cavités, vides et zones de faibles densités de l'objet); (6) la présence d'un groupe fonctionnel (hydroxyle, carboxyle, etc); (7) le potentiel électrostatique ou la charge locale ; (8) l'indice de conduction local, dépendant par exemples des matériaux utilisés en chaque région de l'objet ; (9) la densité locale (dépendant du matériau) ; (10) la résistance locale (étant dérivée soit de mesures pré-établies ou déterminée par un procédé semblable à celui de la malléabilité); (11) dans le cas des molécules, le score de conservation (déterminé à partir des alignements multiples des séquences ou des structures des molécules homologues. Ce score de conservation renseigne sur la variabilité observée d'un résidu (ou d'un groupement d'atomes) précis au cours de l'Evolution (et dans certains cas pour un clade précis). Une fois l'alignement multiple obtenu, il peut-être calculé notamment à partir de l'entropie de Shannon, dérivée de la Théorie de l'Information ; (12) le score de coévolution de la région (déterminé à partir des alignements multiples des séquences ou de structures homologues en observant si les changements évolutifs d'un résidu (ou groupement d'atomes) semblent corrélés aux changements évolutifs observés sur d'autres résidus (ou groupement d'atomes). II renseigne sur de possibles liens fonctionnels entre différentes régions de la molécule, notamment dans le cas des phénomènes allostériques. Cette forme de réalisation peut notamment être cumulée avec la forme de réalisation précédente, de manière à générer des régions et/ou des empreintes structurales ayant à la fois des propriétés géométriques, physico-chimiques et/ou évolutives remarquables et respectant le critère de distance. Pour cela, les propriétés étudiées doivent être numérisables, et optionnellement normalisables. Avantageusement, pour l'implémentation de cette forme de réalisation, le maillage de l'objet tridimensionnel est transposé dans un graphe de manière à pouvoir disposer des outils de la Théorie des Graphes. De la sorte, il est possible de calculer, pour une propriété P ayant par exemple des valeurs dans l'intervalle [0,1], une distance géodésique relative à cette propriété qui sépare deux noeuds N, etN2 du graphe correspondant à des points S, et S2 du maillage d'un objet tridimensionnel donné. Pour cette propriété P, la distance géodésique DP(N, N2) séparant les deux noeuds N, et N2 est égale à : DP (NI ,N2 ) = 1I [P(NI ) ù ](N2 Plus généralement, étant données n propriétés p , P2 , ..., P ayant 25 des valeurs sur l'intervalle [0,1], la distance géodésique D n (N1N2) entre les états de ces propriétés pour les noeuds N, et N2 se généralise alors à: D ., (N1,N2)= nt V[P(NI ) -P(N2)1 I En assignant au poids w(N1 N2) de l'arête reliant les noeuds N, et

N2 la distance euclidienne D ,, (N1 N2) calculée à partir des différences EPi d'états entre les noeuds N1 et N2 pour les propriétés P, , P2 , ..., P,, , il

devient possible de générer des régions à partir d'un ensemble de propriétés, sans a priori de forme ni de taille. Ces empreintes structurales caractérisent des régions généralement importantes et propres à l'objet, à une sous-famille ou à une famille d'objets. Cette description nouvelle des objets tridimensionnels accroit la connaissance qui peut-être extraite de façon systématique et sans intervention humaine depuis la structure de l'objet et de propriété telles que la courbure, la distribution des charges, assignées elles aussi de façon automatique. En variante, le poids w(N1 N2) assigné à l'arête reliant les deux

noeuds N1 etN2 est défini comme étant la distance de Manhattan D ,, (N, N2)=~IP,(N,)-P,(N2)l , la distance de Minkowski E p i=1 N D ,, (N1 N2) =P E IP (N1)- P,. (N2 )1P , ou la distance de Chebyshev P i=1 N D,, (NIN2)=lim PIP(N1)-P(N2)~P p i=1 Afin de favoriser (respectivement défavoriser) une propriété P par rapport à une (ou plusieurs) autre(s) propriété(s) il est possible de pondérer l'importance de chacune des propriétés P, , P .

Par ailleurs et dans le cadre de la détection des empreintes structurales d'un objet tridimensionnel, il est possible de fixer un nombre minimum de points pour la constitution d'une empreinte afin que celle-ci soit de taille suffisante selon les critères de l'application désirée. s 20 Dans le cas où la propriété P,. est la localisation (coordonnées), ce critère correspond au critère de distance spatiale préalablement décrit, dans lequel la distance géodésique entre deux états de la propriété est égale à la distance spatiale le long de la surface de l'objet entre les deux points associés. La génération des empreintes structurales (i.e. des régions générées sans a priori de forme ou de taille) sur le fondement de l'état de propriétés remarquables se fait donc selon un algorithme similaire à celui utilisé pour générer des régions sur le fondement du critère de distance spatiale.

Toutefois, dans le cas où l'on se fonde sur une propriété remarquable donnée, on tient plus particulièrement compte de l'état de cette propriété (l'isolation d'une zone, sa conduction, la profondeur d'un creux, sa planéité, etc.). Ainsi, au lieu d'assigner une valeur nulle aux noeuds formant le centre de la région comme dans le cas du critère de distance, on leur assigne une valeur égale à la distance entre leur état et l'état recherché pour cette propriété remarquable. Cette différence permet de tenir compte dès le début de la génération de l'empreinte de l'erreur introduite par l'état du centre et de limiter l'expansion de l'empreinte en fonction de cette erreur originelle. Par exemple, dans le cas où l'on souhaite retrouver l'ensemble des zones creuses d'une région R;, c'est-à-dire l'ensemble des zones de R; dont la valeur de la courbure Ps est proche de 0 - des exemples de méthode de calcul de la courbure locale d'une région seront donnés dans la suite de cette description - on détermine en premier lieu la valeur de la courbure au niveau d'un point particulier de la région R;, par exemple en son barycentre Cg; . Pour une valeur de la courbure P(Cg; )=0.2 en Cg, , on assigne alors une valeur d'erreur 11 P(Cg, )ù Psll à Cg; égale à 0.2, puis on étend la région jusqu'à atteindre un certain seuil d'erreur (généralement faible) sur les états des propriétés recherchées. s r Par exemple, lors de la détection des crevasses d'un objet tridimensionnel, on pourra rechercher un état de courbure proche de 0, et un seuil d'erreur de l'ordre de 0.1. Dans le cas de plusieurs propriétés, on assigne à chacun des points 5 du centre de la région la somme des distances entre chacun de leurs états et les états souhaités. Les régions ainsi obtenues caractérisent donc des aspects bien précis des objets tridimensionnels qui sont étudiés. Dans le cas des surfaces moléculaires, il est donc possible de 10 caractériser l'objet en le segmentant en régions creuses et conservées (qui sont des cibles de choix pour les composés actifs), ou en régions creuses et comportant un potentiel électrostatique déterminé (dont le rôle est important notamment dans le domaine du Drug Design ), etc. Dans le cas d'une utilisation industrielle, il est possible de rechercher 15 de façon systématique les régions d'un objet tridimensionnel étant à la fois isolante et résistante. Dans le cas d'une application chirurgicale, le procédé selon l'invention permet de définir les régions endommagées d'un tissu ou d'un organe, ainsi que leurs limites, en utilisant notamment comme propriétés 20 remarquables des données colorimétriques (mettant en évidence une lésion), des propriétés de courbures ou encore de résistance du tissu. Dans d'autres domaines tels que la robotique, des propriétés telles que la courbure, la flexibilité, la densité, la résistance, la conductance ou l'isolation de l'objet sont importantes et peuvent être prises en compte afin 25 de déterminer par exemple la région la plus adéquate au vu des critères sélectionnés pour permettre l'amarrage d'un bras robotique. L'ensemble des régions, que ce soit par le critère de distance et/ou en fonction de propriétés remarquables, peut être généré de manière efficace et rapide en automatique. 30 Par ailleurs, la génération de telles régions permet de regrouper et de classer des objets tridimensionnels complexes dont elles sont issues en • fonction de la présence de ces régions ou empreintes structurales, caractérisant des propriétés précises de l'objet tridimensionnel. En particulier, la génération de ces régions peut être utilisée afin de simplifier la représentation d'objets tridimensionnels ou de régions plus importantes. Par exemple, selon un mode de réalisation, on définit un graphe dans lequel chaque noeud correspond à une région obtenue à partir d'une ou de plusieurs propriétés remarquables, et où chaque arête correspond à une liaison entre deux de ces régions, définie soit par un contact existant dans le maillage initial entre ces deux régions, soit sur un critère de distance arbitraire entre les états des propriétés de ces régions. De la sorte, on simplifie la comparaison des objets tridimensionnels en comparant les graphes de leurs régions. De la même façon, une région pourra être décrite par des sous- régions obtenues à partir de certaines propriétés, notamment des propriétés physico-chimiques et/ou géométriques, afin d'en simplifier la représentation et la comparaison ultérieures avec d'autres régions ou objets-tridimensionnels.

Critère de propagation (contraintes de formes) Selon une autre forme de réalisation, des régions contigües sont créées en imposant également des critères de propagation (et donc de forme) à la région. Pour cela, on définit un vecteur V orienté dans un plan du graphe, puis on pondère le parcours en fonction de la direction et/ou de l'orientation de chaque arête du graphe par rapport au vecteur i/ . Ainsi, le poids d'une arête (défini selon le critère de distance et/ou en fonction de propriétés remarquables) reliant deux points S, et S2 du graphe sera égal à la distance euclidienne les séparant à laquelle est ajouté un facteur tenant compte de l'angle (S,S2, V) entre l'arête et le vecteur V : plus l'angle (ou l'orientation) entre l'arête S,S2 et le vecteur V est faible, plus le poids de cette arête sera faible, et inversement : en fonction de la direction de V w(ù) ù S, )= w(S,S2)+Kdsm V, S, S2 en fonction de l'orientation de ()= w(S, S2 )+K o "in (V, si SZ )1 ; et 2

en fonction de la direction et de l'orientation de ~S,S2)= w{S,Sz)+Kd lsin(V,S,SZ)1 sm V,S,S2+Ko 2 où w(S,S2) correspond au poids de l'arête S,S2 ; et Kd et Ko sont des constantes. On obtient ainsi des régions allongées dans la direction et/ou le sens du vecteur. Il est de même possible de générer des régions de forme arbitraire en définissant plusieurs vecteurs V , V2 , ..., Vn et en appliquant le critère de propagation avec chacun d'eux : en fonction de la direction de V , V2 , ..., Vn w(S,SZ)= w(S,SZ)+Kd,lsm V,,S,S21+Kd2k(;i ... +KdäIs1n(V,,,S,S21 en fonction de l'orientation de V, , V2 , ..., V,, : l [sin(. 7S2 /J [sin( ' SISZ J] I [sin(T. SlS2 )1 S, S2 J = W(S, S2 I + Ko, +Ko 2 +...+ K0 2 2 2 (;)= w(S, S2 )+ Kd, ~in (V ,ùS, SJ+... + Kdn sin (Vn , S, S2 1+ Ka,

où w(S,S2) correspond au poids de l'arête S, S2 ; et Kd~ Kdf et Kou, K. sont des constantes. en fonction de la direction et de l'orientation de V , V2 , ..., Vn : sin(Vi,S,SZ)1+...+Ka Tsin(Vn S,SZ 2 2 s En variante de cette forme de réalisation, il est possible de défavoriser l'expansion d'une région qui correspond à la direction (respectivement l'orientation) d'un ou plusieurs vecteurs en augmentant le poids de l'arête lorsque l'angle entre l'arête S1S2 et le vecteur i est faible. Par ailleurs, la croissance de la pénalité peut être adaptée en appliquant différents opérateurs tels que racine carrée et exponentielle à K(V,S,S2). D'autres modes de détermination du poids des arêtes en fonction de l'orientation et/ou de la direction d'au moins un vecteur sont possibles. Par exemple, dans le cas d'une expansion en fonction d'un vecteur contrainte d'orientation, l'équation suivante peut également être utilisée : w(ù1 = w( )+ K,[Ir ù [7r ù (17, )]17rll ] I où Ilnll correspond au modulo de 7r ; et K,, est une constante. Dans cette forme de réalisation, la pénalité K,r[7r 47r ù (V, S,S2 )]17rIl ] est croissante sur l'intervalle ]0, 7r] et à valeurs sur [0,7r], tandis que sur l'intervalle [7r ,27r], la pénalité K,r [2r ù ] est décroissante et à valeurs sur [II ,0].

Selon une forme de réalisation, on tient compte de l'orientation globale de la région dans l'espace tridimensionnel (si le vecteur est tridimensionnel), ou son orientation simplifiée dans un plan tangent au point à partir duquel la région est étendue, en projetant les vecteurs V et S,S2 dans le plan tangent.

Critère d'orientation du contour Selon une autre forme de réalisation encore, particulièrement adaptée à la définition des régions de petits objets et cumulable avec les formes de réalisations précédemment décrites, on définit des régions en limitant leur contour à une orientation donnée, de manière à ne ne sélectionner que la région de cet objet qui présente un intérêt plutôt que l'objet dans son intégralité (étant donné sa petite taille).

En effet, si l'objet est suffisamment petit et que la région est suffisamment grande, la région obtenue est non seulement contiguë, mais également cyclique et englobe l'ensemble de l'objet, de sorte qu'un point extrême de la région est connecté au point extrême opposé, ce qui permet notamment d'obtenir des tores.

Selon une forme réalisation de ce critère de segmentation, on génère une région R. selon un algorithme quelconque, typiquement selon un critère de distance. Dans un deuxième temps, on définit une normale NR; de la région en calculant la moyenne des normales aux facettes (ou des normales aux 15 points, chaque normale en un point étant obtenue en effectuant la moyenne des normales des facettes adjacentes à ce point) de la région : NR = NS _ E NS. tard(NS; ) s; GR. où Si est un point de la région quelconque ; NS; est la normale à une facette comportant le point Si, ou la 20 normale au point Si ; Cette moyenne peut-être pondérée par la distance géodésique (ou éventuellement euclidienne) de la normale à un point de la région, l'aire de la facette portant la normale, la combinaison à la fois de la distance et de l'aire de la facette portant la normale, etc. 25 On génère ensuite le contour CR; de la région Ri. Pour cela, on choisit un point quelconque C; de la région R;, typiquement son barycentre. Dans un troisième temps, on détermine le point CP; de la région pour lequel la distance géodésique séparant ce point du point C; est la plus grande puis, parmi l'ensemble des points de la région R; qui sont 1 26 directement adjacents au point P;, on détermine le point Pace, qui est séparé du point C; par la distance géodésique la plus grande. Les points CPi et Pa4i sont donc, par définition, deux points du contour CR, .

On réitère alors l'opération en partant du point qui vient d'être déterminé, de manière à obtenir un ensemble de points Pdji , Padji+n situés à la périphérie de la région R;, et ce tant que le point adjacent Padfi+n est différent du point CPi. On détermine ainsi, de proche en proche, l'ensemble des points qui 10 appartiennent au contour CRi de cette région Ri. Une fois le contour de la région déterminé, on définit un angle seuil, puis on élimine l'ensemble des pointsPadik parmi les point CPi, Padi , Pad;+li ..., Padi+n du contour CRi pour lesquels l'angle (NPadjki,NRi) dépasse l'angle seuil, 15 où NPdk est la normale à la surface au point Pdik NR est la normale de la région Ri . On obtient ainsi une sous-région R;, de la région Ri comportant l'ensemble des point de la région initiale Ri , à l'exception des points Pdk du contour CR, qui ne respectaient pas le critère d'orientation, c'est-à-dire 20 dont la normale forme un angle plus important que l'angle seuil avec la normale de la région. On réitère alors l'algorithme sur le fondement de cette sous-région R ,, de manière à éliminer du contour de cette sous-région Ri, l'ensemble des points qui ne satisfont pas non plus au critère de continuité. 25 De proche en proche, on obtient alors une sous-région R; 1 de la région initiale Ri , pour laquelle le contours respecte le critère d'orientation. s s Selon une autre forme de réalisation, le contour de ces régions limitées à une orientation donnée est obtenu en déterminant l'ensemble des points dont la profondeur est maximale, et de générer de manière itérative la liste des points du contour CR, de la région à partir de ces points les plus profonds. Par exemple, les points les plus profonds peuvent être déterminés selon l'algorithme de Dijkstra en assignant à chaque point sa distance à un point d'origine déterminée en fonction du nombre d'arrêtes parcourues lors du parcours des voisins.

La condition d'arrêt de la recherche des points du contour est alors que tous les points du contour doivent être reliés par au moins une arête, de manière à garantir que la région obtenue est contigüe et donc connexe.

Critère d'orientation des points de la région Il est également possible, lors de la construction d'une région, de ne retenir que les points dont la normale forme un angle avec la normale NI?, de la région inférieur à l'angle seuil. Cependant, cette approche peut générer des régions comportant des trous internes, notamment lorsque la région R; présente une forme tridimensionnelle accidentée (plissée). Ces trous internes doivent donc être détectés, et les points qui ont été injustement retirés doivent être rajoutés. Toutefois, dans le cas d'objets se liant dans des cavités, par exemple des composés de petite taille se liant dans des cavités de molécules, la sélection d'une région englobant tout le composé, ou plus précisément la sélection de l'enveloppe de cette région, peut s'avérer plus judicieuse que sa segmentation, auquel cas il peut être avantageux de sélectionner l'une ou l'autre des approches en fonction de l'application et de l'information recherchée.

Ainsi, à partir d'un ensemble de points de surface d'un objet tridimensionnel, et donc d'un ensemble de noeuds dans le graphe de s s surface associé, il est possible de définir N régions suivant un ou plusieurs critères de segmentation et d'obtenir notamment des régions pleines, en anneau, suivant une extension normale ou dirigée par un voire plusieurs vecteurs, etc.

Toutefois, la génération en automatique de régions et empreintes structurales selon ces différents critères résulte en l'obtention de régions redondantes, c'est-à-dire de régions comportant un grand nombre de points en commun. Avantageusement, la présente invention propose d'éliminer tout ou partie de ces régions redondantes afin de réduire le nombre de régions à tester, et d'accélérer ainsi l'utilisation des régions obtenues grâce au procédé selon l'invention, notamment lors du criblage d'objets tridimensionnels, la recherche de régions comportant des propriétés remaquables particulières, etc.

Selon un mode de réalisation avantageux, on définit un sous-ensemble M des N régions générées qui comprend les régions non-redondantes de N. Pour cela, au cours d'une première étape, une étiquette unique est attribuée à chaque point de l'ensemble N, par exemple lors de la génération du maillage de surface selon les techniques connues du marching cube (un algorithme d'infographie permettant de générer un objet polygonal à partir d'un champ scalaire tridimensionnel généré par approximation d'une isosurface) ou sur la base de la localisation spatiale du point lorsque celle-ci est unique (par exemple en transformant en chaîne de caractères les coordonnées arrondies du point). Une table de hachage (i.e. une structure de données permettant une association clé-élément) est ensuite définie pour chaque région R;, dans laquelle les éléments sont constitués par les points de la région R;, tandis que les clés associées sont définies sur le fondement de leur étiquette unique respective. 29 Puis, afin de déterminer si deux sous régions R; et Ri de N sont redondantes, les tables de hachage respectives des deux régions sont comparées afin de déterminer le pourcentage de points qu'elles ont en commun. Si ce pourcentage est supérieur à un seuil prédéfini, par exemple 85%, les régions R; et Ri sont considérées comme redondantes et l'une d'entre elles est éliminée. A nouveau, il est possible de mettre en oeuvre les approches que l'on vient de décrire pour définir des régions contigües qui intègrent également (ou exclusivement) des points à l'intérieur de l'objet tridimensionnel (si celui- ci est plein) en utilisant par exemple le maillage obtenu par le complexe de Delaunay décrit par Fletcher et al dans le brevet américain US 7 023 432. La définition de ces régions internes permet alors de comparer des objets tridimensionnels aussi bien à partir de leurs régions de surface qu'à partir de leurs régions internes ou de leurs régions intermédiaires (comprenant des points internes et des points de surface).

Les propriétés remarquables

Après avoir généré un ensemble de régions et/ou d'empreintes structurales à partir du maillage ou du graphe représentant l'objet tridimensionnel, on caractérise des régions en fonction de l'état de certaines propriétés géométriques et/ou physico-chimiques qui ont intérêt dans l'application et/ou le domaine étudié. Dans ce qui va suivre, des propriétés géométriques, physico-25 chimiques et/ou évolutives vont être décrites. Cette description n'est cependant donnée qu'à titre d'exemple et n'est aucunement limitative.

La courbure locale Une première propriété géométrique est la courbure locale de la 30 région étudiée. Cette propriété de surface est une information importante à la fois pour la visualisation de la région (et de l'objet tridimensionnel) mais aussi pour l'interprétation informatique et automatisée des surfaces. Elle permet de décrire pour tout point de surface la tendance locale de la région, et d'indiquer par exemple si le point étudié appartient à une sous-région concave (en forme de creux), plate ou convexe (en forme de bosse).

Différentes approches existent pour définir une telle courbure. Ces approches usuelles sont généralement basées sur l'utilisation de l'angle solide ou de la densité atomique locale (celle-ci étant corrélée à la forme locale de la région de surface) qui induit cependant un biais potentiel lors de la présence de cavités sous la surface.

Dans un espace en deux dimensions, pour un ensemble de points de surface S, , S2, ..., Sn , reliés deux à deux par des segments [S1S2], [S2S3], [Sn_1,Sn], la tangente à la surface au niveau de chacun de ces points ainsi que la normale perpendiculaire à cette tangente et passant par le point peuvent être déterminées de manière conventionnelle. Les normales normalisées (de norme unitaire) à la surface NS1 , NS2 , ..., NSn sont ensuite assignées aux points S, , S2 , ..., Sn . Dans un espace à trois dimensions, plusieurs méthodes permettent de déterminer la normale en un point en faisant intervenir les facettes adjacentes ou proches à ces points. Ces méthodes sont applicables à toute surface, et permettent de calculer la courbure locale de toute région ou objet tridimensionnel. Elles ne sont donc pas limitées aux régions obtenues selon l'invention, ni même au procédé selon l'invention. Selon une forme de réalisation, illustrée sur la figure 1, on calcule de manière conventionnelle la moyenne de l'ensemble des normales à chacune des facettes adjacentes au point pour lequel on souhaite calculer la courbure locale. Chaque normale peut préalablement être pondérée, notamment par la distance au centre de la facette, par l'aire de la facette, et/ou par les angles entre les facettes.

Puis, si SIT est la transposée du point S, par sa normale NS, , S2T est la transposée du point S2 par sa normale NS2 , et plus généralement S;T est la transposée du point Si par sa normale NS; , la courbure locale au point Si est alors définie en deux dimensions comme la moyenne Si) des rapports [S,-~T S;T et LS;T S;+tT J [S,-, ] [Si S;+,] Sur la figure 1, on peut voir que 1 i[S`TS2T]+ [ 2T S3T i <1et donc que 2 [S,S2] [S2S3] 1 ( [ s [sTsT1\ le point S2 est dans un creux, tandis que S 3 + L 3 4 J > 1 et donc 2 [ 2S3] [ 3S4] que le point S3 est sur une bosse. De manière générale, à partir d'un point de surface Si , il est possible de créer une zone contigüe Z; autour de ce point en rassemblant les points S. les plus proches du point Si . Pour cela, on définit une distance seuil et on détermine l'ensemble des points S, , S2 , Sn de la région pour lesquels la distance au point Si est inférieure ou égale à cette distance seuil. La définition de la distance seuil dépend notamment de la précision souhaitée pour la courbure locale : plus la distance seuil est faible, plus la courbure reflète des tendances locales ; plus la distance seuil est grande, plus la courbure reflète des tendances globales de surface. La courbure locale Si) au niveau d'un point Si est alors égale à la moyenne de tous les rapports d `S`T SET , où d(SiS;) est de préférence la d(S;Si) distance géodésique entre les points Si et Si C(S )= 1 d(S'TS;T Gard (S, ,S2,...,Sn ) CS, d (Si S . r En variante, d(S,S )est la distance euclidienne entre les points Si et Si . Lorsque le rapport Si) est strictement supérieur à 1 (respectivement strictement inférieur à 1 ou strictement égal à 1), le point se 5 trouve sur une bosse (respectivement un creux ou un plat).

En variante, afin de disposer d'une valeur de courbure normalisée et continue sur l'intervalle [0,1] la courbure C(S;) peut également être calculée selon la formule suivante :

Si )= 1 0.5+(NS,NSi.) card SäS2,...,Sn)s~cs,,s2,...,sn NS.,NS. d(S.TS.T 0.5 ù si < 0 Kc r d (S; Si) 10 où (NS,,NSi) est l'angle en radian entre les vecteurs normaux NS; et NS.;et K, est un facteur de pondération permettant de moduler le contraste entre une courbure plate et une bosse ou un creux. Lorsque les variations d'angle entre NS; et NSi sont comprises 15 entre 0 et 2 , une valeur adéquate pour K, déterminée empiriquement est 0.3. Si la valeur de la courbure Si) n'appartient plus à l'intervalle [0,1], il suffit de l'écraser de sorte que lorsqu'elle est supérieure à 1, la valeur de la courbure soit ajustée à 1, et que lorsqu'elle est inférieure à 0, elle soit

20 ajustée à 0.

Analytiquement, pour une courbure normalisée et continue sur l'intervalle [0,1], lorsque la valeur de c(S;)est proche de 0, 0.5 ou 1, le point d(S.T S .T ) si >0 d(S S1) • I 33 S. est au niveau d'un creux, sur un plat, ou au niveau d'une bosse respectivement. En fonction des besoins et afin de faire ressortir davantage la tendance locale de la courbure, il est possible soit de faire varier la taille de la zone Z; (en faisant varier la taille de la distance seuil), soit de pondérer la courbure des points Si de Z. , notamment par l'inverse de leur distance géodésique au point central S. multiplié par la constante L (NS,NS ) d(STS.T) 0.5+ si ' ' >0 1 Kir d (S; S

1 s.csäs,,...,s,, Ld(S1,s1) sJ R Ldl r 1 NS.,NS.) d(S'.TS'.T )< 0.5- ( ' si 0 Kir d (S; Sj Ld(S;,s,) En variante, de même que pour la détermination des normales, plutôt que d'effectuer la moyenne arithmétique ou la moyenne pondérée par l'inverse des distances, on pondère le calcul de la courbure par l'aire des facettes adjacentes. Selon une autre variante encore, on obtient des valeurs de courbure CI_, ,l (S) sur l'intervalle [-1,1 ], les creux, les plats et les bosses étant alors définis pour des valeurs proches de -1, 0 et 1 respectivement, en suivant la formule suivante : CI_äI (S;) = 2C(S,) ) Ces différentes variantes de la méthode générale de calcul de la courbure que nous venons de détailler peuvent être mise en oeuvre pour tout type d'objet tridimensionnel ou de région tridimensionnel, tant qu'un maillage de l'objet ou la région, éventuellement transposé dans un graphe, a été généré. La méthode de calcul de la courbure locale n'est donc pas limitée au procédé selon l'invention. S;, Le potentiel électrostatique Une deuxième propriété est relative aux groupes fonctionnels et au potentiel électrostatique de la région étudiée.

On entend par groupe fonctionnel tout ensemble de points présentant une charge partielle ou complète, ou tout ensemble de points partageant un même potentiel vis-à-vis des interactions électrostatiques. Typiquement, pour une molécule, il s'agit des groupements chimiques fonctionnels usuels tels que la cétone, le carboxyle, etc., tandis que pour des objets tridimensionnels industriels, il s'agit par exemple de bornes électriques ayant des pôles positifs et négatifs, des surfaces conductrices, des surfaces isolantes, etc. Le tableau suivant présente des groupements fonctionnels en chimie organique. L'intérêt de les différencier lors de la comparaison de molécules tient en ce que chaque groupe dispose d'un potentiel d'interaction et d'une réactivité chimique différente : Alcanes Chaine d'hydrocarbure Arômatiques Comportant des cycles Alcools R-CH2-OH ; (primaires, secondaires, tertiaires) R,R'-CH-OH ; R, R', R"-C-O H Aldéhydes R-C(=O)H Cétones R-C(=O)-R' Carboxyles R-C(=O)OH Phénols Phényl-OH Amines R-NH2 ; (primaires, secondaires, tertiaires) R-N(-H)-R' ; R-N-R'R" Amides R-C(=O)NH2 ; (primaires, secondaires, tertiaires) R-C(=O)N(H)-C(=O)-R'; R-C(=O)N-[C(=O)R'][C(=O)-R"] Thiols R-SH Pour déterminer de manière efficace les interactions entre des objets ou des régions d'objets, il peut être nécessaire de prendre en compte à la fois la notion de courbure et la notion de potentiel électrostatique, la complémentarité de forme n'étant pas toujours suffisante. En effet, dans le cas des objets déformables, l'importance des interactions électrostatiques entre deux objets (et plus précisément entre leurs régions qui interagissent) peut être plus grande que l'apport de la propriété de courbure lors de leur comparaison et en vue de prédire leur interaction. Ce phénomène est en particulier dû aux possibles changements de conformations des objets et régions lors de leur interaction.

La déformabilité Lors de la comparaison d'objets tridimensionnels pleins, afin de quantifier la quantité de vide sous la surface de l'objet et de déterminer la malléabilité de la structure, il est possible de détecter les cavités présentes dans l'objet . En effet, la malléabilité (ou déformabilité) d'un objet est la conséquence de plusieurs facteurs comprenant la présence de cavités (ou zones de faibles densités) ou l'indice de flexibilités de la zone.

Typiquement, dans le cas des molécules, la présence de cavités peut permettre la fixation de ligands. Il s'agit donc, pour ce type d'objet tridimensionnel, d'une propriété remarquable qu'il peut être utile d'étudier. Afin de quantifier la déformabilité potentielle d'un objet, on calcule la quantité de vide sous la surface (cavités) pour chaque point de la région.

Un exemple de réalisation de ce procédé de quantification du vide sous la surface en chaque point P de la région est de récupérer l'ensemble Pcav des points faisant partis d'une ou plusieurs cavités et suffisamment i e proches du point P. Dès lors, il est possible de fournir une approximation du volume des cavités sélectionnés par ces points Pcav en considérant pour chaque cavité, que le volume de vide proche de P équivaut au volume total de la cavité multiplié par le pourcentage de points Pcav de cette cavité sélectionnée. Ainsi par exemple, si au voisinage du point P une cavité de 800 A3 est présente sous la surface et que l'on sélectionne 20% des points Pcav de cette cavité, alors la quantité de vide approximée au point P sera de 160 A3. Le volume d'une cavité peut notamment être approximé en calculant 10 la somme des volumes des tétraèdres vides qui la composent dans le complexe de Delaunay. Le rayon de la région Une autre propriété remarquable d'une région R; est son rayon T(R;). 15 Pour générer le rayon T(Ri) d'une région R;, on détermine de manière conventionnelle le barycentre Cg; de cette région R. Le rayon euclidien T(R;) de la région R. peut alors être calculé selon la formule suivante : T(R.)= tard(CR;) sc. l~R g; ScI 20 où llCg;,Sc;ll est la distance euclidienne entre le barycentre Cg; et un point Sc; du contour. En variante, on calcule le rayon moyen euclidien de la région en sommant la moyenne et l'écart type moyen (std) des distances séparant tous les points Si de la région Ri et Cg; : 25 T(R;)ùlJCg,,S,ll+stdGkCg,,S;ll~ Selon une autre variante encore, il est possible de calculer un rayon géodésique de la région en remplaçant ljCg;,S;ll par d(C9;, Si) qui renvoie la distance géodésique entre les points C9; et Si. Dans le cas des régions s générées sans contrainte de forme et suivant un critère de distance spatiale géodésique, le rayon géodésique de la région sera proche de la distance seuil utilisée lors de la génération de la région. Dans le cas des régions formées avec contraintes, il est cependant 5 possible de définir plusieurs tailles dans la direction (respectivement l'orientation) des vecteurs contraintes. Selon une autre variante encore, on effectue une Analyse en Composante Principale (ACP) afin de déterminer les axes principaux de la région.

10 Comparaison des régions Nous allons à présent décrire les étapes de comparaison des objets et régions tridimensionnels selon l'invention. 15 Afin d'évaluer la qualité de l'alignement de deux régions R, et R2 en fonction de propriétés remarquables déterminées, l'invention propose de calculer, pour chaque alignement de ces régions, un score d'énergie. Le score d'énergie dépend en grande partie de la nature de l'objet 20 considéré. Toutefois dans le cas de la comparaison des régions de surfaces d'objets, certaines propriétés telles que la courbure, la résistance (ou la malléabilité), la densité, la localisation spatiale des points de surface (ainsi qu'une probabilité de distribution indiquant l'erreur possible sur leur localisation) et les normales aux points et facettes de surface sont des 25 propriétés communes à tous les objets tridimensionnels, et peuvent donc systématiquement intervenir dans le calcul du score d'énergie et dans la comparaison des régions. Etant donné n propriétés P. définies pour chaque point et/ou pour chaque facette d'une région R, , le score d'énergie local Scoreroa0,(S,,S2) s correspondant à l'alignement d'un points S, de la région R, et d'un point S2 de la région R2 est donné par la formule suivante : n Score locui (S, S2) _ l a; Score,. (S, S2 r=i où a; est un paramètre de pondération du score Score,, de la propriété P,. pour les deux points alignés S, et S2 . De préférence, tous les Score, renvoient un score normalisé sur un même intervalle, de sorte que pour des coefficients a; égaux à 1, les propriétés contribuent de manière égale au score global. Par ailleurs, afin de répondre aux conventions usuelles sur les scores d'énergies et les scores d'entropies, le score d'énergie Score, (S, S2) pour une propriété P; renvoie de préférence une valeur normalisée sur l'intervalle [-1, 1], de sorte que le score d'énergie de cette propriété tend vers -1 lorsque les états de la propriété sont similaires aux points S, et S2 , et vers 1 lorsqu'ils diffèrent.

Pour tenir compte de la variabilité intrinsèque d'une région fonctionnelle d'un objet, un exemple de réalisation consiste à introduire un seuil de tolérance Tp;, généralement empirique et propre à la propriété P, . Ce seuil de tolérance Tp; définit l'écart acceptable entre les états respectifs de la propriété P; en deux points S, et S2 des régions R, et R2 respectivement. Dès lors que l'écart observé entre les états de la propriété au points S, et S2 est inférieur à ce seuil de tolérance Tp;, la variation de la propriété P, en ces points est considérée comme normale , et le score d'énergie Score? (S, S2) renvoie ù conformément avec les conventions de cette forme de réalisation ù une valeur négative.

Par opposition, dans le cas d'un écart observé supérieur au seuil de tolérance Tp;, le score d'énergie ScoreP(S1S2) renvoie une valeur positive, indiquant que la variation de la propriété est anormale en ces points.

Un exemple de calcul du ScoreP. selon cette forme de réalisation consiste à calculer dans un premier temps l'écart effectif dP;effeet,f des états de la propriété P; en deux points SI et S2. Pour cela, on calcule la différence entre l'écart observé dobservé des états de cette propriété aux points SI et S2, et le seuil de tolérance fixé Tp; pour cette propriété selon les équations suivantes : l dobservé ù IP (SI) ù Pi (S2 4Pi effectif ù dobservé ù TP où P,.(S1) est la valeur de l'état de la propriété P; au point SI ; et P,,(S2) est la valeur de l'état de la propriété P; au point S2 .

Le score d'énergie ScoreP (SI S2) aux points SI et S2 sera alors égal, pour la propriété P;, à la valeur renvoyée par une fonction logistique L, symétrique en 0 : ScoreP (SI S2)=L(0, effectf avec :

2 L(APi,effecttf)= (1 +e mp,,,.,. -1

où À est une constante ; et

4P; effectf , est la différence des valeurs des états respectifs des points SI et S2 pour la propriété P.

Ainsi, lorsque la différence entre les états P (SI) et P (S2) de la 25 propriété P; est supérieure à la tolérance T,, , APt,effecttf est positif et L(Api,effectf) renvoie une valeur positive au plus égale à 1, pénalisant ainsi le mauvais alignement des points SI et S2 pour la propriété P.20 Inversement, lorsque la différence entre les états pK) et p(S2) est inférieure à la tolérance TPi (indiquant donc une variation anormale de l'état de la propriété), 4P, effeC1 f est négatif et L(AP;,effect f) renvoie une valeur négative au plus égale à -1, récompensant ainsi le bon alignement des points S, et S2 pour la propriété P. Typiquement, une valeur adéquate pour la constante 2 de la fonction logistique L est 6. L'avantage de l'utilisation d'un tel score d'énergie basé à la fois sur la définition de tolérances et l'utilisation d'une fonction logistique renvoyant des valeurs sur l'intervalle [-1, 1], tient en ce qu'il est possible d'intégrer une pluralité de propriétés remarquables P, , P2 , ..., Pn souhaitées à l'équation du score local Score,ocai(S;,Sj), tout en conservant un score d'énergie cohérent et performant, tant que les propriétés P, , P2 , ..., P sont numérisables et qu'il est possible de leur assigner des tolérances sur les écarts acceptés. Par ailleurs, si un point Si de la région R, ne possède pas d'équivalent Si dans la région R2 pour la propriété P;, le score d'énergie Score? renvoie une valeur qui est fixée préalablement en fonction des critères de recherche.

Par exemple, si l'on recherche une région de taille analogue, le score d'énergie correspondant au non alignement du point S. de la région R, est pénalisant. La valeur du score d'énergie pour ce non alignement peut alors être fixée à la valeur correspondant au score d'énergie (ou à une fraction du score) le plus élevé parmi les scores d'énergie calculés pour les propriétés remarquables P, , P2 , ..., P étudiées dans les régions comparées. Cette valeur correspond alors au plus mauvais alignement parmi les propriétés pour lesquelles est défini un score d'énergie.

Optionnellement, on pondère la valeur fixée de ce score d'énergie par un facteur de pondération de manière à ajuster l'importance de ce défaut de correspondance, notamment dans le cas où les points non alignés ont un intérêt particulier pour la recherche effectuée.

Au contraire, si l'on recherche une région de taille inférieure à celle de la région R, (i.e une sous-région de la région étudiée), le score d'énergie correspondant au défaut d'alignement du point S. peut être fixé à une valeur nulle et n'aura donc pas d'incidence sur le score d'énergie local Score local (s, S2). Cela nécessite alors de vérifier le pourcentage de points des régions R, et R2 qui sont alignés, en plus du score d'énergie, afin de déterminer si l'alignement est réellement pertinent (si la sous-région est suffisamment grande pour présenter un intérêt). Le score global (Scoreg,oba,(R, R2)) correspondant à l'alignement de deux régions R, et R2 pour l'ensemble des propriétés remarquables P, , P2 , ..., Pn étudiées est alors donné par la somme des scores d'énergie locaux Scoreroca,(S;,Sj) pour chacun des couples de points Si et Si (alignés et non alignés) : Score global (RI R2 ) = L, Scorelo.l [S; , EgR2 (Sr )J s, cR, où EgR2 (S;) correspond au point S, de R2 qui est structuralement aligné avec le point Si de R, . Si aucun point ne correspond dans R2 , on renvoie alors la valeur fixée pour le score d'énergie correspondant au non-alignement du point S. . Ainsi, grâce à ce score d'énergie global renseignant sur la ressemblance de deux régions d'objets tridimensionnels en fonction de N propriétés définies par le domaine et/ou l'application étudiés, il est notamment possible de créer des classifications de ces régions. Les classifications sont alors dépendantes des propriétés choisies lors de la comparaison, si bien que pour un même ensemble de régions, il est possible d'obtenir différentes classifications correspondant chacune aux propriétés utilisées lors de la comparaison / du criblage (ex : l'ensemble des régions convexes, l'ensemble des régions conductrices, etc.) La classification des régions en groupes se fait alors en fonction des comparaisons par couples de régions et selon leurs score d'énergie respectifs. Pour chaque couple de régions, le score assigné renseigne sur leur ressemblance ou leur éloignement en fonction des propriétés remarquables qui ont été choisies pour le calcul du score. Il est donc possible de construire ces classifications sur la base du score d'énergie global en utilisant les algorithmes de classifications supervisées ou non-supervisées usuelles (k-mean, itératif k-mean, neighbour joining, kohonen, etc).

Par ailleur, afin de simplifier la classification et de préciser de façon 15 systématique les résultats qui sont les plus pertinents, il est en outre possible de normaliser le score global de chaque alignement. Pour cela, on calcule le score d'énergie de la région que l'on cherche à cribler, de manière à déterminer le score d'énergie le plus élevé que l'on puisse obtenir lors de l'évaluation des alignements des régions, ce qui 20 revient à évaluer l'alignement de la région avec elle-même. II suffit alors de normaliser le score de tout alignement par rapport à cette région en divisant chaque score global par ce score le plus élevé (de préférence par sa valeur absolue). II est ainsi possible de créer une échelle et de classification des 25 alignements en fonction de leur qualité. Par exemple, lorsque le score normalisé d'un alignement est supérieur à 80, l'alignement est de bonne qualité et le résultat est sûr ; pour un score compris entre 35 et 80, on estime qu'il existe quelques erreurs ; pour un score compris entre 20 et 35, on estime que l'on obtient à la fois de bons et de mauvais alignements des 30 points, tandis que lorsque le score est compris entre 0 et 20, on estime que le risque d'obtenir de mauvais alignements est important.

Optionnellement, il est possible d'analyser l'alignement optimal de deux régions RI et R2 afin de déterminer si les erreurs d'alignements des points de RI et de R2 sont réparties sur l'ensemble de la région, ou si ces erreurs sont concentrées localement dans une ou plusieurs sous-régions. En effet, la somme de nombreuses petites erreurs réparties sur tout l'alignement peut être équivalente, dans le calcul du score global de cette forme de réalisation, à la somme d'un petit nombre d'erreurs importantes concentrées dans une sous-région. Il peut donc être intéressant de distinguer ces deux cas, et, en particulier, de pénaliser celui comportant une forte concentration d'erreurs locales, donnant souvent de moins bons résultats dans le domaine du criblage notamment que celui comportant de nombreuses petites erreurs réparties dans l'ensemble de la région. L'erreur commise pour chaque couple de points (Si, Si) de deux régions RI et R2 alignées (ainsi que pour tout point Sk de RI n'ayant pas de correspondance dans la région R2) est donnée par le score local du couple Score,oca,(S, S2). En effet, étant donné que le score local de (Si, Si) renvoie une valeur renseignant sur les ressemblances et/ou les différences entre ces points pour l'ensemble des propriétés remarquables étudiées, il fournit également une mesure de l'erreur commise lors de l'alignement ou du non alignement du point SI de RI avec le point S2 de R2. Ainsi, à partir des deux régions RI et R2 alignées de façon optimale selon le procédé de l'invention, il est possible de générer des sous-régions de l'une des région RI ou R2, sur le modèle de la génération des empreintes structurales, en se fondant cette fois sur la valeur du score local en chaque point de la région Ri. On définit alors un graphe comportant un ensemble de noeuds correspondant à un ou plusieurs points de la région, et d'assigner à chaque noeud du graphe la valeur du score local associé au(x) point(s) correspondant(s) de la région. En variante, on définit une erreur maximale admissible, et on assigne au noeud la distance entre l'erreur maximale et la valeur du score local correspondant à ce(s) point(s). On choisit ensuite un paramètre d'expansion permettant de définir les limites de l'expansion de la région. Dès lors, lorsque celles-ci existent, il est alors possible de générer les régions qui regroupent les points mal alignés concentrés (c'est-à-dire les points ayant une erreur importante et répartis dans une sous-région de la région). Par exemple, si l'on compare deux régions RI et R2 à partir d'une seule propriété, l'erreur maximale admissible pouvant être commise sur l'alignement d'un point de RI avec un point de R2 (ou le non alignement d'un point de RI) est alors égale au score local maximal en ces points, à savoir 1, tandis que la ressemblance maximale est égale à -1. Alors, pour deux points A et B de RI ayant pour points correspondants A' et B' dans R2, si les erreurs commises lors de l'alignement de A avec A' et de B avec B' sont respectivement 1 et 0.8, on assigne aux arêtes reliant A à B et A' à B' un poids égal à 0.2. Si tous les autres points des régions RI et R2 sont correctement alignés (i.e. leur score local d'alignement est négatif), et que l'on choisit un paramètre d'expansion pour la formation des régions d'erreurs de 0.3, seule une sous-région d'erreur sur RI comprenant les points A et B peut être générée sur Ri. En revanche, si le paramètre d'expansion est égal à 0.1, alors deux sous-régions d'erreurs sur RI peuvent être sélectionnées, l'une étant formée du point A, et l'autre du point B.

On détermine alors le nombre de sous-régions d'erreurs générées dont le cardinal est supérieur ou égal à un cardinal seuil défini. Il est alors possible de déterminer si les erreurs d'alignements des points de RI et de R2 sont réparties sur l'ensemble de la région, ou si ces erreurs sont concentrées localement dans une ou plusieurs sous-régions, notamment en déterminant le nombre de sous-régions d'erreurs générées dont le cardinal est supérieur ou égal à un cardinal seuil défini, et en tenant compte de nombre de points par sous-régions d'erreur.

La définition de ces sous-régions d'erreurs renseigne donc sur la répartition des erreurs faites sur l'alignement optimal de deux régions. Elle permet notamment de distinguer le cas où les erreurs sont faibles (score d'énergie local proche de -1) mais réparties sur toute la région, du cas où les erreurs sont fortes (score d'énergie local proche de 1) mais concentrées localement en une ou plusieurs sous-régions d'erreurs.

Il est possible de tenir compte de ces erreurs dans le score global correspondant à l'alignement optimal des deux régions, en déclassant l'alignement s'il y a trop d'erreurs localisées, c'est-à-dire en supprimant la région du résultat du criblage, ou en ajoutant une pénalité au score global, fonction de la taille (nombre de points mal alignées) et/ou du nombre de sous-régions erreurs.

Un exemple de score pénalisant à rajouter au score global est alors: N Pénalitéerreur = C.Ecard(ER, i= où ER, est une sous-région erreur ; card(ERi) correspond au nombre de points de la sous-région erreurERi ; et C est une constante permettant de donner plus ou moins d'importance à cette pénalité, face au score global d'alignement.

Enfin, lorsque l'on génère une pluralité de conformations stable de l'objet tridimensionnel de manière à obtenir plusieurs objet tridimensionnels secondaires issus de l'objet tridimensionnel initial, nous avons vu que la spécificité du criblage pouvait être réduite si trop de conformations étaient considérées. Afin de compenser cette perte de spécificité, il est alors possible, selon une forme de réalisation du score d'énergie, de cribler une région ainsi que ses dérivés conformationnels les plus stables en réduisant les paramètres de tolérance Tp;. En effet, ces paramètres de tolérances sont introduits afin de tenir compte de la variabilité intrinsèque de la région, et des différentes conformations que celle-ci peut prendre. Si cette variabilité est générée en entrée, la tolérance aux variations peut alors être très faible et le criblage très précis. Ces différentes formes de calcul du score d'énergie peuvent être mises en oeuvres afin d'évaluer l'alignement de deux régions ou objets tridimensionnels quelconques, indépendamment du procédé selon l'invention, tant que l'on dispose d'un maillage et/ou d'un graphe desdites régions ou objets.

Afin de comparer de manière rapide, efficace et robuste plusieurs régions entre elles, l'invention propose en premier lieu de simplifier les représentations des régions en mettant en oeuvre un ou plusieurs filtres de manière à réduire au final la complexité des régions et/ou le nombre de régions à comparer avec la région étudiée. L'utilisation de ces filtres est bien entendu optionnelle, mais ils permettent notamment d'éliminer rapidement des régions qui ne ressemblent pas à la région étudiée, qui ne comportent pas certaines propriétés remarquables recherchées, ou encore dont la représentation n'est pas adaptée à la comparaison avec la région étudiée.

Simplification de la représentation de l'objet tridimensionnel Le premier filtre tient essentiellement dans la simplification de la représentation de l'objet suivant au moins un procédé de simplification (que nous développerons dans la suite de cette description). En particulier, l'utilisation des formes dual, ou encore les harmoniques sphériques peuvent-être mises en oeuvre afin de simplifier la représentation de la surface de l'objet, et donc les graphes et régions associés. Dans le cas des surfaces obtenues selon les approches de marching cube et ses dérivées, il est également possible de jouer sur les paramètres de grille et d'interpolation des intersections afin d'obtenir des représentations plus ou moins précises de l'objet. En variante, la simplification de l'objet est réalisée sur la base du regroupement de points de l'objet qui possèdent des états de propriétés similaires. En particulier, comme expliqué précédemment, il est possible de regrouper l'ensemble des points ayant une valeur de courbure proche et/ou l'ensemble des points ayant des groupements fonctionnels proches. Plus généralement, il est possible de générer de façon systématique l'ensemble des empreintes structurales de l'objet pour en simplifier la représentation, et donc la comparaison.

Simplification de la représentation de la réqion tridimensionnelle Le second filtre tient essentiellement dans la simplification de la représentation de la région suivant au moins un procédé de simplification.

Une région peut être décrite par un graphe. Le graphe peut être utilisé en soi comme une représentation simplifiée en regroupant les noeuds ayant des états de propriétés similaires (contraction de noeuds). Le graphe de la région devient alors un graphe décrivant par exemple des propriétés remarquables de la région (telles que la présence de bosses, de zones isolantes, de zones résistantes, de zones flexibles, etc.). Ces graphes, qui sont beaucoup plus simples (de l'ordre d'un facteur 10), permettent d'effectuer des comparaisons plus efficaces. Toutefois, si la région comporte un ensemble de sous-régions générées sur la base de propriétés remarquables, il est possible de générer un graphe dans lequel chaque sous-région correspond à un noeud. Un autre exemple de réalisation de graphe simplifié de région est obtenu en supprimant l'ensemble des arêtes du graphe de la région dont le poids local est supérieur à un poids seuil déterminé, et en recherchant les composantes connexes de cette région. Les composantes connexes de ayant un nombre de points minimal donné (de manière à garantir qu'elles aient une taille suffisante) forment alors des sous-régions de la région qui regroupent des propriétés remarquables distinctes. Ce graphe très simplifié se prête très bien aux algorithmes de correspondance de graphes. Il est toutefois également possible de représenter cette région très simplifiée dans l'espace en moyennant les coordonnées de chaque noeud afin de comparer très rapidement les régions par une approche géométriquement plutôt que par l'intermédiaire des algorithmes de la Théorie des Graphes. Ces comparaisons de régions simplifiées sont moins précises que les comparaisons d'objets et de régions détaillés, mais suffisent pour éliminer les régions trop distantes ainsi que pour regrouper et/ou classifier les régions qui se ressemblent. Lors des comparaisons de régions, le calcul d'un score d'énergie permet par exemple de quantifier les différences et ressemblances entre deux régions comparées, et par conséquent de les classifier selon des méthodes conventionnelles (k-mean, itératif k-mean, neighbour joining, kohonen, etc). Un troisième filtre est donc dans la création de classifications des régions afin de regrouper avant toute comparaison les régions qui se ressemblent suffisamment en fonction du score d'énergie, afin de limiter les comparaisons aux seules régions comprises dans l'un des groupes de la classification (par exemple, le groupe présentant les caractéristiques les plus proches de la région à cribler) en fonction du domaine et de l'application concernés Elimination des réqions trop différentes De la même façon, en utilisant ces représentations simplifiées, il est possible d'éliminer préalablement à la comparaison proprement dite les régions qui ne peuvent se ressembler, ou plus précisément ne possédant pas un nombre minimum d'éléments spécifiques et importants de la région étudiée.

Typiquement, si certains points sont plus importants que d'autres dans une région, on cherchera alors à les faire correspondre en premier. De tels points importants peuvent-être définis manuellement, préalablement au criblage de la région, ou en automatique en définissant des critères dépendant du domaine ou de l'application. Ainsi, en biologie et lors de la comparaison de régions de molécules, il est possible d'accorder davantage d'importance au score local (Score,ocaj(S;,Sj)) dans l'équation du score global si l'on sait que le point Si fait partie d'une sous-région fonctionnelle importante de la région (notamment les points chauds d'interactions ( hot spots ), les résidus catalytiques, les sites de phosphorylations/glycosylations, etc). En automatique, il est également possible de définir les points appartenant aux résidus les plus conservés de la molécule comme étant des points importants qui doivent nécessairement être alignés avec des points d'une autre région. Si aucune correspondance n'est trouvée sur ces points importants, on peut alors éviter de procéder aux autres comparaisons plus coûteuses en temps. D'autres filtres basés sur une description simple des régions peuvent être utilisés afin d'écarter les régions qui diffèrent trop.

Par exemple, si la région étudiée est concave et que la région à tester est convexe, il pourra s'avérer inutile de continuer les comparaisons dans la mesure où il n'est pas possible d'aligner les deux régions sur la base de la courbure (propriété remarquable importante) étant donné qu'elles ont une forme structuralement opposée.

De façon plus générale, il s'agit de comparer tout ou partie des des propriétés remarquables importantes des régions afin de limiter le nombre de régions à comparer de manière approfondie. Un quatrième filtre réside donc dans l'élimination rapide des régions qui ne peuvent se ressembler en fonction de critères connus et de propriétés remarquable jouant un rôle important dans l'application et/ou le domaine étudié.

Utilisation de propriétés invariantes Ainsi que présenté dans l'exemple de la comparaison de régions concaves et convexes, certaines propriétés, dites invariantes, caractérisent une région indépendamment de toute orientation et alignement. C'est le cas notamment de la taille (euclidienne ou géodésique) d'une région, de la composition des différents états d'une ou de plusieurs propriétés (par exemple la proportion de points isolants, de bosses, de types atomiques, etc.) ou encore la distribution de ces propriétés (comme le rassemblement ou éparpillement de tous les points isolants, de tous les points présentant une charge anionique, etc.). Il est également possible de déterminer la composition et la distribution des propriétés pour différentes zones de ces régions, notamment pour une région centrale ou des régions en anneaux plus ou moins distantes. Par exemple, les points au centre de la région peuvent généralement être considérés comme invariants par des opérateurs de rotations. Il est donc possible de déterminer des propriétés qui ne changeront pas avec l'orientation de la région (telles que la courbure ou la charge centrale, ainsi que les coordonnées du centre par rapport à un des axes du graphe) et de les comparer rapidement aux autres régions Bien que simples, ces propriétés rendent compte d'une réalité géométrique, physico-chimique et/ou évolutive qui peut permettre de distinguer une région d'un grand nombre d'autres régions.

Pour une région de surface, on peut par exemple utiliser le rapport entre son rayon euclidien et son rayon géodésique. Le rayon euclidien correspond à la distance minimale séparant le centre de la région d'un point du contour (ou d'un point moyenné du contour).

Le rayon géodésique quant à lui renseigne sur la longueur du chemin qu'il faut parcourir sur l'objet ou sur la région afin de relier le centre à ce point du contour. Dans le cas des surfaces, il s'agira du chemin qui doit-être emprunté le long de la surface pour joindre les deux points. Le rayon géodésique rend donc compte des plissements et formes accidentées le long de son parcours pour relier le centre à un point du contour (ou à un point moyenné du contour). Par conséquent, le rapport entre le rayon euclidien et le rayon géodésique (tenant compte des plissements) renseigne sur la forme générale de la région, et la comparaison des rapports de deux régions renseigne dans une certaine mesure sur la possible ressemblance de ces régions. Deux rapports ayant des valeurs trop différentes (par exemple de 1 ou 2 Angstrom pour la comparaison de régions moléculaires) indique dans la plupart des cas, des formes différentes. La comparaison lourde de ces régions est donc inutile. En variante, on utilise le rapport de la distance euclidienne EAB et de la distance géodésique GAB (voir Figure 2) reliant un couple de point (A, B) de la région ou de l'objet. On peut alors comparer les rapports de distance d'un couple de point de la région à comparer avec le couple de points correspondant de la région avec laquelle elle est alignée, plutôt que les rapports de rayons euclidien et géodésique.

L'utilisation de ces rapports est un filtre particulièrement puissant qui permet d'éliminer efficacement les régions trop différentes. Par exemple, dans le criblage moléculaire d'une région sur une base de données contenant plus de trois millions de régions issues, l'utilisation de ce filtre (en admettant une variation de l'ordre de 10% du rapport) permet par exemple de ne sélectionner que 47 000 régions correspondant à ce critère. La comparaison des résultats du criblage lourd (sur les trois millions de régions) et du criblage filtré montre que la quasi-totalité des régions similaires retrouvées lors du criblage lourd est effectivement retrouvée par le criblage filtré.

De même, pour plus de trois millions de régions ayant une composition en groupements aromatiques variant de 0 à 58%, seules 10700 régions comprennent plus de 30% de ces groupements aromatiques. Or en pharmaceutique, cosmétique et agroalimentaire, ces aromatiques ont une grande importance dans la conception de composés actifs. Dans ces domaines, l'utilisation d'un filtre basé sur la présence de la propriété remarquable selon laquelle la région possède plus de 32% de groupements aromatique est donc particulièrement intéressante. Cette constatation permet donc d'éliminer des régions supplémentaires ne pouvant ressembler à la région étudiée. Le cinquième filtre est donc l'utilisation de propriétés qui ne 10 dépendent pas de l'alignement des régions (invariantes par rotation, translation), afin de les comparer.

Proiection dans un plan bidimensionnel Par ailleurs, pour un certain nombre de régions qui ne présentent pas 15 une forme trop accidentée, à une coordonnée (x, z) dans un plan correspond un point (x, y, z) de la région. Par conséquent, il est possible d'effectuer une projection de la région tridimensionnelle selon sa normale NR afin d'obtenir sa description dans un plan bidimensionnel. Une telle description d'une région où chaque point est décrit dans un 20 plan bidimensionnel avec une valeur représentant un ou plusieurs états de propriétés P; permet de former une image. Dès lors, une telle image de la région peut-être transformée par les transformées de Fourier, technique très largement utilisée pour la comparaison d'images en raison de son invariance par rapport aux opérateurs de translation. 25 On peut comparer deux régions en comparant leurs images dans le plan, c'est-à-dire en comparant les transformées de Fourier de leurs images dans le plan. Un sixième filtre est donc dans la transposition en deux dimensions d'une région tridimensionnelle selon un axe donné afin de permettre sa 30 comparaison rapide avec d'autres régions par les transformées de Fourier.

Transposition dans un graphe Deux régions R, et R2 peuvent également être transposées dans des graphes Gl et G2 respectivement dont les propriétés des noeuds et des arêtes dépendent des régions que l'on souhaite retrouver (en utilisant uniquement la courbure locale de chaque région, ou la courbure et la charge, etc.). Au lieu de comparer géométriquement ces deux régions, il est donc possible de comparer leur graphes Gl et G2 respectifs par différentes approches de la théorie des graphes, telles que le concept de Clique. A partir des graphes G1 et G2, il est en particulier possible de procéder à des contractions de noeuds qui se ressemblent afin de simplifier la représentation de ces régions, par exemple en supprimant toutes les arêtes dont le poids est supérieur à un poids seuil, de manière à réduire les différences entre les noeuds. Dès lors, il suffit de fusionner tous les noeuds liés par une arête en un seul noeud pour lequel on effectue la moyenne des états des propriétés associés à chaque noeud qui lui sont liés, cette moyenne pouvant être éventuellement pondérée par la distance qui sépare un noeud central des autres noeuds qui lui sont directement ou indirectement liés. En variante, la contraction de graphes est mise en oeuvre en créant un graphe contracté dans lequel la région est divisée en un ensemble de sous-régions ayant une ou plusieurs propriétés remarquables qui sont assignées à chaque noeud du graphe contracté. Ces graphes contractés sont alors plus simples à comparer que les graphes desquels ils sont issus.

Un septième filtre tient donc dans l'utilisation des graphes (contractés ou non) de deux régions pour comparer les grandes tendances de ces régions sans procéder à leur alignement géométrique.

Utilisation des harmoniques sphériques Enfin, un dernier filtre met en oeuvre les harmoniques sphériques ainsi que les descripteurs tridimensionnels de Zernike. Ces outils ont notamment la particularité d'être invariants par des opérations de translations et rotations, et sont particulièrement adaptés à la comparaison grossière des régions. Les principales limites de ces comparaisons tiennent en ce que les harmoniques sphériques ne sont principalement adaptées qu'à la description d'objets en forme d'étoiles ( star-like problem ). Ce problème se fait particulièrement ressentir dans le cas d'objets pleins possédant des cavités internes. Un huitième filtre réside donc dans l'utilisation de modèles tels que les harmoniques sphériques et les descripteurs tridimensionnels de Zernike 10 qui permettent donc une comparaison rapide des régions. D'autres filtres sont bien entendu utilisables afin d'améliorer encore l'efficacité et la robustesse de la comparaison des régions.

Alignement des régions 15 Dans un troisième temps, on procède à l'alignement des régions à comparer, de manière à trouver la meilleure correspondance possible entre chacun de leurs points et/ou facettes. Il est alors possible de comparer les régions ainsi alignées, et de déterminer les régions similaires ou 20 complémentaires d'une région à cribler. Pour cela, l'invention propose notamment l'utilisation de cinq modèles : un modèle universel, une sectorisation des points et facettes des régions au moyen de disques de contrôle, une discrétisation des points et des facettes des régions au moyen de disques de contrôle, une 25 sectorisation des points et facettes des régions au moyen d'une sphère de points de contrôle, et une discrétisation des points et des facettes dans une sphère de points de contrôle. Ces modèles peuvent être mis en oeuvre séparément ou en combinaison, selon la vitesse et l'efficacité des comparaisons recherchées. 30 Modèle universel I Dans le modèle universel, les régions R, et R2 de barycentres respectifs Cg, et Cg2 sont translatées à l'origine O d'un repère (OX , OY , OZ ), en leur appliquant les vecteurs Cg,O et Cg2O respectivement à leurs barycentres. Au moins l'une des régions est ensuite tournée simultanément ou successivement autour des axes OX , OY , OZ du repère selon des angles ax , a, et az respectivement, de sorte qu'a., , a et aZ prennent un ensemble de valeurs compris entre 0 et au plus max, , maxy et maxz respectivement, où maxi , maxv et max2 sont des valeurs seuil prédéterminées.

Pour chaque alignement généré des deux régions R, et R2 , c'est-à- dire à chaque rotation de l'une des régions d'un angle ax , a , et/ou az autour des axes OX , OY , et/ou OZ respectivement, le score d'énergie correspondant à cet alignement est calculé. L'alignement optimal des régions R, et R2 correspond alors à l'alignement pour lequel le score d'énergie est le plus faible (en accord avec les conventions choisies dans cette description). Afin de calculer le score d'énergie correspondant à un alignement de deux régions, on établit un schéma de correspondance entre les points et/ou facettes de chacune des deux régions. C'est l'une des étapes limitantes pour lesquels des modèles géométriques sont proposés ci-après. Plusieurs méthodes existent pour faire correspondre des points de deux régions différentes. Par exemple, pour un alignement donné de R, et R2 , on recherche à partir d'un point S. de R, le point Si le plus proche dans R2. Par plus proche on entend ici soit que les points sont proches en termes de distance spatiale (en tenant éventuellement compte de la probabilité de distribution de cette localisation, i.e. de l'erreur qui peut-être commise sur cette distance), la distance spatiale pouvant être une distance géodésique ou éventuellement euclidienne, soit en considération de tout ou partie des propriétés remarquables qui définissent l'objet et la région en ce point (en tenant compte de la distance géodésique correspondante). Typiquement, on cherche à déterminer le couple de points des régions R, et R2 respectivement pour lesquels la distance géodésique est la plus faible. La mise en oeuvre de ce modèle universel peut être optimisée de manière à réduire encore le nombre d'opérations réalisées dans la recherche de l'alignement optimal des région R, et R2 Par exemple, afin d'accélérer la recherche du point Si le plus proche dans R2 , il est possible notamment de définir une distance seuil maximale, de sorte que pour certains points d'une région, il n'y ait pas de correspondants dans l'autre région. On assigne alors un score d'énergie fixe à ces points sans correspondance, ledit score pouvant éventuellement être pénalisant selon que l'on recherche des sous-régions ou des régions de même taille que la région recherchée. II est également possible d'ajuster les paramètres aX , ay , aZ , maxi , maxy et maxz en fonction du type de régions comparées (région surfacique, intermédiaire, ou interne) et de la qualité de l'alignement souhaité. En effet, les régions de surface et intermédiaires disposent de normales à la surface NR, et NR2 . Ces normales à la surface sont utilisées en tant que repère (en alignant les normales aux surfaces NR, et NR2 des régions avec l'un des axes du repère, par exemple OY) afin de préciser la face de la région qui est orientée vers le milieu extérieur. Après avoir translaté à l'origine les régions R, et R2 de barycentres respectifs Cg, et Cg2 , il est alors possible de procéder à une rotation complète autour de l'axe OY puis de procéder à de petites rotations selon les axes OX et OZ , en assignant aux angles maximum maxi et maxi des valeur faibles, voire nulles. Ce type de comparaison est très rapide, sans toutefois diminuer de façon notable la qualité de la comparaison. En outre, plutôt que de procéder à maxi x ax ay a2 comparaisons, il peut-être intéressant de rechercher en premier lieu le meilleur alignement selon l'axe i OY a , Z a puis enfin selon l'axe OX maxi , de manière à ne procéder qu'à maxi + ax ax m y + maxz comparaisons. ay ax Optionnellement, on ajuster en outre l'alignement des régions en opérant, simultanément ou successivement, des translations tx , ty et tZ de petite amplitude selon les axes OX, 0Y et OZ respectivement, de sorte que tx , t~ et t, prennent un ensemble de valeurs compris entre 0 et au plus dmaxx , dmaxv et dmaxz respectivement, où dmaxx , dmaxy et dmaxz sont des valeurs seuil prédéterminées. On détermine ainsi l'alignement optimal des régions, ledit alignement 15 étant celui pour lequel le score d'énergie global est optimal, c'est-à-dire correspondant au meilleur alignement des deux régions. Enfin, il est également possible de déterminer les composantes principales des deux régions R, et R2 de manière à limiter l'espace de recherche autour de ces axes en accord avec l'Analyse en Composantes 20 Principales (ACP).

Sectorisation des points La méthode de sectorisation des points quant à elle permet de faciliter la recherche des correspondances des points et facettes d'une maxy x max, _ ( maxi I région R, avec ceux d'une région R2 , notamment lorsque ces régions sont définies par un grand nombre de points et facettes. Par sectorisation , on entend ici toute méthode permettant de définir des zones contigües d'un objet ou d'une région.

Pour cela, on circonscrit chaque région dans un ensemble de cercles divisés en secteurs, de sorte qu'à chaque point et à chaque facette de la région corresponde au moins un secteur. On peut alors effectuer la comparaison des deux régions R, et R2 . Pour cela, dans un premier temps, on aligne les barycentres Cg, et Cg2 des régions R, et R2 respectivement avec l'origine O d'un repère (OX , OY, OZ ), en appliquant aux points et/ou aux facettes de la régions les vecteurs Cg,O et Cg2O respectivement. Si OY, et OYZ sont les normales aux régions R, et R2 respectivement, on effectue ensuite une rotation des régions d'un angle (OY,,OY2) autour du vecteur résultant du produit vectoriel OY1 AOY2 , de sorte que les axes OY, et OY2 des régions coïncident. Dans un second temps, on créé une pluralité de cercles autour de chaque région R, ,R2 , centrés sur le barycentre Cg,O et Cg2O de chaque région, et de rayon Tk~') et T (R2) respectivement, où ,8 est le pas entre chaque cercle, k est un nombre multiplicatif non nul de fi, T(RI) est le rayon de la région R, et T(R2) est le rayon de la région R2 . Typiquement, pour les molécules, f = 3 À. Puis, à partir d'un diamètre arbitraire de chaque cercle ainsi obtenu, on trace n diamètres à l'intérieur de chaque cercle de manière à former des 25 secteurs principaux de ces cercles.

Pour un angle de recherche souhaité a, Le nombre n de secteurs principaux correspond à 360 Cet angle de recherche est fixé par les conditions de mise en oeuvre du procédé selon l'invention. Typiquement a est compris entre un et dix degrés, de préférence environ cinq degrés. En effet, plus a est petit, plus la comparaison des régions est fine et lente, tandis que plus a- est grand, plus la comparaison est grossière et rapide. Ainsi, dans le cas du criblage d'objets tridimensionnels, on pourra utiliser un angle de recherche de cinq à dix degrés si l'on souhaite avant tout privilégier la rapidité du procédé, tandis que dans le cas d'une simple comparaison de deux régions d'objet, un angle d'un degré permet d'obtenir un résultat de meilleure qualité mais dans un temps plus grand. Dans un troisième temps, les régions R, et R2 sont alignées arbitrairement selon l'un de leurs diamètres principaux. Pour chaque point 15 d'un secteur SEC, de R, , on recherche alors les points de R2 qui peuvent lui correspondre dans un secteur équivalent SEC2 , ledit secteur équivalent SEC2 étant le secteur de R2 qui est superposé au secteur SEC, de R, lorsque les régions R, et R2 sont alignées. En variante, on étend la recherche du point équivalent aux voisins 20 immédiats du secteur équivalent SEC2 de R2 . Cette sectorisation des régions réduit considérablement la recherche des correspondances en réduisant le nombre de points à tester à chaque itération.

25 Discrétisation des régions dans une sphère de contrôle Dans cette méthode, on discrétise les points de la région au niveau de points de contrôle définissant un disque de contrôle. Pour cela, de manière similaire à la méthode de sectorisation, on définit un ensemble de cercles centrés en un point de la région, typiquement son barycentre. Puis, à partir d'un diamètre arbitraire de chaque cercle ainsi obtenu, on trace n diamètres à l'intérieur de chaque cercle. Les points de contrôle d'une région sont définis par l'intersection des cercles générés autour de la région et des diamètres définissant les secteurs dudit cercle. Le disque de contrôle d'une région donnée comporte alors l'ensemble des points de contrôle de cette région. La structure géométrique du disque de contrôle peut alors être mise à profit afin de discrétiser une région. Pour cela, on définit un seuil de distance Dmax , et, pour chaque point de contrôle PCi, on détermine l'ensemble des points de la région (pl, p2, p3 sur la figure 4a) appartenant au disque ayant pour centre un point de contrôle et pour rayon la distance seuil Dmax, i.e. l'ensemble des points de la région pour lesquels la distance à ce point de contrôle est inférieure ou égale à Dmax. On discrétise ensuite les points de la région qui appartiennent au disque de rayon Dmax en moyennant leurs propriétés et en assignant au point de contrôle correspondant la moyenne ainsi obtenue. Plus la distance Dmax est grande, plus il y a de points de la région 20 sélectionnés et moyennés sur chaque point de contrôle, ce qui conduit à approximer davantage la forme de la région. Lorsqu'un disque de rayon Dmax ne comporte aucun point de la région, le point de contrôle associé n'a pas de correspondance dans la région et est éliminé de tout calcul au cours de l'étape subséquente de 25 comparaison. Avantageusement, le rayon Dmax est de l'ordre du pas ,6 entre chaque cercle, assurant ainsi une certaine précision dans la discrétisation de la région. Cette forme discrétisée de la région peut alors avantageusement être 30 mise à profit dans le criblage des régions en comparant non plus les points de la région, mais les points de contrôle du disque de contrôle de la région (voir Figure 4b). Selon une variante de l'invention, des points de contrôle supplémentaires sont rajoutés dans les parties les plus éloignés du centre des disques de contrôle. En effet, la densité des points de contrôle dans la périphérie du disque est plus faible. Par exemple, on définit des secteurs périphériques des disques de contrôle comme étant l'espace séparant deux disques de contrôle et deux diamètres, successifs ou non. Un point de contrôle supplémentaire peut alors être défini par l'intersection des diagonales d'un tel secteur périphérique.

Selon une forme de réalisation de l'invention, une région peut également être sectorisée et/ou discrétisée dans une pluralité de sphères de points de contrôle selon des procédés proches de la sectorisation et/ou de la discrétisation d'une région dans un disque de contrôle respectivement. Chaque sphère de points de contrôle correspond alors à un disque de contrôle ayant subi des rotations afin de diviser l'objet dans une structure tridimensionnelle.

La mise en oeuvre des sphères de contrôle dans la comparaison de deux régions R, et R2 est similaires à la mise en oeuvre des disques de contrôle, et permet de les comparer sans rechercher de correspondance entre des points et/ou facettes, accélérant ainsi considérablement la recherche de l'alignement optimal des deux régions puisqu'il n'est plus nécessaire d'établir un schéma de correspondance entre les points de contrôle de ces deux régions, celui-ci étant intrinsèque aux structures géométriques des disques de contrôle et des sphères de points de contrôle. Pour cela, on assigne à chaque point de contrôle de chaque sphère de contrôle la moyenne de l'ensemble des propriétés remarquables des points de la région qui appartiennent à une sphère dont le rayon est égal à une distance maximale Dmax prédéfinie.

Pour obtenir l'alignement optimal de deux disques de contrôle (respectivement deux sphères de points de contrôle), on fait tourner l'un des disques de contrôle (respectivement l'une des sphères de points de contrôle) d'un pas égal à l'angle au centre des secteurs, ici a, et on compare à chaque rotation les points de contrôle respectifs de chacun des deux disques de contrôle à l'aide du score d'énergie. En effet, dès lors que les disques de contrôle (respectivement les sphères de points de contrôle) sont superposés et alignés en fonction de l'un de leurs diamètres (respectivement l'un de leurs disques), chacun des points de contrôle d'une première région se retrouve précisément aligné avec un point de contrôle de la seconde région. Il suffit alors de comparer deux à deux les points de contrôle appartenant respectivement aux régions R, et R2 à l'aide du score d'énergie. Avantageusement, la sectorisation et la discrétisation dans une 15 sphère de contrôle permettent de comparer deux régions R, et R2 en recherchant leur alignement optimal selon les trois axes OX , OY et OZ , alors que la sectorisation et discrétisation dans un disque de contrôle n'autorise que la rotation autour d'un seul axe, ici l'axe OY (qui correspond à l'axe aligné avec la normale des régions dans le cas des régions de 20 surface). Par ailleurs, la mise en oeuvre d'une sphère de contrôle permet de sectoriser et/ou de discrétiser l'ensemble des régions (de surface, intermédiaire et internes), tandis que l'utilisation des disques de contrôle est limitée à la comparaison aux régions de surface et régions intermédiaires. 25 Cette approche est particulièrement efficace pour la comparaison de régions internes où aucune information sur la zone exposée au milieu n'est disponible et où il est donc nécessaire de procéder aux rotations selon les trois axes OX OY et OZ du repère. II est important de noter que la correspondance entre les points de la 30 région et les points de contrôle de cette région n'est calculée qu'une seule fois, lors de la discrétisation des points au cours du premier alignement. Puis, lors des nouveaux alignements, seuls les points de contrôle seront comparés. La création des sphères de contrôle pour chacune des régions suivant les mêmes règles, la correspondance entre le point de contrôle d'une région R, et celui de l'autre région R2 est connue ab initio pour chaque nouvel alignement. Plus largement, le procédé de sectorisation et de discrétisation n'est cependant pas limité à la mise en oeuvre de disques et de sphères, qui ne sont que des exemples illustratifs donnés à titre indicatif. li est en effet possible de mettre en oeuvre ces procédés dans n'importe quelle structure géométrique présentant un centre de symétrie, notamment des polygones (hexagones, octogones, etc.) ainsi que leurs structures tridimensionnelles équivalentes.

Bases de données et cartographies

Nous allons à présent décrire l'étape de criblage selon l'invention. La possibilité de comparer une région donnée à une deuxième région ouvre en effet la possibilité de comparer cette région à une pluralité d'autres régions, afin de déterminer un ensemble de régions similaires ou complémentaires selon l'application, à partir de critères prédéfinis, tels que les propriétés remarquables. Par exemple, dans le cas du criblage des régions de surface moléculaire, il est possible notamment de créer une banque de régions comportant une pluralité de régions connues, typiquement plus de trois millions de régions pour les structures protéiques connues. Aussi, bien que la reconstruction du maillage de l'objet, de sa surface ainsi que la génération des propriétés remarquables et des régions qui caractérisent l'objet soient réalisées par des approches rapides et performantes, ces étapes seront cependant parmi les étapes les plus limitantes lors d'un criblage d'objets tridimensionnel par leur régions.

L'invention propose donc de générer ces informations à l'avance et de les enregistrer, par exemple dans une ou plusieurs bases de données, de sorte que l'accès et la reconstruction d'une région donnée puissent être accomplis rapidement.

Par exemple, dans le domaine chirurgical, l'objet tridimensionel étudié peut être un organe ou tissu d'un patient à opérer. On peut alors générer l'ensemble des régions du tissu ou organe d'un patient, de manière à (i) mieux visualiser et sectoriser les lésions et/ou régions à opérer (notamment en passant par les empreintes structurales et en utilisant des propriétés telles que la courbure, ou bien la colorimétrie si les lésions/régions à opérer sont mises en évidence par un colorant/réactif) ; (ii) déterminer par exemple la puissance d'un laser opératoire à utiliser en fonction notamment des données de résistance et de malléabilité de la région ; (iii) localiser de façon plus générale la lésion ou région à opérer par rapport au restant du tissu ou organe, notamment afin d'évaluer les risques et/ou effets collatéraux d'une telle opération. En robotique, dans le cas où l'objet tridimensionnel est un bras robotique, le procédé selon l'invention permet notamment de reconnaître l'objet dont il a besoin au sein d'un atelier contenant une pluralité d'objets tridimensionnels, déterminer l'endroit où l'objet doit être saisi ou au contraire les zones à éviter (risque électrique, zone trop fragile, etc.), ou encore de reconnaître les régions fonctionnelles de l'objet afin de pouvoir les utiliser sur d'autres objets. Afin de réaliser ces différentes étapes, l'ensemble des objets tridimensionnels à proximité du robot peuvent-être modélisés, ainsi que leurs régions, en automatique. Dès lors, ces régions peuvent être enregistrées dans une base de données à la disposition du robot, comportant des informations sur les objets disponibles au sein de l'atelier, les moyens de les saisir adaptés aux propriétés du robot, de l'objet et/ou de ses régions Chacune de ces opérations peut-être réalisée à partir du criblage de régions d'objets selon l'invention. En particulier, connaissant par exemple la forme de la pince robotique, et en déterminant son complémentaire, il est possible de déterminer directement l'ensemble des régions (et donc objets) qu'il peut saisir. Enfin, dans le domaine de l'intelligence artificielle, le procédé selon l'invention peut être mis en oeuvre afin de créer un environnement virtuel correspondant à tout ou partie du monde réel, d'appréhender de façon automatique toutes les interactions possibles entre objets, et d'aider l'intelligence artificielle à mieux appréhender et interagir avec le monde réel. En effet, afin qu'une intelligence artificielle devienne fonctionnelle, il lui est nécessaire 1) de modéliser son environnement (par exemple par l'intermédiaire de deux caméras permettant la reconstruction par stéréoscopie d'une vue tridimensionnel de l'environnement et des objets de l'environnement); et 2) d'assigner en automatique des fonctions aux objets et à leurs régions (notamment par le biais des interactions entre objet, sur ceux qui peuvent, ceux qui ne peuvent pas et ceux qui ne doivent pas interagir). La segmentation d'objets tridimensionnels en régions permettant d'accroitre les connaissances sur l'objet lui même et sur ses interactions avec d'autres objets du monde physique, cette approche peut donc bénéficier à l'intelligence artificielle pour mieux modéliser son environnement et mieux le caractériser de façon automatique, en facilitant ses interactions avec le monde physique. Dans une logique d'intelligence artificielle et d'apprentissage, lorsque l'intelligence artificielle utilise un objet par le biais d'une de ces régions, la réponse provoquée (électrocution, stimuli visuel ou sonore, etc) peut en retour servir à alimenter de façon automatique la base de données des régions, de sorte que cette réponse provoquée sera assigné à la région comme une fonction/un comportement type de la région. Par homologie, toute région présentant des caractéristiques proches de celle testée devront pour l'intelligence artificielle, déclencher une même réponse.

Génération des bases de données Un exemple de génération d'une base de données correspondant à un ensemble donné d'objets tridimensionnels est le suivant.

Dans un premier temps, on identifie chaque objet tridimensionnel par une étiquette. On intègre alors dans une base de données l'ensemble des informations pertinentes concernant cet objet de manière à pouvoir le caractériser. Typiquement, pour des objets tridimensionnels du type tissu ou organe d'un patient, ces informations peuvent être la taille, la courbure, la colorimétrie si les lésions/régions à opérer sont mises en évidence par un colorant/réactif, ou encore des données de résistance et de malléabilité. On génère ensuite un maillage de chaque objet tridimensionnel selon l'invention, et on calcule un ensemble de propriétés remarquables des points du maillage ou du graphe de cet objet.

La localisation spatiale, la courbure, la résistance ou la malléabilité de l'objet tridimensionnel peuvent être calculées quelque soit type d'objet étudié. D'autres propriétés comme la charge ou le potentiel électrostatique n'auront de sens en revanche que pour certains objets tridimensionnels (tels que les bornes électriques, les molécules, des circuits intégrés, etc.). Dans le cas des objets industriels, on peut notamment calculer la résistance de l'objet en tout point. Pour un bras en robotique, il est également possible de calculer les états colorimétriques des différents objets, de définir les régions les plus grandes correspondant à un code couleur, ledit code ayant pu être annoté afin de préciser par exemple son fonctionnement ou afin d'attirer l'attention sur une de ses particularités. A partir du maillage, on génère alors un ensemble de régions en fonction de différents paramètres (notamment selon le critère de distance et/ou sur la base d'un ou de plusieurs ensembles de propriété d'intérêt afin d'obtenir en outre les empreintes structurales de l'objet) de façon systématique.

Chaque région et/ou empreinte générée de chaque objet tridimensionnel est ensuite insérée dans la base de données en détaillant, pour chaque point et/ou pour chaque facette de la région, les propriétés qui viennent d'être calculées. En particulier, la base de données comporte des informations sur l'objet auquel appartient la région et les régions voisines de cette région. Cette base de données fournit alors un catalogue de régions correspondant à un environnement virtuel relatif au domaine et à l'application considérés.

Par exemple, en robotique, ce catalogue correspond à l'ensemble des régions d'objets présents dans une pièce et accessible par un bras mécanique. En biologie, il comporte l'ensemble des régions de molécules qui sont présentes dans une cellule donnée, un organe donné, un tissu donné.

En chirurgie, il correspond à l'ensemble des régions d'un tissu ou organe à opérer, etc. La spécificité de chaque région, définie par les propriétés remarquables des points qui la composent, de sa surface ou encore de ses éventuelles cavités internes, permet d'évaluer les risques potentiels d'interactions avec d'autres régions d'objets. Il est alors possible de déterminer les régions spécifiques d'un objet de manière à accroître les connaissances sur cet objet et en vue par exemple de le cibler plus spécifiquement dans un environnement complexe. Selon une forme de réalisation, des indexes sur les régions sont créés en fonction de leur appartenance à un objet et/ou d'états de leurs propriétés respectives. Ces indexes permettront alors un accès rapide aux régions correspondant à des états de propriétés remarquables qui sont étudiées. En particulier, l'utilisation de filtres permet d'améliorer et d'accélérer cette recherche (notamment le filtre basé sur les propriétés invariantes, la comparaison des grandes tendances des régions, etc.).

Selon les besoins et le nombre de régions dont on souhaite disposer, il est en outre possible de créer plusieurs bases de données ayant des fonctions différentes. Typiquement, il est possible de créer une base de données : - par type de région générée. Par exemple, une base de données comportant les régions formées sans contraintes de forme, une base de données comportant les régions formées avec contraintes de formes, etc. ; - par taille de région (rayon géodésique, rayon eucliendien, etc.); - en fonction de la charge globale des régions; - par niveaux au centre et/ou dans les zones anneaux de la région, le niveau au centre correspondant pour les régions de surface et régions intermédiaires, aux coordonnées des points centraux (suffisamment proche du centre) selon l'axe défini par leur normale surfacique (toujours orienté vers le milieu extérieur pour ce type de régions). - par fonctions (selon une ou plusieurs de propriétés remarquables données) ; etc. Ce concept permet alors de décrire chaque objet tridimensionnel de l'objet en fonction des criblages réalisés.

Ainsi, dans le domaine du criblage moléculaire, il est possible de créer une base de données ne contenant que les régions qui correspondent aux sites d'interactions connus (comportant alors de l'ordre de 300 000 régions) plutôt que de créer une base de données de toutes les régions définissables (de l'ordre de 3 000 000 de régions).

Cartographie de l'obiet ou de la région Par ailleurs, pour tout objet tridimensionnel, l'invention permet de créer une cartographie détaillée de l'objet sur la base des connaissances générées par le criblage de ses régions. En particulier, cette cartographie peut renseigner sur les régions spécifiques (déterminées comme étant le nombre de régions similaires de la région recherchée retrouvées lors du criblage de celle-ci) et non-spécifiques (lorsqu'un grand nombre de régions similaires à la région recherchée ont été retrouvées lors du criblage) de l'objet par rapport à un environnement donné ou bien par rapport à lui-même.

Notamment, les fréquences observées lors des criblages de chaque région de l'objet peuvent être représentées sur l'objet tridimensionnel à partir d'un code couleur simple et compréhensible. Les différents sites d'interactions avec d'autres objets, ainsi que des étiquettes faisant référence à ces autres objets sont également enregistrés et affichés par la cartographie. II est également possible de cartographier sur l'objet tridimensionnel toute propriété remarquable ayant été calculée pour cet objet, ou ses régions fonctionnelles, soit sur la base de données extérieures contenues par exemple dans des bases de données, soit sur la base des empreintes structurales qui caractérisent les régions spéciales de l'objet, soit sur la base des criblages. Dans le cas du criblage, une région sera dite fonctionnelle s'il est possible de détecter des régions complémentaires de cette région, cette complémentarité de deux régions indiquant alors des interactions possibles entre l'objet cartographié et un autre objet segmenté et enregistré dans une base de données selon l'invention. En outre, dans le cas des molécules, il est possible de créer, pour chaque molécule étudiée selon le procédé de l'invention, une cartographie moléculaire qui détaille les différents sites de liaisons de la molécule et, le cas échéant, leurs recouvrements. Selon une forme de réalisation, cette cartographie permet d'identifier les régions spécifiques à chaque type de site de liaison (homodimère, hétérodimère, protéine-peptide, protéine-ADN (pour Acide DésoxyriboNucléique), protéine-ARN (pour Acide RiboNucléique), protéine- ligand, protéine-lipide, protéine-eau, etc.), l'ensemble des informations permettant de déterminer les régions spécifiques et non-spécifiques d'une molécule (par rapport à un catalogue de régions correspondant par exemple aux régions moléculaires d'une cellule, d'un organe, d'un tissu, etc), les régions qui sont connues pour être des sites de liaisons dans des interfaces biologiques particulières, ou encore l'ensemble des propriétés de la molécule afin d'identifier notamment les changements de conformations, de solvatations ou de charge dans différents contextes d'interaction (par exemple lorsque la structure moléculaire est sous forme libre, i.e. sans partenaire, ou lorsque la structure moléculaire est sous forme liée, i.e. avec un partenaire).

Dans le domaine du criblage d'objets industriels, il est possible de créer une première base de données des outils accessibles par un bras robotique et une deuxième base de données des objets sur lesquels le bras robotique doit travailler, en tenant compte des capacités du robot à saisir et manipuler l'objet : les régions qui peuvent être saisies (et qui sont indiquées sur la cartographie) dépendent de la forme des pinces du robot. Dans le domaine chirurgical, il est possible de réaliser la cartographie d'un organe à opérer : par le biais de la description des régions de l'organe, la région à opérer peut être ciblée et colorée de manière à la mettre en évidence.

En variante, la région est annotée de manière à fournir des informations sur sa résistance (et/ou sur la résistance de ses régions sous-jacentes), des détails sur les différentes régions sensibles de l'organe risquant de mettre en péril la survie du patient, etc. Un autre exemple de cartographie est de considérer un outil (tournevis, clé à molette, etc), et de définir les régions fonctionnelles de ces objets. Par exemple, dans le cas simple du tournevis, on définit notamment une région qui forme le manche et permet de tenir l'outil, et une région formant la branche et le croisillon, permettant de s'insérer dans la fente complémentaire d'une vis.

D'autres exemples sont encore possibles (le concept de cartographie correspondant très largement au concept de plan d'un objet) : l'objet voiture, ayant une région porte et une sous-région serrure, complémentaire d'une région clé. Le choix des informations prises en compte dans la cartographie dépend notamment de l'objet pour lequel est effectuée cette cartographie, mas également du domaine étudié, de son application, du niveau de détail désiré, etc. ou encore des régions et empreintes structurales obtenues suite à la segmentation et aux différents filtres leur sont appliqués. Pour un même objet tridimensionnel, on peut donc créer un ensemble de cartographies différentes de manière à les adapter au mieux à l'application souhaitée.

Utilisation des bases de données dans la comparaison des réqions La comparaison des régions d'objets tridimensionnels plutôt que la comparaison des objets dans leur globalité ouvre donc la porte à de nouvelles classifications de ces objets et permet de les regrouper en fonction de régions ayant des propriétés remarquables souhaitées. Par exemple, cela permet de regrouper dans une base de données spécifique l'ensemble des molécules qui présentent une région ayant une forme déterminée, portant une charge déterminée et n'étant pas malléables ; ou encore tous les objets d'une usine ayant une résistance supérieure à un seuil, une forme déterminée et étant isolants. Une bonne division des bases de données fondée sur les problèmes à traiter peut accélérer d'un facteur 10 ou 100 le procédé de criblage. Selon l'invention, il est en particulier possible de créer plusieurs bases de données (ou plusieurs tables dans une base de données) contenant chacune l'ensemble des régions qui ont pu être générées à partir d'une collection d'objets, mais selon des critères différents. Par exemple, pour une collection d'objets tridimensionnels donnée du domaine industriel : s - une première base de données (ou table) contient l'ensemble des régions des objets tridimensionnels formées à partir d'un critère de distance géodésique sans contrainte de formes ; - une deuxième base de données (ou table) contient l'ensemble des régions formées à partir d'un critère de distance géodésique avec des contraintes de formes définies par la direction de deux vecteurs VI et V2 : - une troisième base de données (ou table) contient l'ensemble des empreintes structurales formées à partir des propriétés remarquables courbure et charge ; et - une quatrième base de données contient les empreintes structurales formées à partir des propriétés remarquables résistance et conductance. Lorsque l'on cherche une région fonctionnelle similaire à une région fonctionnelle connue d'un objet tridimensionnel donné parmi une collection de régions, on génère par exemple l'ensemble des régions de cet objet selon toutes les méthodes décrites précédemment. Puis, à partir des régions obtenues, on sélectionne la région générée de façon automatique (et d'après un ou plusieurs critères donnés) qui recouvre le mieux la région fonctionnelle que l'on cherche à cribler, i.e. qui comporte le plus grand nombre de points communs avec la région fonctionnelle à cribler. Cette région sélectionnée permet alors de renseigner notamment sur la forme générale de la région fonctionnelle, et plus particulièrement sur les critères de génération qu'il faut privilégier afin d'accélérer la recherche des régions similaires. Par exemple, si la région sélectionnée a été obtenue selon un critère de distance de dix centimètres, avec le vecteur contrainte (-2, 1, 0), on crible de préférence la région fonctionnelle sur la (ou les) base(s) de données comportant l'ensemble des régions obtenues suivant tout ou partie de ces critères (taille de dix centimètres et vecteur contrainte (-2, 1, 0)) plutôt que sur l'ensemble des régions possibles, ou l'ensemble des bases de données contenant toutes les régions de tous les objets générés selon tous les procédés décrits précédemment.

On remarquera par ailleurs que le criblage de régions ne requiert pas nécessairement d'être implémenté sur une unité de traitement numérique unique. En particulier, étant données n unités de traitement disponibles et reliées par des connecteurs réseaux sur une grille, et N régions à comparer, il suffit de construire une file de ces N régions, éventuellement avec un ordre de priorité. Dès lors, et jusqu'à ce que la file de régions soit vide, les régions à comparer sont réparties équitablement entre tous les n CPU de la grille. Dans cette variante, on soumet avantageusement suffisamment de régions à comparer, de sorte que le temps de communication ne soit trop important devant le temps nécessaire à la comparaison des régions. Par ailleurs, la reconstruction des régions à partir de chaque noeud de la grille se fait de préférence à partir d'une voire deux bases de données au minimum qui centralisent les données et les rend accessibles à chaque noeud.

Détermination de régions complémentaires Le procédé de caractérisation selon l'invention permet, en plus du criblage, de comparer les objets tridimensionnels entre eux, et plus particulièrement de comparer des régions d'objets tridimensionnels entre elles de manière à déterminer des régions qui sont complémentaires. Une région R, est dite complémentaire d'une région R2 comprenant un ensemble de points S. et S2 lorsque, dans le schéma de correspondance des points S; de R, et S2 de R2 on observe que ) = P(S1)ù1 si P est une propriété normalisée sur [0, 1] avec comme valeur neutre 0.5, et P(5;)--`(S;) si P est une propriété normalisée sur [-1, 1] avec comme valeur neutre 0. s e Dans le cas simple d'une description de la région par la courbure normalisée sur [0,1], c'est-à-dire où P est la courbure locale, si un point Si de R, a une courbure de valeur égale à 0.8 (bosse), le point correspondant S2 dans la région complémentaire R2 a une courbure dont la valeur est proche de 0.2 (creux). Dans le cas où la propriété P est une charge, un point S. de la région R, ayant une charge cationique aura pour point complémentaire S2 dans la région R2 un point ayant une charge anionique. De même, pour dans le cas où la propriété est la conduction, un point S. de la région R, qui est isolant aura pour complémentaire dans la région R2 un point conducteur. Cette définition est bien entendu généralisable à n propriétés P dès lors que celles-ci sont numérisables et normalisables. Cela signifie qu'à partir de toute région R, définie par un ensemble de points Si , il est possible de définir une région complémentaire R2 définie par un ensemble de points Si qui sont très exactement complémentaires de Si vis-à-vis des propriétés P, : il y a une bijection entre les Si et Si et les équations permettent de passer de l'un à l'autre. Il est également possible de générer plusieurs régions complémentaires à partir d'une région. Pour ce faire, on génère la région complémentaire en tout point (qui est par définition unique) de cette région, puis, à partir de cette région complémentaire, une on introduit aléatoirement une certaine variabilité sur les propriétés de ses points de manière à générer une ou plusieurs régions similaires à cette région unique, qui selon la variabilité introduite, seront plus ou moins complémentaires de la région initiale. II est possible notamment d'introduire une variabilité sur la propriété localisation des points. Par exemple, pour un point S ayant une localisation spatiale en (S.x, S.y, S.z), il est possible de redéfinir une nouvelle localisation spatiale S' ayant pour coordonnées : s S' = (S.x + random_position(); S.y + random_position(); S.z + random_position()) où random_position() renvoie une valeur aléatoire comprise par exemple entre -1 et 1.

De la sorte, on génère une pluralité de régions complémentaires en introduisant en chaque point de faibles variations de leurs propriétés (généralement inférieures à 10% de la valeur maximale de la propriété). L'ensemble des procédés de comparaison que nous avons présentés en relation avec le criblage des objets tridimensionnels s'applique donc également pour la comparaison et la génération des régions complémentaires. En effet, partant d'une région R, , plutôt que de rechercher l'ensemble des régions qui lui sont similaires, il est possible de déterminer une région R2 , complémentaire de R, , et rechercher l'ensemble des régions qui sont similaires à la région R2 , qui seront alors de facto complémentaires de la région R, . S'il est possible de créer des régions qui sont les complémentaires exactes d'autres régions, il est également possible de créer une région R2 qui enveloppe complètement une région R, . Ce type de région complémentaire correspond en fait à la surface que l'on obtiendrait si la région R, était un objet isolé et peut être calculée en tant que la surface de R, . Les propriétés de cette surface enveloppant R, sont alors inversées comme indiqué précédemment. La figure 5 est un exemple illustrant les objets que l'on peut obtenir selon le procédé de l'invention, appliqué au domaine de la biologie. Sur cette figure sont représentés une molécule cible 10 à tester ainsi qu'un composé 20 à tester. La molécule cible 10 peut par exemple être une cible thérapeutique ayant une région fonctionnelle RI, tandis que le composé 20, qui a été e identifié selon le procédé de l'invention, comporte une région R2, complémentaire de la région Ri. On peut alors rechercher dans des bases de données d'une part (flèche 1) des régions similaires de la région RI, afin de déterminer l'ensemble des molécules Il, 12, comportant des régions similaires Rl,, R~ (notamment afin de déterminer de nouvelles cibles thérapeutiques) et d'autre part (flèche 2 sur la figure) des molécules 21, 22 comportant des régions similaires R2,, R2., à la région R2, et donc complémentaires de la région Ri.

Nous allons à présent présenter une application particulière du procédé de caractérisation selon l'invention. Dans ce qui suit, nous décrivons plus spécifiquement le criblage de molécules et de macromolécules.

Nous proposons également un procédé permettant de déterminer les régions spécifiques de molécules cibles, d'évaluer un potentiel de toxicité et de générer une cartographie moléculaire.

La comparaison in silico de molécules et de macromolécules revêt un intérêt particulièrement important dans différents domaines de la recherche fondamentale (par exemple en biologie, chimie, etc.) et de la recherche industrielle (dans les domaines pharmaceutiques, cosmétiques, agroalimentaires, de la toxicologie, etc.). Elle permet entre autre d'établir des classifications de ces molécules, ce qui, couplé à des raisonnements d'homologies et d'analogies permet de prédire et de décrire partiellement le rôle et le comportement de ces molécules. La fonction et la réactivité d'une molécule dans un contexte environnemental (que ce soit une cellule, un tissu, un organisme ou dans une solution, à l'air libre) dépendant à la fois de la structure tridimensionnelle globale de la molécule, mais également d'une ou plusieurs zones locales tridimensionnelles et actives de ladite molécule. Ces zones I locales servent notamment de points d'ancrage spécifique et fonctionnels pour d'autres molécules. La structure globale est cependant également importante du fait des contraintes stériques qu'elle engendre, pouvant limiter ainsi le jeu des interactions entre zones locales.

A ce jour, la comparaison (in silico) géométrique, physico-chimique et évolutive des molécules et des macromolécules biologiques (protéine, ADN (pour Acide DésoxyriboNucléique), ARN (pour Acide RiboNucléique), lipides, etc) passe majoritairement par la comparaison des structures et propriétés globales des molécules. Certaines approches récemment décrites tentent toutefois de tenir compte de la présence de certains motifs clés (tels que des triades catalytiques). La présente invention a donc pour objet le développement de procédés applicatifs qui découlent de la description détaillée des molécules et macromolécules en régions et empreintes structurales, et de leurs criblages. Les connaissances supplémentaires acquis par la description systématique des molécules et macromolécules en régions et empreintes structurales permet en particulier de répondre aux applications suivantes et non limitatives pour tout contexte environnemental donné : 1) la recherche de molécules portant une région fonctionnelle précise ou proche (tolérant des variations des propriétés remarquables de la région) ; 2) la recherche de partenaires moléculaires ; 3) la recherche de cibles moléculaires de composés endo- ou exogènes ; 4) la recherche de macromolécules et régions pouvant-être ciblées par des composés exogènes (concept de druggabilité ) ; 5) la recherche des architectures de composés pouvant lier une région moléculaire donnée ; 6) la recherche de composés pouvant lier une région moléculaire ; 7) la recherche de la spécificité des régions et des points d'ancrage d'une molécule ou d'une cible moléculaire ; 8) la création de profils d'interactions pour une région donnée ou pour un ensemble de régions données (puce d'interaction) ; 9) la génération de graphes des interactions moléculaires à partir du criblage et des profils d'interactions ; 10) l'évaluation et la classification d'un potentiel de toxicité s d'une molécule par l'analyse des perturbations d'interfaces biologiques induite par ladite molécule ; 11) l'évaluation et la classification d'un potentiel de toxicité d'une molécule en utilisant le profil d'interactions de ladite molécule (puce de toxicité) ; 13) la création d'une cartographie moléculaire permettant de rassembler et résumer les différentes connaissances produites par les applications précédentes sur une seule et même structure moléculaire ; 14) le sauvetage dirigé des composés toxiques en fonction des profils d'interactions et des spécificités du composé et de ses cibles.

Types moléculaires Une première étape selon le procédé de l'invention consiste à distinguer de façon systématique à partir de fichiers de données moléculaires, les différents types moléculaires en présence. On distingue notamment les macromolécules (protéine, ADN, ARN, lipides) des molécules (sucres, nucléotides, eau, ions, et autres ligands). Chaque type moléculaire a en effet des rôles et réactivités qui lui sont propres. Par exemple, les connaissances actuelles permettent de déterminer que l'ADN sert entre autre à la conservation et à la réplication de l'information génétique alors que l'ARN, moins stable mais plus réactif, joue un rôle plus transitoire qui lui permet soit d'agir directement dans l'organisme, soit de servir de copie d'une portion d'ADN en vue de traduction(s) en protéines. Les protéines quant à elles sont versatiles et mêlent souvent des rôles d'architecture (la nécessité d'avoir des molécules d'une certaine taille et forme afin de constituer des macrostructures telles que le super-complexe TFIIH, mais aussi afin d'accroître la spécificité des interactions moléculaires par le biais de gènes stériques), à des rôles catalytiques (catalyse enzymatique) et de régulations et/ou de signalisations (interaction avec d'autres partenaires).

II est alors d'usage de parler de macromolécules lorsqu'il est question de protéines, d'ADN et d'ARN, en raison de leur taille souvent importante. s s Par opposition, les molécules, généralement plus petites, jouent davantage un rôle de solvant (pour la fluidité moléculaire) et de régulation des macromolécules, susceptible d'entrainer la régulation de systèmes plus complexes tels que des voies métaboliques et voies de signalisations.

Une base de données PDB (Protein Data Bank) stock de nombreuses structures moléculaires sous la forme de fichiers plats (i.e. de fichiers textes). Il est possible de récupérer ces fichiers et de les analyser afin de déterminer l'ensemble des molécules présentes ainsi que leurs types moléculaires. Cette détermination du type moléculaire se fait sur la base de conventions d'écritures récapitulées notamment par la nomenclature IUPAC (pour International Union of Pure and Applied Chemistry, i.e Union Internationale de Chimie Pure et Appliquée) et décrit dans la PDB. Les protéines ou polypeptides peuvent notamment être séparées en fonction de leur taille ; on parle par exemple de protéine lorsque le polypeptide est constitué d'au moins 80 acides aminés, de peptides lorsqu'il est constitué de 20 à 80 acides aminés, et de petits peptides sinon. Cette distinction permet de tenir compte d'une réalité structurale et physico-chimique : les protéines d'une certaine taille sont généralement plus stables et les changements de conformations importants sont généralement plus rares que pour des peptides et petits peptides. Par convention, toute molécule n'ayant pas été identifiée comme étant une protéine (respectivement peptide ou petit peptide), un ADN, un ARN, un lipide, un ion ou une molécule d'eau d'après ces conventions, sera communément appelée ligand ou composé . On peut différencier les composés/ligands endogène (provenant de l'expression de l'organisme) des composés/ligands exogènes (provenant d'un milieu extérieur à l'organisme). D'autres classifications moléculaires plus détaillées sont possibles, notamment afin de préciser la présence de cycle aromatique et d'autres groupements fonctionnels répertoriés par la chimie organique et inorganique. s Chaque fichier de structure est donc converti dans une structure de données hiérarchique (selon un concept de programmation orientée objets), de sorte que l'on puisse avoir accès séparément à chacun des types moléculaires présents, puis pour chaque type moléculaire, à chacune des chaînes de ce type moléculaire, et pour chaque chaîne d'un type moléculaire, à chaque résidus et atomes la composant. Par la suite, les termes résidus et molécule fera indifféremment référence aux résidus d'acides aminés des protéines (respectivement peptide, petit peptide) et aux résidus d'acides nucléiques des ADN, ARN. De même, du fait de la généricité de la méthode vis-à-vis du type moléculaire, le terme molécule fera indifféremment référence aux molécules et macromolécules. Le terme macromolécule quant à lui restera spécifique et ne concernera que les protéines, ADN, ARN, lipides et autres macromolécules.

Identification et caractérisation systématique des interactions moléculaires structuralement connues Une fois les différentes molécules en présence identifiées et stockées dans des structures de données hiérarchiques, il est nécessaire d'établir de façon systématique et à partir des structures moléculaires, les interactions mises en évidence lors de ces expérimentations biologiques. En effet, il est fréquent qu'un fichier de structure, par exemple extrait de la PDB, contienne plusieurs molécules et macromolécules interagissantes.

Pour ce faire, on analyse les distances interatomiques intermoléculaires, c'est-à-dire les distances entre des atomes appartenant à une molécule et les atomes appartenant à une autre molécule. On peut alors vérifier si deux atomes sont en contact en comparant la distance les séparant à la somme de leurs rayons de Van der Waals ou de Coulomb. Il est possible d'ajouter ou de multiplier par une constante K, la somme de ces rayons, afin de tenir compte à la fois des imprécisions sur la localisation des atomes, mais également des faibles vibrations atomiques en ces points (corrélés entre autre aux b-facteurs des atomes). En particulier, lorsque l'on évalue si deux atomes A et B appartenant à deux molécules différentes sont en contact, on peut distinguer deux cas: soit au moins l'un des deux atomes est apolaire, auquel cas on utilisera systématiquement les rayons de Van der Waals pour modéliser le volume physique de ces atomes; soit les deux atomes sont polaires, auquel cas il pourra être préférable de considérer les rayons de Coulomb pour modéliser leurs volumes physiques et évaluer leur interaction.

Selon une autre forme de réalisation afin de déterminer si deux résidus (ou groupement d'atomes) interagissent, il est possible de déterminer les atomes de surface de chacun de ces deux résidus (i.e groupement d'atomes) et d'identifier leurs barycentres respectifs. On peut alors mesurer si les atomes de surface des résidus, éventuellement discrétisés au niveau de leurs barycentre respectif, sont effectivement en contact en utilisant un seuil empirique (généralement proche de 4.5A). Ainsi que décrit dans la littérature, il est également possible de déterminer les atomes et résidus interagissants en calculant séparément l'accessibilité au milieu de deux groupes d'atomes A et B (forme libre), et de comparer ces accessibilités à l'accessibilité calculée sur la fusion de ces deux groupes d'atomes (forme liée). Si l'accessibilité d'un atome du groupe A ou du groupe B change entre son calcul sous forme libre et sous forme liée, c'est qu'il se trouve à l'interface des groupes A et B, c'est-à-dire que cet atome est un atome interagissant.

En variante, une méthode basée sur la tesselation de Voronoï permet définir les atomes et résidus interagissants sans définir préalablement la surface ni imposer des critères arbitraires de distance et d'accessibilité. Cette méthode permet également de limiter et filtrer le schéma d'interactions des deux molécules (schéma qui récapitule que Ai de la molécule 1 interagit avec Bj de la molécule 2 et ainsi de suite).

Les interactions intermoléculaires ainsi détectées sont ensuite classées dans différentes catégories en fonction des molécules impliquées. On différenciera en particulier les homodimères (l'assemblage de deux molécules identiques) des hétérodimères (l'assemblage de deux molécules différentes) qui ont certaines propriétés d'interactions distinctes. Pour une meilleure caractérisation systématique des interactions, il sera également avantageux de différencier les assemblages X-protéine, X -peptide, X -petit peptide, X -ADN, X -ARN, X -lipide, X -ion, X -solvant, X ûligand (où X correspond à l'un des types moléculaires énumérés ci-dessus). En particulier, il a été démontré que les propriétés de certains types d'assemblages diffèrent significativement d'autres. Les données structurales provenant de données cristallographiques présentent toutefois des artefacts d'interactions aussi appelés empilement cristallin ou crystal packing . Ces interactions dues à l'empilement cristallin ne reflètent pas de véritables interactions biologiques, il est donc nécessaire de pouvoir les identifier de façon systématique. De nombreuses méthodes parviennent à ce résultat en utilisant principalement des critères sur la taille, la composition et la complémentarité (géométrique et physico-chimique) de l'interface. Par exemple, il existe peu d'interfaces dus à des empilements cristallins qui aient une aire enfouie supérieure à 1000A2, ou une forte composition hydrophobe et aromatique.

Par la suite, nous différencierons les termes sites de liaison du terme interface (ou interface biologique ). Le site de liaison correspond à l'ensemble des atomes et résidus d'une molécule participant à une interaction, alors que l'interface correspond à l'ensemble des sites de liaisons interagissant entre eux.

Représentation des molécules La représentation moléculaire habituellement mise en oeuvre est la représentation de Connolly, qui dérive du calcul de la surface d'un objet tridimensionnel par les méthodes conventionnelles de marching cube et marching tetraedra . Cette représentation fournit une enveloppe de la molécule, en évaluant la surface que pourrait parcourir une sonde (ou probe en anglais) ayant la forme d'une molécule d'eau à la façon d'une bille se déplaçant sur l'objet. Les surfaces dérivées de la représentation de Connolly permettent de rendre compte notamment de la complémentarité des sites de liaisons de l'interface biologique. Il est toutefois possible de modéliser différents types de surface en faisant varier non seulement la taille de cette sonde, mais également en faisant varier ses propriétés physico-chimiques, notamment sa charge. En effet, plus la taille de la sonde est faible, plus le niveau de précision de la représentation de surface est important. Lorsque la modélisation de la surface d'une molécule cible (i.e. d'une molécule d'intérêt) dépend également la polarité de la sonde, on tient alors également compte des rayons de Coulomb si la sonde est polaire et en contact avec un atome de la molécule également polaire, ou des rayons de Van der Waals si la sonde ou l'atome de la molécule est apolaire. Il est également possible de faire varier la résolution de la grille qui permet de calculer la représentation de la molécule (c'est-à-dire par exemple de modéliser les facettes de surfaces), ainsi que d'utiliser ou non des interpolations pour définir les points de cette surface. L'obtention de différentes représentations d'une même molécule à des résolutions variées permet alors de simplifier sa modélisation, et par conséquent, d'accélérer les comparaisons ultérieures.

Ces représentations sont cependant complexes et d'autres représentations telles que la tesselation de Voronoï, le complexe de Delaunay, la forme dual et la forme alpha permettent de simplifier considérablement la modélisation des structures moléculaires et les analyses qui en découlent. Le Voronoï et le complexe de Delaunay permettent notamment de disposer d'une description interne de l'objet, et non seulement de sa surface comme dans le cas par exemple de la forme alpha et de la surface de Connolly. Cette représentation structurée des parties internes de l'objet a son importance à la fois pour la définition et description de régions, mais aussi pour la comparaison des régions internes et intermédiaires (comprenant à la fois des points internes, mais aussi des points de surfaces). Pour chaque point de la représentation de la structure moléculaire, il est possible d'attribuer un ou plusieurs atomes de la molécule, et un ou plusieurs résidus de la molécule. Toute représentation moléculaire fournit un maillage, c'est-à-dire une structure qui localise des points et qui fournit des arêtes reliant ces points.

Ces arêtes rendent compte de possibles interactions interatomiques de la molécule. Ce maillage peut également être transposé dans des graphes variés tenant compte de différentes propriétés remarquables de la molécule, telles que sa courbure, ses charges, ses zones rigides et malléables, etc. En retour, comme nous l'avons vu, ces graphes permettent de simplifier la représentation de la molécule, et de générer des régions et empreintes structurales.

Segmentation de molécules en régions et empreintes structurales Les points fournis par la représentation moléculaire peuvent-être répartis en deux catégories : les points de surface (faisant par exemple partis de l'enveloppe moléculaire, c'est-à-dire les points directement en contact avec le milieu extérieur ou suffisamment proche pour interagir avec le milieu extérieur), et les points internes (ne faisant pas partis de l'enveloppe moléculaire et étant trop éloigné du milieu extérieur).

A partir de cette classification des points, il est également possible de différencier trois types de régions : les régions de surface, ne comprenant que des points de surface ; les régions internes, ne comprenant que des points internes ; et les régions intermédiaires, comprenant à la fois des points de surface et des points internes.

La génération et le stockage des régions et empreintes structurales peut notamment être mise en oeuvre selon le procédé précédemment décrit.

En particulier, on détermine quatre bases de données (ou tables) correspondant à des générations de régions de tailles respectives 4A, 8A, 12A et 16A. Les bases de données correspondant à des régions de faibles tailles (4A, 8A) sont plutôt utilisées afin de caractériser des phénomènes locaux des surfaces, telles que la liaison de ligands ou de petits peptides, ou encore les sites de phosphorylations et de glycosylations. Les bases de données correspondant aux régions de taille supérieure (12A, 16A) permettent plus généralement de mettre en évidence les interactions macromoléculaires (telles que protéine-protéine, protéine-ADN, protéine-ARN, etc). En variante, une base de données est formée en regroupant tous les sites de liaisons détectés de façon systématique à partir des analyses structurales. Pour ce faire, les sites de liaisons sont identifiés et différenciés d'après les descriptions détaillées précédemment. Les sites de liaisons peuvent être intégrés directement dans la base de données en précisant les coordonnées atomiques et les propriétés remarquables de ces atomes. Selon une autre forme de réalisation, ce ne sont pas les atomes et leurs propriétés qui sont intégrés, mais les points et propriétés de ces points issus de la représentation moléculaire (i.e. du maillage) et correspondants à ces atomes. Selon une autre variante, on génère l'ensemble des régions de la molécule et on recherche celle qui recouvre le plus grand nombre de sites de liaison. Par recouvrement, on entend ici que les points (ou atomes) présents dans les sites de liaisons font également partie de la région générée. Dès lors, plutôt que de stocker le site de liaison, on stockera la région Rmax recouvrant le plus le site de liaison. Cette région est étiquetée de sorte que l'on puisse retrouver les critères qui ont permis sa génération (taille de la région, contraintes de 30 formes, etc).

Dans cette forme de réalisation, ce ne sont pas les sites de liaisons qui sont directement intégrés dans la base de données, mais plutôt les régions Rmax qui recouvrent le plus avec les sites de liaisons connues. L'intérêt d'une telle approche tient en deux points: 1) on s'assure ainsi que l'on recherche des régions qu'il est possible de retrouver (puisqu'elles ont pu être générées de façon systématique); 2) l'étiquettage des régions Rmax permet de renseigner sur la forme globale de la région (i.e du site de liaison: par exemple, si la région est étirée dans une direction). Il sera alors possible d'en tenir compte lors du criblage d'une molécule, afin de comparer en • 10 premier (ou uniquement) les régions moléculaires stockées qui répondent à ces critères de forme. II est également possible de générer non pas une seule région par site de liaison, mais un ensemble de régions, qui correspondent aux N régions recouvrant le plus le site de liaison. En particulier, dans le cas des 15 cavités liant des ligands, il est possible de définir un site de liaison qui ressemble généralement à une poche (fermée ou ouverte) et recouvre une grande partie de la cavité, mais il est également possible de définir N régions plus petites qui correspondent aux différentes faces de cette poche. En variante, on créé une base de données à partir d'empreintes 20 structurales détectées sur les molécules et macromolécules. En particulier, on considérera les empreintes structurales basées sur la courbure seule, ou bien sur la courbure et I'hydrophobicité, ou bien sur la courbure et la polarité. Exemple: empreintes structurales correspondant aux régions creuses et hydrophobes; empreintes structurales correspondant aux régions 25 bosseuses et cationiques; empreintes structurales correspondant aux régions bossues et anioniques, etc. La combinaison d'empreintes structurale sur une même structure moléculaire représente souvent un code unique d'une famille moléculaire ou d'une sous-famille moléculaire. D'autres empreintes structurales encore sont uniques et spécifiques des molécules 30 qui les portent.

Selon une autre variante, on génère des bases de données ne contenant que des molécules présentes dans un type cellulaire/tissulaire, dans un organisme ou même, dans un compartiment cellulaire. Un criblage sur une telle base de données spécifique permet alors de répondre de façon plus précise aux besoins de la recherche et du monde industrielle, et permet également d'effectuer des comparaisons des capacités d'interactions d'une molécule dans différents contextes/environnements.

Criblaqe de réqions et d'empreintes structurales Une fois les bases de données de régions moléculaires générées, il est possible de cribler une région ou empreinte structurale donnée sur ces bases de données. Comme le criblage correspond en fait à la comparaison par paire de régions (ou d'empreintes structurales), il est possible d'effectuer ce calcul sur un réseau comportant une pluralité de processeurs (CPU). Chaque CPU correspond alors à un noeud du réseau. Selon une forme de réalisation, un ou plusieurs noeuds centraux servent de bases de données (permettant la reconstruction des régions moléculaires), et N noeuds esclaves servent de noeuds de calculs. Les N noeuds esclaves interrogent individuellement l'une au moins des bases de données afin de reconstruire les régions stockées et afin de les comparer avec une région requête. Les N noeuds esclaves renvoient alors (lorsque la comparaison fournit un résultat intéressant, selon le score d'énergie, les résultats de cette comparaison à un noeud base de données prévu pour stocker les résultats.

A chaque criblage est attribué un identifiant unique qui est partagée entre tous les noeuds esclaves, de sorte que tous les résultats envoyés par ces noeuds soient étiquetés par cet identifiant unique. A partir d'une requête unique, cette requête est alors répartie de façon équitable entre tous les noeuds de calculs, mais il est possible de récupérer l'intégralité des résultats sur la base de données prévu à cet effet et en utilisant l'identifiant unique.

Les approches de comparaison de régions et d'empreintes structurales ainsi les filtres permettant d'accélérer ces comparaisons peuvent être mis en oeuvre. En particulier, l'utilisation des sphères de contrôle est 5 particulièrement adaptée pour une comparaison rapide de tout type de régions (de surface, interne, ou intermédiaire). La simplification des régions à partir du rassemblement des états de propriétés qui se ressemblent, et l'utilisation d'algorithmes de correspondance de graphes ( graph matching ) sont également des filtres 10 particulièrement efficaces. Avant de comparer chaque couple de régions, il est également possible de comparer les compositions des états de propriétés de ces régions, ainsi que la distribution de ces compositions. Des compositions trop différentes indiquant alors que les régions ne peuvent se ressembler et 15 qu'il est inutile de procéder à des comparaisons plus lourdes (ex: 25% de résidus hydrophobes pour une région et 60% pour une autre région).

Score d'énergie normalisée et catéqorie de confiance Comme nous l'avons vu pour les objets tridimensionnels en général, 20 a comparaison de deux régions passe par la comparaison par paire des points de ces deux régions. Les ressemblances et différences entre les états de propriétés en ces points permettent alors de renseigner sur la ressemblance/différence globale des deux régions. Le score global provenant de la comparaison des deux régions est toutefois dépendant du 25 nombre de points constituant ces régions: plus il y a de points et plus les valeurs maximales (respectivement minimales) du score global seront grandes; inversement, moins il y a de points et plus les valeurs maximales (respectivement minimales) du score global seront petites. Afin de pouvoir différencier rapidement les alignements pertinents de 30 ceux qui le sont moins ou pas, il est alors nécessaire de normaliser ce score globale de comparaison. Pour ce faire, comme tout criblage de région nécessite de définir la région à cribler, il est alors notamment possible de comparer cette région avec elle même (respectivement. avec son complémentaire si l'on fait un criblage du complémentaire de cette région). Cette comparaison de la région avec elle même fournit alors le score globale d'énergie maximale qui peut-être obtenue: en effet, par définition du score d'énergie, aucune autre région ne pourrait lui ressembler davantage et donc avoir un meilleur score. Dès lors, le score globale issu de chaque comparaisons de régions est normalisé par cette valeur maximale, de sorte que le score d'énergie normalisée soit compris entre 0 et 1 (ou 0 à 100 pour en faciliter sa lecture). Plus ce score d'énergie normalisée sera proche de 0, et plus les régions seront différentes; plus le score d'énergie normalisée sera proche de 1 (respectivement. 100), plus les deux régions comparées seront proches. A partir de ce score d'énergie normalisé, il devient également possible de former des catégories de confiance qui renseignent sur la quantité d'erreurs attendues dans chaque catégorie. II sera par exemple possible de définir 4 catégories A, B, C et D; la catégorie A correspondant aux régions ayant un score normalisé compris entre 0.75 et 1 (respectivement. 75 et 100), B aux régions ayant un score normalisé compris entre 0.5 et 0.75 (respectivement. 50 et 75), C de 0.25 à 0.5 et D de 0 à 0.25. Le plus souvent, la catégorie A ne comportera que des régions fonctionnellements identiques à la région criblée. La catégorie B comportera se comportera comme la région A mais possédera également des régions fonctionnellement proches. La catégorie C pourra contiendra davantage de régions fonctionnellement proches mais pas identiques, alors que la catégorie D contiendra des régions plus distantes de la région criblée. Exemple: La comparaison d'une région R avec elle même donne un score d'énergie globale de -500 selon le calcul du score que nous avons détaillé plus haut.

La comparaison de la région R avec des régions LI et L2 donnent respectivement un score d'énergie global de -230 et -390. Les scores d'énergies normalisés de (R, L1) et de (R, L2) sont alors respectivement 0.46 (ou 46) et 0.78 (ou 78).

Les régions LI et L2 sont donc classées dans les catégorie C et A respectivement.

Recherche de molécules portant une région fonctionnelle précise ou proche Lorsqu'une région fonctionnelle A est identifiée par le biais d'expériences biologiques/biochimiques ou par le biais d'annotations existantes, il est possible de cribler cette région A afin de la chercher dans d'autres structures moléculaires sans aucun à priori de ressemblance sur les formes globales de ces molécules. Par un raisonnement d'homologie et en se basant sur le score d'énergie (normalisé ou non) fournit par l'alignement de deux régions, il est possible d'inférer l'aspect fonctionnel de la région A sur la région B alignée. Selon cette forme de réalisation, il devient possible de découvrir un ensemble de molécules capables d'exécuter une fonction moléculaire commune (telle que lier un partenaire moléculaire, catalyser une réaction chimique, être phosphorysable, etc).

Selon cette forme de réalisation, il est également possible d'identifier les régions fonctionnellement proches, c'est-à-dire les régions qui pourraient partager une fonctionnalité commune à condition de muter quelques résidus précis. Le score d'énergie local correspondant à l'alignement de chaque couple de points formé d'un point d'une région avec un point d'une autre région, recense la similarité/dissimilarité entre ces deux points alignés. Il est donc possible en automatique, de caractériser quels sont les points (c'est-à-dire les atomes et résidus) des deux régions qui se ressemblent le plus et ceux qui diffèrent le plus, c'est-à-dire les zones respectivement communes des deux régions et spécifiques de l'une ou de l'autre région.

Exemple 1 : On cherche à différencier des sous-familles moléculaires et construire des arbres phylogénétiques sur la base de sites fonctionnels. La famille des récepteurs nucléaires est une vaste famille de facteurs de transcriptions protéiques qui permettent de réguler l'expression des gènes. Ces protéines sont notamment impliquées dans la régulation du cycle cellulaire ainsi que dans certains cancers et leucémies. Cette famille peut être divisée notamment en deux sous-familles, l'une permettant de former des hétérodimères (assemblage de deux récepteurs nucléaires distincts), l'autre permettant de former des homodimères (assemblage de deux récepteurs nucléaires identiques). Pour chacune de ces deux sous-familles, il est possible de déterminer à partir des structures, les sites de dimérisations, et de les cribler sur une base de données des régions moléculaires. Ce criblage permet par exemple de distinguer parmi toutes les structures de récepteurs nucléaires, celles qui sont capables de former des homodimères, de ceux qui forment des hétérodimères. Plus encore, la différence géométrique et physico-chimique entre les sites de liaisons de chaque récepteur nucléaire peut être quantifiée, de sorte que l'on puisse construire un arbre évolutif des sites de liaisons, regroupant les sites de liaisons fonctionnellement les plus proches. Un exemple de réalisation pour former un tel arbre consiste à comparer l'ensemble des alignements de couples de sites de dimérisations, ce qui fournit pour chaque couple un score d'énergie qui symbolise une distance (géométrique et physico-chimique) entre ces sites. A l'aide de méthodes telles que UPGMA (pour Unweighted Pair Group Method with Arithmetic mean) ou Neighbour Joining, qui permettent de reconstruire des arbres phylogénétiques, il est possible de reconstruire l'arbre évolutif de ces sites de dimérisation à partir de l'ensemble des distances intercouples décrites par ces scores d'énergies.

Exemple 2: On cherche à retrouver un ensemble de structures ayant un site fonctionnel sous une conformation donnée. Certains sites fonctionnels sont connus pour changer de conformations lors de différents facteurs environnementaux (que ce soit des changements de concentrations ioniques, ou que ce soit à la suite d'une interaction avec un partenaire biologique). C'est le cas notamment de la calmoduline, protéine impliquée dans la régulation du signal calcique qui est connue pour ses changements de conformations en fonction du nombre de calciums qu'elle lie et en fonction de ses partenaires. Il est par conséquent possible de cribler les sites fonctionnels de la calmoduline dans l'un de ces contextes environnementaux, recherchant alors une conformation précise du site fonctionnel. Nous verrons par la suite qu'il est également possible de rechercher des partenaires moléculaires spécifiques de l'une de ces conformations.

Un exemple plus général est celui des protéines kinases dont l'homme possède plus de 500 gènes (soit près de 2% des gènes humains recensés) et dont le site fonctionnel existe sous une conformation active et une conformation inactive. II est possible de rechercher parmi toutes les structures de protéines kinases (déterminées expérimentalement ou modéliser par exemple par des approches de modélisation par homologie), celles qui sont sous l'une ou l'autre des conformations.

Exemple 3 : On cherche à déterminer un nouveau partenaire moléculaire en inférant cette interaction par l'intermédiaire d'une région déjà connue pour lier ce partenaire. S'il est possible de cribler une région R et de retrouver N régions lui ressemblant, il est fréquent que l'une au moins de ces N régions est au moins une fonction moléculaire et/ou cellulaire connue. Dès lors, cette fonction pourra-être inférée sur la région R. En particulier, si une région Ni de l'ensemble N des régions ressemblant à R, est connue pour lier une région Y, alors il est possible d'inférer que la région R peut-elle aussi lier la région Y, c'est-à-dire que la molécule A portant la région R est capable de lier la molécule B portant la région Y.

Exemple 4 : On cherche à retrouver des molécules capables de lier des ligands. L'ATP (pour Adénosine TriPhosphate) est un ligand naturel utilisé par l'organisme comme source d'énergie. On retrouve l'ATP notamment au cours de nombreuses catalyses enzymatiques. Plusieurs structures moléculaires contenant une molécule liant l'ATP nous renseignent par conséquent sur les différents sites de liaisons de l'ATP. Il est par conséquent possible de cribler l'un ou plusieurs de ces sites de liaisons afin de déterminer quelles sont les molécules capables de lier l'ATP, et indiquant ainsi un possible rôle enzymatique pour ladite molécule.

Exemple 5 : On cherche à déterminer le comportement et la spécificité du criblage de régions pour des composés de petite et grande taille. Deux criblages indépendants ont été réalisés respectivement sur le FAD et sur le mannose (voir Figures 6 et 7 respectivement). Le mannose sensiblement plus petit que le FAD indiquant alors la précision du criblage pour de petits composés ; le FAD plus grand, indiquant alors la précision du criblage pour des composés plus importants. Dans les deux cas, les sites de liaisons criblés sont toujours retrouvés parmi les tout premiers résultats.

Dans le cas de la PDB qui est une base de données très redondantes (c'est-à-dire regroupant parfois plusieurs fois une même structure moléculaire avec peu de variations), l'intégralité des structures proches liant ces ligands sont correctement retrouvés. On retrouve également dans la majorité des cas, les structures différentes qui étaient également connus pour liant ces ligands (si l'on crible tous les sites de liaisons connus pour undit ligand, on augmentera alors la sensibilité du criblage et on assurera s nécessairement de retrouver entre autres toutes les structures connus pour lier ces ligands). Afin d'évaluer la précision du criblage, une borne inférieure de la spécificité est déterminée en comptant le nombre de structures parmi les premiers résultats, qui sont effectivement connues pour lier respectivement le mannose ou le FAD. En effet, il s'agit de la borne inférieure de la spécificité car le fait que la structure ne met pas en évidence une liaison à FAD (respectivement au mannose) n'indique pas nécessairement que la molécule ne puisse lier le FAD (respectivement le mannose). Afin de ne pas biaiser favorablement les résultats de ces criblages en raison de la présence de structures redondantes, seules les chaines structurales non redondantes (ainsi que définies dans la PDB) ont été retenues. Sur les figures, la spécificité 1 représente le nombre de région liant FAD (respectivement le mannose) par rapport au nombre de structures, tandis que la spécificité 2 représente le nombre de régions liant FAD (respectivement le mannose) par rapport au nombre de structures avec un ligand. Les résultats indiquent que pour les deux composés (représentatifs du criblage respectivement de petits et de grands ligands) ont une spécificité minimale de l'ordre de 80% pour les dix premiers résultats, et de l'ordre de 60% pour les vingt premiers résultats. Selon une autre forme de réalisation, il est également possible d'annoter la structure d'une molécule nouvellement déterminée, en la segmentant en régions puis en recherchant si ces régions se retrouvent sur d'autres structures et si ces régions similaires ont une fonction ou un comportement moléculaire connu. Les fonctions et comportement de ces régions similaires sont alors reportés sur les régions de ladite molécule nouvellement déterminée. Dès lors, cette analyse automatique de la nouvelle structure moléculaire génère de nouvelles connaissances (inaccessibles sinon) permettant de mieux comprendre la ou les fonctions de ladite molécule en criblant l'ensemble des régions la constituant. Ce procédé d'annotation, aussi appelé cartographie moléculaire est davantage détaillé dans la description qui va suivre. Des exemples non limitatifs de régions fonctionnelles qui peuvent- être criblées sont: les sites de liaisons (quels que soient leur types : protéine-protéine, protéine-peptide, protéine-ADN, protéine-ARN, protéine-ligands, etc.) ainsi que les sites de phosphorylations, les sites de glycosylations, les sites allostériques, etc.

Recherche de partenaires moléculaires Nous avons vu précédemment que le criblage d'une région peut nous permettre (par inférence sur la fonction des régions similaires) de détecter de nouveaux partenaires, et qu'il est également possible de déterminer le ou les complémentaires de cette région.

Dès lors, si l'on souhaite déterminer les partenaires moléculaires d'une cible, il est possible de cribler non pas les régions de cette cible, mais de cribler les régions complémentaires des régions de cette cible. En effet, ces régions complémentaires sont géométriquement et physicochimiquement déterminées afin d'optimiser l'interaction avec la région initiale. Par conséquent, toutes les molécules retrouvées qui portent ces régions complémentaires, sont susceptibles de pouvoir lier la cible à la région initiale. Les méthodes de criblage de régions sont suffisamment rapides afin de permettre le criblage systématique d'une macromolécule quel que ce soit son type sur l'ensemble des structures moléculaires connues. On peut par exemple de cribler une macromolécule en moins d'une journée avec un haut degré de précision. En appliquant un certain nombre de filtres, notamment l'utilisation de représentations simplifiées (ex: forme dual), ainsi que l'utilisation du rapport des rayons euclidiens et géodésiques, ainsi que l'utilisation des sphères de points de contrôle, il est possible de réduire ce temps de criblage pour l'intégralité d'une macromolécule à 1 ou I quelques heures (en fonction de la taille de ladite macromolécule). L'ensemble du processus de criblage est retraçable et reproductible et est directement confronté aux données expérimentales de hautes qualités fournit par les disciplines de la biologie structurale, telle que la cristallographie, la RMN, la cryomicrosopie, etc. Un autre avantage de ce criblage in silico tient en ce que les sites de liaisons des assemblages moléculaires prédits sont directement identifiés (donnée qu'il n'est pas possible d'obtenir par des méthodes in vivo/in vitro haut débit telles que le double hybride ou le TAP TAG). Outre la connaissance gagnée sur l'identification systématique de ces sites de liaisons, cette donnée permet également de procéder à des expériences simples de mutagénèse afin de vérifier si la mutation d'un résidu à un site de liaison prédit, entraine bien une déstabilisation de l'assemblage moléculaire (préalablement vérifié par exemple par microcalorimétrie, co- immunoprécipitation, anisotropie, etc).

Exemple 1 : On recherche d'un partenaire moléculaire par le biais des régions complémentaires.

Soit une protéine A, et R une région quelconque de cette protéine. II est possible de déterminer une région unique CR, strictement complémentaire de la région R. Cette région complémentaire correspond à la région R sur laquelle les propriétés ont été inversées par rapport à un état neutre (une zone creuse est transformée en bosse alors qu'une zone plate (neutre) reste plate; une zone cationique est transformée en zone anionique alors qu'une zone hydrophobe (neutre) reste hydrophobe, etc). Le criblage de la région CR permet de retrouver un ensemble E de molécules portant cette région CR. Rappelons que la région CR est définie en la rendant le plus complémentaire (géométriquement et physico- chimiquement) de la région R. Par conséquent, les molécules de l'ensemble E portant la région CR sont susceptibles d'interagir avec la région R de la protéine A. En variante de cette réalisation et à partir d'une même région R d'une protéine A, il est également possible de générer plusieurs régions complémentaires CRs, toutes proches de la région complémentaire unique CR. Ces régions CRs correspondent alors à une pluralité de régions CR sur lesquelles ont été appliquées séparemment et aléatoirement des variations légères des états de propriétés en chacun de leurs points les constituant. La logique derrière cette forme de réalisation tient en ce que si les sites de liaisons d'une interface biologique sont effectivement complémentaires dans leur ensemble mais cette règle de complémentarité n'est pas stricte et peut même dans des sous-zones de l'interface, être fausse. Par conséquent, en générant une pluralité de régions complémentaires en introduisant localement des erreurs légères sur les états de propriétés (ex: une charge électrostatique de 0.7 normalisée sur l'intervalle [-1, 1] pourra par exemple varier de plus ou moins 0.3), il est possible de tenir compte avant toute comparaison, de ces variations. Le score d'énergie utilisé lors de la comparaison de deux régions comporte également des composantes de tolérance sur les écarts d'états de propriétés acceptés. En jouant soit sur la pluralité de régions CR, soit sur les tolérances du score d'énergie, il est donc possible de tenir compte de la variabilité intrinsèque observée dans la complémentarité des interfaces biologiques. Remarque: afin de déterminer les états de propriétés inverses (complémentaires) d'une propriété, il est également possible d'utiliser les matrices (symétriques) de contact intermoléculaires qui renseignent sur la fréquence et la vraisemblance (statistique) des contacts entre chaque état. Ces matrices de contact sont généralement calculées à partir de la détermination des contacts inter-résidus intermoléculaires observés dans les interfaces biologiques. II est toutefois possible de calculer des matrices de contact entre tout état de propriétés (ex: une matrice 3x3 ayant 3 états: creux, plat, bosse, indiquant la vraisemblance des contacts (creux, creux), (creux, plat), (creux, bosse), etc). Ces matrices de contact entre états de propriétés peut alors permettre de générer une pluralité de régions complémentaires en se servant en chaque point, de la vraisemblance observé des contacts possible. Si les contacts (creux, bosse) et (creux, plat) sont tout deux vraisemblables, il pourra alors être possible de générer deux complémentaires à partir de ce point: l'un étant une bosse, l'autre un plat. Afin de limiter le nombre de complémentaires générées à partir d'une région, on utilisera alors un seuil de vraisemblance afin de ne sélectionner que quelques états inverses pour un état donné.

Exemple 2: On recherche d'un partenaire moléculaire spécifique d'une 15 conformation précise d'une cible Nous avons vu précédemment que les protéines kinases existaient sous deux conformations actives et inactives. Comme des structures de ces deux conformations existent, il est possible de cribler les complémentaires de leurs régions, et par conséquent de rechercher des partenaires 20 moléculaires spécifiques de l'une ou de l'autre conformation. Plus généralement, quelle que soit la molécule (ou macromolécule) considérée, dès lors que les structures de ses différentes conformations ont été déterminées expérimentalement ou modélisées par des approches de bioinformatiques, il est possible de déterminer des partenaires spécifiques à 25 chacune des conformations de ladite molécule. Le criblage in silico de régions est donc une approche particulièrement puissante pour mieux comprendre la régulation dynamique des réseaux d'interactions suite à l'activation ou à la désactivation d'une ou plusieurs molécules. Elle nécessite toutefois qu'une structure soit déterminée expérimentalement 30 et/ou modélisée. s Exemple 3 : Recherche de l'impact d'une mutation sur les réseaux d'interactions moléculaires Plus de deux mille mutations conduisant à des maladies génétiques ont été détaillées et répertoriées. C'est notamment le cas pour les dystrophies moléculaires, maladie de dégénérescence des muscles. Alors que certaines mutations sont enfouies dans la structure moléculaire et altèrent la stabilité de la molécule, d'autres mutations de surface sont susceptibles de changer localement les propriétés d'un site de liaison. Le criblage du site de liaison (et de son ou ses complémentaire) sous sa forme normale et sous sa forme mutée/pathogène nous permet de détecter l'ensemble (par rapport à la base de données de régions moléculaires) des partenaires moléculaires spécifiques de la forme normale et spécifiques de la forme mutée/pathogène. Par comparaison de ces deux profils d'interactions, nous gagnons alors de nouvelles connaissances sur les perturbations possibles des réseaux d'interactions moléculaires induites par cette mutation génétique. L'identification des interactions qui ne peuvent plus se faire suite à la mutation, ainsi que l'identification des interactions supplémentaires qui sont induites par la mutation, est une étape clé pour la compréhension du fonctionnement et du développement de toute maladie génétique. En particulier, si on observe la suppression d'une interaction, il est alors envisageable de concevoir des composés pouvant rétablir cette interaction (et par la même, la voie de signalisation ou de régulation correspondante). Des méthodes permettant d'aider à la conception de tels composés seront présentées plus loin.

Obtention de la structure de l'assemblage à partir du criblaqe de réqions complémentaires et tests de collisions Après avoir déterminer l'ensemble des molécules portant une région complémentaire CR de la région R d'une cible, c'est-à-dire l'ensemble des s 2948475 100 molécules susceptibles de pouvoir interagir à la région R de la cible, il est possible d'ajouter des tests additionnels pour vérifier que l'interaction des formes globales des structures portant ces régions n'entraînent pas de collisions distantes. 5 Par collision distante on entend ici des collisions ayant lieu à distance des régions étudiées, et qui peuvent empêcher leur interaction. En particulier, il est possible de déterminer la structure de l'assemblage d'une molécule A avec une molécule B à partir de l'alignement de la région CR (déterminé à partir de la région R portée par A) avec une 10 région similaire CR' portée par la molécule B. En effet, le procédé qui génère le complémentaire CR de la région R ne change ni l'alignement ni les coordonnées spatiales de R; seuls les états des propriétés des points de la région CR sont changées (y compris la normale à la surface NCR' de CR' qui est l'inverse de la normale NCR de 15 CR). Il s'en suit que R et CR sont structuralement alignées (mais orientés en sens inverse), et comme CR' est alignée avec CR au cours du criblage, alors CR' est aussi aligné avec R. Pour obtenir la structure de l'assemblage moléculaire de A et B, et tenir compte de l'espace existant (dû notamment au rayon des atomes) 20 entre les deux molécules A et B qui interagissent, il suffit de translater la région CR' (et la molécule B portant cette région) d'une certaine distance selon l'inverse de sa normale à la surface NCR'. Cette distance peut être fixe (de l'ordre de 6-8 A) pour les assemblages moléculaires. 25 Afin d'obtenir une structure plus fine de l'assemblage, il est toutefois possible de procéder à une étape d'optimisation en faisant varier itérativement cette distance et en calculant plusieurs scores d'énergies (dépendant par exemple du nombre de contacts intermoléculaires, et de la distance de ces contacts intermoléculaires). Il est également possible de 30 procéder à une optimisation de cette distance, de sorte que les rayons de s 2948475 101 Van der Waals et/ou de Coulomb des atomes provenant de R et de CR' soient les plus proches possibles sans toutefois qu'ils s'intersectent. Jusqu'à cette étape, la structure de l'assemblage des régions R et CR' et des deux molécules A et B est donc déterminée uniquement à partir 5 de l'alignement de ces régions. II est toutefois biologiquement possible que deux régions soient parfaitement complémentaires (et donc capables d'interagir), mais qu'il y ait une gène stérique entre les deux molécules sur des régions distantes de R et CR' (les régions interagissantes), ce qui en fonction de cette gène pourra déstabilliser ou empêcher la formation de cet 10 assemblage. A partir de la structure globale de cet assemblage déterminée à partir de l'assemblage des régions, il peut donc s'avérer utile de vérifier les collisions entre les deux molécules, procédé très utilisé en infographie et dans les réalités virtuelles. 15 Selon cette forme de réalisation, il est possible de valider, pénaliser ou d'invalider une interaction détectée par le biais du criblage des régions et de leurs complémentaires, en vérifiant si les structures de ces assemblages présentent ou non des collisions importantes. Il est également possible de tenir compte de la malléabilité des régions provoquant ces collisions. 20 En effet, si les régions provoquant la collision intermoléculaire sont des boucles (zones connues pour être très flexible, qui ne s'auto-stabilise pas dans l'espace), il sera possible de considérer que cette collision (distante) ne pénalise que peu la formation de l'assemblage. A l'inverse, la collision de zones stables (telles que des hélices) impliquera souvent quant 25 à elle que les deux molécules ne peuvent interagir. Afin que ce procédé soit efficace dans une logique de criblage, et étant donné que les algorithmes de détection de collisions prennent un certain temps, on appliquera ce filtre uniquement sur les résultats pertinents retenus du criblage (ex: catégorie A et B), et non directement lors de 30 chaque comparaison de régions. s 2948475 102 Recherche de cibles moléculaires de composés endogènes ou exogènes Pour tout composé, comme pour toute molécule ou macromolécule, il est possible de définir une ou plusieurs régions, et de définir pour chacune d'entre elles, un ou plusieurs complémentaires. Un composé est toutefois 5 une molécule de taille relativement faible, ce qui lui confère deux principaux modes d'interactions: soit celui-ci interagit sur la surface d'une molécule, soit il interagit avec une cavité de la molécule (c'est-à-dire une surface interne et protégée de la molécule) ce qui est le cas notamment de FAD (Flavine Adénine Dinucléotide) et de nombreuses vitamines. 10 Bien souvent, dans le premier cas d'interaction, seule une partie de la surface du composé interagira avec la cible: il faudra donc générer des régions distinctes du composé, correspondant par exemple à chacune de ses faces (selon des plans/orientations arbitraires) et les cribler. Dans le second cas d'interaction, c'est souvent l'intégralité de la 15 surface du composé qui interagit avec la cavité de la cible: il faudra donc considérer toute l'enveloppe du composé (ce qui est par ailleurs obtenu en générant une région suffisamment grande pour ledit composé). Lors de la recherche de cibles moléculaires de composés, il est donc nécessaire de procéder à deux criblages distincts, correspondant dans un 20 premier cas au criblage de toutes les régions complémentaires des régions distinctes du composé, et dans un deuxième cas, au criblage de l'enveloppe complémentaire du composé. L'enveloppe, tout comme une région, est définie par un ensemble de points caractérisant chacun un ensemble de propriétés remarquables. L'enveloppe est en fait un cas particulier de 25 région, où tous les points de l'enveloppe font partis de la région. Par conséquent, il est donc possible de déterminer le complémentaire de cette enveloppe par un procédé similaire utilisé pour déterminer le complémentaire des régions. Le criblage des régions complémentaires du composés ainsi que le 30 criblage de son enveloppe complémentaire permet alors de retrouver un ensemble E de molécules portant des régions similaires à ces régions 2948475 103 complémentaires et/ou à cette enveloppe complémentaire. Par conséquent, l'ensemble E de molécules est susceptible de pouvoir lier ledit composé, c'est-à-dire , l'ensemble E de molécules représente l'ensemble des cibles moléculaires du composé. 5 Rappelons que le criblage s'effectue sur une base de données et que cette base peut refléter un contexte décrit par l'utilisateur: la base peut par exemple ne contenir que les protéines d'un tissu particulier, ou même d'une organite. II est donc notamment possible de déterminer les cibles moléculaires d'un composé pour différents tissus. 10 Remarque: il existe des bases de données biologiques qui décrivent l'expression tissulaire de gènes, c'est-à-dire la localisation tissulaire de protéines ou d'ARN. Note applicative: si pour quelques médicaments et produits cosmétiques commercialisés, quelques cibles moléculaires ont pu être 15 identifiées, il existe de très nombreux exemples où les cibles ne sont pas connues. Pour d'autres encore, on pense que les cibles identifiées ne sont en fait pas responsables de l'action décrite et souhaitée du composé. Pour d'autres encore, on pense que c'est la synergie d'action de plusieurs cibles qui produit l'effet souhaité. L'industrie moderne du médicament ou du 20 produit cosmétique tend de plus en plus à utiliser les structures moléculaires afin de produire des composés de plus en plus spécifiques et affins des cibles identifiées, notamment afin d'accroître l'efficacité du produit mais aussi afin d'en diminuer l'éventuelle toxicité. Par conséquent, le criblage in silico proposé qui permet de détecter de nouvelles cibles 25 moléculaires pour des composés permettra de répondre à deux problématiques essentielles: 1) quel est le véritable mode d'action du composé 2) à partir de cette connaissance, comment le rendre plus efficace, plus affin et moins toxique 30 Remarque sur les pro-drugs: les cibles moléculaires des pro-drugs (et par 2948475 104 conséquent leurs modes d'actions) ne peuvent-être détectées, à moins que l'on ne connaisse à l'avance les différentes transformations que peut subir le composé au cours de son absorption par l'organisme. Si les différentes étapes de transformation du composé sont connues, il est alors possible de 5 procéder à la détection des cibles moléculaires pour chacune des formes transformées du composé.

Recherche des macromolécules et réqions pouvant-être ciblées par des composés exoqènes (concept de druggabilité ) 10 Dans la description précédente a été abordée la possibilité de détecter les cibles moléculaires de composés. Cette forme de réalisation quant à elle consiste à déterminer de façon systématique quelles sont les macromolécules qui peuvent-être ciblées par des composés exogènes, répondant ainsi au concept de druggabilité. En effet, si in vitro, l'industrie 15 chimique est souvent capable de déterminer un ligand très spécifique d'une molécule, in vivo le composé doit toutefois répondre à un certain nombre de critères lui permettant de passer les différentes barrières d'absorption dans l'organisme, tout en ne modifiant pas son principe actif (ou tout en permettant la modification de son principe pro-actif dans le cas des pro- 20 drugs métabolisées). La comparaison des différents composés commercialisés a permis d'établir un certain nombre de règles telles que celles de Lipinski (1997) sur la taille et la nature des composés pouvant avoir une action biologique. La présence de ces règles sur la taille et la nature du composé se 25 reflètent nécessairement (comme lors de l'usage de négatif) sur les sites de liaison des cibles moléculaires. Il est donc envisageable qu'un certain nombre de molécules ne disposent pas de ces sites de liaisons capables de se lier à des composés dont la taille et la nature évoluent dans des intervalles relativement confins. 30 De telles molécules ne disposant pas de ces sites de liaisons pour des composés exogènes sont alors dit non druggable ; celles possédant ces 2948475 105 sites de liaisons particuliers et adaptés aux natures et tailles limitées des composés administrables sont quant-à elles dîtes druggable . La détermination de ces macromolécules druggables et nondruggables est donc particulièrement importantes pour l'industrie 5 pharmaceutique et cosmétique, afin de limiter leurs efforts aux cibles qui ont le plus de chance d'être touchées in vivo par des composés exogènes. Selon une forme de réalisation, une liste des macromolécules druggables est obtenue au cours d'un procédé en trois étapes: • dans un premier temps, un ensemble D de macromolécules 10 connues pour lier des composés exogènes est constitué. Un tel ensemble peut être obtenu facilement en confrontant les données structurales de la PDB (où l'on peut trouver des structures d'assemblages d'une macromolécule avec un ligand), avec les données de la littérature précisant la nature dudit ligand. Il est également possible d'utiliser de tels ensembles 15 macromolécule-ligand provenant de sources publiques ou privées. Dans de nombreux cas, les ligands naturels des macromolécules peuvent-être remplacés par des ligands artificiels, ce qui indique que ces macromolécules ainsi que leurs sites de liaisons aux ligands naturels peuvent généralement être considérées comme étant druggables. 20 • Dans un second temps, ledit ensemble D d'assemblages macromolécule-ligands est alors analysé de façon systématique: chaque type de molécule est identifié ainsi que chaque type d'interaction ainsi que décrit dans les procédés ci-dessus. Pour chaque assemblage macromolécule-ligand, il est alors possible d'identifier le site de liaison de la 25 cible macromoléculaire. Ledit site de liaison est alors dit lui aussi druggable , en ce sens qu'il est le site de la macromolécule druggable capable de lier un composé administrable. A la fin de cette étude, on obtient un ensemble Sd de sites druggables. • En criblant chacun des sites druggables de l'ensemble Sd, on 30 retrouve alors l'ensemble des molécules portant ces sites fonctionnels. En augmentant les paramètres de tolérances du score d'énergie utilisés lors de Ô s 2948475 106 la comparaison des régions, il est aussi possible de récuperer l'ensemble des molécules portant des sites suffisamment proches des sites de Sd (en ce sens que les sites continuent de respecter dans l'ensemble les règles décrites sur les composés administrables). Ces molécules portant soit des 5 sites identiques aux sites de Sd, soit des sites proches de ceux de Sd, sont alors considérées comme des molécules druggables. Pour chacune de ces molécules druggables, ledit site druggable est identifié et il est facile par des expériences de mutagénèse de vérifier la liaison/non-liaison du composé à ce site. 10 Exemple: Le criblage des sites de liaisons (ou des régions complémentaires de ces composés) de composés tels que le mannose, le FAD, le NAD (pour Nicotinamide Adénine Dinucléotide), le NAG (pour N-AcetylGlucosamine), 15 l'ATP, l'eugénol, le menthol, le dithranol, etc. permet de déterminer des régions d'autres molécules également capables de lier soit le même composé criblé, soit des composés proches du composé cribler (données observées dès lors que les paramètres de tolérance du score d'énergie utilisés pour la comparaison des régions sont augmentés). 20 Recherche de composés pouvant lier une réqion moléculaire Nous avons vu précédemment qu'il était possible de cribler une région R afin de récupérer l'ensemble S des régions similaires présentes sur d'autres structures moléculaires. Nous avons également vu qu'il arrive 25 que l'une des régions de cet ensemble S soit connue pour interagir avec un partenaire macromoléculaire, ce qui nous permet d'inférer que la région R interagit avec ce même partenaire macromoléculaire. Selon une forme de réalisation similaire, il est également possible de chercher parmi l'ensemble S des régions similaires à la région R d'une 30 molécule A, si l'une des régions de S est connue pour interagir avec un composé. Si les paramètres de tolérance pour la comparaison des régions 2948475 107 sont faibles, ledit composé liant une région de S sera également capable de lier la région R de la molécule A. Selon cette forme de réalisation, on récupère donc un ensemble de composés capables de lier une région donnée d'une molécule. 5 Recherche des architectures de composés pouvant lier une région moléculaire donnée Selon une variante du procédé précédent, si les paramètres de tolérance pour la comparaison des régions sont plus élevés, le criblage 10 renseignera également sur un ensemble S de régions proches de R, mais pas nécessairement identiques. Par conséquent, les composés capables de lier les régions de S ne seront pas nécessairement capables de lier la région R de la molécule A. En revanche, ces composés sont capables de lier des régions proches de la région R, par conséquent ils fournissent une 15 base de travail pour la recherche de composés pouvant lier R. En particulier, on dira qu'un tel procédé permet de déterminer des architectures de composés capables de lier R. Ces architectures doivent cependant être remaniées afin de correspondre davantage aux propriétés de R, par exemple en retirant, ajoutant ou modifiant un groupement fonctionnel. 20 Recherche de la spécificité des réqions et des points d'ancraqe d'une molécule ou d'une cible moléculaire Le développement de composés actifs passe traditionnellement par la détermination de cibles moléculaires ainsi que par la détermination de 25 composés actifs et spécifiques. L'efficacité d'un composé est dépendante à la fois de l'affinité qu'il a avec sa cible d'intérêt, mais aussi de l'affinité qu'il pourrait avoir avec d'autres cibles (créant ainsi un équilibre thermodynamique entre les différentes formes libres et liés du composés). Jusqu'à présent, seule 30 l'affinité du composé pour sa cible d'intérêt pouvait être modulée en raison de l'impossibilité d'évaluer la spécificité dudit composé avec d'autres cibles s 2948475 108 moléculaires très difficilement détectables. Dans le procédé qui va suivre, nous présentons une approche permettant de tenir compte de la spécificité dudit composé avec ses autres cibles, de sorte que l'on puisse augmenter son affinité avec sa cible d'intérêt, en diminuant son affinité avec ses autres 5 cibles moléculaires. Au cours des procédés précédents, nous avons montré comment il était possible de cribler une région afin de retrouver les régions similaires, ainsi que comment cribler un composé pour déterminer ses cibles moléculaires. Aussi, lorsque l'on raisonne à partir de la structure du 10 composé, une première approximation de la spécificité dudit composé (et/ou de son site de liaison) est donnée par conséquent par le nombre de ses cibles détectés. Plus précisément, il est possible d'évaluer la spécificité d'action d'un composé en criblant les complémentaires des régions et/ou de l'enveloppe dudit composé sur une base de données des régions 15 moléculaires propres à un tissu ou à un groupe de tissus. Une telle base de données regroupent alors l'ensemble des régions de structures moléculaires connues ou prédites, qui sont exprimées dans un ou plusieurs tissus. Le criblage sur une telle base de données permet alors d'évaluer la spécificité d'action du composé pour ce ou ces tissus. 20 Après l'identification d'une cible moléculaire d'intérêt, il est également possible de déterminer quelles sont ses régions les plus spécifiques (respectivement. les moins spécifiques) en criblant chacune d'entre elles et en récupérant à chaque fois, le nombre de régions similaires détectées sur d'autres molécules et pour un tissu (ou plusieurs tissus) donné. 25 Un exemple de réalisation consiste donc, pour toute région R d'une molécule A, à déterminer son indice de spécificité en comptant le nombre N de régions qui lui sont similaires, et d'assigner ce nombre N à chacun de ses points. Le procédé est répété de façon itérative pour chacune des régions de A et pour chacun des points de ces régions, si bien que comme 30 un point peut-être partagé par plusieurs régions, l'indice de spécificité du 2948475 109 point est alors égale à la somme des indices de spécificité des régions qui le contiennent. On obtient alors bien à la fois un indice de spécificité pour chacune des régions de la structure moléculaire, mais aussi un indice de spécificité 5 en chaque point de la structure moléculaire. Comme on le verra plus loin, cette cartographie de la spécificité permet par conséquent d'indiquer quelles sont les régions les plus (respectivement les moins) spécifiques de la molécule. Cette information revêt donc une importance particulière pour la sélection d'une région à cibler par un composé. En effet, on préférera alors 10 choisir des régions très spécifiques de la molécule afin d'éviter des interférences avec d'autres molécules de l'environnement. Ces interférences diminuent notamment la spécificité d'action du composé, mais risquent également de provoquer des effets secondaires et/ou toxique. Selon une autre forme de réalisation, lorsque l'on s'interesse 15 s'intéresse à une région précise d'une molécule, il est possible de cribler cette région afin de récupérer un ensemble S de régions similaires ou proches. A partir de cet ensemble S de régions alignées, il est notamment possible de calculer l'écart type des propriétés remarquables en chaque point de ces régions. En effet, toutes les régions de S étant alignées, à un 20 point PI d'une région S1 correspond N points alignés Pi sur toutes les autres régions Si de l'ensemble S. Dès lors, il est possible de définir une liste L pour chaque propriété remarquable, à partir des états de chacun des points Pj alignés au point P1. Exemple: 25 Soient P1, P2 et P3 trois points alignés de trois régions distinctes Ra, Rb et Rc. Soient Cl, C2 et C3 les courbures respectives des points P1, P2 et P3. Il est donc possible de calculer la moyenne de ces courbures, ainsi que l'écart type sur ces valeurs, par les méthodes usuelles (cf cartographie moléculaire et comportement moyen/variation des propriétés). 30 Ainsi, pour chacun des points Px d'une région Si, il est possible de définir l'écart type sur les propriétés remarquables, observés avec chacun 2948475 110 des points Pj des régions alignées Si. Cette seconde forme de cartographie permet alors de définir une spécificité fine en chacun des points d'une région donnée. Cette cartographie fine peut notamment être utilisée afin de déterminer les points d'ancrages les plus spécifiques d'une région donnée. 5 En retour, ces points d'ancrages permettent de renseigner sur la forme et la composition que devrait avoir un composé afin d'être spécifique de cette cible.

Création de profils d'interactions pour une région donnée ou pour un 10 ensemble de régions données: les puces d'interactions Afin de faciliter la visualisation et l'interprétation des données de criblage, il est possible de déterminer des profils d'interactions pour chaque région (ou pour tout ou partie des régions d'une molécule). Afin que ce profil d'interaction soit informatif, celui-ci est défini dans une matrice en deux 15 dimensions, de sorte qu'il soit possible de le représenter par une image colorée. Une forme de réalisation de ce profil d'interaction consiste à classer en horizontal les différents tissus, et en vertical, de classer les voies métaboliques ou de régulations ou de signalisation pour chacun des tissus 20 ou inversement. Si bien que pour tout point (x, y) d'un tel profil, il est possible de préciser dans quel tissu se fait l'interaction, et quelle voie métabolique/voie de régulation/voie de signalisation est affectée. Ce profil d'interaction peut notamment être utilisé afin de comparer le spectre d'action de composés dans différents tissus. Il peut également être utilisée 25 afin de déterminer les partenaires spécifiques et non-spécifiques d'une cible, par rapport à un tissu donnée (exemple: les molécules A et B interagissent dans le tissu musculaire, mais n'interagissent pas dans le tissu neuronal). Selon une autre forme de réalisation des profils d'interactions, les 30 voies métaboliques/de régulations/de signalisations sont classées en horizontal, et les familles moléculaires sont classées en vertical. Si bien que s 2948475 111 pour tout point (x, y) d'un tel profil, il est possible de préciser quelle est la voie métabolique/de régulation/de signalisation touchée, ainsi que la famille de molécules touchée. Remarque: de nombreuses bases de données telles que Uniprot, 5 KEGG, GO renseignent sur les différentes voies métaboliques/de régulations/de signalisations, ainsi que sur l'appartenance à une famille moléculaire. L'utilisation de ces profils d'interactions facilite la comparaison des tissus touchés et des modes d'actions enclenchés par tout composé 10 moléculaire ou par toute macromolécule. En particulier, nous avons vu précédemment qu'il était possible de cribler une même région fonctionnelle sous sa forme active et sa forme inactive (par exemple dû à la liaison d'un tierce partenaire, ou dû à une maladie génétique). La comparaison des profils d'interactions issus de la forme active et de la forme inactive permet 15 alors de renseigner rapidement sur les voies dont l'activation est modifiée, fournissant ainsi une meilleure compréhension des conséquences cellulaires, de ces interactions moléculaires.

Graphes des interactions moléculaires à partir du criblage et des profils 20 d'interactions Essentiellement, la méthode de criblage permet de mettre en évidence et de détailler les régions responsables de fonctions moléculaires, en particulier d'interactions moléculaires. Il est donc possible de créer une représentation sous forme de 25 graphe de ces interactions. En particulier, une forme de réalisation consiste en ce que chaque noeud du graphe représente une molécule, et chaque arête du graphe représente une interaction entre ces molécules. L'arête peut alors être étiquetée afin de décrire l'interaction en précisant pour chacun des deux noeuds reliés (chacune des molécules reliées), quelles 30 sont les régions interagissantes de cette interface (ainsi que décrit et détecté par les procédés de criblage de régions). s 2948475 112 Selon une variante de cette forme de réalisation, une molécule peut-être décrite par un ensemble de noeuds interconnectés et rassemblés, de sorte que la molécule est représentée par un amas de noeuds (correspondant à ses régions) localisés dans l'espace. Des algorithmes 5 performants de représentations de graphes existent pour parvenir à cette réalisation, notamment par des logiciels tels que GraphViz. Il est alors possible de préciser les interactions entre molécules en reliant directement les noeuds représentatifs à la fois d'une molécule et d'une région moléculaire. 10 Selon une variante de ces formes de réalisations, il est également possible de créer des calques d'images, représentatifs d'un type d'interaction moléculaire (ainsi que détaillé précédemment: protéine-protéine, protéine-ADN, protéine-ARN, protéine-ligand, etc). Ainsi, il est possible de ne s'intéresser qu'à un seul type d'interaction moléculaire, 15 simplifiant ainsi la visualisation de ces données. Selon une variante de cette réalisation, il est également possible de créer des calques d'images, représentatifs de la localisation cellulaire/tissulaire des molécules. Il est alors possible de simplifier la visualisation des interactions en ne s'intéressant qu'à celles qui ont lieu 20 dans un type cellulaire et/ou tissulaire. En particulier, il est possible de ne considérer que les interactions pour lesquelles au moins une (ou les deux) molécule est connue pour être présent dans ce type cellulaire et/ou tissulaire. Selon une autre variante, il est également possible de créer des 25 calques d'images, représentatifs d'une ou plusieurs voie métabolique/de signalisation/de régulation. II est alors possible de simplifier la visualisation des interactions en ne s'intéressant qu'à celles dont l'une au moins des molécules interagissantes agit dans la voie métabolique/de signalisation/de régulation. 30 Les arêtes représentant les interactions peuvent également être colorées afin de correspondre aux catégories du scores de confiance s 2948475 113 (décrites à partir du découpage en intervalle du score d'énergie normalisée) afin de préciser visuellement quelles sont les interactions prédites avec le plus de certitude (respectivement avec le moins). Selon une variante de ces réalisations, il est également possible de 5 créer des calques d'images, représentatifs des catégories de confiance, déterminées à partir des scores d'énergie découlant de la comparaison des régions. Il est ainsi possible de ne représenter que les interactions moléculaires de catégories A, les plus sûrs, et ainsi de suite jusqu'à la dernière catégorie, ayant un taux de confiance relativement faible. 10 Evaluation et classification d'un potentiel de toxicité d'une molécule par l'analyse des perturbations d'interfaces biologiques induites par ladite molécule Il est possible d'évaluer un potentiel de toxicité d'une molécule. 15 Le potentiel de toxicité d'une molécule A est considéré comme étant la perturbation d'une ou de plusieurs interfaces biologiques. Selon une première forme de réalisation, on détermine les régions complémentaires de la molécule A. Ces régions complémentaires reflètent la forme ainsi que les 20 propriétés physico-chimiques que devrait avoir une région moléculaire afin de lier ladite molécule. En d'autres termes, en recherchant parmi un ensemble de régions, les régions complémentaires de A, nous recherchons les sites de liaisons potentielles (et molécules associées) de la molécule A. Ce procédé est similaire à celui présenté pour la recherche de partenaires 25 moléculaires et de cibles moléculaires. Selon cette forme de réalisation, nous récupérons donc un ensemble S de régions susceptibles de pouvoir lier la molécule A. On recherche alors si l'une des régions de S est connue pour lier un partenaire moléculaire M, et si oui, en précisant son type moléculaire. Si 30 une telle région R est capable de lier à la fois la molécule A et de lier une autre molécule M, il y a donc un équilibre thermodynamique de réactions s I 2948475 114 qui va se former. Cet équilibre précise qu'au niveau de cette région R, il y aura une compétitivité pour lier soit A, soit M. Par conséquent, l'affinité (la constance d'association) de l'assemblage biologique région R-M est diminuée, ce qui peut induire un risque de toxicité. Le potentiel de toxicité 5 d'une molécule A est en effet considéré comme étant la perturbation d'une ou plusieurs interfaces biologiques. II est en particulier possible de classifier les différentes interfaces biologiques, notamment afin de différencier les interfaces de type macromolécule ù molécule (ex: protéine-ligand, ADN-ligand), des interfaces de type macromolécule ù macromolécule (ex: 10 protéine-protéine, protéine-ADN, etc). La perturbation de ces deux grands types d'interfaces biologiques n'induisant à priori pas un même risque. Selon une deuxième forme de réalisation, proche de la première, on utilise des sites de liaisons déjà identifiés pour la molécule A. De la sorte, on s'affranchit de l'étape qui consiste à générer les complémentaires des 15 régions, réduisant ainsi le risque d'erreurs. Tout comme dans la première forme de réalisation, nous recherchons alors si le site de liaison de la molécule A est similaire à un ou plusieurs sites de liaisons d'interfaces biologiques. Si oui, cela signifie que la molécule A peut interagir au niveau de ces autres interfaces biologiques, provoquant ainsi une perturbation de 20 ces assemblages biologiques, et induisant alors possible potentiel de toxicité. En variante de ces formes de réalisation, on réalise un criblage de la région complémentaire (ou du site de liaison) d'une molécule A, sur une base de données ne contenant que les régions moléculaires identifiées pour 25 être des sites de liaisons d'interfaces biologiques. On réduit alors considérablement le nombre de régions à comparer. De façon générale, le potentiel de toxicité d'une molécule A est important si A perturbe une interface biologique de macromolécule (ex: protéine-protéine, protéine-ADN). Si A perturbe une interface biologique 30 contenant au plus une macromolécule (c'est-à-dire macromolécule- molécule ou molécule-molécule), le potentiel de toxicité est plus difficile à s 2948475 115 déterminer (de tels exemples, de composés rentrant en compétition avec I'ATP sans toutefois provoquer de toxicité sont connus). Il est notamment possible de tenter de faire correspondre le potentiel de toxicité avec l'aire (ou les aires) de chaque interface biologique perturbée. 5 Ce procédé permet uniquement de prédire un risque de toxicité induit par une molécule. En effet, en raison du nombre limité de structures moléculaires, il est pour le moment impossible que ce procédé soit utilisé afin d'affirmer que la molécule ne produit pas de toxicité. Néanmoins, ce procédé permet d'identifier les interfaces biologiques qui pourraient être 10 perturbées par une molécule. On peut alors mieux comprendre les causes moléculaires de cette toxicité, et donc possiblement, de proposer des solutions pour diminuer cette toxicité (voir le procédé sur le sauvetage dirigé de composés toxiques que nous détaillerons par la suite). Par ailleurs, seul un nombre limité d'interfaces biologiques ont été 15 décrits dans la littérature scientifique. II est donc possible d'inclure des interfaces biologiques, prédites par exemple par nos méthodes de criblages, ou bien par des expériences d'amarrage moléculaire ( Docking ).

20 Evaluation et classification d'un potentiel de toxicité d'une molécule en utilisant le profil d'interactions de ladite molécule: les puces de toxicité Nous avons vu que l'on peut évaluer un potentiel de toxicité molécule sur le fondement des risques de perturbation de ses interfaces biologiques. On peut cependant évaluer ce potentiel de toxicité évalué à partir de 25 son profil d'interaction, notamment en raison des connaissances limitées sur les interfaces biologiques. Pour ce faire, plusieurs ensembles de composés connus pour induire des toxicités différentes (appartenant à des classes de toxicité telles que I'allergénicité, la sensibilité, la neurotoxicité, etc.) sont criblés, de sorte que 30 l'on obtienne pour chacun de ces composés, les profils d'interactions correspondants. En parallèle, plusieurs ensembles de composés ayant des 2948475 116 propriétés et tailles variées, mais connus pour n'induire aucune réponse toxique sont criblés. On obtient alors un second jeu de profils d'interactions correspondant aux composés non toxiques. Selon une première forme de réalisation, la toxicité d'un composé est 5 évaluée à partir de sa ressemblance à l'un au moins des profils N d'interactions N de composés toxiques et des profils d'interactions T, de composés non toxiques. Une distance euclidienne est alors calculée à partir de la somme des interactions communes au composé et à l'ensemble N (extraites des profils d'interactions), ainsi qu'à partir de la somme des 10 interactions communes au composé à et l'ensemble T. Le composé est alors décrit comme présentant un risque de toxicité si la distance qui le sépare à l'ensemble N est inférieure à un certain pourcentage de la distance à l'ensemble T (i.e. Si le composé a donc un profil d'interaction plus proche de celui des composés toxiques, que des composés non toxiques). 15 Selon une seconde forme de réalisation, pour chaque classe de toxicité étudiée à partir de N profils d'interactions, on recherche les interactions communes à tout ou partie de l'ensemble N (i.e. les interactions toujours/fréquemment induites par un composé de cette classe de toxicité). On recherche également les interactions communes à tout ou partie de 20 l'ensemble T des profils d'interactions issus du criblage des composés non toxiques (i.e les interactions toujours/fréquemment induites par des composés non toxiques). Par différence, on observe alors les interactions qui ne sont induites que par les composés toxiques. Ces interactions et donc ces sites de liaisons sont alors des biomarqueurs d'une ou plusieurs 25 classes de toxicité. Selon une troisième forme de réalisation proche de la seconde, on identifie les biomarqueurs de chaque classe de toxicité, en identifiant les sites de liaisons liant toujours/fréquemment les composés toxiques de cette classe (et ne liant pas les composés non toxiques ni les composés toxiques 30 d'autres classes). s Ô 2948475 117 Selon ces formes de réalisations, la toxicité est donc évaluée à partir des profils d'interaction d'une molécule, c'est-à-dire des interactions que peut faire la molécule dans un contexte cellulaire/tissulaire. L'avantage de ce procédé par rapport au précédent procédé d'évaluation de la toxicité, 5 tient en ce qu'il ne repose sur aucun a priori sur les régions pouvant être perturbées: ici, on ne considère pas uniquement les sites de liaisons connus, mais véritablement toutes les régions moléculaires connues. La sensibilité de la méthode est donc accrue: 1) parce que tous les sites de liaisons d'interfaces biologiques ne sont pas connus et 2) parce que la 10 toxicité peut également être la conséquence de phénomènes plus complexes (telle que la synergie de plusieurs interactions, ou telle que la perturbation de la stabilité d'une molécule). Par ailleurs, la nouvelle réglementation européenne REACH encourage vivement le développement et l'utilisation de nouvelles méthodes 15 alternatives (notamment in silico) d'évaluation de la toxicité. Ces deux procédés (évaluation de la toxicité par l'analyse des interfaces biologiques perturbées, et évaluation de la toxicité par l'analyse des profils d'interactions).

20 Cartographie moléculaire permettant de rassembler et résumer les différentes connaissances produites par les applications précédentes sur une seule et même structure moléculaire Au cours des différents procédés qui ont été décrits ci-dessus, de nombreuses données biologiques sont générées, notamment sur les sites 25 de liaisons, partenaires moléculaires, régions druggables, régions spécifiques et risques de toxicité. De telles approches de criblage (qu'elles soient in vivo, in vitro ou in silico) génèrent toutefois un grand nombre de données qu'il est souvent difficile de traiter et pour lesquelles il est difficile d'avoir une vue d'ensemble. 30 Nous avons vu précédemment qu'il était possible de générer des visualisations sous forme de graphes avec calques, et nous avons Ô 2948475 118 également vu qu'il était aussi possible de générer des profils d'interactions afin de faciliter l'accès à ces données. Une troisième forme de réalisation pour faciliter l'accès et la visualisation de ces données biologiques produites par des méthodes de 5 criblage est de construire une cartographie moléculaire. Une telle cartographie consiste à assigner à chaque point et/ou à chaque région d'une structure moléculaire, une valeur représentative d'un état donné. Pour une structure moléculaire, les méthodes de criblage de régions présentées permettent par exemple de détecter des sites de liaisons Li de cette 10 molécule, ainsi que les partenaires moléculaires M correspondant. Pour chaque site de liaisons L, il est donc possible d'assigner une valeur caractérisant le type du site de liaison. En particulier, il est possible de préciser que les points constituant ce site de liaison (et donc, les atomes et/ou résidus relatifs à ces points) servent à former des assemblages avec 15 un partenaire de type protéique, peptidique, acide nucléique, etc. Selon cette forme de réalisation, on cartographie alors sur la surface moléculaire, la capacité de chaque point et de chaque région de la molécule à participer à un ou plusieurs type d'interaction précis.

20 Exemple: Si deux sites de liaisons LI et L2, retrouvés à partir du criblage d'une région R d'une molécule A sont retrouvés, alors la capacité d'interagir de la région R est définie par la réunion des deux états de L1 et L2. Par exemple, si LI est connu pour former un assemblage avec des protéines et que L2 25 est connu pour former un assemblage avec des ligands, alors la région R sera définie comme ayant la capacité de lier et une protéine, et un ligand. Selon une variante de cette forme de réalisation, on étiquette également les régions LI et L2, de sorte que l'on conserve l'identité des partenaires P1 de la région LI, et les partenaires P2 de la région L2. En 30 plus de la capacité des régions LI et L2 à lier un (ou plusieurs) type moléculaire, reportée sur la région R, l'identité des partenaires P1 et P2 est s 2948475 119 également reportée sur la région R. Dès lors, la cartographie moléculaire ne renseigne non plus seulement sur la localisation de sites de liaisons sur la surface moléculaire (et leurs capacités à lier des types moléculaires particuliers), mais également sur les partenaires connus (ici P1 et P2) de 5 ces sites de liaisons moléculaires. Cette forme de réalisation vaut également lors des procédés de recherche de partenaires moléculaires en passant par les complémentaires des régions. Selon une variante de ces formes de réalisation, il est possible de cartographier la spécificité des régions et la spécificité des points 10 d'ancrages des sites de liaisons. Rappelons que le calcul de la spécificité des régions a été décrit dans l'un des procédés précédents comme étant le nombre de régions similaires retrouvées lors d'un criblage sur une base de données précise (représentant un contexte cellulaire / tissulaire / environnemental). II est donc possible de cartographier la spécificité des 15 régions et/ou des points de la structure moléculaire à partir des valeurs de spécificité calculées. Les points de la structure moléculaire les plus spécifiques corrélant alors avec la notion de point chaud ( hot spot ) décrit en biologie structurale et en biochimie. Plus encore, la cartographie moléculaire peut-être utilisée afin de 20 résumer les variations observées sur toute propriété calculée lors d'un criblage (ex: courbure, charge, densité, malléabilité, conservation des résidus, orientation des normales, forme locale, etc). En effet, étant donné une liste Li de régions similaires à une région R donnée. Pour chaque couple (R, Li), il existe un schéma de correspondance entre les points de R 25 et les points de Li. II est donc possible d'analyser le comportement et les déviations d'une ou de plusieurs propriétés entre tout couple (R, Li). En particulier, il est possible de calculer la tendance moyenne des points de tous les couples (R, Li) afin de rendre compte de la tendance globale d'une (ou plusieurs) propriété en ces points. Il est également possible de calculer 30 l'écart type sur les variations de propriétés observées pour tous les couples (R, Li). s 2948475 120 Exemple: On cherche à déterminer le comportement moyen d'une propriété donnée en un point P d'une région R 5 Soient LI, L2 et L3 trois régions similaires à la région R et P1, P2, P3, les points respectifs de LI, L2 et L3, alignés avec le point P. Le point P (tout comme les points P1, P2 et P3) est caractérisé par un ensemble d'états de propriétés (décrits par une liste de valeurs réelles) caractérisant par exemple la courbure, la charge, la densité locale etc. Considérons la 10 propriété courbure , normalisée sur l'intervalle [-1, 1] avec des zones creuses en -1, des zones plates en 0 et des zones bosseuses en -1. Les états respectifs de cette propriété pour les points P1, P2 et P3 sont 0.7, 0.9, 0.6. Par conséquent, le comportement moyen au point P de la région R est donnée par la moyenne des états des points alignés P1, P2 et P3, soit ici 15 0,73. Une équation type pour calculer cette moyenne est: N moyenneE = 1 lE (i) P P N :=o Où moyenneEP est la moyenne des valeurs des états de propriétés définis dans la liste EP , et où N est le nombre d'éléments de la liste EP . 20 On cherche à déterminer les variations d'une propriété donnée en un point P d'une région R : En reprenant le même exemple que précédemment avec trois états de propriétés EP de 0.7, 0.9 et 0.6 pour trois points P1, P2 et P3 alignés 25 au point R, il est possible de calculer l'écart type en appliquant la formule commune: N std (E ) = 1 1(E (i) ù moyenneE P N =o P P 1 où std(Ep) renvoie l'écart type de la liste des états de propriétés Ep , et où N est le nombre d'états définis dans Ep , et où moyenneE est la valeur p moyenne des éléments de Ep .

Selon cette forme de réalisation, la cartographie moléculaire permet donc de renseigner non seulement sur le comportement moyen d'une ou de plusieurs propriétés pour tout point (respectivement toute région) d'une structure moléculaire, mais également de renseigner sur ses variations. En particulier, un tel procédé a des applications importantes afin de déterminer de façon systématique et d'observer les changements de propriétés d'une structure moléculaire sous différents contextes (lorsque la région est sous forme libre, c'est-à-dire ne liant aucun partenaire, ou bien lorsque la région est sous forme liée, c'est-à-dire liant au moins un partenaire d'un type moléculaire donné). Notamment, il est possible alors d'observer les changements de conformations (de formes) de la structure moléculaire en ces points (respectivement régions) lors de la formation d'un assemblage moléculaire. De la même façon, il est possible d'observer des changements dans la répartition des charges, ou bien dans les densités locales, ou même la solvatation des atomes et résidus de surface (identifiés par les points 3D de la représentation de la structure moléculaire). En particulier, la solvatation peut-être calculée comme étant l'interaction d'un point d'une structure moléculaire (relatif à un atome/résidu de ladite molécule) avec au moins une molécule d'eau. En raison du manque de données sur la localisation de ces molécules d'eau dans les structures moléculaires (à la fois dû à des résolutions parfois trop basses, mais aussi par un manque de conventions sur la nécessité de résoudre la localisation de ces molécules d'eau autour des macromolécules), il est particulièrement important de cartographier l'état de solvatation d'un point P (respectivement d'une région) à partir de la moyenne des états solvatés ou non solvatés sur les points alignés Pi. En effet, cette moyenne, plus 2948475 122 robuste, permet alors de diminuer les sources d'erreurs énoncées et de repérer les points qui sont généralement en contact avec l'eau dans un contexte donné. Le fait de classer les régions similaires obtenues à partir d'un criblage 5 en fonction du contexte dans lequel est trouvé la région est donc particulièrement important (description de la forme libre ou liée de la région; et si sous forme liée, considéré le type d'interaction moléculaire). En effet, le fait de considérer un ensemble de régions dans un contexte environnemental donné nous permet alors d'étudier cette région avec une 10 vue dynamique, c'est-à-dire d'observer les changements de comportements (de propriétés) dans différents contextes moléculaires et cellulaires. Remarque: s'il est possible de classer les régions criblées en fonction du contexte dans lequel sont les régions similaires, il est également possible de considérer le contexte des structures moléculaires portant ces 15 régions similaires. On regardera alors par exemple si la structure moléculaire est seule ou en interaction avec d'autres partenaires, ainsi que les conditions physico-chimique qui ont permis d'obtenir ladite structure, notamment la présence de ligands. Plus généralement, le concept de cartographie moléculaire appliqué 20 au criblage permet de rassembler et de résumer simplement sur une seule structure moléculaire, l'ensemble des données biologiques: que ce soit des états de propriétés physico-chimiques, géométriques ou évolutifs, ou que ce soit la capacité d'une région à interagir avec un ou plusieurs types moléculaires, ou bien encore la spécificité de points ou de régions de la 25 structure moléculaire. Il est également possible d'ajouter une cartographie pour la mise en garde des régions trop peu spécifiques et dont la création de ligands pourrait induire des toxicités.

Méthode de sauvetage dirigée des composés toxiques en fonction des 30 profils d'interactions et des spécificités du composé et de ses cibles 2948475 123 Au cours des procédés précédents, nous avons décrits comment il était possible d'attribuer des fonctions et comportements biologiques à des régions d'une structure moléculaire. Nous avons également décrit qu'il était possible de procéder à une cartographie moléculaire afin de préciser les 5 différents sites de liaisons connues de ladite molécule, ainsi que les partenaires correspondants. Ces méthodes de criblage décrivent avec un haut degré de précision une structure moléculaire, jusqu'à indiquer les régions spécifiques de celle-ci, et les régions pouvant présenter un risque d'interférence avec d'autres • 10 molécules. Deux procédés d'évaluations de la toxicité ont été proposés, un premier visant à vérifier que la molécule étudiée ne perturbe pas les interfaces biologiques connues: le second visant à déterminer le profil d'interactions de ladite molécule et de les comparer aux profils d'interactions 15 de molécules toxiques (en différenciant les types de toxicités) et de molécules non toxiques (molécules naturelles ou commercialisées et dont la toxicité n'est pas connue). Les deux procédés renseignent sur les interférences possibles avec d'autres régions moléculaires, proposant ainsi une ou plusieurs cause 20 moléculaire à cette toxicité. Etant donnée une molécule M ayant pour cible un site de liaison L. e Le criblage de M indique qu'elle pourrait interférer avec d'autres régions Ri. A partir de l'alignement de L avec toutes les régions Ri, il peut-être possible d'observer des différences géométriques et physico-chimiques entre les 25 points de L et les points de toutes les autres régions Ri. Ces différences localisées (et qui peuvent-être calculée de façon automatique en déterminant par exemple la moyenne et l'écart type d'une ou plusieurs propriétés pour tous les points alignés des Ri avec un point de L) nous informent sur les points d'ancrages spécifiques et non-spécifiques de L. Par 30 complémentarité avec ces points d'ancrages spécifiques de la région L, il est alors possible de déterminer les points de contacts idéaux d'un i 2948475 124 composé spécifique. En particulier, partant du composé provoquant ces risques de toxicité, il est possible de modifier légèrement sa structure afin de cibler plus particulièrement les points d'ancrage spécifiques de L, et/ou de se rendre moins spécifiques des autres points, communs à toutes les 5 régions Ri. Ces modifications légères du composé peuvent notamment être effectué en rajoutant ou supprimant des groupes méthyles ou d'autres groupements fonctionnels connus de la chimie organique et/ou inorganique. Cette méthode de sauvetage dirigée de molécule toxique consiste donc à déterminer l'ensemble des cibles moléculaires de la molécule 10 toxique, puis de comparer ces régions cibles avec la région L que l'on veut cibler spécifiquement. A partir des cartographies moléculaires et de l'observation des comportements et variations des états de propriétés pour ces régions alignées, il est alors possible de déterminer les sous-régions qui sont spécifique de L, et celles qui ne le sont pas. En changeant légèrement 15 la structure de la molécule, soit afin de la rendre plus spécifique de ces sous-régions spécifiques de L, soit afin de la rendre moins spécifique des autres sous-régions communes à toutes les cibles, il est possible de diminuer voir d'annuler un potentiel de toxicité.

20 Exemple 1: Une molécule M portant un site d'intérêt L est ciblé par un composé A par l'intermédiaire de la région Lcomposé. Le criblage de la région L et/ou du complémentaire de la région Lcomposé permet de détecter une molécule B portant un site de liaison R et provenant d'une interface biologique de type 25 macromolécule-macromolécule. Il est notamment possible de visualiser l'alignement géométrique et physico-chimique de la région L avec la région R, de sorte que l'on puisse identifier facilement les points de ces régions qui se ressemblent le plus, et ceux qui diffèrent le plus (rappelons qu'un point d'une région fait référence à un ou plusieurs atomes et/ou résidus de la 30 molécule). On peut imaginer que la région R possède une sous-région localisée par exemple plus creuse ou plus chargée que la sous-région 2948475 125 équivalente sur L. Dès lors, pour rendre le composé plus spécifique de la molécule M et moins spécifique de la molécule B, il est possible de changer légèrement la structure du composé, de sorte que la sous-région du composé qui lie L soit respectivement moins bosseuse ou moins chargée.

5 Ces changements de la structure du composé tendent à le rendre plus complémentaire de L, et moins complémentaire de R (vis-à-vis des propriétés géométriques et physico-chimiques). On peut également imaginer que la région L possède une sous-région creuse que ne possède pas la région R. Par conséquent, il sera 10 possible de rajouter au composé un groupement d'atomes adéquats (chargés ou non en fonction de la sous-région creuse) qui puisse venir ce loger dans cette sous-région creuse. Cette modification qui joue sur la différence d'une sous-région de L et de R, permet d'empêcher la liaison du composé sur B par gêne stérique, tout en ne déstabilisant pas sa liaison sur 15 A. Exemple 2 : Une molécule M portant un site d'intérêt L est ciblé par un composé A par l'intermédiaire de la région Lcomposé. Le criblage de la région L et/ou du complémentaire de la région Lcomposé permet de détecter plusieurs 20 molécules B; portant un site de liaison R; proche de L. S'il est possible tout comme dans l'exemple précédent de visualiser chaque alignement de L avec un Bi, il sera ici plus avantageux de cartographier le comportement moyen des propriétés pour les régions B;, et de comparer ce comportement moyen à celui de L. Essentiellement, le fait d'observer les comportements 25 moyens des B;, permet de simplifier la visualisation des différences géométriques et physico-chimiques entre tous les B; et L. Dès lors, pour chaque sous-région présentant des différences, il est possible de traiter la structure du composé par des exemples similaires énoncés dans l'exemple 1. En particulier, on pourra s'intéresser aux sous-régions présentant des 30 différences entre tous les Bi (discrétisé par une région construite à partir des comportements moyens des propriétés) et L, et ne s'intéresser qu'aux Ô 2948475 126 sous-régions présentant de faibles écarts types. En effet, de faibles écarts types préciseront que pour tous les Bi, le comportement moyen observé varie peu. Aussi, lorsque l'on changera la structure du composé pour moins correspondre à ce comportement moyen des Bi, on s'assure de diminuer la 5 spécificité du composé pour tous les Bi, ou tout du moins, pour un grand nombre d'entre eux. Exemple 3 : Les deux exemples précédents nécessitaient la présence d'un utilisateur vérifiant visuellement les alignements du site de liaison d'intérêt L 10 avec le (ou les sites) site de liaison R d'une interface biologique perturbée. Rappelons cependant que le score d'énergie globale est calculé à partir de la somme de scores d'énergies locaux, eux même calculés par la comparaison des états de propriétés entre deux points alignés. Ces scores d'énergies locaux renseignent aussi bien sur la similarité que sur la 15 dissimilarité des deux régions en ces points. Par conséquent, le score d'énergie local permet de détecter en automatique les points des deux régions qui diffèrent le plus. Selon le procédé permettant de détecter les régions erreurs d'un alignement de deux régions, il est donc également possible de détecter en automatique les sous-régions de ces deux régions 20 alignées, qui diffèrent le plus. Dès lors, il est également possible de proposer en automatique des modifications du composé afin de jouer par exemple sur ces sous-régions qui diffèrent entre les régions R et L. Par exemple, si l'on modifie en automatique le composé de sorte qu'il puisse lier une sous-région spécifique de L et qui n'existe pas sur R, alors le composé 25 deviendra plus spécifique de la cible d'intérêt et moins spécifique de la cible (ou des cibles) non souhaitée.

Claims

REVENDICATIONS1. Procédé de caractérisation d'objets tridimensionnels comprenant les étapes consistant à : v) générer une reconstruction tridimensionnelle d'un objet tridimensionnel; vi) générer un maillage de l'objet, ledit maillage étant constitué et points reliés deux à deux par une arête ; vii) caractériser les points et/ou les facettes du maillage de l'objet 10 en fonction des états respectifs de propriétés remarquables en ces points ; et viii) segmenter l'objet en régions tridimensionnelles contigües à partir du maillage et de la caractérisation des points de l'objet. 15
2. Procédé de caractérisation d'objets tridimensionnels, dans lequel l'objet tridimensionnel est une molécule, ledit procédé comprenant les étapes consistant à : v) générer une reconstruction tridimensionnelle de la molécule; vi) générer un maillage de l'objet, ledit maillage étant constitué et 20 points reliés deux à deux par une arête ; vii) caractériser les points et/ou les facettes du maillage de la molécule en fonction des états respectifs de propriétés remarquables en ces points ; et viii) segmenter la molécule en régions tridimensionnelles 25 contigües à partir du maillage et de la caractérisation des points de la molécule.
3. Procédé selon l'une des revendications précédentes, dans lequel tout ou partie du maillage est transposé dans un graphe comportant des 30 points et des arêtes définis à partir des points et des arêtes dudit maillage, 127 2948475 128 et en ce que les étapes du procédé sont mises en oeuvre sur le fondement des points du graphe.
4. Procédé selon l'une des revendications précédentes, dans lequel 5 la segmentation de la surface en régions comporte les étapes suivantes : définir une valeur seuil ; assigner à chaque point une valeur correspondant à l'état d'au moins une propriété remarquable en ce point ; choisir un point A de l'objet tridimensionnel; assigner à chaque arête un poids local dépendant d'une valeur assignée à deux points reliés directement entre eux par ladite arête ; calculer le poids global de chaque point, ledit poids global correspondant à la somme des poids locaux des arêtes formant le plus court chemin entre le point choisi A et le point pour lequel on calcule le poids global; générer une région de l'objet, définie soit par l'ensemble des points pour lesquels le poids global associé à ces points est inférieur ou égal à la valeur seuil, soit par l'ensemble de points de cardinal égal à la valeur seuil dont les poids globaux associés sont les plus faibles.
5. Procédé selon la revendication 4, dans lequel les propriétés remarquables sont numérisables, et le poids d'une arête reliant directement deux points est défini comme étant la distance géodésique entre ces deux points, ladite distance étant calculée selon l'une des formules suivantes : 1 N l2 D ,, (s1 s2)-+CCIYa(P)E~[P(s1)-P(s2rl Ô 15 20 2948475 129 N D n (s1 S2)IP(s i=1 N D ((.. ((~~ n (`~1,`~2)_P ~~P(sl)-(S2y N D n (N1 N2)= lim P> P V JP(N1) - P(N2 )1n p i=1 où SI et S2 sont les deux points reliés par l'arête pour laquelle le poids 5 est calculé ; D, (S1 S2) est la distance géodésique séparant SI et S2, et définissant le poids de l'arête séparant ces deux points ; p est un entier supérieur ou égal à 1 ; P est l'ensemble des N propriétés remarquables sur le fondement 10 desquelles la distance géodésique D ,, (S1 S2) est calculée ; P;(S1) est la valeur numérique d'une propriété remarquable P; de P au point SI ; Pi(S2) est la valeur numérique de la propriété remarquable P; au point S2.
6. Procédé selon la revendication précédente, dans lequel la valeur de l'état de chaque propriété remarquable (P;(S1), P;(S2)) est pondérée respectivement par un coefficient déterminé afin de favoriser une ou plusieurs propriétés par rapport aux autres.
7. Procédé selon l'une des revendications 3 à 5, dans lequel : - la propriété remarquable est la localisation d'un point dans l'objet ; i 2948475 130 le poids local de l'arête D n (S1S2) est égal à la distance géodésique EPi entre les deux points directement reliés par l'arête ; et - le poids global d'un point donné est égal à la distance géodésique séparant ce point donné du point A choisi, ladite distance géodésique 5 correspondant à la somme des distances euclidiennes des arêtes formant le plus court chemin entre le point donné et le point A choisi.
8. Procédé selon l'une des revendications 4 à 7, dans lequel la segmentation de la surface en régions est en outre mise en œuvre suivant 10 un critère de forme, au cours duquel le poids local entre chaque point du maillage et le point A choisi est pondéré en fonction de sa direction et/ou de son orientation par rapport à un vecteur donné, selon l'une au moins des formules suivantes : w(Sls2)= D n (Sl S2)+Kd sm(V,S,S2 15 w(SI S2) ù D n (SI S2 )+ Ko sin V' S1 S2 ~Pr 2 w(Sls2)ù ` (SlS2)+Ko'[7L_[7C_r,S,s2)]IgII où V est le vecteur donné ; SI est un point ; S2 est un deuxième point ; 20 S1S2 est l'arête reliant directement SI et S2 ; Kd , Ko et Ko'sont des constantes ; IIgHI correspond au modulo de r ; (S,S2,V) est l'angle en radians entre le vecteur V et l'arête S,S2 ; I 2948475 131 D ,, (S1S2) est la distance séparant les points SI et S2 ; et EPi w(SIS2) est le poids local de l'arête S,S2 pondéré par rapport au vecteur V donné. 5
9. Procédé selon l'une des revendications 3 à 8, dans lequel on définit en outre un seuil minimal, et on élimine de la région obtenue l'ensemble des points pour lesquels le poids global est inférieur au seuil minimal. 10
10. Procédé selon l'une des revendications précédentes, dans lequel la segmentation de l'objet en régions est réalisée suivant les étapes suivantes : - générer une région quelconque de l'objet ; - définir la normale de la région en faisant la moyenne des normales des 15 facettes ou des normales aux points de la région selon la formule suivante : NR.=NS.= 1 ENS. card (NS ) cl?, où R; est la région quelconque de l'objet ; NR; est la normale de la région R; ; 20 Si est un point de la région R; ; NS, est la moyenne des normales aux facette comportant le point Si, ou la moyenne des normales aux point Si de la région; w(S,S2) est le poids local le l'arête S,S2 reliant directement SI et S2; - générer le contour de la région ; 25 - éliminer de la région l'ensemble des points du contour pour lesquels l'angle entre la normale à la région et la normale audit point dépasse l'angle seuil, de manière à obtenir une sous-région de la région 2948475 132 quelconque comportant l'ensemble des points de la région quelconque à l'exception des points du contour qui ont été éliminés; et réitérer les étapes de génération du contour et d'élimination des points à partir de la sous-région obtenue, jusqu'à ce que l'ensemble des 5 normales aux points du contour forme un angle au plus égal à l'angle seuil avec la normale à la région quelconque.
11. Procédé selon la revendication précédente, dans lequel le contour est généré selon les étapes suivantes : 10 1. choisir un point (Ci) de la région quelconque; 2. définir un angle seuil ; 3. déterminer le point le plus éloigné (CPi) de la région quelconque pour lequel la distance géodésique séparant ledit point (CPi) du point choisi (Ci) est la plus grande ; 15 4. parmi les points de la région qui sont directement adjacents au point le plus éloigné (CPi), déterminer le point (Poe ) qui est séparé du point choisi (Ci) par la distance géodésique la plus grande ; et 5. réitérer l'étape 4. à partir du point déterminé (Pde; ), de manière à obtenir un ensemble de points (Pace, ,Padi.f,; , ..., Pa4;7+n) situés à la 20 limite extérieure de la région, et ce tant que le point obtenu (Pae,n ) est différent du point choisi (CPi ), ledit ensemble de points (Pa* , Pa4,+<i , Paai,+n ) formant le contour de la région.
12. Procédé selon l'une des revendications 10 ou 11, dans lequel la 25 moyenne des normales aux facettes ou des normales aux points de la région est pondérée par la distance géodésique de la normale au point choisi (C;) et/ou l'aire de la facette comportant la normale.
13. Procédé selon l'une des revendications 10 ou 11, dans lequel le 30 point choisi (C;) est le barycentre de la région (R) ou le centre de la région. 2948475 133
14. Procédé selon l'une des revendications précédentes, comportant en outre une étape au cours de laquelle les régions d'un objet comportant au moins un pourcentage déterminé de points communs sont éliminées. 5
15. Procédé selon l'une des revendications précédentes, dans lequel lorsque l'élément est un objet déformable, un ensemble de conformations stables de l'objet et/ou des régions sont générées de manière à obtenir une pluralité d'objets secondaires, et le procédé est appliqué à l'ensemble des 10 objets secondaires ainsi obtenus.
16. Procédé selon l'une des revendications précédentes, dans lequel les propriétés remarquables sont des propriétés géométriques, physico- chimiques et/ou évolutionnistes, et l'étape de caractérisation consiste à 15 déterminer l'état de l'une au moins des propriétés remarquables suivantes : i) la localisation spatiale du point ; ii) la courbure locale d'une surface ; iii) le potentiel électrostatique local ; iv) le groupement chimique fonctionnel ; 20 v) la déformabilité ; et/ou vi) la densité locale.
17. Procédé selon la revendication précédente, dans lequel la courbure locale en un point Si de la région est obtenue selon les étapes 25 suivantes : 1. définir une distance seuil, 2. déterminer l'ensemble des points S, , S2 , ..., Sn de la région pour lesquels la distance au point est inférieure à la distance seuil ; 5 2948475 134 3. déterminer, pour chacun des points S, , S2 , ..., Sn obtenus à l'étape 2., les transposées S,T , S2T , ..., SnT en ces point par leur normale NS1, NS2 ,..., NS,, respectivement ; 4. calculer la courbure locale C(S1) au point Si selon, l'une des formules suivantes : 1 d(SiTStT) card(S,,S2,...,S,,)s;cs,s2,...,s,, d(S1S,) (NS, , NS. ) I0.5+ Kir (NS, , NS. ) 0.5 ù Kir d(S.T S.T ) si ' <Q d(S1Si ) 1 tard (S, , S2 ,..., Sn) si d(STS.T) si ' >0 d(S,S; ) a. C(S,)= b. C(S,) = c. C(S,) = (NS.,NS.) 1 0.5 + ' Kit Ld(S,,Si ) s.cR Ld(S,, 1 s~ csäsz,...,sn d(S,TS.T) si ' >o d(S,S; ) s (ç;1;ç;-.) .d(S.TST ) 0.5- si ' <0 Kir d (S, Si ) Ld(S,,Si ) où d(S~S,) est la distance géodésique entre les points S . et S, ; K et L son des facteurs de pondération.
18. Procédé selon la revendication précédente, dans lequel la 15 courbure locale est ajustée de manière à rendre des valeurs sur l'intervalle [-1,1] selon la formule suivante : C[ ,,1] (S;) = 2C(Si) -1 10 2948475 135 où C(Si) est la courbure locale au point Si ; C[_äi(S,) est la courbure locale ajustée de manière à rendre des valeurs sur l'intervalle [-1,1]. 5
19. Procédé selon l'une des revendications précédentes, caractérisé en ce que la région comporte des points de surface et/ou des points internes à l'objet.
20. Procédé selon l'une des revendications précédentes, dans lequel 10 l'objet tridimensionnel est modélisé au moyen du Complexe de Delaunay, du pavage de Vonoroï, de la forme alpha d'Edelsbrunner, d'une approche de type marching cube ou d'une approche de type marching tetraedra.
21. Procédé selon l'une des revendications précédentes comportant 15 en outre une étape de comparaison au cours de laquelle des états prédéterminés des propriétés remarquables d'une région à comparer sont comparés aux états des mêmes propriétés remarquables de régions connues. 20
22. Procédé selon la revendication précédente, dans lequel on élimine une partie des régions à comparer au moyen d'au moins un filtre parmi le groupe suivant : - comparaison de la forme globale des régions; - comparaison des rapports entre le rayon euclidien et le rayon 25 géodésique de chaque région; - comparaison de la composition des régions en fonction d'au moins une propriété remarquable ; - comparaison de la distribution d'au moins une propriété remarquable dans les régions ; - utilisation d'une représentation simplifiée de l'objet ou de la région parmi les représentations du groupe suivant : forme alpha du complexe 2948475 136 de Delaunay, ou un graphe dans lequel les points de l'objet ou de la région qui se ressemblent sont contractés au niveau de noeuds du graphe de sorte que plusieurs points ayant une même propriété soient rassemblés en un seul point. 5
23. Procédé selon l'une des revendications 21 ou 22, dans lequel l'étape de comparaison de deux régions comporte en outre les étapes suivantes : - calculer un score d'énergie local pour chaque alignement et pour chaque 10 couple formé de deux points alignés appartenant respectivement aux deux régions qui sont comparées, ledit score étant fondé sur les valeurs des états desdites propriétés remarquables en ces points et calculé selon la formule suivante : r=i 15 où RI et R2 sont les régions à comparer ; SI et S2 sont deux points des régions RI et R2 respectivement pour lesquels est calculé le score d'énergie local ; Score,oc0,(S,,S2) est le score d'énergie local aux points SI et S2 pour l'ensemble des propriétés PI, P2, ..., PN étudiées ; 20 a; est le paramètre de pondération du score Scorep;(S1, S2) de la propriété P; pour les points SI et S2 des régions RI et R2 respectivement ; et - classer tout ou partie des alignements possibles des régions en fonction de leur score d'énergie global respectif, et déterminer l'alignement optimal pour la comparaison des régions correspondant à l'alignement pour lequel 25 le score d'énergie global est optimal, ledit score d'énergie global étant défini selon la formule suivante : Score global (R, R2 )= Scorewu, [Si , EgR2 (Si ), s;cR, où Scoregob0,(R, R2)correspond au score d'énergie global optimal des régions RI et R2 ; et n Score,o(a, (S, S2) = E a; Score,. (S, S2 ) s 2948475 137 EgR2 (Si )correspond au point Si de R2 qui est structuralement aligné avec le point S. de R, .
24. Procédé selon la revendication précédente, dans lequel le score 5 d'énergie d'une propriété remarquable donnée pour deux points alignés de deux régions respectivement est défini sur l'intervalle [-1;1] selon l'équation suivante : Score. (SI,S2) ùL(A Pi,effectif) = (l + e-aop; ) -1 où Scorep(SI S2) est le score d'énergie pour la propriété remarquable 10 Pi au niveau des points SI et S2 des régions RI et R2 respectivement ; À est une constante ; et 4Pi,ejfectif est la différence entre les valeurs des états de la propriété remarquable aux points SI et S2 pour lesquels est évaluée une tolérance qui définit l'écart acceptable entre les états de la propriété (Pi) pour deux points 15 des régions à comparer, avec : 11 dobservé = IP (SI) ù P (S2 4e/%ctif ù A observé ù TP. 20 où P;(S1) est la valeur numérique et normalisée de la propriété remarquable P; de N au point SI ; P;(S2) est la valeur numérique et normalisée de la propriété remarquable P; au point S2; Tp; est la tolérance pour la propriété P. 25
25. Procédé selon l'une des revendications 23 ou 24, dans lequel on normalise le score global de chaque alignement en divisant ce score global par le score global maximal qui peut être atteint et qui correspond à un alignement parfait avec la région à comparer. 2 30 2948475 138
26. Procédé selon l'une des revendications 23 à 25, dans lequel on pénalise le score d'énergie global de manière à tenir compte de la répartition et de l'importance des écarts entre les alignements des points des régions à comparer selon les sous-étapes suivantes : 5 - définir une valeur d'erreur maximale et un nombre minimal seuil ; - attribuer à chaque point d'une au moins des régions la valeur de son score d'énergie local ; - générer au moins une sous-région d'erreurs comportant l'ensemble des points de la région pour lesquels le score d'énergie est supérieur ou égal à 10 l'erreur maximale ; - définir un score de pénalité dépendant d'une part du nombre de sous-régions d'erreurs dont le cardinal est supérieur ou égal au nombre minimal seuil et d'autre part du nombre de points compris dans ces sous-régions d'erreurs ; 15 - introduire dans le score d'énergie global le score de pénalité et ajuster le classement de l'alignement en fonction du nouveau score global ainsi obtenu.
27. Procédé selon l'une des revendications 22 à 25, dans lequel 20 l'étape de comparaison de deux régions comporte les, sous-étapes suivantes : - déterminer un barycentre pour chaque région ; - placer les régions de manière à positionner leurs barycentre respectifs au niveau de l'origine d'un repère (OX , OY, OZ ) 25 - faire tourner l'une au moins des régions autour des axes du repère de manière à obtenir des alignements différents, et déterminer le score d'énergie local pour chaque alignement et pour chaque couple formé de deux points alignés appartenant respectivement aux deux régions qui sont comparées. 30 s 2948475 139
28. Procédé selon la revendication 27, dans lequel l'étape de comparaison comprend en outre les étapes suivantes : - définir des angles seuils maxi , maxi, et maxi ; - procéder à une rotation de l'une des régions autour des axes OX, 5 OY, OZ du repère selon des angles ax , aV et aZ respectivement, de sorte qu'ai , ay et aZ prennent un ensemble de valeurs compris entre 0 et au plus max., , maxy et maxi respectivement ; - pour chaque alignement généré des deux régions, c'est-à-dire à chaque rotation de l'une des régions d'un angle ax , av et/ou aZ autour 10 des axes OX, 0Y, et/ou OZ du repère respectivement, calculer le score d'énergie global correspondant ; - déterminer l'alignement optimal des régions, ledit alignement étant celui pour lequel le score d'énergie global est optimal. 15
29. Procédé selon l'une des revendications 27 ou 28, dans lequel la rotation des régions autour des axes du repère est réalisée selon les sous-étapes suivantes : - OIT, et OYz étant les normales aux surface des régions à comparer respectivement, procéder à une rotation des régions d'un angle 20 (OY,, OY2) autour du vecteur résultant du produit vectoriel OY AOY2 , de sorte que les normales OY1 et OYz des régions coïncident.
30. Procédé selon la revendication 29, comprenant en outre les étapes suivantes : 25 - définir des angles seuils maxi , maxy et maxi et des distances seuil dmaxX , dmaxy et dmaxZ ; 2948475 140 û procéder à une rotation de l'une des régions autour de l'axe OY du repère selon un angle ay , de sorte qu' av prenne un ensemble de valeurs compris entre 0 et au plus maxy ; û ajuster l'alignement des deux régions en procédant à des rotations 5 autour des axes OY et OZ selon des angles ax et aZ respectivement, de sorte qu'a), et aZ prennent un ensemble de valeurs compris entre 0 et au plus maxi et maxz respectivement ; û ajuster l'alignement des deux régions en effectuant des translations tX , ty et tZ selon les axes du repère OX , 0Y et OZ respectivement, de 10 sorte que tX , tv et tZ prennent un ensemble de valeurs compris entre 0 et au plus dmaxx , dmaxy et dmax, respectivement ; et û déterminer l'alignement optimal des régions, ledit alignement étant celui pour lequel le score d'énergie global est optimal. 15
31. Procédé selon l'une des revendications 28 à 30, dans lequel on détermine en outre le schéma de correspondance entre les points de chacune des deux régions à comparer afin de calculer le score d'énergie global de chaque alignement de l'une des manières suivantes : - pour chaque couple de points comprenant un point d'une première des 20 deux régions et un point de la deuxième région, déterminer la distance séparant ces deux points, ladite distance étant définie en considération d'au moins une propriété remarquable qui définit la première région au point pour lequel est effectué le calcul ; et - déterminer les couples de points pour lesquels la distance est la plus 25 faible.
32. Procédé selon la revendication précédente, dans lequel la détermination du schéma de correspondance entre les points des régions à comparer est simplifié selon l'une au moins des étapes suivantes : I 2948475 141 - définir une distance seuil maximale et déterminer l'alignement optimal des régions en ne tenant compte que des couples de points ayant une distance géodésique inférieure à la distance maximale seuil ; - ajuster les paramètres ax , ay , az , maxi , maxv et maxi en fonction du 5 type de régions comparées et/ou de la qualité de l'alignement souhaité ; - rechercher le meilleur alignement selon les axes OX OY et OZ successivement ; et/ou - déterminer les composantes principales des deux régions à comparer, de manière à limiter l'espace de recherche autour de ces axes. 10
33. Procédé selon l'une des revendications 26 à 32, dans lequel, les régions à comparer sont des régions de surface ou des régions intermédiaires, et l'étape de comparaison comprend en outre les étapes suivantes : 15 ù générer une pluralité de cercles autour de chaque région R, ,R,, centrés sur le barycentre Cg,O et Cg2O de chaque région, et de rayon T~`) et T~2~ respectivement, où fi est un pas entre chaque cercle, k est une constante, 20 T(RI) est le rayon de la région R, et T(R2) est le rayon de la région R2 ; - aligner les normales des régions avec l'un des axes du repère ; ù à partir d'un diamètre arbitraire de chaque cercle, tracer une pluralité de diamètres à l'intérieur de chaque cercle de manière à former une pluralité 25 de secteurs principaux pour chacun de ces cercles ; et ù aligner arbitrairement les régions selon l'un de leurs secteurs principaux, par rotation d'une des régions autour de l'axe du repère. 2948475 142
34. Procédé selon la revendication précédente, caractérisé en ce qu'il comprend en outre un étape au cours de laquelle, pour chaque point d'un secteur d'une première des deux régions à comparer, on recherche les points de la deuxième région qui lui correspondent dans un secteur 5 équivalent et/ou dans un secteur voisin du secteur équivalent en calculant le score d'énergie local pour chaque couple de points, ledit secteur équivalent étant le secteur de l'autre région qui est superposé au secteur de la première région lorsque les deux régions sont alignées. 10
35. Procédé selon la revendication précédente, dans lequel on forme
36. Procédé selon l'une des revendications 33 à 35, dans lequel l'étape de comparaison comprend en outre les étapes suivantes : 15 - définir des points de contrôle pour chaque région, lesdits points de contrôle étant définis par l'intersection du cercle circonscrit à la région et des diamètres définissant les secteurs dudit cercle ; - définir un disque de contrôle, ledit disque étant défini par l'ensemble des points de contrôle de cette région ; 20 - faire tourner l'un des disques de contrôle d'un pas égal à l'angle au centre des secteurs du disque ; et - comparer à chaque rotation les points de contrôle respectifs de chacun des deux disques de contrôle. 25
37. Procédé selon la revendication précédente, comprenant en outre les sous-étapes suivantes : - définir une distance seuil ; pour chaque point de contrôle, déterminer l'ensemble des points de la région appartenant au disque ayant pour centre un point de contrôle et pour 30 rayon la distance seuil ; a secteurs principaux, où a est l'angle de recherche souhaité. 360 2948475 143 - moyenner les valeurs des états des propriétés aux points de la région appartenant au disque déterminés au cours de l'étape précédente ; et - assigner cette moyenne au point de contrôle situé au centre du disque correspondant. 5
38. Procédé selon l'une des revendications 32 à 36, dans lequel, les régions à comparer peuvent en outre être des régions internes de l'objet, et pour chaque région à comparer : - on détermine une pluralité de disques de contrôles qui segmentent les 10 régions dans un plan tridimensionnel de manière à créer des sphères de contrôle, chaque sphère de contrôle étant définie par les points de contrôle de la pluralité de disques de contrôle de la région associée, et - on compare les points de contrôle respectifs de chacune des deux sphères de contrôle. 15
39. Procédé selon l'une des revendications 21 à 38 comportant en outre les étapes suivantes : - générer une région initiale comportant tout ou partie des points du maillage de l'objet tridimensionnel ; 20 - segmenter la région initiale en une pluralité de régions ; choisir une région à comparer parmi la pluralité de régions générées de sorte que ladite région à comparer présente le plus grand recouvrement avec la région initiale, c'est-à-dire le plus grand nombre de points communs avec la région initiale ; 25 - déterminer le procédé de segmentation qui a permis d'obtenir la région à comparer ; et - comparer la région à comparer avec un ensemble de régions connues ayant été obtenues suivant le même procédé de segmentation. 2948475 144
40. Procédé selon l'une des revendications précédentes, dans lequel chaque région est étiquetée de manière à retrouver son appartenance à un objet ainsi que ses régions voisines au sein de l'objet. 5
41. Procédé selon l'une des revendications précédentes, dans lequel on génère une base de données correspondant à un ensemble donné d'objets tridimensionnels selon les étapes suivantes : - identifier chaque objet tridimensionnel et chaque région générée à partir de cet objet par une étiquette ; 10 - intégrer dans une base de données un ensemble d'informations pertinentes concernant ledit objet; - intégrer dans la base de données pour chaque point et/ou pour chaque facette de la région, les états propriétés remarquables. 15
42. Procédé selon la revendication précédente, dans lequel on génère plusieurs bases de données, chaque base de données donnant des informations spécifiques à un type de région donné, à un type d'objet tridimensionnel, à un domaine technique donné, à une ou plusieurs propriétés remarquables données, et/ou à un critère de segmentation 20 donné.
43. Procédé selon l'une des revendications 21 à 42, dans lequel tout ou partie des informations obtenues sur les régions de l'objet tridimensionnel et/ou au cours de l'étape de comparaison des régions sont 25 détaillées dans une cartographie de l'objet.
44. Procédé selon l'une des revendications 21 à 43, dans lequel on génère au moins une région complémentaire d'une région étudiée pour un ensemble de propriétés remarquables donné, et on détermine au moins une 30 région similaire de cette région complémentaire, ladite région similaire étant alors complémentaire de la région étudiée.