Le génie de la perception

(Chapitre I - HDR de Philippe Guillemant: Groupe de Vision Artificielle et Biophysique)

La perception est guidée par l'intervention des activités motrices. La vision est inextricablement liée au mouvement - grands déplacements de la tête et des yeux ou mouvements imperceptibles et involontaires des pupilles. Il en est de même de l'audition: pour se rappeler un air, on essaye de le fredonner. Les hiérarchies perceptuelles et motrices sont en corrélation si intimes à tous les niveaux qu'il devient arbitraire et absurde de vouloir distinguer trop nettement entre "stimulus" et "réponse": l'une et l'autre sont absorbées par les boucles de rétroaction le long desquelles les impulsions tournent en rond comme un chat qui court après sa queue.

(Arthur Koestler, "Le cheval dans la locomotive")

 Résumé

L'intérêt d’une approche pluridisciplinaire en biophysique n'est plus à démontrer, et le thème de la perception en est l’un des meilleurs exemples, tant il fait l’objet d’approches distinctes les unes des autres, qui vont de la neurobiologie à la physique du rayonnement, en passant par l’électrophysiologie et la cybernétique. En tant que mécaniciens, nous en proposons une approche adaptée parce qu’elle est horizontale : il s’agit de l’étude des informations, systèmes et contraintes dynamiques complexes qui interviennent dans la formation du percept dynamique visuel, et qui permettent de le caractériser. Cette approche permet également le calcul d’estimateurs paramétriques pertinents identifiant les processus phénoménologiques de transfert d'informations qui jouent un rôle fondamental dans les couplages. Les systèmes couplés qui interviennent dans l'acheminement d'informations radiatives de l'environnement jusqu'au cerveau sont par nature complexes et ces couplages ne peuvent être appréhendés dans le cadre de modèles à priori. L'intérêt des estimateurs recherchés et des outils de caractérisation proposés est de permettre une analyse heuristique de ces couplages en étant en quelque sorte construits par la mesure. En conséquence de quoi les hypothèses et modèles qui permettent d'effectuer un examen prédictif de tels systèmes sont une résultante à posteriori de l'identification de ces estimateurs pertinents. Les outils proposés résultent de l'optimisation des approches algorithmiques de type " traitement d'images dynamiques", " paramètres non linéaires " et " réseaux de neurones " via le plongement temporel ou spatial de mesures, signaux et images dynamiques, dans un espace de phases ou d'états.

 

  1.1 Introduction

Le génie de la perception dynamique visuelle fait partie de la biophysique, mais son caractère horizontal implique une approche particulière que nous allons préciser. La biophysique est un domaine de recherches pluridisciplinaires en pleine expansion depuis que les physiciens se sont aperçu, grâce aux progrès de l'informatique et de l'instrumentation biomédicale, que le corps et le cerveau humain pouvaient être explorés de manière non empirique, avec leurs propres concepts et de façon très pointue, objective et quantitative. Un nouveau champ d'investigations scientifiques s'est ainsi dévoilé, relevant totalement des lois de la physique, qui a fait apparaître une grande richesse de mécanismes d'évolution dynamique. Les difficultés dues à la diversité et à la complexité des systèmes biophysiques freinent leur compréhension fondamentale, mais en même temps elles accélèrent le développement de nombreux outils exploratoires et applications dans différents secteurs de haute technologie : biotechnologies, bioinformatique, biocybernétique, génie biomédical, etc.

La biophysique est donc une vaste discipline qui nécessite des connaissances très diversifiées et un grand renfort de technologies. Cantonné dans les intersections résultant du découpage de la physique et du découpage des nombreuses disciplines médicales, qui se partagent les unes et les autres différentes fonctions organiques, le biophysicien est souvent confronté à un choix entre deux approches opposées, consistant soit à découper encore plus son domaine d'étude, pour se spécialiser sur une partie d'un organe, soit à étudier une chaîne de fonctions reliées les unes aux autres par des relations prépondérantes de cause à effet, pour se spécialiser sur la compréhension des couplages entre différents organes. Dans le premier cas, l'approche est traditionnelle, ciblée, sélective, c'est par exemple celle d'un système microscopique complexe et fondamental, tel que la cellule ciliée vestibulaire. Dans le deuxième cas, on s'intéresse à un ensemble de systèmes liés à un besoin vital plus proche de nos préoccupations, de notre conscience, ce qui implique la compréhension de toute une chaîne, telle que par exemple la chaîne alimentaire, qui intègre le foie, le tube digestif, les aliments, l'agriculture, etc., ou encore la chaîne respiratoire, qui intègre les poumons, la sphère ORL, l'atmosphère, etc.

 

En comparaison à ces deux exemples, l'alimentation et la respiration, qui sont des disciplines horizontales parce qu'elles sont identifiables en tant que chaînes de causalité (chaîne alimentaire, chaîne respiratoire), la chaîne biophysique qui nous intéresse ici, la perception dynamique visuelle de notre environnement, n'a rien à envier car elle relie des extrêmes, qui vont des mécanismes à l'œuvre dans notre cerveau à des caractéristiques physiques et dynamiques d'objets divers de notre environnement. Elle est même horizontale par nature. Une image qui traduit une perception visuelle globale est une carte horizontale, et à l'aide de sa perception visuelle, améliorée par des instruments d'optique, l'homme construit une carte géographique horizontale de son environnement, en changeant de point de vue à plusieurs reprises pour faire des triangulations.

 

Nous citons cette stratégie de changement fréquent de point de vue pour parvenir à bien calculer les distances ou rapports, entre différents lieux ou systèmes, parce qu'elle est très proche de la stratégie que nous suivons. Considérons en effet la triangulation entre deux systèmes couplés dans la chaîne, et un troisième système constitué par l'observateur qui effectue des mesures sur les deux premiers systèmes. Entendons nous bien : il s'agit de l'observateur du sujet qui perçoit, et non du sujet lui-même. Ce dernier étudie les couplages entre ces deux systèmes, non pas en mesurant directement l'information transférée d'un système à l'autre, mais en plaçant un capteur sur chaque système, sans interférer sur les informations de couplage. Les informations analysées sont distinctes des informations de couplage, mais ces dernières et en particulier leur contenu pertinent restent accessibles grâce à l’analyse des corrélations entre les deux systèmes.

Prenons un exemple tout à fait représentatif : les deux systèmes couplés composés du système visuel d'un sujet et de son environnement. L'observateur étudie la perception de l'environnement par le système visuel du sujet, grâce aux images de l’œil et de l'environnement " vues " par l'observateur. Cet exemple que l’on peut généraliser à toute la chaîne, montre bien comment nous appréhendons la mesure et la compréhension des couplages entre éléments de la chaîne perceptive visuelle : d'une manière non invasive, et en recherchant les corrélations entre les systèmes qui sont engendrées par leurs couplages.

 

1.2 Les systèmes couplés

Le génie de la perception, tel que nous l'abordons, est donc un domaine de recherche à la fois fondamentale (couplages biophysiques) et appliquée (ingénierie de la perception) qui s'intéresse aux couplages entre les différents systèmes d'une chaîne perceptive, vivante ou artificielle. Ces systèmes participent à l'interface nécessaire entre des informations issues de l'environnement, et un cerveau ou système de traitement de l'information. Notre contribution se spécialise au travers d'une approche dynamique de la perception visuelle de l'environnement, ce dynamisme pouvant être une propriété du phénomène perceptible (objet dynamique tel qu'une source de fumée), ou être une propriété d'un élément de la chaîne perceptive (mouvements de l'oeil, de l'organe oculo-moteur...).

La chaîne perceptive visuelle peut être décomposée en quatre ensembles principaux d'éléments couplés:

Les disciplines qui étudient ces différents systèmes (mécanique énergétique, physique du rayonnement, physiologie de l'équilibre et de la vision, robotique, explorations fonctionnelles, neurophysiologie, etc. ) permettent d'appréhender leurs couplages à travers les modèles existants qu'elles proposent. La complexité des systèmes nécessite des modèles réduits et simplifiés. Ceux-ci nous sont proposés par différents interlocuteurs qui sont les spécialistes de certaines de ces disciplines. Précisons que l'étude des mécanismes physiques ou physiologiques internes à chacun des systèmes, qui les intéressent directement, se situe en dehors de notre propre sujet. Par contre, l'exploration de la chaîne des causalités qui permet à une information d'être transférée et d'interagir le long de la chaîne, et à un "percept" de se former, fait partie intégrante de notre recherche, et nécessite diverses collaborations.

Pour parvenir à une approche synthétique de la chaîne perceptive, il est raisonnable de commencer par étudier les couplages entre des systèmes pris deux à deux. Deux systèmes sont couplés si l'un des deux au moins influence l'autre par un transfert d'informations. On peut l'illustrer en citant quelques exemples de couplages qu'il est important de considérer dans l'exploration de la chaîne perceptive, et que nous avons déjà été amené à étudier:

Dans chacun de ces couplages, on remarque que des informations dynamiques la plupart du temps spatio-temporelles sont transférées d'un système à l'autre. Le traitement de ces informations doit permettre de caractériser dans un échange l'information qui, en provenance d'un système émetteur, est pertinente pour le système récepteur. Lorsque ces systèmes ont des fonctions perceptives, ce traitement revient à caractériser un percept. Inversement, c'est en construisant un modèle de percept qu'on peut arriver à une modélisation de la chaîne perceptive.

La complexité de l'information spatio-temporelle des couplages, qui est due pour presque tous les éléments de la chaîne de l'environnement au cerveau, à son étendue spatiale qui s'exprime par l'image, doit être contournée afin de caractériser des signatures simples et pertinentes dans l'échange d'informations entre systèmes. Une première simplification a lieu au niveau de la sélection des mesures, signaux ou images. Lorsque le système émetteur autorise une exploration temporelle, l'image est remplacée par un ensemble restreint de signaux (scène thermique [28], oeil [12], cerveau [4]. Mais dans de nombreux cas (fumée [40], scène hétérogène [14] ) il reste nécessaire de travailler avec une information à prépondérance spatiale.

 

1.3 Approche mécaniste des percepts dynamiques

Nous adoptons ici le point de vue du mécanicien pour préciser notre approche du génie de la perception visuelle, en y intégrant la dynamique des systèmes, qui réunit en fait deux aspects: systémique et mécaniste.

Tout d'abord, l'approche systémique permet de mieux appréhender dans une vision d'ensemble synthétique l'ensemble des couplages que nous venons de recenser. Il s'agit en effet de traiter les informations dynamiques complexes inhérentes à ces couplages en considérant de l'extérieur les systèmes de la chaîne, comme peut le faire un mécanicien qui effectue des bilans énergétiques. Mais la différence importante est qu'il s'agit dans le cas qui nous intéresse de bilans d'informations de couplage, permettant de remonter à des causalités ou finalités. Notre approche mécaniste ne s'intéresse qu'indirectement aux systèmes de la chaîne, par l'intermédiaire des percepts eux-mêmes, que nous modélisons plus loin.

La première finalité commune à ces couplages est la formation du percept visuel, qui est conditionnée par tous les aspects physiques, dynamiques, instrumentaux, organiques, neurologiques,… recensés à travers ces couplages. La formation d’un percept visuel prend un temps non négligeable (100 à 200 ms), parce qu’il s’agit d’une opération complexe pour le cerveau, faisant intervenir des couches neuronales nombreuses à la fois sensitives et centrales.

La finalité du percept visuel est fondamentale parce qu'elle détermine le modèle utilisé pour représenter le percept lui-même, comme nous le verrons plus loin. Parmi tous les percepts visuels, ceux qui peuvent intéresser une approche mécaniste sont dynamiques, et restent un vaste sujet d'étude. Pour en montrer toute l'étendue, on peut citer quelques exemples que nous avons été amenés à étudier, de près ou de loin:

     
  1. Les percepts de sources de fumées, dont la caractérisation ouvre la voie à la détection automatique des feux de forêts. Si la caractérisation de la source est plus un problème de mécanique des fluides, celle de son percept est au centre de la question de la détection automatique à l'aide de "caméras intelligentes" [40].
  2. Les percepts de mouvements périphériques ou centraux d'objets mobiles. Leur caractérisation ouvre la voie à des applications très diverses qui vont des stabilisateurs d'images à la conduite automatique de véhicules routiers [1].
  3. Les percepts de motifs défilants par projecteurs lumineux mobiles, constituent des stimulateurs optocinétiques du cortex visuel. Ils intéressent la recherche médicale otoneurologique, car leur exploration permet de calculer si la réponse neurologique aux stimulations visuelles réflexes est normale ou pathologique [21].
  4. Les percepts visuels dus au mouvement de l'observateur, sont non seulement des stimulateurs du système visuel, mais aussi du système vestibulaire. Ils intéressent l'exploration clinique en ORL. On les stimule puis on les supprime alternativement en libérant puis en occultant le regard du patient afin de mesurer des gains vestibulaires [17].
  5. Les percepts d'animations que l’on rencontre par exemple sur le réseau Internet sont intéressants à caractériser car ils peuvent permettre de comprendre quelles sont les éléments dynamiques des cibles qui sont inconsciemment attractifs. Ce type de recherche intéresse avant tout les publicitaires, et nécessite la détection de la position du regard [12].
  6. Les percepts engendrés par les jeux vidéos, et en particulier ceux qui génèrent des effets stroboscopiques, sont importants à étudier puis à contrôler parce qu’ils sont susceptibles de déclencher des réactions épileptiques [68].

Quoique très diversifiés, tous ces percepts dynamiques ont en commun, ainsi présentés, l'accent qui est porté sur l'impact que peut avoir leur dynamique sur le sujet qui les perçoit. On s'intéresse ainsi dans tous les cas à l'influence que peut avoir l'objet sur le sujet, via son percept dynamique. Cette influence peut revêtir des formes très diverses, car elle peut sensibiliser le sujet de façon réflexe (3) ou au contraire volontaire (2), requérir son attention de façon soutenue (1) ou au contraire automatique (5), ou avoir des effets plus ou moins agréables (4) ou au contraire pathologiques (6).

Le mécanicien que nous sommes se propose d'intervenir dans cette problématique, en proposant au spécialiste (otoneurologiste, chercheur en sciences cognitives, biocybernéticien, industriel…) le contenu dynamique pertinent qui contient l'essentiel du potentiel d'impact d'un percept dynamique.

D'une façon générale, la caractérisation des percepts dynamiques n'est pas abordée par la littérature sauf indirectement comme un problème intéressant la détection de mouvement et les applications de télésurveillance [55]. Il n'existe pas à notre connaissance d'approche mécanicienne de la perception au sens où nous venons de le présenter. La caractérisation des phénomènes dynamiques n'est d'ailleurs pas un sujet habituellement relié à la perception. La différence entre ces deux points de vue, celui de la détection du mouvement d'un objet et celui de la caractérisation dynamique d'un contenu perceptible, est proche de celle qui existe entre un géomètre et un dynamicien auxquels on demande de détecter un phénomène. Le premier s’intéresse d'abord à l’image, pour en extraire des objets dont il essaye ensuite de suivre le mouvement, et le second s'intéresse d'abord aux signaux temporels contenus dans les séquences d’images, pour en extraire des corrélations et rechercher leur propagation. A défaut d'outil bien adapté pour la mettre en œuvre, cette dernière démarche reste inexplorée et ne fait pas partie des méthodes utilisées pour l'extraction du mouvement à partir de séquences [58], l’image étant toujours abordée du point de vue spatial. On peut ainsi noter la quantité considérable des travaux de recherche sur la perception visuelle, la reconnaissance de formes, etc. qui cependant par leur approche statique restent assez éloignées de notre propre recherche.

Bien qu'elle soit beaucoup moins empruntée, l'approche dynamique que nous proposons est bien adaptée à l'étude des percepts dynamiques visuels, en particulier lorsque leur dynamique est prépondérante pour les identifier [40]. Cette approche se particularise par le fait qu’elle consiste à extraire tout d’abord des signaux à partir des séquences d’images, et à les traiter via des outils empruntés aux mécaniciens des systèmes complexes, avant de travailler sur l’information spatiale. Notre stratégie consiste à utiliser préférentiellement les outils d'analyse des systèmes dynamiques pour caractériser, identifier et même définir les percepts dynamiques. C'est leur contenu spatio-temporel réductible en termes de phases et trajectoires, qui nous invite en tant que mécaniciens à intervenir dans leur étude, pourtant a priori très éloignée de la mécanique. Mais le phénomène de perception est embarrassant pour un mécanicien qui doit résoudre la contradiction existant entre son approche qui se veut objective et extérieure au système qu’il étudie, et l’existence inhérente au phénomène de perception, d’un sujet qui perçoit et qui donc influence sa perception. Pour définir un percept dynamique du point de vue mécaniste, il faut répondre auparavant à deux questions :

Ces questions sont importantes car il faut distinguer la représentation classique d'un objet en mécanique, de la représentation mathématique d'un percept, laquelle doit inclure des informations significatives pour un observateur visuel. Par exemple, le percept d'une source de fumée sera traduit en trajectoires schématiques de bouffées ou pulses, mais les échanges thermiques qui ne sont pas perçus et n'interviennent pas dans la caractérisation du percept seront laissés de coté. Cette signification est donc construite du point de vue de l'observateur qui perçoit le phénomène et non du point de vue du chercheur qui l'analyse. Elle dérive des moyens de représentation qui sont utilisés par le cerveau du sujet qui perçoit la fumée, et non par le cerveau du chercheur qui conçoit le phénomène, ce qui le met malgré tout en bonne position pour décortiquer son percept.

L'étude des moyens de représentation d'un cerveau n'étant pas du ressort de la mécanique, on a besoin d'un modèle qui substitue à ceux-ci une représentation mathématique objective de l'influence que peut avoir un cerveau sur un percept. Paradoxalement, les mécaniciens des systèmes dynamiques complexes sont bien placés pour définir ce genre de modèle, parce qu'ils ont déjà l'habitude de schématiser l'information spatio-temporelle des systèmes qu'ils étudient, pour en extraire différentes représentations qui correspondent à une "perception abstraite" de ces systèmes ou de leur comportement. Il s'agit là à nouveau de la perception du chercheur qui analyse l'objet. Dans le cas du sujet qui perçoit, il s'agit d'une perception concrète et immédiate qui ne retient que des éléments directement sensibles, mais nous supposerons que nous pouvons conserver le même type de modèle. On peut en effet utiliser les mêmes outils de représentation pour schématiser des percepts dynamiques bien concrets, sachant que ces outils apportent le moyen de représenter leur dynamique, qui contient l'essentiel de leur pouvoir d'impact. Cette dynamique est alors représentée dans un espace mathématique de plongement de mesures dynamiques, et l'impact d'un percept sur le cerveau est étudié dans cet espace à l'aide d'opérateurs et de paramètres qui traitent cette information de manière à la représenter sous sa forme la plus pertinente du point de vue de son impact sur le cerveau visuel.

L'approche mécaniste de la perception dynamique visuelle que nous proposons consiste donc à utiliser pour chaque type de percept dynamique étudié, un modèle de représentation permettant d'inclure l'action du cerveau et capable de prendre en compte plusieurs éléments nécessaires à la représentation d'un percept dynamique visuel:

  1. Des éléments relatifs aux propriétés statiques et dynamiques de l'objet visuel de la perception.
  2. Des éléments relatifs au système visuel, faisant intervenir des opérateurs de traitement automatique, et déterminant les grandeurs effectivement perçues.
  3. Des éléments relatifs à l'attention visuelle, et à l'intervention éventuelle d'opérateurs impliquant un traitement volontaire fait par le cerveau.

  

Fig. 1: les différents éléments nécessaires à la représentation d'un percept dynamique visuel

L'existence de ces différents éléments (Fig.1) doit permettre de substituer à l'espace physique contenant les grandeurs physiques liées à l'objet un espace mathématique contenant des grandeurs perceptibles (ou mesurables dans le cas d'un percept artificiel), et de substituer aux opérateurs abstraits de la mécanique des opérateurs mathématiques de traitement, et notamment de réduction ou de compression, capables de schématiser cette information conformément à ce qu'elle contient de pertinent pour son sujet. Afin de tenir compte de différents aspects, comme l'attention visuelle ou le niveau d'éveil, et d'autres non encore passés en revue, nous allons maintenant décrire plus précisément le type de modèle de représentation choisi.

 

1.4 Choix du modèle de représentation

Pour modéliser un percept dynamique, il faut traiter l'information visuelle relative à l'objet perçu à l'aide de moyens de représentation utilisés pour aboutir au percept final à partir de cette information. Ces moyens sont composés de l'espace mathématique de plongement, des paramètres de représentation et des opérateurs de traitement. Il s'agit de préciser ces différents éléments connaissant ceux de la chaîne perceptive: A l'une des extrémités de cette chaîne, on sait que seuls certains attributs physiques détectables des objets de la perception seront à considérer. Au milieu de la chaine, il faut considérer le milieu environnant, l'organe visuel et les éléments qui lui sont dynamiquement couplés. A l'autre extrémité, il faut considérer le cerveau lui-même.

Les éléments intermédiaires de la chaine, et en particulier les éléments couplés à l'organe visuel [51], ne peuvent être ignorés dans la mesure où la contrainte dynamique que nous imposons à notre étude peut provenir de l'organe oculo-moteur, dans le cas de mouvements de la tête ou du capteur, que ceux-ci soient dus ou non à une dynamique des objets environnants. Ce qui détermine donc la représentation d'un percept dynamique n'est pas tant le cerveau que l'interface qui précise comment les objets environnants sont effectivement captés par le cerveau. L'élément principal de cette interface est la rétine ou la caméra, et le premier type de représentation qui s'impose donc à priori est une " image ". Mais les sciences cognitives nous apprennent que toute perception visuelle est schématique, et que seul un nombre restreint de points ou de pixels d'une image est pris en compte par la perception. Une image serait donc au mieux une représentation brute mais non significative. Une représentation significative d'une perception visuelle [43] ne peut pas être une image parce que la rétine est en fait une structure neuronale constituant un réseau complexe de cellules spécialisées qui opère déjà au niveau de l'œil un premier traitement des données dont un certain nombre seulement est transmis au cerveau.

Dans ce contexte de couplage, on peut en première approximation associer le cerveau à l'espace de représentation du percept, notamment sa topologie et sa dimension, et associer les interfaces qui sont liées aux capteurs (vision oculaire) aux critères ou axes de représentation de l'information effectivement contenue dans l'objet (contrastes, contours orientés, couleurs, directions de mouvement, etc.). Ce n'est qu'une approximation car le cerveau peut, en dernière instance, ignorer certaines informations que son organe visuel lui soumet. Mais cet aspect ne fait que relever la souplesse que tout modèle adéquat de représentation du percept doit avoir. Le cerveau pouvant aussi faire des opérations très complexes, nous sommes amené à considérer ce cerveau, du point de vue de notre problématique, comme un vaste ensemble d'opérateurs pouvant agir (un par un) sur un espace de plongement mathématique. Les axes ou dimensions de cet espace sont ceux des grandeurs physiques liées aux objets environnants, qui sont rendues accessibles au cerveau par l'interface du système de perception visuelle. Notre modèle de représentation est construit à partir de grandeurs ou mesures accessibles au cerveau par voie biophysique naturelle ou artificielle. On s'intéressera ainsi par exemple à la longueur d'onde seulement dans la mesure où elle quantifie une grandeur associée à un capteur, effectivement mesurable et pouvant ajouter une ou plusieurs dimensions significatives à un espace de représentation de percepts. Les neurosciences nous inspirerons donc dans le choix des grandeurs beaucoup plus que les sciences physiques qui fournissent des grandeurs inhérentes à l'objet.

Il reste à préciser comment choisir la dimension de l’espace appropriée. On sait aujourd'hui que la richesse d'un phénomène complexe ne peut être appréhendée dans toute son intégralité que si l'on se donne un espace de plongement de dimension adéquate. Cette contrainte est à rapprocher des conditions de la perception qui nécessitent un sujet éveillé, donc capable d'un certain degré d'attention ou d'analyse. On peut citer des exemples extrêmes de l'état d'un sujet: le cas d'une personne assoupie [8] qui ne peut percevoir qu'un mouvement global affectant l'ensemble d'une scène, et ne peut ainsi caractériser le mouvement que de façon binaire par son absence ou sa présence, par opposition à l'état cérébral d'une personne parfaitement éveillée, qui cherche à détecter une source de fumée dans une tour de guet, en prenant en compte toute la complexité de ce phénomène. Dans le premier cas, l'opérateur utilisé par le cerveau est le plus simple opérateur qui soit, c'est à dire une porte logique binaire de détection de mouvement, et dans le second cas plusieurs opérateurs complexes sont à l'œuvre de façon à la fois parallèle et séquentielle pour parvenir à une décision de reconnaissance.

Etant ainsi plutôt liée au cerveau qu’à ses interfaces de perception, la dimension appropriée de l’espace de plongement est indépendante de la quantité de grandeurs que ces interfaces peuvent rendre accessibles. Elle dépend uniquement de l’attention ou si l’on préfère de l’économie de moyens avec lesquels le percept sera caractérisé (ou signifié). On voit donc à quel point les moyens de représentation (opérateurs, paramètres et dimension de plongement) peuvent influer sur le percept, et l’on retrouve ainsi la raison pour laquelle on ne peut pas dissocier un percept du sujet qui le perçoit: le sujet détermine en fonction de ses propres moyens, éventuellement variables dans le temps, l'espace de représentation de son percept qui va permettre de donner une consistance aux informations qui y seront plongées. Il détermine sa dimension en fonction de ses ressources, et notamment de son attention. C'est aussi lui qui, en plus de son interface biophysique, filtre cette information pour n'en retenir que les grandeurs qui méritent selon lui d'être analysées. Le sujet percevant est donc tout à la fois la fonction qui définit l'espace de plongement, sa dimension et la méthode de plongement de l'information dans cet espace, celle-ci agissant de façon analogue à un opérateur de filtrage sélectif.

On peut adopter une vision séquentielle des différents éléments intervenant dans le modèle de représentation proposé, qui simule alors mathématiquement la formation d'un percept dynamique visuel. Cette vision se traduit par le schéma d'ensemble de la figure 2. On retient en premier lieu les informations visuelles de la scène, en fonction des conditions éventuelles de mouvement de l'observateur. La scène est ensuite décomposée en objets pour lesquels certains paramètres sont particulièrement sensibles. Par exemple le contraste peut d'abord attirer le regard, l'objet contrasté étant ensuite plus finement analysé (orientation, etc.). Dans un véritable cerveau ces opérations sont encore inconscientes pour le sujet. C'est alors son niveau d'éveil ou d'attention qui détermine la quantité d'informations ou de paramètres plongés pour faire l'objet d'un filtrage plus sélectif. Le plongement et le filtrage aboutissent donc à un matériau (encore brut) qui contient les informations résiduelles à partir desquelles va se construire le percept, partiellement représentables sous la forme d'un nuage de points. Ce sont ensuite des opérateurs de synthèse qui simulent réellement des fonctions de reconnaissance ou d'extraction de signature, qui interviennent pour former un percept dynamique schématique.

Fig. 2: le circuit séquentiel du modèle mécaniste de perception dynamique visuelle.

Les flèches qui partent de la bulle représentant le percept sur la figure 2 illustrent la rétroactivité qui permet à un percept de le devenir réellement, en affirmant la plus grande simplicité ou pertinence. En effet, la sélection d'opérateurs d'analyse, d'axes de représentation, d'une méthode de plongement, d'un filtrage sélectif et enfin d'opérateurs de synthèse n'aboutit pas nécessairement à un percept. Ce dernier doit avoir la qualité schématique, squelettique, idéalisée, simplifiée de ce qu'il représente, or n'importe quel calcul n'aboutit pas à ce type de résultat, bien au contraire. Un percept doit donc être calculé par approximations successives qui consistent à ajuster progressivement toutes les conditions de représentation sélectionnées pour aboutir à cette qualité.

On peut donner un exemple: le calcul d'un percept d'alignement de contour, ou d'uniformité de trajectoire, à partir d'une scène réelle qui ne présente que relativement vaguement ces propriétés, nécessite un calcul par approximations successives d'une part, l'élimination des informations réelles qui contredisent cet alignement d'autre part, et le remplissage des vides qui l'infirment enfin. Il est d'ailleurs probable que ce calcul a lieu dans le cerveau en mettant aussi en jeu un procédé analogue grâce à la rétroactivité des couches neuronales de notre cerveau visuel.

 

1.5 Choix du matériau net

Après avoir précisé successivement la nature des percepts dynamiques que l'on étudie, puis le moyen de les représenter et même de les simuler mathématiquement, il reste à préciser à partir de quelle information mathématique, ou quel matériau net de base, nous travaillons pour caractériser, de proche en proche, un percept dynamique visuel, en partant de l'information brute constituée par des séquences d'images.

D'après notre modèle, les grandeurs physiques perceptibles des objets sont tout d'abord plongées dans un espace mathématique de représentation, avant de faire l'objet de traitements ultérieurs. Considérons le support mathématique brut dans lequel ces informations sont stockées après la mesure: il s'agit de données spatio-temporelles, dont l'analyse est classiquement du ressort de l'imagerie dynamique. Mais de même qu'on a vu qu'une image ne pouvait constituer une représentation adéquate d’un percept statique, une séquence d'images ne peut pas non plus constituer une représentation adéquate d’un percept dynamique. Ce dernier percept nécessite en effet une caractérisation non réductible à un ensemble de percepts statiques, en ce qu’elle apporte une information supplémentaire non statique.

Il y a deux façons inverses d'appréhender l'imagerie dynamique, dans un cadre heuristique où l'on ne dispose pas de modèle sur l'observation, supposée complexe. D'une part privilégier l'analyse spatiale, et l'étendre ensuite en introduisant la dynamique dans les scènes observées, ce qui amène à l'introduction d'outils de traitement de séquences d'images [54]. D'autre part privilégier l'analyse temporelle, et l'étendre aux cas de plusieurs signaux qui sont issus de sondes spatialement distribuées, ce qui amène à l'introduction d'outils d'analyse non linéaire au sens large [40]. Nous considérons qu'il est nécessaire d'unifier ces deux approches, en utilisant un espace de représentation dans lequel les points du matériau à analyser peuvent aussi contenir une information dynamique en ayant pour coordonnées les valeurs temporelles successives des signaux ou des niveaux de gris des pixels des images successives. On adopte ainsi une fenêtre temporelle d'analyse qui n'est ni plus ni moins qu'une fenêtre temporelle de plongement selon la méthode du retard [72], dont la dimension est choisie pour permettre une caractérisation temporelle économe. Dans cet espace de représentation à priori, les matériaux que nous allons traiter sont constitués par des " patterns " ou " signatures ". Ils représentent une information multidimensionnelle sur un élément de base qui peut être aussi bien temporel (évolution, période, échantillon) que spatial (forme, texture, motif), ceci afin de représenter des percepts aussi bien dynamiques que statiques. Les différents qualificatifs entre parenthèses font en fait varier la signification qui est attachée à un percept élémentaire ayant une même traduction mathématique. Le qualificatif de signature (ou éventuellement pattern) nous semble être le mieux approprié pour représenter de tels percepts élémentaires ou simplement points de l’espace de plongement. On peut citer quelques exemples de signatures spatiales ou temporelles:

Fig. 3. Variations temporelles d'une bouffée de fumée 

Signatures temporelles :

Signatures spatiales :

Ces différentes signatures peuvent être considérées comme des percepts élémentaires, à condition de choisir un espace de plongement de dimension suffisante pour les caractériser par rapport à tous les possibles.

Le fait de considérer indifféremment des signatures statiques et dynamiques est bien adapté pour définir le matériau net sur lequel nous souhaitons travailler, qui possède à la fois des aspects dynamiques et spatiaux. Pour que ces signatures se rapprochent de véritables percepts élémentaires physiologiques, nous construisons des points qui ont comme coordonnées les différentes valeurs des critères physiologiques qui permettent de caractériser un objet lors d'une vision instantanée de cet objet : contrastes, contours orientés, couleurs, directions de mouvement, etc. ces critères correspondant à ceux qui sont fournis au cerveau par notre propre système visuel [43]. Mais nous joignons également à ces critères, d'autres qui sont plus souvent employés en reconnaissance artificielle de formes, comme le diamètre moyen, l'excentricité, la surface, l'irrégularité, le niveau de gris, ceux-ci pouvant également être associés à une perception visuelle humaine. Notons que sur les deux types de signatures ou patterns que nous utilisons, temporels et spatiaux, les premiers apportent directement une information dynamique par construction, mais les seconds peuvent aussi apporter une information dynamique sous la forme de nuages ou trajectoires des points formés par leurs différents échantillons temporels. On pourrait imaginer encore d'autres combinaisons de l'information brute élémentaire pour former des points ou signatures, mais quoi qu'il en soit, il s'agira toujours de définir notre matériau net de base servant à la caractérisation de percepts dynamiques sous la forme d'ensembles de points à traiter pouvant correspondre à des percepts élémentaires.

Fig. 4. Un objet dynamique complexe se pré-caractérise par un matériau net ou nuage de points dans lequel les attracteurs ou zones denses correspondent aux corrélations ou formes stables de l'objet

Cette façon de procéder permet de travailler dés le départ sur l’information la plus pertinente qu’il convient d’extraire de l’information brute de mesure avant de la plonger dans un espace. Elle a l'avantage de concrétiser sous la forme d'amas locaux, d'attracteurs ou régions denses de l'espace, ou structures quelconques, l'information pertinente contenue dans cette information brute, liée aux corrélations du système dynamique engendrant cette structure (Fig 4). Elle permet de minimiser la dimension de l’espace de représentation du percept d’un objet, ce qui est intéressant à la fois pour schématiser l’objet et soulager le calcul, et pour soulager l'attention visuelle qui implicitement conditionne le percept.

 

1.6 Les outils de caractérisation

Quelque soit le modèle de représentation effectivement mis en place, c'est à dire quelque soient les dimensions choisies, le type de plongement effectué, etc. l’étude du matériau net qui en est issu pour extraire une caractérisation dynamique de percept visuel consiste à travailler sur un nuage de points. On utilise ici le qualificatif de "nuage" plutôt que de "structure" ou "ensemble" pour connoter l’aspect complexe de l’information traitée. Cette information ainsi matérialisée par un seul plongement, est alors nécessaire à la caractérisation du percept, mais n'est pas suffisante, d'autres plongements pouvant être requis. Pour conserver via un seul plongement toute l’information nécessaire à une bonne caractérisation, lorsque les points du nuage ne renferment pas d’information dynamique par exemple, on conserve pour chaque point des informations temporelles complémentaires qui permettent de retrouver les trajectoires complètes. Un tel nuage qui résulte déjà d’une compression d’information, est donc encore loin de pouvoir représenter un percept, et une caractérisation fine de sa structure spatiale et temporelle est encore nécessaire.

Par exemple, le percept des mouvements dans une source de fumée ne peut être mis en évidence uniquement à partir du matériau constitué par les ensembles de points formés par des signatures temporelles de signaux de fumée plongées dans un espace. Il manque à cette opération une analyse qui met en œuvre des moyens de représentation et notamment des opérateurs permettant l'identification des singularités, corrélations et plus généralement des hétérogénéités dans ces ensembles de points. Sans cette analyse, on fournirait une image brute multidimensionnelle qui n'a rien à voir avec l'image ou percept qu'un observateur se forme de la fumée en l'observant. Il s'agit donc de rechercher des opérateurs de traitement de l'information qui se rapprochent des opérateurs agissant effectivement dans notre cerveau. Dans l'exemple cité, ces opérateurs permettent de distinguer les mouvements de bouffées dans la fumée, donc de retrouver des trajectoires.

Pour cela, notre stratégie consiste à combiner toutes sortes d'opérateurs, parmi les plus adaptés à la caractérisation d'objets dynamiques complexes. On peut faire un récapitulatif de tous les outils mathématiques à dominante heuristique, habituellement utilisés dans des domaines très différents, que nous utilisons à partir d'un matériau brut :

  1. des méthodes de traitement des images dynamiques qui permettent de réaliser une première compression drastique sur l’information brute, afin d’en extraire un ensemble de signaux pertinents, qui contiennent les informations à traiter par d’autres méthodes et dans des étapes ultérieures. D’une façon générale, il s’agit de détecter des zones dynamiques de l’image en rapport avec le phénomène recherché, pupille ou iris dans le cas d’un œil en mouvement, source de fumée dans le cas d’un paysage forestier, etc. Les méthodes de détection sont de deux types : a) traitement spatial, le phénomène étant localisable sur chaque image indépendamment des autres, et b) traitement spatio-temporel, la prédétection du phénomène nécessitant la combinaison de plusieurs images successives, éventuellement via un traitement à partir d'une clique (voir plus loin).
  2. des méthodes de plongement d'informations pour parvenir à des ensembles de points [49], comme c’est le cas par exemple des méthodes d’analyse non linéaire de séries temporelles. On peut adjoindre à ces méthodes les procédés de filtrage requis pour effectuer un plongement valide de l’information. Le plongement peut être de nature temporel, spatial, ou même spatio-temporel. On peut directement dériver de ces différents plongements des calculs d'estimateurs paramétriques tels que la dimension de corrélation, qui permettent d'obtenir immédiatement une caractérisation globale sous forme d'un paramètre robuste, constituant déjà un percept simple dont la signification est liée à la quantification de la complexité du système, mais de toute évidence trop réducteur, lorsqu'il s'applique à des systèmes complexes hétérogènes.
  3. des méthodes de réduction de dimensionalité, ou de caractérisation topologique [46], pour compresser ces ensembles de points en préservant leurs voisinages ou singularités. Ces méthodes sont souvent orientées vers une classification en sous-ensembles ou hypercubes indexés. Elles font appel à des techniques de compression d'informations qui vont de la dynamique symbolique aux méthodes de clustering [57] employées pour l'analyse de données massives, en particulier en gestion de bases de données informatiques. Les flots de données que nous aurons à traiter comportant souvent une grande quantité d'informations hétérogènes, nous aurons recours à ce que nous appelons le plongement fractal, décrit dans le chapitre II, en utilisant des courbes fractales de type "space-filling" [71] pour concentrer les hétérogénéités sur une représentation monodimensionnelle de l'espace, particulièrement adaptée, comme nous le verrons, à l'alimentation de réseaux de neurones.
  4. des méthodes de mémorisation et de reconnaissance d'objets complexes [42] par réseaux de neurones, qui servent à compresser et à garder l'essentiel de la structure des ensembles de points selon leur organisation la plus représentative, ou squelettique. Ces méthodes sont d'utilisation très générale dans toutes les sciences et on ne saurait les citer. Par rapport à celles-ci, la particularité de notre démarche consistera à montrer comment on peut utiliser des techniques d'indexation par identificateur fractal pour créer des neurones mathématiques [74] capables de se fixer automatiquement sur des objets complexes. On illustrera par un exemple comment la structure d'un objet complexe peut être réduite et schématisée par une seconde couche de neurones qui en mémorise l'attracteur. Ce résultat montrera la voie d'une alternative aux méthodes le plus souvent employées, qui font souvent intervenir une couche cachée [69] au niveau de laquelle un apprentissage en agissant sur les poids synaptiques a pour rôle de mémoriser un objet complexe. Notre démarche sera différente dans la mesure où elle tentera de faire directement le lien entre " attracteur" [66] au sens d'un ensemble de points dans un espace de phases et "attracteur " au sens d'une distribution de poids synaptiques atteinte par un réseau de neurones. Notre objectif sera ensuite de rechercher une représentation pertinente d'un tel attracteur, sous forme d'une structure synthétique de faible dimension par exemple, qui puisse être considéré comme un percept, c'est à dire un schéma réducteur le plus représentatif et pertinent d'un objet complexe.

1.7 Le traitement des images dynamiques

Le traitement d’images [56] se succédant temporellement dans le but d’extraire une nouvelle valeur d’un paramètre pour chaque nouvelle image, indépendamment des images voisines, c'est à dire une par une, n’est pas à proprement parler un traitement d’images dynamiques au sens où nous l’entendons, dans la mesure où il se ramène à un traitement statique et à un problème dynamiquement simple qui ne nous intéresse pas en tant que mécanicien des systèmes complexes. La détection d’une pupille en mouvement [14], qui en est un exemple, est un problème purement technologique que les ingénieurs savent résoudre, qui n’a rien à voir avec la détection d’une scène dynamiquement complexe telle qu’une source de fumée [24] par exemple, même si ces problèmes font intervenir dans les deux cas des scènes complexes. Dans le premier cas, la complexité est d’ordre spatiale, et nous verrons plus loin que des outils particulièrement adaptés pour ce type de scène sont les réseaux de neurones. Dans le second cas, elle est en plus dynamique. En conséquence, les outils adaptés à ce second type de scènes sont rares. Le seul outil qui ait été relativement largement utilisé et étudié à notre connaissance est l’approche Markovienne [54], qui fait intervenir une vision probabiliste et des tests de vraissemblance sur des pixels de scènes à l’intérieur desquelles des objets complexes sont en mouvement. Cette approche propose des moyens pour résoudre un problème de décision qui doit être prise pour chaque pixel d’une image, en réponse à la question de savoir s’il y a un mouvement en tel point ou pixel. La réponse " peut-être " est interdite, les critères de décision sont insuffisants et basés, à défaut d'hypothèse sur le mouvement à détecter, sur une analyse statistique globale du voisinage spatio-temporel de chaque pixel. Cette approche utilise un voisinage de chaque pixel appelé clique, tel que représenté sur la figure 5.

figure 5: Représentation d'une clique spatio-temporelle

L'approche Markovienne fait appel à des potentiels de vraissemblance de mouvement qui sont des fonctions de tous les états possibles de toutes les cliques considérées, et dont il s’agit de calculer les extrémums, ce qui la rend assez lourde. Mais l’inconvénient principal de cette approche, qui convient néanmoins relativement bien à la détection d’objets bien contrastés en mouvement, est que le voisinage ainsi choisi est supposé contenir toutes les informations utiles à la prise de décision. Or ce n’est pas le cas lorsque la taille du pixel est mal adaptée à celle de l’objet, ou lorsque le mouvement est trop lent ou relativement mal défini. Certaines méthodes sont plus adaptées aux variations de la résolution spatio-temporelle [47]. Aucune méthode ne gère bien le cas d'un mouvement qui se traduit par des contrastes faibles ou ambigus, comme celui d’une bouffée se détachant sur un fond déjà envahi par de la fumée. Nous proposons dans ce dernier cas une autre approche, qui consiste à détecter les phénomènes dynamiques complexes en deux temps :

  1. détection de l’enveloppe du phénomène dynamique
  2. détection des mouvements localisés à l’intérieur de l’enveloppe

La première détection consiste à localiser le phénomène en faisant appel pour chaque pixel, à la place des cliques précédentes, à une combinaison linéaire des variations temporelles sur plusieurs échelles de temps, qui s'assimile à un plongement temporel suivi d'une extraction d'estimateur, pixel par pixel, ou même clique par clique dans le cas spatio-temporel. Il ne s’agit pas de détecter à ce stade, l’emplacement d’un mouvement (front de bouffée) mais uniquement une probabilité suffisante de mouvement qui définit l'enveloppe.

La seconde détection, qui ne travaille plus que sur des enveloppes, ce qui présente un avantage au niveau du temps de calcul, consiste à considérer les cliques temporelles comme des segments de signaux temporels plongés dans un espace de phases sous la forme de points dont les voisinages sont ensuite recherchés car mettant en évidence des corrélations dues au mouvement.

1.8 L'analyse des corrélations

Comme nous l'avons remarqué au 1.5, les séquences d'images ne constituent pas un matériau adéquat à partir duquel on peut caractériser directement un percept dynamique visuel. Ce dernier nécessite un espace de représentation multidimensionnel dans lequel peuvent être plongées sous forme de points des signatures spatiales ou temporelles puisées dans ces séquences d'images. Le choix de telles signatures dépend directement des corrélations susceptibles de représenter l'information pertinente directement liée au percept. Ces corrélations s'expriment par une redondance ou accumulation locale de points dans un espace de représentation adéquat qui s'impose par son caractère pointu (dense) ou massif, associé à un percept élémentaire potentiel. On peut donner quelques exemples élémentaires:

En dimension 1, cela suppose qu'un percept élémentaire peut toujours revêtir la forme d'un pic dans un histogramme. Cependant, on a généralement besoin de plusieurs dimensions pour définir un percept élémentaire, et ces dimensions ou axes de représentation doivent être choisis convenablement en fonction de l'information recherchée. Le percept dépend de ce qu'on veut bien percevoir. D'une manière générale, on suppose que pour tout percept visuel, statique ou dynamique, il existe au moins un espace de plongement dans lequel ce percept peut être représenté par au moins une accumulation ou redondance locale de points, ou pic en dimension 1. Cette propriété permet au percept d'exister en tant qu'entité approximative, schématique et réductrice.

Comme nous l'avons vu au 1.5, on s'intéresse à deux types de signatures, respectivement spatiales et temporelles, qui déterminent la méthode de plongement. Notre approche mécaniste privilégie le plongement temporel. Ce dernier type de plongement présente un avantage important. En effet, sans connaître l'objet de la perception, on peut déjà lui associer trois principaux types de corrélations ou redondances à caractériser pour définir son percept. La figure 6 illustre ces trois types, qui sont les suivants:

  1. des corrélations de type spatio-temporel entre segments temporels de signaux et phases distincts, engendrées par le mouvement ou la contagion d'un phénomène d'un signal à l'autre.
  2. des corrélations de type spatial entre segments temporels simultanés de signaux différents, engendrées par suréchantillonnage spatial d'un même phénomène de grande étendue qui affecte plusieurs voies.
  3. des corrélations de type temporel entre segments temporels du même signal, dues à une activité éventuellement chaotique qui répète de façon intermittente des évolutions passagèrement identiques qui divergent ensuite exponentiellement.

Fig. 6. Illustration des trois principaux types de corrélations dans les flots de données spatio-temporelles

 A part l'existence de ces trois types de corrélations, la recherche de points d'accumulation ou redondances dans un matériau obtenu par plongement temporel possède une caractéristique importante: un percept élémentaire unique, en l'occurrence une signature temporelle, peut générer plusieurs points d'accumulation ou pics, à cause de la redondance de phase propre à la méthode de plongement, illustrée par la figure 7. Dans le cas de corrélations d'origine non linéaire, il existe une phase prépondérante qui génère un pic plus accentué que les autres, et la redondance de phase permet de restreindre l'étude à ce seul pic pour extraire les informations complémentaires associées à ce percept élémentaire.

 

Fig. 7. Effet de la redondance de phase sur la représentation monodimensionnelle d'un percept dynamique élémentaire, obtenue par plongement temporel

 Suivant la nature des corrélations de type I, II ou III auxquelles on a affaire, la suite de la caractérisation doit suivre différentes voies:

 Dans le cas de corrélations de type II uniquement, on est en présence de signaux redondants, et une caractérisation complémentaire ne peut être que purement spatiale, à effectuer par de nouveaux plongements de type spatial. La caractérisation par plongement spatial est abordée dans le chapitre II au 2.5 et surtout au 2.6 à travers la reconnaissance d'objets par leurs contours.

 Dans le cas de corrélations de type I, il s'agit d'extraire l'information relative à la propagation et de complémenter la simple détection du mouvement correspondant à ce percept par sa caractérisation spatiale et dynamique, c'est à dire par l'extraction des trajectoires et vitesses. Cette caractérisation complémentaire est abordée dans le chapitre II au 2.3 à travers l'identification des mouvements de bouffées dans une fumée.

 Dans le cas de corrélations de type III, on est en présence de chaos ou d'autres phénomènes causant des non linéarités, c'est à dire en présence de systèmes dynamiques complexes pour lesquels la caractérisation est souvent recherchée de façon globale. Dans la section 2.4 du chapitre II, on effectue ce type de caractérisation pour identifier des stades d'activité cérébrale à partir du signal EEG. Elle peut être abordée à l'aide de différents outils d'analyse non linéaire (dimensions, exposants, entropies…).

 Nous allons maintenant voir comment la recherche d'une caractérisation robuste, respectivement globale et détaillée, nous mène à certains outils d'analyse non linéaire d'une part, et aux réseaux de neurones d'autre part.

 

1.10 L'analyse non linéaire

L'intérêt que possèdent pour le génie et plus précisément l'ingénierie de la perception les outils d'analyse non linéaire est leur capacité à caractériser, à identifier ou à visualiser des états stables ou reproductibles d'un système dynamique complexe, qu'ils appartiennent à la chaîne perceptive ou fassent partie du percept lui-même. En premier lieu, on parvient à différencier différents états d'un système en reconstruisant différents attracteurs [66] de ce système. Ces attracteurs peuvent se succéder dans le temps lorsque le système évolue, et l’analyse non linéaire permet de calculer des variables d’état globales dont l’évolution temporelle traduit ces changements d’attracteur. L'intérêt d'une caractérisation globale est qu'elle simplifie au maximum la représentation des changements d'état temporels, constituant ainsi un moyen de calculer des percepts dynamiques de changement d'état.

Lorsque la complexité du système étudié provient de sa nature chaotique, ses attracteurs ont une structure fractale [70], et l’un des paramètres non linéaires les plus robustes est la dimension fractale [60] ou dimension de corrélation D2 [67]. Nous avons constaté expérimentalement cette robustesse dans le cas de l'EEG [7]. Elle est intéressante dans le cas de systèmes dynamiques très complexes impossibles à modéliser, comme le système nerveux exploré ainsi depuis 1985 [63]. Ce système témoigne d'une dynamique non linéaire, en particulier durant le sommeil, mais la nature des attracteurs que l'on peut reconstruire n'est pas nécessairement d'origine chaotique, comme en témoigne le plus grand exposant de Lyapunov [65] qui n'est pas toujours positif. Malgré ces réserves, nous avons montré expérimentalement sur des signaux EEG (ref) que le calcul de la dimension de corrélation peut dans le cas du sommeil [8] et aussi de l'épilepsie [11] donner des résultats pertinents, car aidant à caractériser différents états de différentes régions du cerveau.

 Fig 8. L'apparition de corrélations dans un signal engendre une diminution de D2

 

Il y a plusieurs raisons théoriques qui poussent à analyser plus précisément la robustesse de D2, et qui tendent à étendre son domaine de validité ou d'application:

 

 1) Le calcul de la dimension de corrélation n’est pas directement lié à la nature fractale d’une structure, mais bien plus, comme son nom l'indique, à la présence de corrélations de type III dans le signal (figure 8). A condition d'être rendu faisable par une linéarité suffisante de l'intégrale de corrélation, il peut être effectué sur tout ou partie des points de l’espace, et donner un résultat d’autant plus pertinent que le système ayant fabriqué cet ensemble de points est complexe. La complexité agit en effet directement sur la dispersion des points à différentes échelles. La dimension de corrélation est toujours d’autant plus élevée que le système est plus aléatoire ou possède plus de degrés de liberté, même s'il n'est pas chaotique au sens physique du terme.

2) La dimension de corrélation reste pertinente lorsqu'elle fait intervenir dans son calcul des couples de points voisins correspondant à des corrélations qui peuvent avoir différentes origines. Prenons le cas d'un signal dont le système générateur est le siège d’un mélange d’influences aléatoires, linéaires et non linéaires, générant à la fois un nuage de points, une figure dense et un attracteur chaotique. Considérés à part, ces différentes structures ont des dimensions différentes, mais une fois mélangées, le calcul de D2 quantifie la structure qui parvient à imposer les corrélations à l'échelle la plus faible, c’est à dire la structure qui impose son ordre.

 Ces remarques tendent à interpréter la dimension de corrélation comme une mesure plus pertinente de la complexité d'un système et non de sa dimension fractale, qui n'a pas toujours de sens et suppose un système chaotique. Elle se justifient en partie par les équations d’estimation. Considérons en effet l’estimateur de D2 utilisé dans la pratique :

(1)

 C(r) est l’intégrale de corrélation ou densité de présence des points de la structure (attracteur ou nuage de points) dans des boules de rayon r, centrées sur les points Xi (i=1 à N) de cette structure. Selon Grasberger et Procaccia [66], celle-ci peut être estimée par la formule:

(2)

q est la fonction de Heaviside, égale à 1 si son argument est positif, nulle sinon. En pratique le calcul de D2 passe par l’estimation de la pente de la courbe C2(r) en fonction de r en coordonnées logarithmiques. Pour une valeur de r proche de la taille de l’attracteur, il y a un effet de saturation car tous les points de l’attracteur sont contenus dans les boules de rayon r, et donc C(r)® 1. D2 ne peut donc être correctement estimée qu’en dessous d’un certain seuil r0 du rayon des boules, qui correspond généralement à un faible pourcentage de couples de points. Ces couples qui correspondent aux meilleures corrélations, doivent rester suffisamment nombreux et précis pour pouvoir asseoir la valeur de D2. Ils peuvent très bien ne concerner qu'une partie des points de la structure.

 Ces remarques justifient des recherches pour faire un usage mieux adapté de paramètres non linéaires tel que D2, en les adaptant si nécessaire pour étendre leur domaine de validité et pertinence. Le besoin de quantification robuste des systèmes nécessite d'une façon générale d'explorer différentes pistes: 

Le fait d’apporter des réponses à ces différents points, comme nous avons commencé à le faire (voir 2.3), montre que les outils d'exploration non linéaire ont un intérêt non seulement expérimental mais aussi fondamental, car ces réponses peuvent amener à une meilleure compréhension des systèmes ainsi explorés. Une modélisation difficile ou impossible à priori, trouve une base de travail et devient alors envisageable à posteriori. Cette démarche exploratoire s'impose dans le cas des systèmes qui nous intéressent, non seulement parce qu'ils sont complexes mais aussi parce qu'ils appartiennent à des disciplines différentes. En effet on ne dispose pas à leur sujet de modèles préexistants dans le but d'en maîtriser ou d'en prévoir les couplages, mais seulement dans le but d'en connaître la structure et les mécanismes internes. Les réponses que l’on propose sont alors purement heuristiques.

 

1.10 Les réseaux de neurones 

L'utilisation des réseaux de neurones découle tout naturellement de la nécessité d'effectuer une caractérisation précise et suffisamment détaillée d'un système complexe ou d'un percept visuel. Nous avons vu au 1.8 qu'une telle caractérisation commence par le choix d'un espace de plongement qui permet d'amasser sous la forme de voisinages ou pics l'information pertinente qui forme la base d'un percept élémentaire. Lorsque le nombre de tels voisinages ou pics devient important, une caractérisation globale risque d'être mise en échec par l'hétérogénéité des phénomènes à l'origine de ces singularités. On peut avoir des structures mélangées dans le même espace, de dimensions hétérogènes, et associées à des singularités de natures distinctes. Il faut donc trouver un moyen d'opérer un autre type de caractérisation, capable de s'adapter au type de structure ou de singularité recherchée. Les réseaux de neurones fournissent ce moyen, de la manière suivante.

Considérons un ensemble de voisinages, et une courbe reliant directement ces voisinages en passant, au niveau de chaque voisinage, par tous les points du voisinage. Plutôt que de calculer la densité locale dans un espace multidimensionnel, on peut utiliser la densité locale de points sur cette courbe, chaque point recevant un abscisse correspondant à la distance parcourue pour arriver à ce point. Nous verrons dans le chapitre II comment construire une telle courbe par plongement fractal. On peut alors associer à chaque pic ou région dense de cette courbe un neurone élémentaire, c'est à dire un ensemble de connexions qui relient tous les points d'un même voisinage à un même neurone de position. Si une même structure est associée à plusieurs pics ou régions, on peut augmenter ce nombre de connexions en prenant en compte au niveau d'un même neurone tous les voisinages de la même structure, cet ensemble étant qualifié d'attracteur, et ce processus illustré par la figure 9.

  

Fig 9. Création (dynamique) d'un neurone à partir d'un attracteur identifié par une méthode d'indexation de voisinages, telle que le plongement fractal

 Sur cette figure, on a indiqué les poids synaptiques, qui sont proportionnels aux densités locales Cij de points de chaque région.

 Au chapitre II, nous illustrons plus avant ce processus de création dynamique de neurones sur plusieurs applications. La publication de ce procédé est retardée pour cause de discrétion industrielle et dépôt de brevet [4] [5], les applications concernées nous ayant cependant permis de le valider par son exploitation. Cette méthode s'applique plus aisément au plongement spatial qui n'engendre pas de multiples voisinages de redondances de phases, mais peut être utilisée pour tout type de plongement, en reliant sur les même neurones les voisinages de phases correspondant aux mêmes signatures.

 L'utilisation de réseaux de neurones [52] s'impose dans le cas d'informations massives en entrée, c'est à dire lorsque l'objet ou la scène analysée présente une multitude d'attracteurs. C'est le cas des systèmes qui interviennent généralement dans la perception dynamique visuelle, en particulier ceux qui concernent le couplage entre le système visuel et l'environnement. La contrainte qui détermine le couplage est la nécessité de conserver une vision nette, lorsque l'observateur ou la scène observée sont l'un ou l'autre mobiles, ou les deux à la fois. L'étude de ce couplage nécessite l'analyse des images dynamiques de l'œil et de la scène observée par l'œil. La complexité provient alors de la structure hétérogène des images:

L'analyse de l'une ou l'autre de ces deux scènes, afin de caractériser le mouvement, soit de l'iris, soit de l'environnement, pour étudier les couplages entre ces deux mouvements, requiert différents types de réseaux de neurones.

La figure 10 donne l'exemple d'une architecture de perceptron [73] à deux couches utilisée pour le calcul du mouvement de torsion oculaire, qui est obtenu par reconnaissance de la rotation de l'iris autour du centre pupillaire. Les hétérogénéités de l'iris génèrent des gradients de niveau de gris autour desquels viennent se fixer des neurones de position.

En sortie de ce réseau il est possible de lire le nombre d'occurrences ou probabilité de positionnement de l'iris à un angle déterminé. La moyenne de cette fonction de probabilité est une valeur qui varie linéairement en fonction de l'angle effectif de rotation de l'iris. Ce réseau nécessite une calibration qui peut être effectuée automatiquement en faisant tourner artificiellement l'image d'un iris d'origine autour du centre pupillaire.

Des recherches restent nécessaires pour améliorer un tel réseau afin de prendre en compte différentes sources de déviation de mesure, en particulier la présence de reflets de la scène extérieure ou de l'éclairage de l'œil. Ce réseau est l'exemple prototype d'un réseau de neurones statique, qui n'utilise pas l'information temporelle contenue dans les séquences d'images de l'œil pour faire une mesure instantanée.

 Fig 10. Architecture de perceptron à 2 couches d'un réseau de neurones identifiant le mouvement de torsion oculaire

Dans le chapitre suivant, nous illustrons la création de neurones dans le cas d'un réseau dynamique à partir du procédé illustré sur la figure 9, qui fait appel au plongement fractal. Les objets d'une scène complexe sont décomposés en contours plongés dans un espace multidimensionnel de critères permettant de les caractériser, et sont identifiés par l'attracteur des contours qui se succèdent temporellement. Les objets les plus stables génèrent des attracteurs denses dans l'espace des phases. Ces attracteurs indexés par plongement fractal alimentent ainsi l'entrée d'un réseau de neurones dynamique, ce dynamisme se traduisant par la création d'une seconde couche de neurones, qui identifie non plus des attracteurs mais des objets plus complexes, le temps intervenant comme un facteur permettant le cumul d'informations jusqu'au dépassement d'un seuil de probabilité qui détermine la décision de reconnaissance (mécanisme de décharge neuronale).

En conclusion, l'un des objectifs de notre recherche est de travailler à une synthèse à l'intérieur d'une même approche des outils de caractérisation non linéaire et d'analyse des singularités d'une part, et des réseaux de neurones d'autre part. Nous faisons pour cela appel à la notion d'attracteur, dans le sens très général d'une densification reproductible d'informations dans un espace d'états. Nous avons vu et illustrerons dans le chapitre suivant comment un tel attracteur, une fois identifié, peut alimenter un réseau de neurones, par exemple en créant un nouveau neurone de position à l'endroit d'une singularité dans l'espace des phases, et d'une manière générale en créant autant de neurones qu'il existe de zones denses dans un attracteur. On peut aussi, sans créer ou détruire des neurones, introduire sur une architecture d'entrée prédéfinie des neurones des poids synaptiques variables en fonction de la densité locale. Notre point de vue est que l'analyse non linéaire et les réseaux de neurones servent à traiter la même information, et on doit préciser dans ce sens que ces derniers peuvent aussi permettre de faire une caractérisation globale en sortie de réseau, fournissant un moyen de faire évoluer les caractérisations non linéaires globales. Cette conception qui tend à unifier les deux approches a jusqu'à présent été pour nous l'héritage d'une nécessité pratique de faciliter le développement d'applications technologiques. A l'heure actuelle nous travaillons à améliorer son cadre conceptuel de base, qui est le plongement fractal.

Pour avoir des informations plus récentes sur les applications du plongement fractal