Étude de l’invariance par translation des premières couches des réseaux de neurones convolutifs - Statistique pour le Vivant et l’Homme Access content directly
Conference Papers Year : 2023

Étude de l’invariance par translation des premières couches des réseaux de neurones convolutifs

Kévin Polisano

Abstract

Malgré des progrès spectaculaires en vision par ordinateur au cours de la dernière décennie, les réseaux de neurones convolutifs (CNN) souffrent toujours d’un faible niveau de compréhension mathématique. En particulier, les propriétés de stabilité vis-à-vis de petites transformations (translations, rotations, mises à l’échelle, déformations) ne sont que partiellement comprises. Dans cet exposé, nous étudions l'effet combiné des couches de convolution et de max pooling dans la génération de représentations quasi-invariantes par translation. Cette propriété est primordiale pour la classification, puisqu’il est attendu que deux versions translatées d’une même image soient classifiées de manière identique. Entrainés sur des ensembles de données tels qu'ImageNet, les CNN ont tendance à apprendre des paramètres de la première couche qui s'apparentent à des filtres passe-bande orientés, autrement dit à des ondelettes. En tirant parti des propriétés des convolutions discrètes de type Gabor, nous établissons des conditions sous lesquelles les 'features maps' calculées à la sortie de l'opérateur de max pooling (RMax) se rapprochent de module de coefficients d'ondelettes complexes de type Gabor (CMod), connus pour être stables par translation. Nous calculons ensuite une mesure probabiliste de l'invariance par translation de l'opérateur RMax sur la première couche du réseau. Plus précisément, nous montrons que certains filtres, en fonction de leur fréquence et de leur orientation, sont plus susceptibles que d'autres de produire des représentations d'images stables. Nous validons expérimentalement nos résultats théoriques en considérant un extracteur de caractéristiques déterministe basé sur la transformée en paquets d'ondelettes complexe 'dual-tree', un cas particulier de décomposition discrète de type Gabor. Nous mettons ainsi en évidence la forte corrélation entre l'invariance par translation de RMax et la similarité établie entre les opérateurs RMax et Cmod.
Seminaire-DATA-2023.pdf (30.24 Mo) Télécharger le fichier
Origin : Files produced by the author(s)

Dates and versions

hal-04307467 , version 1 (26-11-2023)

Identifiers

  • HAL Id : hal-04307467 , version 1

Cite

Kévin Polisano. Étude de l’invariance par translation des premières couches des réseaux de neurones convolutifs. DATA seminar, Nov 2023, Grenoble, France. ⟨hal-04307467⟩
26 View
2 Download

Share

Gmail Facebook X LinkedIn More