Archives de catégorie : [:en]statistics[:fr]statistiques

Axe 9 : Estimation nonparamétrique et statistique des processus

Dans cet axe, une direction de recherche est centrée sur la statistique nonparamétrique et semi-paramétrique pour la construction d’estimateurs optimaux (dans le sens minimax, ou bien à partir d’inégalités oracle) pour des problèmes d’inférence statistique en grande dimension (modèles déformables en traitement du signal, estimation de matrice de covariance, problèmes inverses).

Dans cette optique, une première partie se focalise sur la minimisation de l’estimateur non-biaisé du risque de Stein (SURE) pour des modèles issus du cadre variationnel. Une première difficulté théorique est de construire de tels estimateurs lorsque les fonctionnelles mises en jeu ont un caractère non-lisse, non-convexe voire discontinu. Une deuxième difficulté concerne la mise en place d’algorithmes efficaces pour le calcul et la minimisation du SURE lorsque les solutions de ces modèles sont elles mêmes issues d’un algorithme d’optimisation. Finalement, une dernière difficulté concerne l’extension du SURE à des problèmes complexes d’inférence (problèmes mal-posés, bruits non blanc gaussien, etc.).

Une autre partie de cet axe porte sur les modèles de régression semi-paramétrique où la fonction de régression est estimée par un estimateur de type Nadaraya-Watson récursif. Dans ce cadre, un contrat région Aquitaine a été obtenu en 2014 pour 3 ans. Il porte sur le développement de nouvelles méthodes d’estimation non paramétrique avec applications en valvométrie et sciences de l’environnement.

Axe 8 : Grandes déviations et inégalités de concentration

Cet axe de recherche est constitué de deux parties. La première partie porte sur les propriétés de grandes déviations de formes quadratiques de processus gaussiens et de diffusions browniennes. On peut également citer des travaux récents portant sur les grandes déviations des estimateurs des moindres carrés des paramètres inconnus de processus d’Ornstein-Uhlenbeck avec shift. La seconde partie est dédiée aux inégalités de concentration pour les sommes de variables aléatoires indépendantes et les martingales. Un livre est à paraître, comportant quelques applications des inégalités de concentration en probabilités et statistiques, en particulier sur le processus autorégressif, les permutations aléatoires et spectre de matrices aléatoires.

Axe 7 : EDP : approches stochastiques

Cet axe de recherche consiste à étudier des propriétés de certaines classes d’EDPs (existence, unicité, comportement en temps long, régularité…) à l’aide de processus stochastiques. L’étude de systèmes d’équations différentielles stochastiques progressives-retrogrades (EDS-EDSR) permet par exemple d’obtenir une représentation probabiliste pour ces EDPs, représentation que l’on appelle communément formule de Feynman-Kac. Cette représentation permet en outre de construire et d’étudier la convergence d’algorithmes probabilistes pour résoudre numériquement ces EDPs.

Les EDS-EDSR permettent également de modéliser des équations de l’hydrodynamique, et leur résolution approchée donnent de nouvelles méthodes de simulation. Leur combination avec des méthodes variationnelles permettent de répondre à des questions d’existence de flots généralisés avec des conditions initiale et finale. Les EDSR sont aussi un outil prometteur pour le lissage et le débruitage de signaux, via la construction de martingales de valeur terminale donnée.

Axe 5 : Calcul stochastique, probabilités et statistique sur des variétés

Cet axe concerne l’utilisation de toutes les méthodes du calcul stochastique, en particulier l’analyse fine des trajectoires de processus, de leurs probabilités, de leurs variation, les couplages, avec pour objectifs :

  • l’analyse des semi-groupes de diffusion et des équations d’évolution dans les variétés (équation de la chaleur, équation de courbure moyenne, flot de Ricci), et leur exploitation en traitement du signal, de l’image,
  • obtenir des inégalités fonctionnelles,
  • l’étude des bords de Poisson,
  • les calculs de sensibilité de prix dans des modèles financiers,
  • les inégalités de transport,
  • les algorithmes de recherche et d’optimisation dans les variétés pour l’exploitation en signal-image.

Sont également étudiées des problèmes d’existence et d’unicité de martingales à valeur terminale donnée dans des variétés. Plusieurs contributions portent aussi sur la notion de moyenne de Fréchet qui est une extension du barycentre euclidien usuel à des espaces munis de distances non-euclidiennes. Dans ce cadre, de nombreuses propriétés statistiques de la moyenne de Fréchet ont été établies dans des modèles déformables de signaux.

Estimation de coûts au sens de Kullback-Leibler

Nous abordons la question de l’estimation des coûts au sens de Kullback-Leibler comme une alternative aux coûts quadratiques dans les problèmes de reconstruction où le bruit est distribué au sein de la famille exponentielle. Nous identifions les conditions dans lesquelles ces coûts peuvent être estimés sans biais avec avec un biais contrôlée. Des simulations sur des problèmes de sélection de paramètres dans des applications de débruitage d’images avec du bruit Gamma et Poisson illustrent l’intérêt des coûts au sens de Kullback-Leibler et des estimateurs proposés.

Article disponible ici

Estimation non paramétrique du bruit

Afin de fournir un algorithme de débruitage automatique, nous avons développé une méthode automatique d’estimation du bruit dans une image, basée sur la détection non paramétrique des zones homogènes. Les régions homogènes de l’image sont détectées à l’aide du coefficient de corrélation de rang de Kendall [1]. Evalué sur des séquences de pixels voisins, il permet de mesurer la dépendance entre voisins et donc la présence de structure au sein d’un bloc de l’image.
Ce test est non paramétrique, donc la performance du détecteur est indépendante de la distribution statistique du bruit. Une fois les zones homogènes détectées, la fonction de niveau de bruit, c’est-à-dire la fonction reliant la variance du bruit à l’intensité sous-jacente de l’image, est estimée sous forme d’un polynôme du second degré à l’aide de la minimisation de l’erreur \ell^1 des statistiques issues de ces régions homogènes.

Codes Matlab pour l’estimation de bruit

Publications associées :

– C. Sutour, C.-A. Deledalle et J.-F. Aujol. Estimation of the noise level function based on a non-parametric detection of homogeneous image regions. Submitted to Siam Journal on Imaging Sciences, 2015.

– C. Sutour, C.-A. Deledalle et J.-F. Aujol. Estimation du niveau de bruit par la détection non paramétrique de zones homogènes. Submitted to Gretsi, 2015.

Références

[1] Buades, A., Coll, B., and Morel, J.-M. (2005). A review of image denoising algorithms, with a new one. Multiscale Modeling and Simulation, 4(2): 490–530.

Transport Optimal en Traitement d’Images

Le transport optimal est désormais un outil majeur en vision par ordinateur et en traitement d’image. Il peut être utilisé pour calculer des similarités entre descipteurs, appareiller et moyenner des descripteurs (transport discret) ou encore recaler des images (transport continu). Un défaut majeur de cet outil vient du manque de régularité des plans de transports qui entraine une faible robustesse aux données aberrantes. Le coût de calcul du transport optimal est aussi une limitation pratique à son utilisation pour des problèmes de grande dimension. Dans cet axe, nous nous intéressons donc à la définition de nouveaux algorithmes permettant de calculer des solutions de problèmes de transport optimal généralisés intégrant des contraintes de régularité.

Sélection de modèle pour l’image

Un point critique des approches en restauration d’images concerne le réglage de leurs paramètres. Lorsque l’on simule des données dégradées à partir d’une image de référence, on peut comparer l’image de référence à celle restaurée par de telles approches, et ainsi sélectionner les paramètres qui offrent la meilleure qualité de restauration. Ce réglage est bien moins évident dans le cas de données réelles pour lesquelles il n’y a pas d’image de référence. Dans le cas de dégradations simples, des outils de statistique permettent d’estimer l’erreur quadratique de restauration quand bien même l’image de référence est inconnue, on parle d’« estimation de risque ». Optimiser cette estimation par rapport aux paramètres de la méthode permet alors d’obtenir une calibration proche de l’optimal. L’estimateur de risque non-biasé de Stein (SURE, Stein 1981) est l’un des exemples les plus connus, appliqué avec succès pour calibrer des méthodes de restauration d’images en présence de bruits gaussiens (par ex., Ramani et al., 2008). Nous nous intéressons dans cet axe au développement d’estimateurs dérivés du SURE pour la calibration des paramètres intervenant dans les méthodes récentes, potentiellement hautement paramétriques, pour la restauration d’images aux dégradations complexes (flou, données manquantes, bruit non-gaussien, non-stationnaire et corrélé).

Voir:
Stein Unbiased GrAdient estimator of the Risk
Stein Consistent Risk Estimator for hard thresholding
Local Behavior of Sparse Analysis Regularization

Stein Unbiased GrAdient estimator of the Risk

Les algorithmes de régularisation variationnelle résolvant des problèmes inverses mal posés impliquent généralement des opérateurs qui dépendent d’un ensemble de paramètres continus. Lorsque ces opérateurs bénéficient d’une certaine régularité (locale), ces paramètres peuvent être sélectionnés en utilisant l’estimateur non-biasé de Stein (SURE). Bien que cette sélection est généralement effectuée par une recherche exhaustive, nous abordons dans ce travail le problème de l’utilisation du SURE pour l’optimisation efficace d’une collection de paramètres continus du modèle. Lorsque l’on considère des regularizations non lisses, comme la norme l1 populaire correspondant au seuillage doux, le SURE est une fonction discontinue de paramètres qui empêchent l’utilisation de techniques d’optimisation de descente de gradient. Au lieu de cela, nous nous concentrons sur une approximation du SURE sur la base de différences finies comme proposé dans (Ramani et al., 2008). Sous des hypothèses modérées sur l’estimateur, nous montrons que cette approximation est une fonction faiblement différentiables des paramètres et que son gradient faible (SUGAR), fournit asymptotiquement (par rapport à la dimension de données) une estimation non biaisée du gradient du risque. En outre, dans le cas particulier de seuillage doux, SUGAR est avéré être aussi un estimateur consistent. Le SUGAR peut alors être utilisé comme une base pour effectuer une optimisation de type quasi-Newton. Le calcul de SUGAR repose sur la forme explicite de la différenciation (faible) de la fonction non-lisse. Nous fournissons son expression pour une large classe de méthodes proximales itératives et appliquons notre stratégie à des régularisations impliquant des pénalités convexes non lisse. Des illustrations sur divers problèmes de restauration d’image et de complétion de matrices sont donnés.

Publications et codes sources associés :

Charles-Alban Deledalle, Samuel Vaiter, Gabriel Peyré and Jalal Fadili
Stein Unbiased GrAdient estimator of the Risk (SUGAR) for multiple parameter selection,
Technical report HAL, hal-00987295 (HAL)

MATLAB source codes available from GitHub.