Introduction

Le projet CIMENT (http://www.ujf-grenoble.fr/CIMENT, Calcul Intensif, Modélisation, Expérimentation Numérique et Technologique) inscrit au CPER, est né en 1998 au sein des universités scientifiques grenobloises pour favoriser le développement cohérent de plates formes matérielles et logicielles pour la modélisation numérique et l’expérimentation du calcul intensif. Lors de la genèse du projet, il a paru essentiel d’associer la communauté de l’informatique distribuée aux communautés de modélisation et calcul, afin que les plates formes mises en place soient à la fois expérimentales et donc dynamiques, tout en permettant aux utilisateurs de faire des calculs sur leurs problèmes de modélisation. Le projet CIMENT est donc par essence pluridisciplinaire. Concrètement, il est composé de 6 plates formes d’équipement pour la modélisation numérique, le calcul et l’expérimentation de l’informatique distribuée. Par ordre chronologique de mise en place, il s’agit :

Il est clair que le projet CIMENT est fortement pluri-disciplinaire, chaque pôle étant fortement spécialisé dans un domaine scientifique. Tous les acteurs ont en commun un vif intérêt pour le calcul numérique intensif et l’informatique distribuée (en tant que chercheur ou utilisateur) et ce sont ces thèmes qui fédèrent le projet. Enfin, la diversité des plates formes matérielles construites, réparties géographiquement sur des sites distants de plusieurs kilomètres et donc interconnectées par des réseaux hétérogènes, permet une expérimentation réaliste des grilles de calcul sur des applications diverses dans un cadre géographique restreint, ce qui facilite le travail. La construction d’une grille regroupant les plates formes CIMENT est le premier objectif de ce projet.

Les plates formes CIMENT sont administrées par des ingénieurs expérimentés dans la gestion de machines dédiées au calcul intensif. De nombreux chercheurs sont utilisateurs de centres de calcul nationaux (une vocation des plates formes CIMENT étant de servir de tremplin vers l’IDRIS et le CINES). Notre communauté a constaté qu’il n’existe pas de gestionnaire bien adapté à l’administration efficace de calculs répartis de type paramétriques, notamment à gros grains, sur une machine parallèle multi-utilisateurs et plus généralement sur une grille de calcul. Ce type de calcul pourrait pourtant utiliser efficacement des plages de calcul libérées sur des processeurs éventuellement éparpillés sur différentes architectures de la grille. Des méthodes de distribution des données et de régulation de charge doivent donc être développées pour le déploiement des calculs de type Monte Carlo ou plus généralement paramétriques sur une grille.

L’objectif principal du projet CIMENT GRID est l’expérimentation du calcul sur grille. Il interagira avec d’autres projets de l’ACI GRID afin d’utiliser au maximum les technologies logicielles d’exploitation de grille de calcul qui y sont développés. De ce point de vue, la grille CIMENT permettra une validation sur des applications réelles de ces technologies. Les projets de l’ACI GRID avec lesquels nous avons un projet de partenariat sont les projets logiciels :

et le projet pluri-disciplinaire

Les objectifs scientifiques et les résultats attendus

Construction de la grille locale CIMENT

Chacun des partenaires des pôles CIMENT s’engage à mettre à disposition de l’ensemble de la communauté expérimentatrice de la grille (informaticiens et modélisateurs) une fraction du temps de l’utilisation de sa plate forme de calcul (pour fixer les idées, dans la limite de l’ordre de 10% du temps de calcul produit avec pour objectif l’utilisation principale pour la grille du temps improductif de la plate-forme).

Mise en œuvre sur de la grille

Développement, installation et validation des logiciels permettant de faire fonctionner la grille CIMENT :

Un des principaux objectifs actuels est de faire fonctionner les grilles comme une machine unique, si possible de façon transparente pour les utilisateurs. De nombreux problèmes sont induits pour pouvoir réaliser ce but, en particulier autour de la sécurité des sites reliés, de l'interopérabilité des logiciels tournant localement, de la gestion de l'hétérogénéité des ressources, ou encore du passage à l'échelle de solutions validées sur des petites configurations locales.

Dans ce projet, nous entendons développer des méthodes pour la gestion efficace des ressources de calcul, pour le placement des tâches des applications cibles et l'optimisation des communications induites.

La méthode de travail que nous proposons est de nous concentrer sur une classe d'applications génériques en simulation : les méthodes de types Monte Carlo, qui sont utilisées sous différentes formes chez chacun des partenaires CIMENT. La restriction à cette classe spécifique mais importante d’applications, facilitera l’étude et le développement de prototypes logiciels. Notre idée est de fournir des bancs d'essais et des composants logiciels qui s'adapteront aux différentes applications de Monte Carlo et seront utilisables avec un minimum d'efforts. Les fortes implications et collaborations existantes des membres de CIMENT sont un gage de réussite. D'une part, les fonctionnalités à implémenter seront dictées par les utilisateurs eux-mêmes, d'autre part, l'utilisation intensive des composants développés permettra une mise au point plus rapide et plus sûre.

Pour une mise en place efficace de la grille de calcul CIMENT nous pensons nous appuyer sur les résultats et expertises développer dans le cadre de l’ACI-GRID.

  1. Tout d’abord, des liens forts existent avec le projet Relation ACI-GRID CGP2P auquel participe Olivier Richard du laboratoire ID. L'ACI-GRID CGP2P à pour objectif principal de développer un intergiciel en vue d'une exploitation efficace des plates-formes de très grande taille. Plus précisément, cette action se concentre sur une forme particulière de grille que peut représenter les ressources inutilisées des machines connectées sur Internet ou sur un ensemble d'Intranet. Bien que les logiciels développés dans cette action ne répondent pas exactement à celle nécessaire dans l'ACI-GRID CiGri CIMENT une forte complémentarité peut se dégager suivant les points suivants :
L'ensemble de ces points de contacts fait qu'une coopération entre les 2 actions sera assurément profitable à l'ensemble des partenaires et de leurs objectifs réciproques.
  1. Un lien doit être établi avec le projet avec le projet RMI Objets distribués haute performance pour la grille de calcul dirigé par Christian Perez. Le projet concerne en particulier des composants de programmation pour grilles qui permettent d’intégrer des modes de programmation différents grâce à des approches corba/java de haut niveau. Un des objectifs est d’exploiter les performances des réseaux. Les applications cibles concernées sont plutôt le couplage de très grosses applications ce qui n’est pas a priori notre premier objectif. Cependant, d’une par la grille CIMENT pourrait servir de plate forme d’expérimentation à ce projet, d’autre part des applications de ce type pourraient émerger au sein de CIMENT. Enfin,  l’expérience de ces technologies permettra d’enrichir l’expertise du projet.
  2. Enfin, il est très naturel d’établir des liens avec le projet ASP de Frédéric Desprez, dont l’objectif est de fournir des serveurs d’applications plutôt orientées gros grain, et de les valider sur des applications réelles. Des solutions telles que NetSolve et DIET (Distributed Interactive Engineering Toolbox ) permettant d’effectuer des calculs numériques sur les réseaux sont au centre des préoccupations des utilisateurs de CIMENT. De même que dans le projet RMI de Christian Perez, l’expérimentation d’ASP sur une grille CIMENT pourrait être envisagée. Enfin, les collaborations entre le Pôle de Simulation et de Modélisation Numérique de l’ENS de Lyon et l’équipe de Frédéric Desprez, proches dans leur forme et dans leurs objectifs de celles développées au sein de CIMENT, associées à notre proximité régionale nous incite à renforcer nos collaborations.

Validation par des expérimentations multidisciplinaires sur la grille

Les trois premiers projets concernent la modélisation numérique de phénomènes physiques. L’objectif est une meilleure compréhension de la physique de la matière. Les enjeux économiques sont grands : ils concernent en particulier la conception de nouveaux matériaux d’intérêt industriel pour des applications en électronique par exemple ou dans le domaine du nucléaire.

SIMULATION MONTE CARLO DE LA CROISSANCE CRISTALLINE PAR EPITAXIE PAR JETS MOLECULAIRES [Philippe PEYLA (LPMMC)]

La croissance cristalline par épitaxie par jets moléculaires est un sujet en plein essor. Cette technique de croissance à relativement basse température (très inférieure à la température de fusion des matériaux) permet l'obtention de couches minces aux interfaces bien localisées (quelques mono-couches atomiques). Les méthodes numériques que l'on utilise pour simuler un tel type de croissance sont des simulations de Monte Carlo Cinétique. L'algorithme que nous avons développé pour traiter le problème est inspiré de l'algorithme de Bortz Kalos et Lebowitz [J. Comp. Phys. 17, 10 (1975)] utilisé pour les verres de spins, la différence résidant dans le fait que le système que nous étudions est hors équilibre (flux d'atomes permanent sur la surface). La comparaison entre ces simulations numériques, l'expérience et les théories de champ moyen sont en parfait accord (voir les publications ci-dessous).

Si l'utilisation de la mémoire est relativement faible, en revanche le temps de simulation est relativement long. Typiquement, pour simuler le dépôt d'une seule couche constituée de 256 x 256 atomes, il faut (dépendant de la température simulée) entre 5 minutes et une heure de calcul sur une machine de type RISC 6000. La parallélisation du code pourrait permettre de simuler des surfaces beaucoup plus grandes et ainsi accéder à la simulation de phénomènes à de plus grandes échelles comme par exemple l'influence de gradients de température.

METHODES DE MONTE CARLO EN SCIENCE DES MATERIAUX  [Alain PASTUREL (LPMMC)]

L’objectif de ces études est de coupler des simulations de type Monte Carlo à des calculs de mécanique quantique afin d’avoir une compréhension la plus exacte possible des mécanismes régissant à la fois la stabilité et les propriétés de matériaux d’intérêt industriel. Ici, nos axes de recherche concernent la modélisation de la croissance de SiC (matériau pour l’électronique) et les transformations de phases dans les alliages de Plutonium ( matériau pour le nucléaire). Ces études permettent d’étudier les matériaux le plus souvent dans des conditions où les expériences ne sont pas réalisables ou n’amènent pas d’informations concernant la compréhension directe des propriétés ciblées. Ces méthodes sont cependant très coûteuses en temps calcul car les cellules de simulation comportent le plus souvent un grand nombre de particules. Elles nécessitent une infrastructure informatique très importante (grappe de PCs ou supercalculateur).

MAGNETO-OPTIQUE DES SYSTEMES DESORDONNES [Bart VAN TIGGELEN (LPMMC), Felipe PINHEIRO (thésard au LPMMC)]

Le but principal du projet est de démarrer une étude numérique de la propagation des ondes et en particulier de la localisation forte d'Anderson dans un milieu fortement désordonné et sous champ magnétique. La méthode de Monte-carlo est nécessaire pour générer un nombre très élevé de réalisations microscopiques d’un système désordonné, dont on connaît la statistique. Un code numérique existe qui traite la polarisation de la lumière. Cela est crucial pour les effets magnéto- optiques. Les enjeux sont le compréhension de la localisation forte de la lumière sous champ magnétique, l’étude sur la possibilité de déduire la chiralité (symétrie par miroir brisée) des systèmes désordonnés par des mesures optiques. Le but scientifique est de faire tourner les logiciels d'une façon efficace pour un maximum de diffuseurs ( > 1000). La formulation théorique d’un nouveau code existe. Il devrait inclure les effets magnéto-optiques. Cette formulation a exigé une petite modification de la méthode numérique. L'implémentation de cette modification est en cours. Quelques modifications et extensions de l'allocation mémoire seront également nécessaires.

Méthodes de Monte Carlo et multiparamétriques en astrophysique [Pierre Valiron]

Les profils de code de l’Observatoire sont très variés de par la diversité des applications traitées. Parmi ces applications, nous pouvons cependant identifier un certain nombre de calculs de type Monte Carlo, ou encore des calculs de type paramétriques, par exemple :

Evolution dynamique dans les systèmes planétaires au moyen d’intégrateurs symplectiques (Hervé Beust)

Les observations récentes à haute résolution de jeunes systèmes planétaires et la détection d’exo-planètes nécessitent une meilleure compréhension de la dynamique gravitationnelle dans ces systèmes stellaires jeunes (simples ou multiples) en présence des instabilités dynamiques provoquées par un ou plusieurs " Jupiters ". La modélisation de système de type Beta Pictoris permet également la validation de l’approche FEB (Falling Evaporating Bodies) par l’observation transitoire en absorption des matériaux évaporés des comètes, permettant ainsi la détermination directe de la composition chimique des petits corps dans le disque d’un exo-système planétaire. Les calculs sont de type multi-paramétriques. Chaque calcul est lui-même parallélisé en Open-MP et bénéficie le cas échéant d’une plate forme SMP à quelques processeurs. Le portage du code f90 sur une plate forme bi-PC ne devrait pas poser de problème.

Propagation des ondes acoustiques ou élastiques dans une milieu hétérogène (Céline Lacombe)

Nous cherchons à modéliser la propagation des ondes acoustiques ou élastiques dans un milieu hétérogène. Cette étude est appliquée à la propagation des ondes sismiques dans la lithosphère. Pour ce type d’étude nous résolvons une équation de transport grâce aux techniques de Monte Carlo. Cette technique consiste à simuler la marche aléatoire de millions de particule dans un milieu contenant des hétérogénéités. Chaque particule étant indépendante des autres.

Evolution stellaire – Modélisation de la fin de la vie des étoiles de masse intermédiaire (Manuel Forestini, Gwenaelle Leclair). Nous nous intéressons à l'évolution de la composition chimique de surface des étoiles de masse intermédiaire pendant la phase ultime de leur évolution (phase AGB). Ces étoiles enrichissent alors fortement le milieu interstellaire en éléments lourds synthétisés dans leur cœur nucléaire, puis éjectés ensuite dans l'espace depuis leur surface par un vent violent se déclenchant à ce moment. Ces éléments chimiques se retrouvent ensuite dans les nuages interstellaires à l'origine des générations successives d'étoiles et de planètes. Pour tester les prédictions des modèles évolutifs dans le contexte de l'évolution chimique du milieu interstellaire, il convient de réaliser, au moyen d'un seul et même code d'évolution stellaire (afin d'éviter l'absence de biais liés aux différents modèles) de vastes grilles en masse et en composition chimique (pour reproduire au mieux les générations successives d'étoiles) et de suivre les calculs jusqu'au terme de la phase AGB (puisque c'est alors que la contribution des étoiles de masse faible et intermédiaire est maximale). La constitution d’une telle abaque multi-paramétrique nécessite actuellement des dizaines de milliers d’heures de calcul sur les calculateurs nationaux, et constituerait une excellente validation d’une approche multi-paramétrique sur la grille des calculateurs CIMENT.

Milieu Interstellaire : Calcul ab-initio de surfaces d’interaction moléculaires pour la prédiction de taux d’excitation inélastiques en appui aux futures observatoires spatiaux et sol (Alexandre Faure, Claire Rist, Pierre Valiron, Laurent Wiesenfeld). L’excitation collisionnelle des molécules interstellaires ou circumstellaires doit être modélisée en détail pour permettre l’interprétation des intensités des raies qui sont et seront observés dans le sub-millimétrique et dans l’infrarouge lointain, et remonter ainsi à la connaissance des conditions physiques et chimiques dans les objets astrophysiques eux-mêmes. La sensibilité et la qualité des futurs observatoires justifie une investigation précise de ces processus d’excitation moléculaire. Les calculs de collision reposent sur la détermination des potentiels d’interaction obtenus par des techniques de chimie théorique ab-initio du type coupled-cluster.

Ce type de calculs ab-initio est bien ciblé pour une exécution modérément parallèle sur une machine parallèle, ou un réseau de machines avec des architectures éventuellement hétérogènes (voir l’article de la Gazette du CINES du 1er juillet, sous http://www.cines.fr/textes/gazette8.pdf.) Par ailleurs l’exploration d’une surface de potentiel intermoléculaire nécessite le calcul de plusieurs milliers à plusieurs dizaines de milliers de calculs indépendants pour assurer un échantillonnage suffisant des degrés de liberté intermoléculaires (distance et orientations relatives) et intra-moléculaires (vibrations). Ces calculs multi-paramétriques lourds ont donc vocation à être distribués sur une grille, du moment que les ressources nécessaires en mémoire et en entrées-sorties pour chaque calcul peuvent être réservées par le logiciel d’accès aux ressources de la grille.

Ce type de calculs est théoriquement bien ciblé pour une exécution parallèle sur une machine parallèle, ou un réseau de machines avec des architectures éventuellement hétérogènes. Les calculs effectués sont généralement à gros grain en terme de CPU, ou encore d’espace mémoire requis, ou bien encore d’espace disque nécessaire. La taille du grain est typiquement de plusieurs heures CPU, de l’ordre de 1 Go de mémoire et un a plusieurs Go d’espace disque. Les données sont soit des calculs intermédiaires, soit des données issues d’observations. Dans ce dernier cas, les données doivent être vue par les nœuds de calcul au moment de l’exécution.

Pratiquement, la gestion de tels programmes est plus compliquée. Pour les calculs de ce type, nous avons jusqu’à présent été amené à développer nos propres outils pour une exécution sur les centres nationaux (notamment un outil runp qui utilisait initialement la librairie PVM et qui a été réécrit par un ingénieur du CINES en MPI ; cet outil a été utilisé par plusieurs utilisateurs du CINES qui avaient la même problématique). Ces outils " maison " sont bien sur très basiques et ne sont de loin pas la solution idéale ; ils ne font que refléter l’absence d’outils évolués pour le traitement optimal de calculs de type paramétriques.

Optimisation de la consistance des données en tomographie [L. Desbat, TIMC]

En imagerie médicale nucléaire, on cherche à reconstruire, à partir de mesures externes de l’activité du patient, la distribution de concentration d’un traceur radioactif qu’il a inhalé ou qu’on lui a injecté. Le modèle mathématique correspondant est celui de la projection (intégrale) de la fonction d’activité sur les différents plans associés aux positions du détecteur. Une difficulté majeure de la reconstruction de l’activité est liée à l’atténuation, en général inconnue, par les tissus environnants, des photons émis. Les images obtenues sont de résolution médiocre (5mm) et seulement qualitative. La quantification des images nucléaires est un des grands enjeux de l’imagerie médicale. Outre l’intérêt évident d’une bonne quantification pour le diagnostic clinique, on peut citer parmi les applications potentielles le suivi dosimétrique en curie-thérapie par exemple. Cette technique locale et faiblement invasive de traitement de cancer (cancer du foie par exemple) consiste à implanter quelques source radio-active au sein des foyers tumoraux. Un suivi dosimétrique précis par imagerie nucléaire est alors nécessaire pour le contrôle et l’évaluation de la thérapie.

Afin de pouvoir estimer précisément les valeurs distribuées d’activité il faut corriger de l’atténuation et de la diffusion. L’atténuation ou sa correction à partir des données peuvent être estimées à partir des conditions de consistances des données. En effet, pour que les données soient consistantes, elles doivent vérifier des équations indépendamment de l’activité et dans lesquelles intervient la fonction d’atténuation. L’idée est d’ajuster la fonction d’atténuation pour rendre consistantes les données. Les méthodes d’optimisation employées pour la maximisation de la consistance sont essentiellement non différentiables. Elles conduisent à l’évaluation de la consistance pour un grand nombre de jeux de la paramétrisation de l’atténuation (en général un modèle déformable). En deux dimensions, le coût de l’optimisation est de plusieurs dizaines de minutes sur un processeur moderne pour une paramétrisation très faible (5 paramètres) du modèle de l’atténuation. On peut estimer à plusieurs dizaines d’heures le coût de l’estimation dans un problème en trois dimensions. Enfin le couplage d’une telle méthode avec une modélisation de la diffusion (par des techniques de Monte Carlo) devra être envisagé. Les résultats attendus sont une meilleure quantification en imagerie nucléaire et une plus grande diffusion de ces techniques coûteuses en temps de calcul. Ce type d’approche pourrait être généralisé à la correction du bougé du patient dans un scanner médical et à l’estimation de la fonction d’assombrissement centre bord en imagerie Doppler en astrophysique.

Méthodes MC pour l’Analyse génétique spatialisée [O. François (PR, TIMC), Stéphanie Manel (MdC au laboratoire de biologie des populations d'altitude), M. Blum (DEA, Ing. Ensimag), plate forme BioIMAGe]

Les progrès technologiques opérés depuis quelques années dans le domaine de la biologie moléculaire permettent désormais d'envisager l'étude de la structuration génétique à l'échelle de populations entières en exploitant l'information de génotypes multilocus (marqueurs moléculaires dominants ou codominants) ou les puces à ADN. Cette explosion de l'information génétique nécessite le développement de méthodes probabilistes et statistiques nouvelles souvent fondées sur l'approche "computationnelle" impliquant des moyens de calcul importants. Le contexte de l'opération s'inscrit dans une politique du développement durable et vise à faciliter la conservation des populations naturelles, ainsi qu'à prédire l'évolution de telles populations (gestion de la biodiversité, maladies émergentes). En génétique des populations, l'estimation de la dispersion est un préalable essentiel à la bonne compréhension de la structuration des populations [S. Wright. Isolation by distance. Genetics. (1943) 28, 114-138].

Le grand nombre de données génétiques produites par les techniques modernes issues de la biologie moléculaire (marqueurs, séquences) permet d'envisager depuis quelques années l'estimation des paramètres présents dans les modèles théoriques tels que les taux de mutation, de migration, les tailles efficaces des populations, etc. Les gènes à un locus donné sont reliés dans une population par un arbre généalogique décrivant les relations avec les ancêtres communs les plus récents. Mutation, migration, recombinaison et sélection laissent leur empreinte sur ses arbres généalogiques pour chaque locus. L'objectif de cette démarche consiste à estimer le rôle de chacun des événements précédents dans l'historique du gène afin de comprendre la structure actuelle d'une population.

L'approche que nous souhaitons adopter s'inscrit dans la mouvance de Felsenstein et ses collaborateurs [LAMARC : http://evolution.genetics.washington.edu/lamarc/migrate.html] et [Beerli, P. and J. Felsenstein (2001) Maximum likelihood estimation of a migration matrix and effective population sizes in n subpopulations by using a coalescent approach. PNAS 98(8): 4563-4568]. Il s'agit d'estimer ces paramètres en utilisant des méthodes de Monte Carlo par Chaine de Markov (Metropolis, echantillonnage parfait, Swedsen Wang) fondées sur un modèle de généalogie appelé modèle de la coalescence [Site d'oxford : www.stats.ox.ac.uk/mathgen/software.html] et [R. Griffiths S. .Tavaré, D. Balding, P. Donnelly. Inferring coalescence times from DNA sequence data. Genetics. (1997) 145, 505-518.]. La généalogie n'étant pas observée, la méthode en question sert à intégrer les généalogies les plus vraisemblables au vu des données moléculaires actuelles (modèle statistique à données manquante dit "bayésien") . La méthode est extrêmement coûteuse et délicate à calibrer (plusieurs heures de calcul pour un très petit jeu de données comportant une centaine d'individus) et l'opportunité de pouvoir distribuer le calcul est cruciale. Les résultats que nous attendons concernent des modèles pour lesquels une information spatiale est superposée à l'information moléculaire actuelle. Nous estimerons en particulier par une méthode de Monte Carlo par MC un coefficient de diffusion de la population dans le temps.