Pour vous authentifier, privilégiez eduGAIN / To authenticate, prefer eduGAINeu

Séminaires internes

Définition, modélisation et réalisation d’un système distribué à grande échelle : DIRAC

par Vincent Garonne

Europe/Paris
Amphi Pierre Lehmann (LAL)

Amphi Pierre Lehmann

LAL

Description
Les environnements de calculs distribués à grande échelle se différencient des machines parallèles les ayant précédés par leurs natures intrinsèquement hétérogènes, partagées et fortement dynamiques. Ils se déclinent en deux types de systèmes : les grilles institutionnelles qui mutualisent les ressources d’organismes par accord mutuel et les systèmes communautaires de calcul global.

Dans ce séminaire, nous donnerons ainsi un état de l’art de ces systèmes et détaillons ensuite chacune de ces formes en décrivant leurs ressemblances et leurs différences. Nous observons l’avantage et l’intérêt d’avoir un système hybride conjuguant les deux aspects. Nous proposons une implémentation d’un système unifié DIRAC (Distributed Infrastructure with Remote Agent Control).

Cette solution est un système léger, extensible et robuste, qui offre une plate-forme transparente et uniforme pour une seule communauté ou organisation virtuelle. DIRAC repose sur une architecture orientée service Agents/services régulant notamment la charge et les accès aux données dans le contexte de régime permanent et saturé (« High Throughput Computing ») générés par des simulations de Monte-Carlo et des analyses de données de la physique de hautes énergies.

Nous exposerons la démarche mise en oeuvre pour concevoir et définir ce système qui a connecté plus de 6.000 processeurs répartis sur une soixantaine de sites dans le monde, a supporté plus de 5.500 tâches simultanées et a stocké, transféré et dupliqué plus de 100 téra-octets de données.

Nous traiterons notamment de la difficulté d’évaluer rigoureusement des stratégies d’ordonnancement ou de méta-ordonnancement avec une plate-forme de système distribué à grande échelle. Nous présenterons notre modèle d’évaluation et de performances pour une plate-forme méta-ordonnancée composée de sites autonomes. Nous décrirons ensuite notre simulateur développé basé sur Simgrid et les travaux liés à sa validation. Cette évaluation se situe sur une plate-forme hétérogène pour des tâches simples dans un contexte de régime permanent et saturé.