Pour vous authentifier, privilégiez eduGAIN / To authenticate, prefer eduGAINeu

Séminaires généraux

Spark pour les physiciens

par Stéphane Plaszczynski (LAL)

Europe/Paris
200/1-101 - Salle 101 (IJCLab)

200/1-101 - Salle 101

IJCLab

Bât.200
50
Montrer la salle sur la carte
Description

Apache-Spark est une technologie issue du monde du big data très utilisée dans l'industrie mais assez peu dans celui de la recherche scientifique. Le but de ce séminaire interne est de présenter cet outil et ses potentialités en particulier pour l’analyse des gros volume de données tels que ceux attendus par les prochains relevés de galaxies. Après une introduction pédagogique concernant le calcul distribue avec Spark et ses avantages, je présenterai les méthodes et performances obtenues sur un cas d'utilisation d'analyse d'une simulation de 10 ans de données de type LSST (6 milliards de galaxies). Puis je présenterai des développements récents obtenus au LAL en particulier dans le domaine de l'identification des clusters et de la visualisation. Enfin j'esquisserai l’intérêt de combiner du calcul haute-performance a ce type d’approche. Ce travail s’inscrit dans le cadre de l'organisation AstroLab (https://astrolabsoftware.github.io/) qui vise a insuffler de la complexité scientifique dans le traitement des large volume de données.