Lettre d'information de la plateforme n°45¶
Info
Cette lettre d'information est destinée aux membres des équipes utilisant la plate-forme Genotoul-Bioinfo. Elle a pour but de répondre aux questions et commentaires que vous nous avez fait remonter via le questionnaire de satisfaction annuel et de vous parler des évolutions de l'équipe, des nouveaux outils, services, des conditions d'utilisation, projets et formations mis en place.
Pensez à nous citer ou nous remercier
Nous constatons que beaucoup de travaux utilisant la plateforme ne nous mentionnent pas dans la section remerciement de l'article ou de la présentation. Nous souhaitions vous rapeller à l'occasion de cette newsletter que si nous réussissons à proposer une infrastructure de qualité, c'est parce que la visibilité que nous procure ces remerciements nous aide à trouver les financements pour la maintenir et la renouveller depuis 2003.
Les informations nécessaires pour nous citer sont disponibles sur la page cite us.
Évolutions de l’infrastructure¶
Rappel anti spam¶
Si vous ne recevez pas les emails de la plateforme, ou si vous les recevez en retard, pensez à déclarer nos adresses email dans votre messagerie (ou contactez vos responsables informatiques à ce propos).
La procédure pour ce faire dépend de votre outil de messagerie. Si vous utilisez Outlook (en client lourd ou sur le Web), c'est par ici. Si vous utilisez Thunderbird, regardez par là.
Voici les adresses mails à déclarer :
- Support : support.bioinfo.genotoul(at)inrae.fr et Support.Genopole(at)inrae.fr
- Newletters et informations cluster : bioinfo.genotoul-request(at)groupes.renater.fr
- Comptes et expiration de mot de passe : ldap_admin(at)genomaster.toulouse.inrae.fr
- Formation : formation-pfbioinfo(at)inrae.fr
Rappel VSCode/Positron/etc.¶
Nous vous rappelons que le cluster de calcul n’est pas un environnement de développement logiciel. L'utilisation de VSCode (ou tout autre éditeur basé dessus, comme VSCodium ou Positron) doit être murement anticipée et réfléchie. En effet, si vous utilisez l'extension RemoteSSH (ou équivalent) pour travailler sur le cluster avec VSCode, alors vous exécutez une copie de VSCode sur le nœud de login.
Nous n'autorisons pas cette pratique. Elle engorge le cluster et surcharge les nœuds de login. Vous devez developper et tester vos scripts sur votre poste de travail avant de les lancer sur le cluster.
Si vous n'avez pas le choix, nous vous invitons à consulter la page de tutoriel dédiée pour utiliser correctement VSCode avec le cluster.
Nous remercions ceux qui ont déjà corrigé leurs pratiques. N'hésitez pas nous faire des retours sur le tutoriel.
Rappel IA¶
Nous constatons une utilisation de plus en plus importante des assistants de code et d'agents IA sur le cluster.
Nous vous rappelons plusieurs choses à leur propos :
-
Lorsque vous utilisez des services externes, comme chatGPT ou Claude, les IA partagent les données qu'elles scannent avec ceux qui vous fournissent ces services. Leur utilisation sont des vecteurs de fuites de données et vous engage juridiquement. Cela concerne autant les données de projets - et pas uniquement les votres - que les données relatives à la vie privée.
-
Elles vous engagent aussi sur la sécurité. Tout d'abord sur la sécurité des données, un mauvais code ou un mauvais agent IA peut détruire tout votre travail (ou celui d'un collègue); mais également sur la sécurité des infrastructures informatiques : les modèles d'IA sont faciles à détourner pour devenir des vecteurs d'attaque.
-
Les IA locales sont gourmandes en ressources. Ne les faites pas tourner sur les nœuds de login. Préférez les solutions institutionnelles qui commencent à se mettre en place. INRAE propose ARGO (pour les agents INRAE), le CNRS propose EmmyGPT (uniquement pour le personnel CNRS) et la DINUM propose (en beta) les services Albert et Assistant IA (pour tous les agents de l'état).
Engorgement des nœuds de calcul¶
Vous avez pu constater, il y a quelques mois, que les jobs mettaient beaucoup de temps à démarrer.
Nous avons longuement réfléchi au problème, et une des solutions mises en oeuvre a été de réduire le temps par défaut d'un job à 2 heures au lieu de 96 heures auparavant (le temps maximum).
Notre choix a été motivé par la raison suivante: beaucoup de jobs sont soumis avec leur temps limite par défaut, ce qui amène parfois le scheduler SLURM à réserver des ressources... pour rien.
Il est toujours possible de faire durer un job 96h sur la partition par défaut (workq), mais vous devrez maintenant le demander explicitement lors de la soumission du job. Nous sommes conscients que cela peut nécessiter des ajustements dans l'éxecution pipelines. Nous vous invitons à consulter la documentation des gestionnaires de pipeline, en particulier sur la configuration de profils d'exécution de nextflow ou snakemake.
Nous avons également observé que si un utilisateur lance beaucoup de jobs d'un coup, il peut atteindre son quota maximum de CPU, et dans ce cas ses jobs attendent. Leur priorité est progressivement augmentée par le scheduler mais ils ne peuvent pas démarrer à cause du quota, tout en bloquant les autres jobs avec une priorité moindre. Il est donc possible de se trouver dans une situation où il y a beaucoup de CPU libres, et peu de jobs en running.
Nous avons mis en place un script pour débloquer ce genre de situation rare mais problématique. Nous espérons que ces ajustements résoudront le problème.
Dans tous les cas, un dimensionnement au plus juste fera toujours passer votre job plus rapidement ! Si vous êtes un utilisateurs friants de snakemake, nextflow, nous vous recommandons aussi de limiter le nombre de jobs soumis en simultané par ces outils à l'aide des profils d'exécution. Si vous préfèrez les job arrays, vous pouvez limiter le nombre de tâches simultanées en utilisant le % lors de la soumission. Par exemple si vous lancez un job array de 1000 tâches, vous utiliserez la syntaxe suivante pour n'avoir que 100 tâches en parallèle pour ce job array: sbatch --array 1-1000%100 mon_script.sh.
Pour avoir un aperçu de l'utilisation du cluster la commande lsload synthétise le % de CPU utilisé et le % de RAM alloué sur chaque nœud du cluster. Elle vous renseigne aussi sur le statut d'un nœud (certains peuvent être en maintenance).
En ce qui concerne les GPUs, leur taux d'utilisation est assez inégale. Vous pouvez utiiser la commande sq_gpu pour voir les GPU utilisés et la file d'attente. Il n'est pas prévu que nous en rachetions prochainement, à la fois pour des raisons budgétaires et à cause de la pénurie de composants informatique actuelle.
En cas de demande urgente ou importante, vous pouvez également solliciter d'autres infrastructures :
- CalMiP pour du calcul intensif en Midi-Pyrénées,
- IFB-Core pour de la bioinformatique,
- Collab’IA pour avoir des GPU INRAE,
- Jean Zay pour du calcul intensif sur GPU.
Le site web évolue encore¶
De nouvelles sections on été récemment déplacées sur le nouveau site, en particulier la section software development.
Nous avons également ajouté de nouveaux tutoriels, en particulier sur l'utilisation de gestionnaires de workflows sur le cluster.
Vie de l'équipe¶
Résultat de l'enquête annuelle de satisfaction¶
Nous vous remercions d'avoir répondu à notre enquête (taux de réponses de 10,4% cette année), avec des taux de satisfaction très positifs ! En plus des points abordés dans notre newsletter, l'enquête nous révèle quelques points importants ci-dessous.
- N'hésitez pas à faire appel au support. Si vous voulez installer un outil ou une banque de donnée ou pour toutes autres demandes, n'hésitez pas à faire appel à nous ! Nous essayons de répondre aussi rapidement que possible.
- Par ailleurs, nous mettons notre FAQ à jour très régulièrement, n'hésitez pas à l'utiliser. Nous avons modifié le site pour que l'on puisse l'interroger (dans la partie en haut à droite) afin que vous trouviez votre réponse plus rapidement.
- Il vous manque de l'espace de stockage (par défaut : 1TO sur le
work, 250GO sur lesave) ? N'hésitez pas à demander plus. Les tarifs sont disponibles sur notre site web. Il est possible de demander une extension de work sur une durée de 6 mois minimum, mais nous ne pouvons accepter plus d'une modification par an des modalités de location de l'espace disque. Attention, le répertoire/tmpdu nœud peut être rapidement plein, il est recommandé d'utiliser votre work pour cet usage. - Certains d'entre vous nous ont fait part de leur besoin d'utiliser une version plus récente de R ou de Rstudio dans notre Rstudio par open on demand. Nous y travaillons, mais nous manquons actuellement de temps pour faire avancer ce projet. A propos de R, nous avons écrit un tutoriel concernant l'usage de R sur le cluster. Il précise, par exemple, comment installer des packages R dans son propre environnement.
- Vous voulez utiliser les bases de données (comme celles de FROGS) présentes dans le Galaxy sur le cluster de calcul ? Ce n'est malheureusement pas possible : les deux infrastructures sont maintenant totalement dissociées.
- Au sujet des demandes d'utilisation des ressources GPU, l'autorisation d'accés est désormais valable 1 an (6 mois initialement). Pour demander cet accés, merci de remplir ce formulaire.
- La plupart des banques sont mises à jours régulièrement, nous gardons au maximum 2 versions de chaque banque (sauf exception). Vous pouvez trouver les différentes releases sur Biomaj Watcher avec votre login et mot de passe genobioinfo. Si vous avez besoin d'une version stable d'une banque génomique par exemple, il est donc conseillé de les copier dans votre répertoire save ou dans celui de votre projet.
CSU¶
Nous remercions chaleureusement les membres de notre Conseil Scientifique des Utilisateurs, qui nous ont fait l'amitié de venir le 7 avril. La discussion été riche, et cette newsletter reprend la majorité des points abordés. Nous avons, à cette occasion, présenté PanAbyss, notre outil de visualisation et requêtage de graphes de pangénomes.
Journée bioinfo/biostat 2026¶
La prochaine journée régionale bioinfo/biostat est prévue pour le 19 novembre. Pensez à vous inscrire, et les appels à soumissions sont d'ores et déjà ouverts !
Le coin des débutants¶
Capsules vidéos¶
Afin d'aider les débutants à bien démarrer en dehors de nos cycles d’apprentissage, nous proposons des capsules vidéos abordant les thèmes suivants :
- utilisation du cluster (se connecter, lancer des jobs, chercher les banques, utiliser les GPU ...)
- utilisation de conda
- utilisation de Nextflow
- utilisation d'Open On Demand
Prochains cycles d’apprentissage¶
Les inscriptions pour nos cycles d'apprentissage de fin d'année sont ouvertes :
| Formation | Dates |
|---|---|
| Linux | 28/09/2026 |
| Cluster | 29/09/2026 |
| Pangénomique | 30/11/2026 - 02/12/2026 |
Ce sera la première session de la formation pangénomique eucaryote !
Les inscriptions ainsi que le détail des sessions sont disponibles sur la page des cycles d'apprentissage de la plateforme.
Nous attirons également votre attention sur le calendrier des formations et cycles d’apprentissage de l’IFB et de la plateforme GenoToul Biostat.
En particulier vous avez été plusieurs à nous demander un nouveau cycle d'apprentissage traitant de l'assemblage et de l'annotation. Une école thématique en Assemblage et Annotation de génomes d'une semaine est régulièrement ouverte à Roscoff. De la même façon une école transcriptomique EB3I traitant, entre autre, du single cell est proposée chaque année. L'IFB propose également des formations aux principes FAIR et au développement de workflow sous nextflow ou snakemake, n'hésitez pas à regarder régulièrement leur catalogue de formations.
Si ce sont des formations orientées informatiques, comme une formation à git ou portant sur un langage de programmation, vous pouvez aussi consulter le site du CSIESR. Il est fort probable que votre institut y adhère, n'hésitez pas à vous renseigner auprès de vos services de formation.
Nos cycles d'apprentissage sont dispensés en français. Certaines sessions organisées par l'IFB peuvent être en anglais, les anglophones peuvent aussi regarder le catalogue de TESS fourni par Elixir-Europe.
Trucs et astuces¶
Raccourcis claviers du terminal¶
Afin d'être plus efficace lorsque vous tapez vos commandes sur le cluster nous vous proposons d'utiliser les raccourcis claviers du shell.
Consommation CO2 d'un job¶
Si vous avez lancé un job dont le JobId est 12345, alors vous pouvez connaître son équivalent CO2 avec la commande suivante :
C'est quoi déjà le nom de la commande ?¶
Vous savez qu'il existe une commande qui vous permet de monitorer vos jobs, mais vous ne vous souvenez plus de son nom ?
Il y a une commande qui les recense toutes, et c'est useful_commands !
Comment copier des fichiers du work vers le save ?¶
Nous vous suggérons d'utiliser la commande rsync. Vous trouverez de la documentation sur le net par exemple ici. En cas de problème, n'hésitez pas à faire un ticket support.
Pour transférer le répertoire project de votre work vers le save, vous pouvez taper :
La magie de rsync, c'est que vous pouvez utiliser la même commande pour synchroniser (d'où le nom) le répertoire source et destination.
Pour être plus clair, si vous ajoutez un fichier dans votre work et tapez la même commande, il sera aussi ajouté dans le save.