Launch prend-il en charge la parallélisation ? Comment puis-je limiter les ressources consommées par un job ?

Launch permet de répartir les jobs sur plusieurs GPU et nœuds. Pour plus de détails, consultez le guide d’intégration Volcano. Chaque agent Launch dispose d’un paramètre max_jobs qui définit le nombre maximal de jobs simultanés que l’agent peut exécuter. Plusieurs agents peuvent pointer vers une même file d’attente, à condition de se connecter à une infrastructure de lancement qui les prend en charge. Vous pouvez définir des limites pour le CPU, le GPU, la mémoire et d’autres ressources au niveau de la file d’attente ou de l’exécution du job dans la configuration des ressources. Pour savoir comment configurer des files d’attente avec des limites de ressources sur Kubernetes, consultez le guide de configuration Kubernetes. Pour les Sweeps, incluez le bloc suivant dans la configuration de la file d’attente afin de limiter le nombre de runs simultanés :

queue config

  scheduler:
    num_workers: 4

Documentation Index