Shortcuts

集群命令

hfai monitor

获取当前任务列表相关信息

Usage:

hfai monitor [OPTIONS] COMMAND [ARGS]...

hfai monitor cluster-overview

查看当前集群节点概况

Usage:

hfai monitor cluster-overview [OPTIONS]

hfai monitor quota-overview

查看 quota

Usage:

hfai monitor quota-overview [OPTIONS]

hfai monitor storage-overview

查看 storage 状态

Usage:

hfai monitor storage-overview [OPTIONS]

hfai monitor task-overview

查看当前集群任务概况

Usage:

hfai monitor task-overview [OPTIONS]

hfai nodes

查看节点信息

Usage:

hfai nodes [OPTIONS]

Options:

  • --tree

    打印节点树状结构

hfai prof

对正在运行中的任务进行 profile

Usage:

hfai prof <experiment> [OPTIONS]

Options:

  • -t, --exp_type <exp_type>

    配合 <experiment> 使用,默认 auto 会尝试解析

  • --time <time>

    required。profile 的持续时间,单位秒

  • --recorder <recorder>

    需要采集的指标,比如 all 或者 basic,gpu;all 代表采集所有数据

  • --interval <interval>

    指定不同 recorder 的采样周期 (s),比如 –interval basic=2 –interval gpu=1

Arguments

  • experiment

    用于检索的任务,可以是任务名、是任务ID,也可以是提交的任务配置文件

hfai validate

检查节点正常情况

Usage:

hfai validate <experiment> [<rank>...] [OPTIONS]               # 这个任务(<experiment>)的(<rank>)节点进行验证,默认为<rank>为all
hfai validate nodes <node>... [OPTIONS]                        # 对输入的节点列表(<node>...)进行检查 

Options:

  • -t, --exp_type <exp_type>

    配合 <experiment> 使用,默认 auto 会尝试解析

  • -f, --file <file>

    测试代码路径,默认为系统组维护的测试代码;该任务失败会使得对应节点被挪出集群,请谨慎使用

  • -i, --image <image>

    使用哪个镜像跑任务, 默认采用当前镜像,非萤火平台默认cuda_11

Arguments

  • experiment

    用于检索的任务,可以是任务名、是任务ID,也可以是提交的任务配置文件