集群命令¶
hfai monitor¶
获取当前任务列表相关信息
Usage:
hfai monitor [OPTIONS] COMMAND [ARGS]...
hfai monitor cluster-overview¶
查看当前集群节点概况
Usage:
hfai monitor cluster-overview [OPTIONS]
hfai monitor quota-overview¶
查看 quota
Usage:
hfai monitor quota-overview [OPTIONS]
hfai monitor storage-overview¶
查看 storage 状态
Usage:
hfai monitor storage-overview [OPTIONS]
hfai monitor task-overview¶
查看当前集群任务概况
Usage:
hfai monitor task-overview [OPTIONS]
hfai nodes¶
查看节点信息
Usage:
hfai nodes [OPTIONS]
Options:
--tree
打印节点树状结构
hfai prof¶
对正在运行中的任务进行 profile
Usage:
hfai prof <experiment> [OPTIONS]
Options:
-t, --exp_type <exp_type>
配合 <experiment> 使用,默认 auto 会尝试解析
--time <time>
required。profile 的持续时间,单位秒
--recorder <recorder>
需要采集的指标,比如 all 或者 basic,gpu;all 代表采集所有数据
--interval <interval>
指定不同 recorder 的采样周期 (s),比如 –interval basic=2 –interval gpu=1
Arguments
experiment
用于检索的任务,可以是任务名、是任务ID,也可以是提交的任务配置文件
hfai validate¶
检查节点正常情况
Usage:
hfai validate <experiment> [<rank>...] [OPTIONS] # 这个任务(<experiment>)的(<rank>)节点进行验证,默认为<rank>为all
hfai validate nodes <node>... [OPTIONS] # 对输入的节点列表(<node>...)进行检查
Options:
-t, --exp_type <exp_type>
配合 <experiment> 使用,默认 auto 会尝试解析
-f, --file <file>
测试代码路径,默认为系统组维护的测试代码;该任务失败会使得对应节点被挪出集群,请谨慎使用
-i, --image <image>
使用哪个镜像跑任务, 默认采用当前镜像,非萤火平台默认cuda_11
Arguments
experiment
用于检索的任务,可以是任务名、是任务ID,也可以是提交的任务配置文件