环境变量¶
在幻方萤火上的任务、节点、训练等信息会由系统分配保存在环境变量中,用户可以在代码中使用这些环境变量来获得对任务的控制
模型运行时信息¶
WORLD_SIZE
类型: int string,如
'1'
有多少台机器一起训练
RANK
类型: int string,如
'0'
集群中的第几台机器
MASTER_IP
类型: string,如
'192.168.10.100'
集群的第一台机器的 IP 地址
MASTER_PORT
类型: int string 如
'29510'
集群第一台机器暴露的端口
用户信息¶
MARSV2_UID
类型: int string,如
'10001'
运行用户的 uid
MARSV2_USER
类型: string
运行用户名
MARSV2_USER_TOKEN
类型: string
用户提交任务的 token
MARSV2_USER_ROLE
类型: enum string,
'INTERNAL'
,'EXTERNAL'
用户角色:内部用户
'INTERNAL'
、外部用户'EXTERNAL'
任务信息¶
MARSV2_NB_NAME
类型: string
任务名
MARSV2_TASK_TYPE
类型: enum string,
'training'
,'jupyter'
,'validation'
任务类型
MARSV2_TASK_ID
类型: int string, 如
'55'
任务 ID
MARSV2_WHOLE_LIFE_STATE
类型: int string, 如
'0'
任务处于什么状态
日志目录¶
MARSV2_LOG_DIR
类型: string,如
/marsv2/log/55
任务 stdout 的日志目录
MARSV2_LOG_FILE_PATH
类型: string,如
/marsv2/log/55/jd-a1005-dl#0
任务 stdout 的日志文件地址
MARSV2_DEBUG_LOG_FILE_PATH
类型: string,如
/marsv2/log/55/debug_jd-a1005-dl#0
调度内部 debug 的日志位置
节点信息¶
MARSV2_RANK
类型: int string, 如
'8'
节点处于调度第几个 rank
MARSV2_NODE_NAME
类型: string, 如
'jd-a0101-dl'
节点名字