环境变量¶
在幻方萤火上的任务、节点、训练等信息会由系统分配保存在环境变量中,用户可以在代码中使用这些环境变量来获得对任务的控制
模型运行时信息¶
WORLD_SIZE类型: int string,如
'1'有多少台机器一起训练
RANK类型: int string,如
'0'集群中的第几台机器
MASTER_IP类型: string,如
'192.168.10.100'集群的第一台机器的 IP 地址
MASTER_PORT类型: int string 如
'29510'集群第一台机器暴露的端口
用户信息¶
MARSV2_UID类型: int string,如
'10001'运行用户的 uid
MARSV2_USER类型: string
运行用户名
MARSV2_USER_TOKEN类型: string
用户提交任务的 token
MARSV2_USER_ROLE类型: enum string,
'INTERNAL','EXTERNAL'用户角色:内部用户
'INTERNAL'、外部用户'EXTERNAL'
任务信息¶
MARSV2_NB_NAME类型: string
任务名
MARSV2_TASK_TYPE类型: enum string,
'training','jupyter','validation'任务类型
MARSV2_TASK_ID类型: int string, 如
'55'任务 ID
MARSV2_WHOLE_LIFE_STATE类型: int string, 如
'0'任务处于什么状态
日志目录¶
MARSV2_LOG_DIR类型: string,如
/marsv2/log/55任务 stdout 的日志目录
MARSV2_LOG_FILE_PATH类型: string,如
/marsv2/log/55/jd-a1005-dl#0任务 stdout 的日志文件地址
MARSV2_DEBUG_LOG_FILE_PATH类型: string,如
/marsv2/log/55/debug_jd-a1005-dl#0调度内部 debug 的日志位置
节点信息¶
MARSV2_RANK类型: int string, 如
'8'节点处于调度第几个 rank
MARSV2_NODE_NAME类型: string, 如
'jd-a0101-dl'节点名字