Shortcuts

数据工作流

公开数据集

幻方AI支持了计算机视觉、自然语言处理、自动驾驶、气象等多个领域中常用的数据集,具体的数据集列表参见 datasets api

下载

幻方AI提供 ffrecord 格式的公开数据集,用户可以使用 hfai.datasets.download 接口下载到本地,具体使用方法如下:

import hfai

hfai.datasets.set_data_dir("/your/data/dir") # 设置本地的下载目录,需要保证目录存在
hfai.datasets.download("ImageNet", miniset=False) # 下载 ImageNet 数据集的 full 集合
hfai.datasets.download("ImageNet", miniset=True) # 下载 ImageNet 数据集的 mini 集合

目前支持 mini 集合的数据集如下:

  • ImageNet

  • NuScenes

  • CocoDetection

  • CocoPanoptic

  • CocoKeypoint

  • CocoCaption

私有数据集

幻方AI在 studio 中提供了私有数据的上传和下载功能,如下图所示:

您可以将数据转化为ffrecord格式,提交到集群3FS中,即可享受高性能存储所带来的极致训练体验。具体操作请阅读教程