数据工作流¶
公开数据集¶
幻方AI支持了计算机视觉、自然语言处理、自动驾驶、气象等多个领域中常用的数据集,具体的数据集列表参见 datasets api。
下载¶
幻方AI提供 ffrecord 格式的公开数据集,用户可以使用 hfai.datasets.download
接口下载到本地,具体使用方法如下:
import hfai
hfai.datasets.set_data_dir("/your/data/dir") # 设置本地的下载目录,需要保证目录存在
hfai.datasets.download("ImageNet", miniset=False) # 下载 ImageNet 数据集的 full 集合
hfai.datasets.download("ImageNet", miniset=True) # 下载 ImageNet 数据集的 mini 集合
目前支持 mini 集合的数据集如下:
ImageNet
NuScenes
CocoDetection
CocoPanoptic
CocoKeypoint
CocoCaption
私有数据集¶
幻方AI在 studio 中提供了私有数据的上传和下载功能,如下图所示:
您可以将数据转化为ffrecord格式,提交到集群3FS中,即可享受高性能存储所带来的极致训练体验。具体操作请阅读教程。