DCSM 安装指南

MOFFETT Data Center SPU Manager(DCSM)是用于监控与诊断墨芯 SPU 设备的软件工具,方便用户在集群和数据中心环境中对设备的管理操作。

安装

前提条件

已安装 SOLA Toolkit,具体请参见 SOLA Toolkit 安装指南

Deb 包安装

  1. 获取 DCSM 软件包。

    wget https://moffett-oss-bucket.tos-cn-shanghai.volces.com/dcsm/dcsm_1.1.0_amd64.deb 
    
  2. 安装 DCSM。

    sudo dpkg -i dcsm_1.1.0_amd64.deb
    

RPM 包安装

  1. 获取 DCSM 软件包。

    wget https://moffett-oss-bucket.tos-cn-shanghai.volces.com/dcsm/dcsm-1.1.0-1.x86_64.rpm
    
  2. 安装 DCSM。

    sudo rpm -U dcsm-1.1.0-1.x86_64.rpm
    

启动 DCSM 服务

  1. 执行以下命令,启动 DCSM 服务。

    sudo systemctl --now enable dcsm
    
  2. 查看服务是否启动成功,状态为 running 即代表启动成功。

    systemctl status dcsm
    

验证安装

执行以下命令,获取机器上的墨芯 SPU 设备信息,返回设备信息即表示 DCSM 安装成功。

dcsmi discovery -l

卸载

  1. 暂停并禁用 DCSM 服务。

    sudo systemctl --now disable dcsm
    
  2. 卸载 DCSM。

    须知

    执行卸载操作会移除 DCSM 软件包提供的所有文件,包括二进制可执行文件和库文件。

    • Deb 包卸载

      sudo dpkg -r dcsm
      
    • RPM 包卸载 DCSM

      sudo rpm -e dcsm