DCSM 安装指南
概述
MOFFETT Data Center SPU Manager (简称 DCSM) 是一套用于监控、诊断墨芯 SPU 设备的软件工具,旨在简化用户在集群和数据中心场景中管理墨芯 SPU 设备的操作。
前提条件
已安装 SOLA,且 SOLA 版本不低于 SOLA 3.5.5。安装 SOLA 的步骤,请参见 SOLA Toolkit 安装指南。
下载 DCSM 软件包
Ubuntu/Debian
$ wget http://moffett-oss-bucket01.oss-cn-shenzhen.aliyuncs.com/dcsm/dcsm_1.0.0_amd64.deb
RHEL/CentOS
$ wget http://moffett-oss-bucket01.oss-cn-shenzhen.aliyuncs.com/dcsm/dcsm-1.0.0-1.x86_64.rpm
安装指南
DCSM 可以使用多种方式安装,请根据您实际环境的操作系统版本来选择相应的安装方式。下文将为您详细介绍几种主流的发行版的安装方式。
说明:建议您安装 SOLA 时,尽量不要使用 Runfile 包的安装方式,从而避免安装 DCSM 时包管理工具提示动态库未安装的问题。
Ubuntu/Debian
命令格式
在命令行中执行以下命令:
#请将安装包名替换为您实际下载的安装包名
$ sudo dpkg -i dcsm_<version>_<architecture>.deb
$ dpkg -l | grep dcsm
命令示例
$ sudo dpkg -i dcsm_1.0.0_amd64.deb
$ dpkg -l | grep dcsm
RHEL 8/RHEL 9/CentOS 8/CentOS 9/AliOS
命令格式
在命令行中执行以下命令:
#请将安装包名替换为您实际下载的安装包名
$ sudo rpm -U dcsm-<version>.<architecture>.rpm
$ rpm -qi dcsm
命令示例
$ sudo rpm -U dcsm-1.0.0-1.x86_64.rpm
$ rpm -qi dcsm
启动 DCSM 服务 (启动 mx-hostengine)
执行以下命令,启动 DCSM 服务。
$ sudo systemctl --now enable dcsm
查看服务是否启动成功,状态为 running 即代表启动成功。
$ systemctl status dcsm ● dcsm.service - MOFFETT DCSM service Loaded: loaded (/usr/lib/systemd/system/dcsm.service; enabled; vendor preset: enabled) Active: active (running) since Mon 2024-09-23 10:35:53 CST; 10s ago Main PID: 81567 (mx-hostengine) Tasks: 5 (limit: 24575) CGroup: /system.slice/dcsm.service └─81567 /usr/bin/mx-hostengine -n 9月 23 10:35:53 moffett-PowerEdge-R750xa systemd[1]: Started MOFFETT DCSM service. 9月 23 10:35:53 moffett-PowerEdge-R750xa mx-hostengine[81567]: DCSM initialized 9月 23 10:35:53 moffett-PowerEdge-R750xa mx-hostengine[81567]: Started host engine version 1.0.0 using port number: 9494
验证安装结果
执行以下命令,获取机器上的墨芯 SPU 设备信息,返回设备信息即代表 dcsm 安装成功。
$ dcsmi discovery -l
3 SPUs found.
Device 0
Name: 00S30-00A
PCI Bus ID: 0:19:00.0
Device UUID: 0201000000-0000-0000-0000-00AKK6950980
Device 1
Name: 00S30-00A
PCI Bus ID: 0:1a:00.0
Device UUID: 0302000000-0000-0000-0000-00AKK6950980
Device 2
Name: 00S30-00A
PCI Bus ID: 0:1b:00.0
Device UUID: 0103000000-0000-0000-0000-00AKK6950980
卸载 DCSM
暂停并禁用 DCSM 服务。
$ sudo systemctl --now disable dcsm Removed /etc/systemd/system/multi-user.target.wants/dcsm.service.
执行卸载命令。
说明:执行卸载操作会移除 DCSM 软件包提供的所有文件,包括二进制可执行文件和库文件。
如果您是使用 RPM 软件包方式安装,可执行以下命令卸载 DCSM:
$ sudo rpm -e dcsm
如果您是使用 Deb 软件包方式安装,可执行以下命令卸载 DCSM:
$ sudo dpkg -r dcsm
更多详情
如需了解 DCSM 的使用方式,请参见使用 DCSM 组件。