# DCSM 安装指南 ## 概述 MOFFETT Data Center SPU Manager (简称 DCSM) 是一套用于监控、诊断墨芯 SPU 设备的软件工具,旨在简化用户在集群和数据中心场景中管理墨芯 SPU 设备的操作。 ## 前提条件 已安装 SOLA,且 SOLA 版本不低于 SOLA 3.5.5。安装 SOLA 的步骤,请参见 [SOLA Toolkit 安装指南](https://docs.moffettai.com/moffett_docs/macs-1.5/installation/sola-toolkit-installation-guide.html)。 ### 下载 DCSM 软件包 #### Ubuntu/Debian ```Bash $ wget https://moffett-oss-bucket.tos-cn-shanghai.volces.com/dcsm/dcsm_1.0.0_amd64.deb ``` #### **RHEL**/CentOS ```Bash $ wget https://moffett-oss-bucket.tos-cn-shanghai.volces.com/dcsm/dcsm-1.0.0-1.x86_64.rpm ``` ## 安装指南 DCSM 可以使用多种方式安装,请根据您实际环境的操作系统版本来选择相应的安装方式。下文将为您详细介绍几种主流的发行版的安装方式。 **说明**:*建议您安装 SOLA 时,尽量不要使用 Runfile 包的安装方式,从而避免安装 DCSM 时包管理工具提示动态库未安装的问题。* ### Ubuntu/Debian #### 命令格式 在命令行中执行以下命令: ```Bash #请将安装包名替换为您实际下载的安装包名 $ sudo dpkg -i dcsm__.deb $ dpkg -l | grep dcsm ``` #### 命令示例 ```Bash $ sudo dpkg -i dcsm_1.0.0_amd64.deb $ dpkg -l | grep dcsm ``` ### RHEL 8/RHEL 9/CentOS 8/CentOS 9/AliOS #### 命令格式 在命令行中执行以下命令: ```Bash #请将安装包名替换为您实际下载的安装包名 $ sudo rpm -U dcsm-..rpm $ rpm -qi dcsm ``` #### 命令示例 ```Bash $ sudo rpm -U dcsm-1.0.0-1.x86_64.rpm $ rpm -qi dcsm ``` ### 启动 DCSM 服务 (启动 mx-hostengine) 1. 执行以下命令,启动 DCSM 服务。 ```Bash $ sudo systemctl --now enable dcsm ``` 2. 查看服务是否启动成功,状态为 running 即代表启动成功。 ```Bash $ systemctl status dcsm ● dcsm.service - MOFFETT DCSM service Loaded: loaded (/usr/lib/systemd/system/dcsm.service; enabled; vendor preset: enabled) Active: active (running) since Mon 2024-09-23 10:35:53 CST; 10s ago Main PID: 81567 (mx-hostengine) Tasks: 5 (limit: 24575) CGroup: /system.slice/dcsm.service └─81567 /usr/bin/mx-hostengine -n 9月 23 10:35:53 moffett-PowerEdge-R750xa systemd[1]: Started MOFFETT DCSM service. 9月 23 10:35:53 moffett-PowerEdge-R750xa mx-hostengine[81567]: DCSM initialized 9月 23 10:35:53 moffett-PowerEdge-R750xa mx-hostengine[81567]: Started host engine version 1.0.0 using port number: 9494 ``` ### 验证安装结果 执行以下命令,获取机器上的墨芯 SPU 设备信息,返回设备信息即代表 dcsm 安装成功。 ```Bash $ dcsmi discovery -l 3 SPUs found. Device 0 Name: 00S30-00A PCI Bus ID: 0:19:00.0 Device UUID: 0201000000-0000-0000-0000-00AKK6950980 Device 1 Name: 00S30-00A PCI Bus ID: 0:1a:00.0 Device UUID: 0302000000-0000-0000-0000-00AKK6950980 Device 2 Name: 00S30-00A PCI Bus ID: 0:1b:00.0 Device UUID: 0103000000-0000-0000-0000-00AKK6950980 ``` ## 卸载 DCSM 1. 暂停并禁用 DCSM 服务。 ```Bash $ sudo systemctl --now disable dcsm Removed /etc/systemd/system/multi-user.target.wants/dcsm.service. ``` 2. 执行卸载命令。 **说明**:*执行卸载操作会移除 DCSM 软件包提供的所有文件,包括二进制可执行文件和库文件。* 如果您是使用 RPM 软件包方式安装,可执行以下命令卸载 DCSM: ```Bash $ sudo rpm -e dcsm ``` 如果您是使用 Deb 软件包方式安装,可执行以下命令卸载 DCSM: ```Bash $ sudo dpkg -r dcsm ``` ## 更多详情 如需了解 DCSM 的使用方式,请参见 [DCSM 用户手册](https://docs.moffettai.com/docs/macs-1.5/tool/dcsm_userguider.html)。