ModelArts是华为云提供的一种端到端的人工智能平台服务,支持模型的快速训练、管理、部署和迭代,在监控方面,ModelArts提供了一系列的接口和指标来帮助用户监控和管理他们的AI模型和训练作业,以下是ModelArts支持的一些主要监控指标和接口:

1. 训练作业监控指标
对于训练作业,ModelArts提供了以下监控指标:
监控指标 | 描述 |
CPU使用率 | 显示训练作业占用CPU资源的百分比 |
GPU使用率 | 显示训练作业占用GPU资源的百分比 |
内存使用量 | 显示训练作业使用的内存大小 |
磁盘IO | 显示训练作业的磁盘读写速度 |
网络流量 | 显示训练作业的网络上传下载速率 |
实时日志 | 显示训练过程中的日志信息 |
作业状态 | 显示当前训练作业的状态,如运行中、完成或失败等 |
2. 模型部署监控指标
当AI模型被部署后,ModelArts也提供了相应的监控指标:
监控指标 | 描述 |
响应时间 | 显示API请求的平均响应时间 |
吞吐量 | 显示API请求的处理速率 |
错误率 | 显示API请求处理的错误比率 |
并发连接数 | 显示同时连接到服务的客户端数量 |
调用次数 | 显示API被调用的总次数 |
3. 自定义监控指标

除了上述标准监控指标外,ModelArts允许用户通过日志服务收集自定义指标数据,以适应特定的监控需求。
4. 告警策略
用户可以为特定的监控指标设置阈值,当指标超出这些阈值时,系统会自动触发告警通知。
5. API接口
ModelArts还提供了API接口,允许用户通过编程方式查询监控数据和配置告警策略。

相关问答
Q1: ModelArts是否支持自定义监控指标?如果支持,如何操作?
A1: 是的,ModelArts支持自定义监控指标,用户可以通过ModelArts的日志服务来收集自定义指标数据,需要在训练作业或模型部署的代码中输出所需的监控数据到日志中,然后通过ModelArts的日志服务进行收集和分析。
Q2: 如何在ModelArts中设置告警策略?
A2: 在ModelArts中设置告警策略,需要先选择要监控的指标,然后为该指标设定一个阈值,一旦监控指标的值超过这个阈值,系统将自动触发告警通知,具体操作步骤如下:
1、登录ModelArts控制台。
2、导航到对应的训练作业或模型部署页面。
3、在监控选项卡中,找到需要设置告警的指标。
4、点击“设置告警规则”按钮,输入合适的阈值并保存。
5、根据设置的规则,系统将在指标值异常时发送告警通知。
【版权声明】:本站所有内容均来自网络,若无意侵犯到您的权利,请及时与我们联系将尽快删除相关内容!
发表回复