亿级数据、千条告警秒级处理！浪潮信息InManage智能管理10万+IT设备

• 2024年10月21日下午3:11 • 发现 • 阅读 133

北京2024年10月21日 /美通社/ -- 随着数字化和智慧化的加速落地，数据中心的设备规模快速攀升。数据中心的Scale out给基础设施运维管理带来全新挑战。以拥有10万+设备的大规模数据中心为例，面对每日产生高达近30TB的设备运行状态、亿级监控指标、数千条告警推送等，如何秒级反馈海量并发需求，保证管理平台稳定运行？如何避免将每秒近千条的大规模设备告警风暴强塞给客户，进行根因定位并避免误报、漏报？这些挑战正伴随服务器、存储和网络设备规模的持续增长，成为超大规模数据中心管理亟待解决的难题。

浪潮信息InManage是一款面向数据中心基础设施的智能管理平台，通过统一接口、协议，能够纳管多达400种不同厂商、不同型号的服务器、存储、网络等机型，设备规模最多可达10万台，为超大规模数据中心运维提供智能均衡调度、实时精准告警等管理功能。浪潮信息InManage通过智能均衡作业调度平台，能够在秒级内处理超大规模数据中心亿级实时并发运维管理数据，并基于自研的告警管理框架，实现5秒内响应上千条告警风暴，显著降低告警误报与漏报的风险。InManage不仅创造了金融行业单一数据中心带外管理的最大纪录，还实现了数据中心基础设施全生命周期管理，整体运维效率提升两倍，为超大规模数据中心的稳定、高效运行奠定了重要基础。

10万+超大规模设备集群管理，面临稳定性与实时性多重挑战

随着数据中心的规模化发展，服务器数量爆发式增长，数据中心设备规模从最初的1000台增加到10万台，规模扩大了100倍，涵盖了不同年代和厂商的服务器、存储、网络设备等，设备种类多，内存、电源、硬盘、风扇等各类故障发生的不确定性大。对于不同设备的统一管理，一般运维管理平台会在底层屏蔽设备差异，基于基线策略来实现纳管。但随着数据中心规模的骤增，数据中心运维管理的稳定性和故障的实时精准告警等挑战变得日益严苛。

首要面对的挑战是大规模数据中心基础设施管理平台的失稳问题。大规模基础设施管理要对不同基础设施运行状态进行实时分析，每天数据量达到TB级，而且海量并发需求要在秒级反馈，极易出现故障上报不及时、页面卡顿，甚至管理平台宕机。比如以往某客户数据中心管理平台进行运维测试时，基础设施规模从1000台增长到5000台，规模提升到原来的5倍，会出现管理页面卡顿，后台日志显示大量采集任务超时的问题。即使后续对管理平台进行分布式部署，系统负载依然出现较明显的峰值抖动现象，导致页面周期性卡顿。其原因主要是作业被调度后，缺乏有效的离散管理，高峰与低谷负载不均，对系统稳定性带来极大的挑战。此外，对于海量资源的数据采集任务，会受线程数、采集周期和耗时等因素影响，容易造成任务积压，对管理平台异常情况下的任务隔离与自动降频能力提出更高要求。

此外，设备大规模告警的延迟、误报和漏报是另一大挑战。在10万+大规模设备运维场景中，一般金融等行业的客户数据中心管理平台通常以平铺直叙方式呈现设备告警，缺乏更深层的故障根因判断、全周期管理等能力。在此场景下，一旦服务器BMC在批量刷新固件时出现故障，可能会在短时间内产生大量的Trap推送，同时还夹杂着设备离线等一系列异常告警。数千条告警的推送，易造成通信堵塞，从而出现告警延迟、告警丢失等。当客户看到堆积数千条告警邮件通知时，极易导致客户误认为系统正面临重大故障风险。而且由于没有全周期管理机制，即便设备故障修复，告警信息仍会持续存在，这也大大增加了运维管理的复杂性。

智能均衡作业调度，10万+超大规模设备亿级指标稳定采集

在超大规模监控场景下，作业调度不畅极易造成作业堆积、负载波峰波谷抖动，严重影响系统稳定性，进而影响采集进度。为此，浪潮信息InManage自研了ChaosJob作业调度中间件，突破了作业智能均衡调度技术，实现了采集作业的高效调度和稳定执行。

在作业调度层面，InManage自研的任务调度中间件采用了灵活的作业分片与调度策略，能够基于客户的业务场景，对不同类型设备、不同协议类型的采集任务进行可高度自定义的细粒度分片。通过基于延迟队列+漏桶算法的"Job Capping"技术，实现任务分片的均衡下发，有效平抑系统负载波动，达到削峰填谷的目标。在任务执行层面，针对超大规模数据采集这种IO密集型的任务，InManage突破线程优先线程池技术，运用"作业智能聚合"机制，将计算密集型任务与IO密集型任务进行智能调度与聚合，从而加速任务执行，提升系统整体吞吐量，实现任务处理的更高效与平稳性。任务堆积防控层面，InManage的任务调度中间件具有异常任务自动识别与隔离功能，通过灵活的限流与隔离技术，确保任务"零堆积"，同时保持系统整体吞吐量不受影响。例如，大规模数据中心可能存在多厂商、多型号的异构设备，有些老旧设备接口响应缓慢，采集耗时长，而这些设备往往不运行核心业务，虽然不受重视，又不能遗弃。在此场景下，InManage能够智能识别这些设备的异常表现，主动将相关采集任务进行隔离与降频处理，优先保障其他关键任务的正常执行。这一过程完全自动化，无需客户干预，成功应对了10万规模管理场景下新旧设备混杂带来的管理挑战。

图1浪潮信息 InManage平台超大规模作业调度架构

告警管道动态分析，1000+告警动秒级实时精准响应

在面对10万+超大规模设备管理时，如何避免将系统产生的告警风暴强塞给客户，如何进行根因定位并避免误报、漏报，是数据中心统一管理的另一挑战。为此，InManage提出了CDCAlarm告警管理框架，突破了告警集成管理技术，实现了告警的及时性、准确性和全面性，同时支持告警分析、聚合及根因分析等功能。该框架能够为客户呈现按优先级排序和分类聚合的告警，直观易懂、方便用户进一步处理。

InManage使用AI技术手段对告警进行分类、分批处理，实现告警按来源、种类的归并聚合策略，在保证告警时序性的同时，提升了告警处理的整体吞吐量。同时使用基于AI的根因定位方法，快速从告警风暴中准确识别出故障根因，并呈现给客户，有效解决了客户在面对告警风暴时无从入手的局面。

同时，针对超大规模监控场景下常见的误报漏报等告警不准确、不及时问题，InManage也做了优化。

秒告警秒恢复问题：在10万+设备的管理中，某些设备可能在发出告警的同时又快速发出了恢复信号，甚至可能出现恢复信息先于告警到达。在此场景下，传统系统容易误判为告警未恢复，从而导致误报。InManage的智能告警归并技术能够有效识别和规避此类时序问题，确保告警处理的准确性。

告警噪点问题：在资源利用率实时采集场景下，短暂的峰值可能导致瞬时超阈值的告警，但整体使用率却保持平稳。为避免因这些噪点导致的误报，InManage的告警管道采用了智能识别和计数技术，能够对短时间内的同类告警进行聚合处理，从而彻底消除此类误报。

告警遗漏问题：在大规模数据中心中，由于网络负载高，SNMP协议中的Trap信息（基于不可靠的UDP传输）更容易丢失。为解决这一问题，InManage提出了融合多种协议和多源数据的AI智能预警技术，该技术可提供全天候的设备实时监控和故障分析，有效降低了告警遗漏的风险，减少客户业务隐患。

图2 浪潮信息 InManage平台告警分析与处理架构

稳定、快速和高效的超大规模监控

在10万+大规模设备管理环境中，InManage系统表现出了稳定的性能与高效的运作能力，确保了数据采集任务得以平稳且迅速地执行，显著增强了系统的整体处理能力，有效规避了任务积压问题。面对每日高达近30TB的服务器运行状态数据洪流，InManage每秒可处理高达1000条的告警风暴，响应延迟维持5秒以内，保证了系统监控的实时性与准确性。

此外，InManage还具备对历史数据进行高效压缩与无缝转储的能力，在保障当前系统流畅运行的同时，确保了历史数据的完整性与可访问性，有效避免了数据丢失的风险。在如此庞大的规模下，InManage仍能快速查询一年内的历史告警或事件通知，响应时间缩短至2秒以内，为客户提供了强大的历史问题追溯能力，确保问题根源得以迅速定位，为系统的长期稳定运行提供了坚实保障。

InManage满足了客户对于大规模、多元化、多类型设备的统一带外管理，确保了数据的稳定采集及告警集中高效监控，同时还具备基础设施全生命周期资产管理、自动化部署管理等能力。其大规模统一带外管理技术、告警智能化分析技术水平处于国内领先水平，授权国家发明专利超过20项。未来，InManage也将更加关注客户需求的变化，不断优化产品和服务，为客户提供更加全面、高效、智能的解决方案，助力客户实现数字化转型和业务升级。

原创文章，作者：，如若转载，请注明出处：https://knewsmart.com/archives/313820

0 0 打赏

微信扫一扫

关于作者

0 文章

0 评论

粉丝

上海市长宁区委副书记刘平调研美华丁香门诊部，聚焦高品质社区医疗服务提升

上一篇 2024年10月21日下午3:11

关注"菌"衡 "益"起肠乐，上海科普大讲坛第217期合肥开讲

下一篇 2024年10月21日下午3:11

发现

第三代元PLUS 11.99万元起正式上市全系搭载第二代刀片电池及闪充技术

5月21日，比亚迪第三代元PLUS正式上市，官方指导价11.99万-14.99万。新车定位元力智趣闪充SUV，凭借全能产品力契合元气青年、年轻家庭与科技实用派的多元出行需求，以全球车品质与年轻姿态解锁高品质纯电出…

新智派
2026年5月21日
8.9K
发现

人均16本？2026全国职场人阅读调查来了！

本雅明在一百年前写下过一个诊断：我们生活在一个体验超载的时代，但内心却感到贫乏，似乎没什么能真正沉淀下来。他把那种可传承、能生根的深厚经验称为“Erfahrung”，而把那些孤立的、转瞬即逝的刺激称为“Erlebnis…

新智派
2026年4月27日
14.7K
发现

田涛对话马拉比：在AI浪潮中破解“上帝密码”与人类命运

一壶武夷岩茶，升腾起连接东西方的氤氲热气。近日，《哈萨比斯：谷歌AI之脑》作者塞巴斯蒂安·马拉比，与华为管理顾问田涛展开了一场深度对话，整整2个小时，围绕人类“重构巴别塔”的雄心与野心，两位观察家在茶香中…

新智派
2026年4月20日
11.5K
发现

为什么我们还要读书？世界总有答案

OpenClaw能打开浏览器、查资料、写邮件、填表格——像一个不睡觉的实习生。 Gemini CLI能一口气吞下整个代码库，三秒钟给你一份精准的优化建议。 MGIE动动嘴就能修图，连软件都不用打开。 2026年，这些AI智能体不再是…

新智派
2026年4月20日
8.1K
发现

博世舒适科技日立冷热科技亮相中国制冷展，以绿色与智能引领行业升级

北京2026年4月17日 /美通社/ -- 在2026中国制冷展期间，博世舒适科技集团日立冷热科技集中展示了覆盖压缩机、空调系统及大型机组在内的全系列产品与解决方案。围绕绿色低碳与智能化发展趋势，公司正加快由单一设备…

新智派
2026年4月17日
3.8K
新智•新速•新未来｜OCS 2.0-SPE工业控制系统新品发布暨OCS@NIICA生态合作伙伴签约仪式圆满举行

北京2026年4月17日 /美通社/ -- 2026年4月16日，"OCS 2.0-SPE工业控制系统新品发布暨OCS@NIICA生态合作伙伴签约仪式"圆满举行。本次会议汇聚行业认证机构、核心技术伙伴及生态厂商，共同见证新一代工业控制技术的诞…

新智派
发现 2026年4月17日
6.1K
以责任赋能发展以初心传递温度 -- 中通快递正式发布 2025 年度可持续发展报告

上海2026年4月17日 /美通社/ -- 2026年4月17日，中国行业领先且快速成长的快递公司中通快递（开曼）有限公司（纽交所代码：ZTO及香港联交所代号：2057）（"中通"或"公司"）正式发布了2025年度可持续发展报告。这是…

新智派
发现 2026年4月17日
11.2K
水隐之触悦然心生 GROHE SPA水悦淋浴系统耀世登场

设计美学：采用高特朗水悦恒温控制面板，内嵌式按钮设计让科技隐于无形。核心技术：模块化创新设计搭配SmartControl控温技术，一键精准调控个性化组合。感官体验：宽大的顶洒与情绪调频式手持花洒结合，打造沉浸…

新智派
发现 2026年4月17日
3.5K
雅诗兰黛集团连续第六年参展中国国际消费品博览会，彰显深耕海南的长期承诺

海口2026年4月17日 /美通社/ -- 作为世界领先的优质护肤品、彩妆、香水和护发产品的制造商与营销商，雅诗兰黛集团连续第六年亮相中国国际消费品博览会（以下简称"消博会"）。围绕"重塑美妆新境，焕启致美之旅"的主…

新智派
发现 2026年4月17日
3.8K
发现

毛源昌眼镜亮相消博会，向世界讲述中华老字号新故事

杭州2026年4月17日 /美通社/ -- 4月13日-18日，第六届中国国际消费品博览会在海南海口举行。毛源昌眼镜作为商务部首批认定的"中华老字号"受邀参展，在老字号"镇店之宝"专题展示区，向全球客商呈现百年品牌的文化底…

新智派
2026年4月17日
3.3K

发表回复

登录后才能评论

亿级数据、千条告警秒级处理！浪潮信息InManage智能管理10万+IT设备

关于作者

相关推荐

发表回复