屡获大奖:中国铁塔分布式资源池如何做到?多专家热议揭秘

海峰看科技 2024-12-26 11:46:16

文/黄海峰的通信生活

当前,随着数字经济的蓬勃发展,算力呈现出多元泛在化的发展趋势,分布式算力不仅是各行各业转型升级的重要驱动力,其技术创新和应用实践也引起了行业的广泛关注。值得一提的是,在通信行业,近期分布式资源池发展取得了突破成绩。

具体来说,中国铁塔与浪潮云海联手打造的“中国铁塔分布式资源池建设实践”项目,不仅被中国信通院评选为2024年分布式算力“星耀”案例,还获得了2024年IDC“未来数字基础架构领军者”奖项,彰显了其在行业内的技术创新实力。

笔者获悉,该项目通过“全国一朵云、两级多中心”的大规模分布式资源池建设实践,为行业头部企业部署大规模分布式私有云提供参考样板。我很好奇,该项目获奖的核心优势何在?

近日,笔者实地探访了位于北京的中国铁塔产业园,并对话了中国铁塔集团信息技术研究院院长叶臻、中国铁塔信息技术研究院副院长王江峰、中国铁塔集团信息技术研究院维护室经理王焱、浪潮云海首席科学家张东以及浪潮云海云计算方案总监刘健。

在这次访谈中,上述嘉宾揭示了哪些项目背后的故事,分布式算力技术应用的宝贵经验,以及对未来技术发展的独到见解?本文将给大家一一道来。

数字铁塔:十年磨一剑,信息化建设三步走铸辉煌

你可曾想过,那家在2014年盛夏悄然挂牌成立的公司,如今已迎来了它的十周岁生日?它便是我们熟知的中国铁塔。

中国铁塔总部虽坐落于首都北京,枝叶却已蔓延至全国31个省份。截至2023年底,中国铁塔的站址数总量超过200万,总资产规模超过3200亿元。中国铁塔已成长为全球最大的通信基础设施服务商,令人瞩目。

你是否也好奇,是什么让中国铁塔在短短数年间取得如此成就?笔者发现,答案之一就藏在其坚定不移地进行信息化建设。中国铁塔叶臻将中国铁塔信息化建设划分为“三步走战略”。

第一阶段:公有云支撑,一体化业务起航。中国铁塔确立信息化系统一级平台、一点支撑全国的原则,主要支撑“一体”业务,资源来源于公有云,以资源租用为主。

第二阶段,由内而外,数字塔能力拓展。中国铁塔内部业务数字化能力完成,开始发展智联等对外服务能力,基于运维监测和全国平台调度能力,推动“通信塔”向“数字塔”转变。

第三阶段,战略升级,揭开数字化新篇。中国铁塔提出“一体两翼”战略定位和“五型五化”发展要求,尝试分布式节点建设,发布数字化建设及IT能力建设规划。

听完中国铁塔信息化建设之路,我感受到其体现出的前瞻性和深思熟虑。要知道,“分布式资源池建设实践”项目算是中国铁塔信息化建设历程中的一个里程碑节点,受到业界高度赞誉。

我很关心中国铁塔启动分布式资源池项目的背后,蕴含着哪些考量?中国铁塔叶臻总结了三点。

其一,业务特点与分布式模式匹配。中国铁塔资源遍布全国,且面临着区域数据管理的个性化需求。分布式资源池的业务逻辑与管理逻辑相对分离,可做到属地资源池能留存用户侧管理结果于省内,同时集中资源侧管理于总部,确保业务规划与发展同步。

其二,经济性与资源利用优化。在资源利用层面,可利用中国铁塔属地分公司购置的综合楼作为小型机房,加强了对自身资产的有效使用。在成本结构层面,自建资源池属于投资折旧,进一步加强对自身资产的有效使用。

其三,前瞻性与数字经济发展。中国铁塔拥有两百多万座铁塔作为数据源,随着数据采集、存储与传输需求的增长,分布式资源池将成为数据处理与传输的关键节点。通过建设分布式资源池,中国铁塔可提升数据处理能力,还可为低空经济等新兴领域提供支撑。

创新之光:跨越双重挑战,点亮分布式资源池建设之路

探索完中国铁塔分布式资源池项目的“初心”后,我们不难预见,实践之路总是布满荆棘。中国铁塔在建设分布式资源池的过程中,遇到了哪些棘手的挑战?带着这样的疑问,浪潮云海张东告诉我:一方面,资源池管理。分布式资源池管理面临地域分布广、资源分散的挑战,云平台设计理念与架构需适应分布式管理,确保资源虽分散但仍能统一管理和共享。

另一方面,硬件环境变化。随着业务发展,软硬件环境不断变化,云平台需具备可升级、可演进的架构,以适应未来变化。据张东强调,浪潮云海在新版本中提出了这一路线,旨在确保云平台能长期稳定发展,满足不断变化的业务需求。

中国铁塔作为项目的直接应用者,其在推进过程中遇到的挑战无疑更具实践意义。面对异构复杂、可靠性要求极高的业务环境,中国铁塔与浪潮云海的合作究竟如何破解难题,实现技术与业务的深度融合?

对此,中国铁塔王焱指出其在推广过程中面临诸多挑战。首先,异构问题显著,节点众多,设备来自不同厂商和型号,需考虑兼容性;其次,可靠性是一大考验,中国铁塔在自建平台前有长期使用公有云的经验,系统连续性要求对标公有云,业务连接性面临较大挑战。

可喜的是,中国铁塔与浪潮云海合作后,上述问题得以部分解决:

其一,在架构设计初期,双方对容错方面进行了大量投入;

其二,网络可靠性得以提升,中国铁塔利用SD-WAN技术在公共互联网上搭建虚拟高质量网络,实现网络融合调度,解决了网络节点分布复杂的问题;

其三,针对I/O性能挑战,浪潮云海进行了专题优化,结合硬件I/O能力和SDN网络能力,解决了大规模并发场景的问题;

其四,网络安全得到加强。中国铁塔与包括浪潮云海在内的网络安全企业合作,解决了已知网络安全风险。

据笔者了解,2024年分布式算力“星耀”案例仅有十个案例突破重围,含金量满满。中国铁塔分布式资源池实践,为何能屡次获得行业代表性的奖项?其背后有哪些“黑科技”值得关注?浪潮云海刘健分享了三大技术特色。

第一,架构演进与一云多芯策略。浪潮云海“一云多芯”模式已支持两芯三芯,并预留扩展至四至五芯的能力。同时,浪潮云海在一云多芯领域进行布局,以确保云平台能够适配多种处理器,满足未来业务发展的需求。

第二,分层解耦设计保障平滑演进。为解决平滑演进问题,浪潮云海采用分层解耦架构,从算力底座到PaaS服务,再到AI服务,每一层都独立设计,确保变动时对各层影响最小。

第三,规划新技术落地,确保领先性。浪潮云海已规划多项新技术落地,包括网络层和分布式技术创新,且上述创新已纳入整体规划,确保场景应用价值和技术领先性。

从上述技术特色,不难看出浪潮云海呈现出的专业性和技术实力。要知道,支持中国铁塔构建大规模分布式资源池并非易事,比如铁塔资源丰富但又分散,如何保障其高效性和稳定性?笔者在会后总结了五大策略。

策略一:架构设计。浪潮云海在架构设计过程中,注重软硬件解耦、存算分离以及云网融合等技术的运用。通过模块化设计,浪潮云海减少了故障对系统的影响,从而缩小故障率。

策略二:故障预测与处理。浪潮云海致力于提升对故障的早期发现和处理能力,浪潮云海训练出了故障预测模型,可提前发现潜在故障,避免单点故障导致整个系统瘫痪。

策略三:实验室测试与蓝军测试。为确保系统稳定性和高效性,浪潮云海进行了“蓝军测试”,以发现潜在问题并在实验室中解决,减少在用户生产环境中出现问题的可能性。

策略四:运维保障。浪潮云海做了大量工作以确保平台的可靠性,例如其开发了多种自动化运维工具,如“平台医生”和“巡检助手”等,可自动化地发现和处理问题。

策略五:资源高效利用。在高效性方面,浪潮云海注重底层资源的优化,其针对不同的计算场景,例如大数据应用、人工智能应用等,匹配了最佳的计算模型。

独行快,众行远。中国铁塔对合作伙伴的专业性要求严苛,浪潮云海能在众多伙伴中脱颖而出,其优势何在?笔者了解到,首先,浪潮云海在技术实力、发展理念以及服务方面具备优势;其次,基于前期合作基础,浪潮云海对中国铁塔业务理解更深刻,颇具性价比。

百尺竿头,更进一步。立足当下所取得的显著成绩,为了更高效地服务更广泛的客户群体,未来中国铁塔在扩容方面有哪些规划?据中国铁塔叶臻透露,当前建成的分布式节点已投入使用,包括六个省级节点以及一个总部节点,构成“1+6”建成模式。未来随着业务需求增长,中国铁塔将继续推进建设工作,而且扩容方案已制定完毕,可实现平滑扩容。

笔者观察:中国铁塔成分布式资源池先行者

不观大局难筹一隅,不虑长远怎定今朝。通过此次参访,笔者更加深刻地理解分布式资源池的建设,恰好顺应了当前行业从大型云向边端小型云探索的趋势。

随着数字经济快速发展,大型云的数据处理和管理能力虽然强大,但在面对海量、分散的数据源时,其灵活性和响应速度往往受到限制。而分布式资源池则能够将这些数据源进行有效整合和管理,实现资源的高效利用和智能管理。

中国铁塔作为通信基础设施建设“国家队”,拥有遍布全国的基站资源,这些基站不仅保障了通信服务,也为数据采集提供了广泛的基础。结合中国铁塔自身的优势,分布式资源池的建设能够更好地满足数据处理的实时性、安全性和可靠性要求,并为数字经济发展做出贡献。

此外,分布式资源池建设还能为行业打样,其他企业可以借鉴其经验和技术,加快自身数字化转型的步伐,推动整个行业向更加高效、智能的方向发展。

可以预见的是,未来分布式将成为重要趋势,中国铁塔拥有全球最大的分布式资源池,就分布式规模而言中国铁塔未来必将占据领先地位。

雄关漫道真如铁,而今迈步从头越。笔者希望,中国铁塔立足世界一流的信息通信基础设施综合服务商,努力打造共享型、服务型、科技型、创新型、价值型的五型企业,为数字经济的蓬勃发展贡献更多的铁塔力量。

1 阅读:3

海峰看科技

简介:关注5G、手机、AI、云等技术和产业发展十余年。