极氪与 Zadig 共创平台工程:引领智能汽车数智化转型

极氪率先引领车企行业数智化转型,提升研发效率和客户体验至新高度。

在不确定性中找到确定性

极氪智能科技(英文名 ZEEKR),作为高端智能纯电汽车的领军品牌,致力于将智能化和数字化科技融入出行领域。公司秉承“共创极致体验的出行生活”的使命,通过不断的产品创新、用户体验提升和商业模式革新,为用户带来前所未有的出行体验。极氪在安全和质量上取得了显著成就,实现了零自燃的记录,并保持稳定增长,累计交付量突破 26 万辆,确立了在纯电汽车行业的优势地位。
2024 年 5 月 10 日,极氪在纽约证券交易所成功上市,股票代码“ZK”,成为新能源汽车领域快速上市的典范。上市首日股价显著上涨,市值达到近 69 亿美元,这标志着公司迈入了新的发展阶段。随着新车型的推出和全球市场的拓展,极氪正开启其全球化的新征程,致力于将智能、环保的出行体验带给全球消费者。

在极氪的成功背后,数字化团队扮演了关键角色。今天我们将揭秘极氪数字化团队的平台工程实践之旅,展示他们如何通过数字化转型实现从工程交付向价值交付的转变。

# 时代之趋:从工程交付转向价值交付

在过去的几十年里,“乌卡(VUCA)”一词曾被广泛用来描述当下时代的不确定性。然而随着全球主要经济体的增速持续放缓,地缘政治冲突的不断增加,新冠疫情的突然袭击,以及大数据、人工智能等科技的不断发展,我们已经进入了一个新的“巴尼(BANI)”时代。

相较于 VUCA 时代的不确定性,BANI 时代更加强调焦虑感,事情不仅更加复杂,还遵循着非线性系统的逻辑。过去模糊不清的东西,如今对我们来说更是难以理解。然而面对更加迷茫无措、复杂且脆弱的环境,企业需要变得更加柔性和敏捷。

正如极氪汽车副总裁刘昊所说:“企业应善于利用数字技术加速数字化转型,通过构建‘数字化生命力’来增加企业的的复杂适应性,以此来提高企业的长效竞争力。”因此,极氪制定了以“流程数字化、数字服务化和服务智能化”的数字化转型战略。

02.jpg 作为数据化转型的底层技术保障,极氪数字研发总监兼架构师闫成洋强调,构建集成敏捷平台对于加速业务迭代和稳定交付至关重要。他认为,只有充分释放工程师的创造力,才能实现真正的价值交付,并推动公司从工程交付向价值交付转变,使团队更专注于业务创新和提升客户体验。

# 面临的挑战与具体痛点

汽车业务多样且复杂,涵盖“研产供销服人财法协”企业全生命周期。数字研发团队需应对敏态业务冲刺和稳态业务保质的双重挑战。在建设过程中,极氪面临以下三大难点和挑战:

· 工具复杂度挑战:全流程涉及的工具链和基础组件较多,传统解法效率低下,亟需引入配置自动化的能力,实现测试环境配置自助处理,生产环境通过配置审批生效处理。

· 集群环境复杂度挑战:随着业务扩张,集群规模迅速增长,必须采用更为精细化的资源管理和利用,需要能够按照项目和业务目标的环境分治管理,而非基于 Kubernetes 集群资源管理,成为解决问题的关键。

· 多方协同的组织挑战:各部门有各自的流程和工作方式,平台的成功建设依赖于基础设施支持和各个能力方的 API 和服务化、需要建设扩展性更强的工作流引擎打破系统孤岛、服务孤岛、数据孤岛实现真正的平台化互联。

具体痛点包括:

· 交付与满意度:交付不透明,常延期,业务不满意;需求质量低,变更频繁,价值不明确。

· 自动化与流程:自动化建设缓慢,缺乏标准化;流程割裂,自动化程度低,依赖个人,协作效率低。

· 工具与协作:工具分散,多系统切换,体验差;跨业务线协同困难,依赖线下沟通。

· 人工依赖:变更工作依赖人工,导致等待和阻塞;基础设施复用性低。

· 效能度量:效能数据获取难,埋点不准确;指标不统一,缺乏度量基线。

03.png

平台工程之法:Xops 释放工程师创造力 04.jpg 在敏捷平台的设计哲学中,"万物皆可运营"的理念是核心,它通过 XOps 模式不仅激发了工程师的创造力,还显著提升了工作效率。以下是 XOps 模式的关键要素:

· DevOps(开发运维一体化) :DevOps 是敏捷平台的核心,它通过 CI/CD 实践,加强了开发与运维团队之间的协作。这一实践不仅提高了代码质量,也加快了发布频率,使软件交付更加迅速和可靠。

· TestOps(测试运营) :TestOps 通过整合自动化测试流程,确保了软件在整个开发周期内的高标准质量。它利用测试过程管理和自动化工具,显著提高了测试覆盖率和反馈速度,有效缩短了测试周期。

· SecOps(安全运营) :SecOps 将安全性作为软件开发和运维的内在组成部分。通过自动化安全扫描和监控,SecOps 保障了应用和数据的安全性。借助先进的安全工具,如车联网安全平台,SecOps 助力团队及时发现并修复潜在的安全漏洞。

· COps(运维运营) :COps 通过运维管理工具和性能测试工具,优化了运维流程,增强了系统的可靠性与稳定性。这使得运维团队能够以更高的效率管理和优化生产环境。

· DataOps(数据运营) :DataOps 通过促进数据的流畅处理和分析,确立了数据在决策过程中的核心地位。利用数据开发平台和大数据中台,DataOps 确保了数据的即时访问、高效处理和深入分析,为业务决策提供了坚实的数据支持。

XOps 模式通过这种集成的运营策略,使团队能够专注于更具价值和创新性的任务。这为组织打造了一个灵活、迅速响应且高效的产研运生态系统。

在架构设计上,我们采用“平台工程”理念,该技术被 Gartner 评为 2023 和 2024 年度十大技术趋势之一。敏捷平台以“客户”为中心,联动多方能力,作为数字产品迭代的能力集散地,为工程师提供全方位支持。

05.png 具体到组织和工程视角的实践拆解如下:

# 组织视角

极氪将平台团队和产研团队分离,平台团队关注共性能力建设及规范库、模板库治理沉淀,产研团队采用敏捷战队模式,由 7-14 人的全栈职能小分队组成。敏捷战队模式灵活应对需求变更,通过不断优化工作流程,专注于业务迭代和目标交付。

# 工程视角

极氪在“产研工程交付过程”中建设相应的能力矩阵:

06.png

1. 项目初始化过程:实现一站式资源申请、域名申请和项目资源初始化,确保资源随用随取,用完释放。

2. 项目交付阶段:实现敏捷灵活的工程能力调用,包括:

· 应用框架即服务:平台初始化和构建开发框架,持续同步升级,减少框架本身带来的不可靠因素。

· 技术组件即服务:在应用配置阶段,开发者可以快速调用平台的技术组件完成配置,生成自动部署管道。

· 工具链即服务:平台自助生成开发者的工具链,提供 CI/CD 工作流,不需关注 DevOps 工具链配置。

· 测试即服务:一键创建测试环境,支持灰度、蓝绿部署和切换,测试脚本可以随用随调。

  1. 应用运维阶段:以应用为基本单元的可观测性,包括多维度监控、链路、日志、流量监控,故障快速定位和恢复,分布式微服务治理、容量监控管理、弹性伸缩管控,实现开发应用的无感升级。

# 技术落地具体实践

随着我们对云原生技术的采用及丰富的微服务交付经验,我们关注到了 Zadig 平台,最初,Zadig 是基于 Kubernetes 的环境治理工具,后来在 GitHub 上开源,为开发者提供简单易用的自动化工作流引擎,逐渐成为主流的云原生 CI/CD 平台。随着上下游工具链的联动,具备了整个 DevOps 生命周期管理能力。同时我们也调研了云厂商、项目管理、代码管理等起家的相关 DevOps 平台,Zadig 的设计理念非常符合云原生和多云交付的思想,通过多方讨论,我们最终选择了 Zadig 作为工程底座。

07.png

秉承“万物皆是服务”的理念,基于 Zadig 搭建的敏捷平台提供了大量 Xops 自动化和自助化服务,减少了开发者的生产力损耗,实现了开发者体验和业务发展的双向提升。Zadig 工作流的自动集成实现了安全扫描、代码规范扫描、配置变更管理、自动化测试、质量门禁等高效自动化持续交付实践。

08.png

· 项目初始化流程提供 ITOps 运维服务:过去繁琐的资源申请、域名申请、环境初始化等工作,现在通过一键操作即可完成,从一周缩短到 1 小时。

· 开发迭代过程提供 DevOps 全栈能力:通过敏捷服务门户,开发者可以一站式完成从需求认领到发布上线的高频工作,节省了 4500+人天的损耗,提供了更好的工作体验。

· 开发验证过程提供 TestOps 测试服务:敏捷平台实现了开发自助验证、测试集成验证和自动生成发布单,将发布频率从过去三周缩短到一周,有些域实现了一周多次发布频率。

· 全流程提供 DevSecOps 安全服务:灵活编排安全策略,及早发现和修复安全漏洞,避免事故发生。

在 Zadig 工程底座的基础上,极氪平台团队致力于为开发者建设统一的服务门户,通过与多方能力建设和基础设施联动,实现企业技术规范和柔性流程的落地。平台团队通过摸底服务能力建设情况,建立了成熟度管理机制,横向整合了低代码脚手架平台、全链路灰度和可观测平台能力,同时纵向联动多方建设 IT 服务、测试服务、安全服务等。

# 平台工程实践之器

1. 运用云原生多环境治理能力,实现业务的环境自治

通过多环境治理,极氪实现了不同业务的环境自治。平台运维根据业务需求挂接不同集群,并分配不同的环境权限,实现了从“集群 -> 项目 -> 环境 -> 功能子环境"的逐级治理。目前已接入近五十个海内外集群,划分到数百项目战队中完成日常研发交付迭代。

09.png

2. 通过自动化工作流联动云环境,实现产研流程 90% 自动化

自定义工作流解决了工具链和流程分散的问题。Zadig 工作流提供广泛集成性,深度整合了 Jira、GitLab、Nacos、DMS、多家云厂商和镜像仓库等,实现了从流程到业务变更、配置变更和数据变更的原子态自动化能力。目前已经沉淀两千多条自动化工作流,上千套云环境服务于日常产研团队。

10.png

3. 基于 Zadig 平台扩展开发,面向合作团队定制能力接入点

我们联动了 IT 团队、安全团队、测试团队,在极氪内建的平台和服务基础上,自定义任务开发和 OpenAPI 完成相应能力接入,成功开发了 20 个接入点,降低了运维人员低附加值工作的负担,提升了运维经验的可复用性,减少了资源浪费和效率低下。

11.png

4. 基于模板库管理能力,沉淀内部技术规范和交付规范

Zadig 提供了一套模板库管理能力,平台运维工程师根据服务特性、Kubernetes 资源特性和配置规范,定制了企业的服务模板、构建模板和工作流模板库,目前已沉淀模板库 30+套,实现了开发者日常流程的全面自动化。

12.png

接下来我们将继续接入更多面向业务的自助服务能力,进一步提升自动化流程,减少研发过程中的损耗。

# 成果展示:效能提升与满意度双丰收

历经一年多的建设与推广,敏捷平台在极氪企业内部取得了显著的成效,覆盖了 400+ 数字产品,为企业的发展带来了多层次的价值。

1. 效能提升成效

· 人均 Story 需求交付数提升 50%+,人员 HC 总数无明显变化。

· 每年节省研发损耗 4500+人天。

· 全球需求如期交付率从 65%提升到 95%+。

· 平台团队可支撑 5 倍以上研发规模扩充。

2. 工程建设成效

· 2 名运维可支撑 1500+产研工程师。

· 工程师体验满意度 NPS 从 65%提升到 90%+。

· 构建 50+ Kubernetes 全球集群,900+个服务化运行环境,全域已支撑 2000+条自动化工作流。

3. 基础建设成效

· 提供一站式研发协作平台,整合“业、产、研”全角色端到端的协作过程。

· 提供丰富的研发工具箱,如 AI 代码提示、自动化单元测试、安全扫描等,全方位提升开发效率。

· 提供工作流快速集成测试用例,实现自动化测试能力,结合门禁提交,进行质量内建,缩短测试周期。

· 提供多种自助能力如一键创建服务部署、一键申请域名解析、基础设施云服务的线上化等,降低运维负载。

通过“平台工程”的建设,实现了全生命周期的产品迭代数据、工程数据、工作量的自动化收集,实现了项目全链路数据的自动化采集和可视化分析,为“数字服务化平台”提供了上报全流程的产品主数据、迭代数据和工程数据支持。这一创新不仅简化了数据收集流程,还提升了数据分析的效率和准确性。

# ZEEKR & Zadig 强强联手,合作展望

极氪将继续与 Zadig 深化合作,通过 Zadig 的技术平台和专业服务,不断优化敏捷平台,推动数字化转型的深入发展。极氪将利用 Zadig 的技术优势,进一步探索 AI 场景、智能驾驶、车联网等前沿领域,两家公司的合作将继续引领新能源汽车行业的数智化转型,为消费者带来更加智能、环保的出行体验。

Background Image

作为一名软件工程师,我们一直给各行各业写软件提升效率,但是软件工程本身却是非常低效,为什么市面上没有一个工具可以让研发团队不这么累,还能更好、更快地满足大客户的交付需求?我们是否能够打造一个面向开发者的交付平台呢?我们开源打造 Zadig 正是去满足这个愿望。

—— Zadig 创始人 Landy