小天才的云原生 DevOps 选型与落地:挑战、演进与经验分享

小天才的云原生 DevOps 选型与落地:挑战、演进与经验分享

cover.png

作者:小天才内部 IT 运维负责人 汤英杰

小天才,作为步步高教育电子旗下专注于儿童智能设备的科技品牌,自 2015 年推出首款产品以来,已成为中国儿童智能手表市场的领军企业。核心产品涵盖儿童电话手表、学习平板等,主打“安全、教育、陪伴”三大核心功能。凭借精准定位、家长管控、健康监测等差异化技术,构建了完整的儿童智能生态系统。2024 年,小天才荣获中国移动“最受欢迎智能终端品牌”奖。2025 年一季度,线上市场销量占比达到 27.6%,稳居行业榜首。

随着内部 IT 生产制造、办公及外部营销数字化业务不断增加,传统 IT 交付体系面临海量设备数据管理全球化混合云架构支持及日益严苛的安全合规挑战。为保障在各办公、营销场景中的产品体验,确保业务运营稳定,小天才内部 IT 决定转型,构建高效、稳定的云原生智能交付体系,以支撑业务的持续创新与拓展。

zadig-0


# 云原生转型背景与技术栈演进

  • 时间线:早期业务部署在 Windows/Linux 服务器,采用手工 / 脚本构建部署;2020 年全面拥抱云原生。
  • 技术栈转向:内部 IT 开发技术栈全面转向 Java、JavaScript/TypeScript。
  • K8s 集群方案:RKE2、K3S、ACK、ACS

# 软件交付流水线演进历程(2020-2025)

# Rancher Pipeline(2020-2022 年)

核心特点: 基于 Rancher 平台的 CI/CD 工具,集成 K8s 管理。

优点

  • 图形化 UI 与 YAML 配置结合,操作简便
  • 与 Rancher K8s 集群深度集成,适合初期快速落地

缺点

  • 生产环境管控能力不足,发布流程依赖 Rancher 统一管理
  • 开发者需具备 K8s 基础,学习成本较高

转型动因: 官方弃用旧版本 Pipeline,且 RKE 迁移至 RKE2 后兼容性问题突出,无法满足规模化生产需求。

# Jenkins(2022-2023 年)

核心特点: 开源 CI 工具,支持灵活定制流水线。

优点

  • 本地缓存机制提升构建速度
  • BlueOcean 界面简洁,支持 UI 与 Jenkinsfile 双模式配置

缺点

  • 权限管理依赖插件,精细度不足,缺乏环境管控与版本管理
  • 仅负责构建,需额外平台完成自动化发布,操作复杂度增加

转型动因: 缺少全流程自动化能力,安全生产与效率难以平衡。

# 其他工具尝试

  • ArgoCD/Argo:适合声明式部署,但依赖运维团队,对开发团队不友好。
  • KubeVela:专注应用交付,功能单一,无法覆盖全链路流水线需求。

结论:均无法满足“构建–测试–发布–环境管控”一体化需求。

# Zadig 基础版(2022-2024 年)

核心特点:云原生 CI/CD 平台,支持多集群与模板化管理。

优点

  • 强大的模板系统(构建、工作流),降低重复配置成本
  • 多集群管理能力,适配 RKE/RKE2 等不同 K8s 环境
  • 90% 业务迁移至此,显著提升交付效率

不足

  • 基础版仅支持测试环境管理,缺乏生产环境管控
  • 工作流模板扩展性有限,难以满足复杂业务需求
  • 接入流程对开发团队规模扩大后仍显复杂

瓶颈: 生产环境管控缺失、模板能力不足,卡在 v1 版本三年。

# Zadig 企业版(2025 年至今)

升级动因: 业务扩张与生产稳定性需求驱动,需解决人为故障、环境管控等核心痛点。

核心功能价值

需求场景 企业版解决方案 收益
生产环境严格管控 环境隔离、发布审批流程、版本锁定 降低误操作风险,提升发布可靠性
模板化与标准化 构建模板、工作流模板、代码扫描模板 统一交付流程,减少重复配置耗时
多集群与资源管理 跨集群流量调度、资源配额管理 优化资源利用率,支持混合云/多集群架构
简化开发团队接入 业务目录可视化、自助式服务门户 降低新成员学习成本,提升协作效率
质量环节缺失 集成测试、自动化验证插件(待扩展) 完善交付质量体系,减少缺陷流入生产

长期价值:构建“标准化交付 + 智能化管控 + 全链路质量”的云原生交付体系,释放研发产能。

zadig-1

zadig-2

zadig-3


# 关键转型总结与启示

  1. 工具选型逻辑

    • 初期强调快速落地(Rancher Pipeline)
    • 中期追求灵活定制(Jenkins)
    • 后期聚焦规模化与稳定性(Zadig)
    • 云原生场景下,工具需深度集成 Kubernetes 生态,支持多集群和多环境管理。
  2. 核心痛点解决路径

    • 环境管控:从无差别发布转向测试、预发、生产严格隔离,通过企业版审批流程实现管控
    • 效率瓶颈:模板化显著减少重复配置,业务目录降低协作成本
    • 团队适配:推动“运维驱动”向“开发自助化”转变,降低对 K8s 底层依赖
  3. 未来规划方向

    • 结合 Zadig 企业版,推进测试左移能力(如单元测试、API 测试)
    • 探索 AIGC 助力流水线自动生成,进一步降低接入门槛

# 技术决策建议

  • 中小团队初期:优先尝试 Zadig 基础版,快速搭建模板化流水线,提升测试环境交付效率。
  • 规模化团队:升级企业版前,重点评估生产环境管控细则(审批节点、权限分级),确保流程与工具深度契合。
  • 生态整合:充分利用 Zadig 与 Prometheus(监控)、SonarQube(代码扫描)等工具集成,打造完整 DevOps 闭环。

# 总结

通过工具链的迭代和流程自动化,小天才内部 IT 团队逐步从“手工交付”迈向“标准化、智能化”的云原生交付体系,为业务高速发展提供了稳定的工程效率底座。

Background Image

作为一名软件工程师,我们一直给各行各业写软件提升效率,但是软件工程本身却是非常低效,为什么市面上没有一个工具可以让研发团队不这么累,还能更好、更快地满足大客户的交付需求?我们是否能够打造一个面向开发者的交付平台呢?我们开源打造 Zadig 正是去满足这个愿望。

—— Zadig 创始人 Landy