腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

文章/答案/技术大牛

发布

综合排序丨最热优先丨最新优先

　　之前总是把SRE和DevOps混为一谈，总觉得这两个是同一种东西在不同公司的叫法，知道前两天google又放出了《The Site Reliability Workbook》，书中对比了SRE和DevOps 无论是实践还是理论，SRE和DevOps都得用数据说话。 - 在管理生产服务的过程中总是免不了出问题，SRE和DevOps都实行不问责的事故处理方式。 - 归根到底，DevOps或SRE是一种全局工作，两者都希望通过某种特定的方式使得分散的部分组织协同的更好。速度是SRE和DevOps都想要的结果。　　或者，换句话说，SRE相信与DevOps相同的东西，但原因略有不同。作为一个具体的职业，SRE对他们产生的影响高度敏感，反而对信息壁垒不太关注。 SRE支持持续集成和持续交付不是因为商业需求，而是因为持续集成和持续交付涉及到运维。换句话说，SRE和DevOps相信同样的事，但不是因为同样的原因。

2021-01-21

1K0

标签:

cci 持续集成

《SRE实战手册》学习笔记之认识SRE

；最佳实践：业内稳定性领域的最佳实践是Google SRE； 1、SRE包含哪些工作事项稳定性规范制定，监控、压测、服务治理、大促稳定性保障、故障应急管理、组织架构建设； 2、SRE常见的问题与困惑 3、我们所看到的SRE 理念：SRE 到底是什么？ 5、DevOps和SRE的区别 DevOps核心是做全栈交付，SRE核心是稳定性保障，关注业务所有活动，两者共性是：都使用软件工程解决问题。如何理解SRE 1、SRE的定义定义：SRE是一整套稳定性保障的最佳实践体系！；其他的角度：SRE传统运维的升级版，把运维自动化做好就行； 3、如何理解SRE SRE稳定性保障规划图： SRE是一整套稳定性保障的最佳实践体系，需要高效的跨团队组织协作才能完成。

2022-04-01

1.9K0

标签:

《SRE实战手册》学习笔记之切入SRE

极客时间上赵成老师的《SRE实战手册》是线上稳定性保障领域很好的一门技术课程。这篇文章是学习笔记的第二篇，理解SRE之后，就要找到切入点来落地。理解SRE中的指标和目标 SRE强调稳定性，一般是看整体的系统情况，也就是常说的"3个9"、"4个9"这样可量化的数字。这个“确定成功请求条件，设定达成占比目标”的过程，在SRE中就是设定稳定性衡量标准的SLI和SLO的过程。这么做是为了确保SRE精力能够更多地关注在核心业务上； 2.2强依赖之间的核心应用，SLO要一致。混沌工程是 SRE 稳定性体系建设的高级阶段，一定是 SRE 体系在服务治理、容量压测、链路跟踪、监控告警、运维自动化等相对基础和必需的部分非常完善的情况下才能考虑。

2022-04-01

2.2K0

标签:

当思考Site Reliability Engineering(SRE)以及使软件可靠的一般概念时，很容易看到AI可以发挥重要作用。以系统监控和服务指标(SLO)为例，这是SRE领域两个常见难题。概念上它们很简单。系统监控就是观察系统输出以确保正常运行。

2024-03-28

5950

标签:

《SRE实战手册》学习笔记之SRE落地实践

这篇文章，主要说明如何通过应对故障来落地SRE。，优先恢复业务优先； 3）如果问题疑难或影响范围大，SRE可以要求更高级别的角色介入如 SRE主管或总监。典型案例：互联网的SRE组织架构在SRE体系中，高效的故障应对和管理工作，需要整个技术团队共同参与和投入。总结：SRE = PE + 工具平台开发 + 稳定性平台开发！业内经验：高效的SRE组织协作机制 SRE落地经验：以赛带练。 1、什么是以赛带练？落地SRE要尽可能早的参与到项目中，而非等到线上出问题才考虑引入SRE机制！ SRE 更多的要成为稳定性的监督者和推进者，而不是各种问题的救火队员！

2022-04-01

3.5K0

标签:

应急响应服务

2 为什么需要云原生SRE？所有的这些，也就促成了云原生SRE的诞生，云原生SRE属于平台级运维，属于数据化运维，如果这些SRE有脑子的话，那么可以摇身一变，变成智能化运维。 ? 高端的产品必然有高端的食材，这就是云原生SRE的舞台。 3 云原生SRE的核心能力数据化运维，对于各种微服务来说，前端的数据，中间的数据，后端的数据，存储的数据，各种各样的数据，各种各样的APM，收集数据，存储数据，分析数据，利用数据，数据服务化

SRE运维实践

2020-12-22

1.6K0

标签:

SRE食用指南

作者：乔克博客：www.jokerbai.com SRE，多么美妙的一个词，它就像黑暗中的一盏明灯，为运维指出了前进的路。但是，国内大部分企业的运维人员对 SRE 都不感冒，觉得它就是理论的巨人，根本无法落地实践。 SRE 是谷歌提出的理念，旨在做到以应用为中心，以稳定为前提，做到自动化、智能化、平台化，需要工程师的技术能力拉满：会产品会开发会测试会运维会架构 ‍ 大家一看到这，就直接把 SRE 拉黑了，在我看来，SRE 并非一定特指某个人，而是一群人，如果一个公司只招一个 SRE，要么公司不知道 SRE 是什么，要么公司是傻逼中的战斗机。 ‍ 目前国内玩 SRE 玩的比较好的都是大厂，比如百度、蚂蚁、腾讯等，他们的团队规模都很大，这么大团队，如果每个人都会上面的技能，那会是什么场面？

没有故事的陈师傅

2022-12-06

4320

标签:

腾讯云开发者社区

SRE最佳实践

什么是站点可靠性工程(SRE)? 站点可靠性工程(SRE)的概念起源于谷歌。这个想法与DevOps的原则密切相关。它是It运营的一种方法。SRE团队使用软件来管理系统、解决问题和自动化操作任务。为什么SRE很重要?好的SRE团队需要具备哪些条件? SRE就像是软件工程和IT操作之间的桥梁，填补了它们之间的空白。在几乎所有地方，SRE都在为生产系统中的故障做准备时发挥作用。 SRE的主要目标是提高性能和运行效率。所以，SRE不仅仅是负责编码的行动人员。另外，SRE是开发团队中拥有不同技能集的成员，特别是在部署、配置管理、监视、度量等方面。既然我们知道了为什么SRE很重要，那么让我们继续讨论在拥抱SRE文化时必须遵循的SRE最佳实践。 SRE最佳实践在实现SRE时，您可能需要一些时间来改进您的策略和定制实践，以满足您的操作需求。引用 https://sre.google/sre-book/service-best-practices/ https://opensource.com/article/18/10/sre-startup

2023-03-18

2K0

标签:

SRE 学习路线

SRE 工作职责要制定学习路线，首先我们要搞情况 SRE 的工作职责。 SRE（Site Reliability Engineering）站点可靠性工程是一种结合软件工程和运维运营原则的角色和方法论，旨在在系统、服务或产品的设计、开发、部署和运维过程中，采取一系列措施来确保其持续稳定运行 SRE/稳定性保障具体措施包括但不限于：高可用性：确保系统能够在大部分时间内持续提供服务，即使在出现故障或意外情况下也能够快速恢复。常见的高可用性措施包括冗余设计、故障转移、负载均衡和容错机制。 SRE 稳定性保障体系 SRE 主要工作是保障稳定性，稳定性就是不出故障，围绕着故障周期，整理出 SRE 稳定性保障体系。 SRE RoadMap 根据工作职责和稳定性保障体系，整理出学习路线。

SRE运维进阶之路

2024-04-23

8360

标签:

SRE 转型关键：SRE 与 DevOps 团队如何高效协作

本文来自腾讯蓝鲸智云社区用户: CanWay直达原文：【SRE转型】银行SRE和DevOps团队的协作摘要：本文通过深入分析SRE和DevOps在银行中的角色与职责，详细阐述了它们在核心协作点上的紧密配合理解SRE与DevOps的具体职责和核心作用是实现跨团队协作的基础。1）SRE团队的主要职责SRE起源于Google，其核心目的是通过工程化手段提升服务的可靠性与可用性。 SRE团队通常由具备深厚技术背景的工程师组成，主要职责包括：1.可靠性工程与SLO管理：可靠性是SRE的核心职责之一。 3）SRE与DevOps的共同目标尽管SRE和DevOps在职能上有所不同，但两者有着共同的目标：提升系统的可靠性、可用性和敏捷性。 SRE负责：在故障发生后，SRE团队负责快速响应并进行问题根因分析，提供改进建议，避免类似问题再次发生。

腾讯蓝鲸助手

2026-01-30

2670

标签: