腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
视频
用户
沙龙
专栏
专区
综合排序
丨
最热优先
丨
最新优先
时间不限
DevOps和
SRE
之前总是把
SRE
和DevOps混为一谈,总觉得这两个是同一种东西在不同公司的叫法,知道前两天google又放出了《The Site Reliability Workbook》 ,书中对比了
SRE
和DevOps 无论是实践还是理论,
SRE
和DevOps都得用数据说话。 - 在管理生产服务的过程中总是免不了出问题,
SRE
和DevOps都实行不问责的事故处理方式。 - 归根到底,DevOps或
SRE
是一种全局工作,两者都希望通过某种特定的方式使得分散的部分组织协同的更好。 速度是
SRE
和DevOps都想要的结果。 或者,换句话说,
SRE
相信与DevOps相同的东西,但原因略有不同。 作为一个具体的职业,
SRE
对他们产生的影响高度敏感,反而对信息壁垒不太关注。
SRE
支持持续集成和持续交付不是因为商业需求,而是因为持续集成和持续交付涉及到运维。 换句话说,
SRE
和DevOps相信同样的事,但不是因为同样的原因。
xindoo
2021-01-21
1K
0
标签:
devops
运维
api
cci 持续集成
《
SRE
实战手册》学习笔记之认识
SRE
; 最佳实践:业内稳定性领域的最佳实践是Google
SRE
; 1、
SRE
包含哪些工作事项 稳定性规范制定,监控、压测、服务治理、大促稳定性保障、故障应急管理、组织架构建设; 2、
SRE
常见的问题与困惑 3、我们所看到的
SRE
理念:
SRE
到底是什么? 5、DevOps和
SRE
的区别 DevOps核心是做全栈交付,
SRE
核心是稳定性保障,关注业务所有活动,两者共性是:都使用软件工程解决问题。 如何理解
SRE
1、
SRE
的定义 定义:
SRE
是一整套稳定性保障的最佳实践体系! ; 其他的角度:
SRE
传统运维的升级版,把运维自动化做好就行; 3、如何理解
SRE
SRE
稳定性保障规划图:
SRE
是一整套稳定性保障的最佳实践体系,需要高效的跨团队组织协作才能完成。
老_张
2022-04-01
1.9K
0
标签:
运维
devops
《
SRE
实战手册》学习笔记之切入
SRE
极客时间上赵成老师的《
SRE
实战手册》是线上稳定性保障领域很好的一门技术课程。 这篇文章是学习笔记的第二篇,理解
SRE
之后,就要找到切入点来落地。 理解
SRE
中的指标和目标
SRE
强调稳定性,一般是看整体的系统情况,也就是常说的"3个9"、"4个9"这样可量化的数字。 这个“确定成功请求条件,设定达成占比目标”的过程,在
SRE
中就是设定稳定性衡量标准的SLI和SLO的过程。 这么做是为了确保
SRE
精力能够更多地关注在核心业务上; 2.2强依赖之间的核心应用,SLO要一致。 混沌工程是
SRE
稳定性体系建设的高级阶段,一定是
SRE
体系在服务治理、容量压测、链路跟踪、监控告警、运维自动化等相对基础和必需的部分非常完善的情况下才能考虑。
老_张
2022-04-01
2.2K
0
标签:
google
volume
SRE
与AI
当思考Site Reliability Engineering(
SRE
)以及使软件可靠的一般概念时,很容易看到AI可以发挥重要作用。 以系统监控和服务指标(SLO)为例,这是
SRE
领域两个常见难题。概念上它们很简单。系统监控就是观察系统输出以确保正常运行。
云云众生s
2024-03-28
595
0
标签:
模型
事件
数据
服务
工程师
《
SRE
实战手册》学习笔记之
SRE
落地实践
这篇文章,主要说明如何通过应对故障来落地
SRE
。 ,优先恢复业务优先; 3)如果问题疑难或影响范围大,
SRE
可以要求更高级别的角色介入如
SRE
主管或总监。 典型案例:互联网的
SRE
组织架构 在
SRE
体系中,高效的故障应对和管理工作,需要整个技术团队共同参与和投入。 总结:
SRE
= PE + 工具平台开发 + 稳定性平台开发! 业内经验:高效的
SRE
组织协作机制
SRE
落地经验:以赛带练。 1、什么是以赛带练? 落地
SRE
要尽可能早的参与到项目中,而非等到线上出问题才考虑引入
SRE
机制!
SRE
更多的要成为稳定性的监督者和推进者,而不是各种问题的救火队员!
老_张
2022-04-01
3.5K
0
标签:
运维
应急响应服务
云原生
SRE
2 为什么需要云原生
SRE
? 所有的这些,也就促成了云原生
SRE
的诞生,云原生
SRE
属于平台级运维,属于数据化运维,如果这些
SRE
有脑子的话,那么可以摇身一变,变成智能化运维。 ? 高端的产品必然有高端的食材,这就是云原生
SRE
的舞台。 3 云原生
SRE
的核心能力 数据化运维,对于各种微服务来说,前端的数据,中间的数据,后端的数据,存储的数据,各种各样的数据,各种各样的APM,收集数据,存储数据,分析数据,利用数据,数据服务化
SRE运维实践
2020-12-22
1.6K
0
标签:
运维
serverless
微服务
kubernetes
SRE
食用指南
作者:乔克 博客:www.jokerbai.com
SRE
,多么美妙的一个词,它就像黑暗中的一盏明灯,为运维指出了前进的路。 但是,国内大部分企业的运维人员对
SRE
都不感冒,觉得它就是理论的巨人,根本无法落地实践。
SRE
是谷歌提出的理念,旨在做到以应用为中心,以稳定为前提,做到自动化、智能化、平台化,需要工程师的技术能力拉满: 会产品 会开发 会测试 会运维 会架构 大家一看到这,就直接把
SRE
拉黑了, 在我看来,
SRE
并非一定特指某个人,而是一群人,如果一个公司只招一个
SRE
,要么公司不知道
SRE
是什么,要么公司是傻逼中的战斗机。 目前国内玩
SRE
玩的比较好的都是大厂,比如百度、蚂蚁、腾讯等,他们的团队规模都很大,这么大团队,如果每个人都会上面的技能,那会是什么场面?
没有故事的陈师傅
2022-12-06
432
0
标签:
运维
https
网络安全
腾讯云开发者社区
SRE
最佳实践
什么是站点可靠性工程(
SRE
)? 站点可靠性工程(
SRE
)的概念起源于谷歌。这个想法与DevOps的原则密切相关。它是It运营的一种方法。
SRE
团队使用软件来管理系统、解决问题和自动化操作任务。 为什么
SRE
很重要?好的
SRE
团队需要具备哪些条件?
SRE
就像是软件工程和IT操作之间的桥梁,填补了它们之间的空白。在几乎所有地方,
SRE
都在为生产系统中的故障做准备时发挥作用。
SRE
的主要目标是提高性能和运行效率。 所以,
SRE
不仅仅是负责编码的行动人员。另外,
SRE
是开发团队中拥有不同技能集的成员,特别是在部署、配置管理、监视、度量等方面。 既然我们知道了为什么
SRE
很重要,那么让我们继续讨论在拥抱
SRE
文化时必须遵循的
SRE
最佳实践。
SRE
最佳实践 在实现
SRE
时,您可能需要一些时间来改进您的策略和定制实践,以满足您的操作需求。 引用 https://
sre
.google/
sre
-book/service-best-practices/ https://opensource.com/article/18/10/
sre
-startup
用户5166556
2023-03-18
2K
0
标签:
devops
自动化
es
it
最佳实践
SRE
学习路线
SRE
工作职责 要制定学习路线,首先我们要搞情况
SRE
的工作职责。
SRE
(Site Reliability Engineering)站点可靠性工程是一种结合软件工程和运维运营原则的角色和方法论,旨在在系统、服务或产品的设计、开发、部署和运维过程中,采取一系列措施来确保其持续稳定运行
SRE
/稳定性保障具体措施包括但不限于: 高可用性: 确保系统能够在大部分时间内持续提供服务,即使在出现故障或意外情况下也能够快速恢复。常见的高可用性措施包括冗余设计、故障转移、负载均衡和容错机制。
SRE
稳定性保障体系
SRE
主要工作是保障稳定性,稳定性就是不出故障,围绕着故障周期,整理出
SRE
稳定性保障体系。
SRE
RoadMap 根据工作职责和稳定性保障体系,整理出学习路线。
SRE运维进阶之路
2024-04-23
836
0
标签:
工作
监控
系统
性能
服务
SRE
转型关键:
SRE
与 DevOps 团队如何高效协作
本文来自腾讯蓝鲸智云社区用户: CanWay直达原文:【
SRE
转型】银行
SRE
和DevOps团队的协作摘要:本文通过深入分析
SRE
和DevOps在银行中的角色与职责,详细阐述了它们在核心协作点上的紧密配合 理解
SRE
与DevOps的具体职责和核心作用是实现跨团队协作的基础。1)
SRE
团队的主要职责
SRE
起源于Google,其核心目的是通过工程化手段提升服务的可靠性与可用性。
SRE
团队通常由具备深厚技术背景的工程师组成,主要职责包括:1.可靠性工程与SLO管理:可靠性是
SRE
的核心职责之一。 3)
SRE
与DevOps的共同目标尽管
SRE
和DevOps在职能上有所不同,但两者有着共同的目标:提升系统的可靠性、可用性和敏捷性。
SRE
负责:在故障发生后,
SRE
团队负责快速响应并进行问题根因分析,提供改进建议,避免类似问题再次发生。
腾讯蓝鲸助手
2026-01-30
267
0
标签:
devops
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档