做运维的感悟(运维工作感悟)

做运维的感悟服务来说 1.对服务版本选择,要和开发沟通,如果开发用的php语言,那就问他写的代码是哪个版本的,不同版本可能不兼容一些语法,会导致出错 要选择稳定版&#xf

1.运维不必整天排查故障。这个时候就需要自律去学习东西。 2.运维价值=成本节省x意识x。有意识的运维虽然不能直接创造价值,但如果不出意外的话,可以通过结构的优化和调整来节省成本。同时,分析日志可以为企业创造无形价值。 3.优化现有方法。例如,当一个脚本最初在10-20台机器上批量操作,但后来公司扩展到100台时,就会存在很多危险。我必须使用ansible来批量操作。所有这些都应该是自动化的,如果压力高,容量会自动扩大,警报会自动调整以减轻当前的机器压力。无法根据百度配置文件来安排服务,例如负载均衡或调度算法。如果输入错误,一台机器将处于高压状态,另一台机器将处于低负载状态。也有可能某个服务占用了一个CPU,在其他CPU空闲的时候负载很重。这是无法接受的。 5. 创建更多文档,例如资产文档、这些机器的配置、密码表、服务连接文档、部署文档和维护文档。一份给我自己,一份给退休或退休。当新员工加入公司时,可以立即进行维护。 6. 要部署新服务,您应该在将其上线之前对其进行测试。测试不仅仅涉及查找详细的测试数据和模拟在线环境。 7. 打字前请三思。例如,重新启动并重新加载在线nigx。否则,当前操作将被中断。 8.监控非常重要,您可以检查流量并查看特定服务的内存使用情况是否超出正常范围。如果没有监视,如果出现问题,您不仅需要监视该服务的端口。它可以帮助您避免挂起,但您还需要使用它来了解诸如mysql 慢查询、命中率、主/从状态等详细信息。 9、对于系统和运营维护,最好制定发布流程、虚拟机应用流程、检查流程等。对于云服务器来说,定期检查磁盘是否已满、是否需要更新等也是非常重要的。不然万一有一天出了问题,问题就很大了。 10. 为您的企业执行机器规划,在压力高时扩大产能,在压力低时逐渐关闭。 11、服务将从nginx等各方面进行测试。静态页面、动态页面、数据提交、模拟多个在线用户登录访问等。 12、修改文件前应做好备份,以方便回滚。 (1)预先积累技能,优化后可能会提高服务器性能。 (2)防患于未然,否则(3)考虑更多的可能性。 目前的结构可能是稳定的,但绝不是最佳的。

服务来说

发布来说

运维工作有多种方向,而且随着业务规模的不断发展和互联网公司越成熟,运维工作就越碎片化。目前,不少大型互联网公司仅承担初期的系统运维工作,并根据业务规模和服务质量要求逐步细分运营。一般情况下,运维团队的工作分类和职责如下:

整体来说

系统运维负责IDC、网络、CDN、基础服务(LVS、NTP、DNS)建设,并负责资产管理、服务器选型、分发和维护。具体职责如下。 (1)IDC数据中心建设服务包括骨干网络、数据中心建筑布局、互联网接入、网络攻击防御能力、可扩展性、空间预留、对外专线功能、现场服务支撑功能等多方面的数据中心建设服务。评估并选择。您将负责数据中心建设和现场维护。 (2)网络建设:设计规划数据中心网络架构、传输网络架构、CDN网络架构等生产网络架构,并进行网络调优等日常运维工作。 (3)LVS负载均衡和SNAT构建LVS作为整个站点架构的流量入口点,根据网络规模和业务需求,完成并提供网络与业务服务器之间的连接。高性能、高可用的负载调度和集成的网络层攻击防护。 SNAT集中向数据中心提供公网访问服务,并通过集群部署保证出站服务的高性能和高可用性。 (4)CDN规划和建设CDN工作分为第三方建设和内部建设两部分。建立第三方CDN选型和调度管理,根据业务发展趋势规划新增CDN节点建设布局,保障CDN系统稳定高效运行。创建加速通道,制定最优的加速策略和资源匹配。负责CDN的日常故障排除,例如用户劫持。 (5)服务器选型、交付和维护:负责服务器测试选型、整机功耗降低、增加机架部署密度等,包括整机和组件的基础和业务测试。结合对公司业务的了解,推动新硬件和新解决方案的发展,以减少企业中服务器投资的规模。负责诊断和识别服务器硬件故障,开发和维护服务器硬件监控和健康检查工具。 (6)操作系统、内核选型以及操作系统相关的维护工作负责操作系统的选型、定制、内核优化以及整个平台的补丁更新和内部版本发布,包括常用的软件包建立基础的YUM包管理和分发中心。用于分发。版本库。我们每天跟踪各类操作系统相关故障,为各行业提供针对性的优化支持。 (七)与管理和运维相关的资产管理记录和基础物理信息,包括数据中心、网络、机柜、服务器、ACL、IP等各种资源信息,以及保证信息处理准确性的有效性。开发;为自动化运维提供开放的API接口和数据支持。 (8)构建基础服务:业务对DNS、NTP、SYSLOG等基础服务的依赖程度较高。高可用架构的设计应避免单点并提供稳定的基础服务。

运维组织结构

应用运维负责在线服务变更、监控服务状态、服务容灾、备份数据、处理日常服务排查和紧急故障。详细的工作描述如下。 (1)设计评审在产品开发阶段,我们会从运维角度参与产品设计评审,并提供评审意见,确保服务满足运维接入的高可用性要求。 (2)服务管理:负责制定线上业务的升级变更和回滚计划并实施变更。掌握您所负责的服务、它们之间的关系以及它们所依赖的各种资源。发现服务缺陷,快速报告并加快解决速度。制定服务稳定性指标和访问标准,同时不断改进和优化程序和系统的功能和效率,以提高运营质量。完善监控内容,提高报警准确率。当在线服务发生故障时,您可以按照流程报告已知的在线故障,遵循未知故障的计划,并与利益相关者协作排除故障。 (3)资源管理对各个业务的服务器资产进行管理,整理服务器资源状况、数据中心分布、网络专线和带宽,根据各种业务的需要合理配置服务器资源可用于。配置您的服务器以充分利用其资源。 (4)定期检查:我们将维护服务的定期检查项目并不断改进。我们根据设立的服务检查点定期对服务进行检查。对调查中发现的问题,将及时进行排查,消除潜在隐患。 (5)计划管理:确定服务所需的各种监控和系统指标的阈值和临界点,以及发生事件时的响应计划。创建和更新服务计划文档,并根据日常停电情况不断补充和完善,提高计划的完整性。能够制定和审议各项计划,定期进行计划培训,保证计划的执行。 (6)数据备份:制定数据备份策略,按照规范进行数据备份操作。确保数据备份的可用性和完整性,并定期执行数据恢复测试。

简介

数据库运维负责设计数据存储方案、设计数据库表、设计索引、优化SQL、修改数据库、监控、备份、高可用性设计等任务。详细的工作描述如下。 (1)设计评审我们在产品开发初期参与设计方案评审,从DBA的角度提出数据存储方案、数据库表设计方案、SQL开发标准、索引设计方案等,以改进我们的服务。它在使用数据库时支持高可用性和高性能。 (2)容量规划:了解您所服务的数据库的容量限制,清楚了解当前的瓶颈点,如果您的服务未达到容量,则及时计划增加容量、优化、拆分或扩展。 (3)数据备份和容灾:制定数据备份和容灾策略,定期完成数据恢复测试,确保您的数据备份的可用性和完整性。 (4)数据库监控:加强对数据库生存状态和性能的监控,及时了解数据库运行状态和故障。 (5)数据库安全:建立数据库账户制度,严格控制账户权限和开放范围,降低误操作和数据泄露的风险,加强离线备份数据的管理,降低数据泄露的风险。 (6)优化数据库高可用性和性能:设计解决数据库单点风险和故障的切换方案,减少故障对数据库服务的影响(如引入新的存储方案、硬件等包括)。文件系统优化、数据库优化、SQL优化等让您的数据库能够支持更多的业务请求,同时保证不增加或只轻微增加成本。 (7)自动化系统建设:设计开发数据库部署、自动扩容、分库分表、权限管理、备份恢复、SQL审计及上线、故障转移等自动化数据库运维系统。

系统运维

运维研发负责整体运维平台的设计和开发,包括资产管理、监控系统、运维平台、数据权限管理系统等。它提供了多种API,可供运维和研发人员使用,封装更先进的自动化运维系统。详细的工作描述如下。 (1)运维平台记录和管理服务及其相关关系,并允许运维人员进行机器管理、重启、重命名、初始化、域名管理等日常运维任务。它以自动化和简化的方式完成。实施流量切换和故障规划等。 (2)监控系统负责监控系统的设计和开发,完成公司服务器及各类网络设备资源指标、线上业务运行指标的采集、报警、存储、分析、展示、数据挖掘、 ETC。系统的及时性、准确性、智能性有利于企业服务器资源的合理配置。 (3)自动化部署系统:参与自动化部署系统的开发,负责自动化部署系统所需的基础数据和信息,负责权限管理、API开发、Web端开发。结合云计算,我们开发并提供PaaS相关的高可用平台,进一步提高服务部署速度和用户体验,提高资源利用率。

应用运维

运维安全部门负责网络、系统和业务的加固,定期进行安全扫描和渗透测试,开发安全工具和系统,响应安全事件。详细的工作描述如下。 (1)建立安全体系:我们根据具体的内部流程制定可行有效的安全体系。 (2)安全教育:定期对员工进行有针对性的安全教育和评价,建立全公司安全员制度。 (3)风险评估:通过黑盒、白盒测试检查机制,定期对物理网络、服务器、业务应用、用户数据等产生全面的风险评估结果。 (4)安全建设:根据风险评估结果,提供最有效的安全防线设计、安全设备部署、及时补丁更新、病毒防护、源代码自动扫描、业务产品安全咨询等。地区。为了降低潜在泄露数据的价值,可以采用加密、匿名化、数据混淆甚至定期删除等技术措施和流程来实现这一目标。 (5)安全合规为了满足支付许可等合规要求,安全团队负责安全合规的对外接口。 (6)应急响应:建立安全报警系统,通过安全中心收集第三方发现的安全问题,对发现的安全问题进行修复,评估其影响,并组织各部门跟踪后续安全原因。

以上#运维洞察相关内容摘自网络,仅供参考。相关信息请参见官方公告。

原创文章,作者:CSDN,如若转载,请注明出处:https://www.sudun.com/ask/91182.html

(0)
CSDN's avatarCSDN
上一篇 2024年6月21日 下午6:49
下一篇 2024年6月21日 下午6:50

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注