“经验没有压缩算法”,亚马逊云科技打造稳定可信赖的云服务

2024年04月12日,21时59分23秒 科技新知 阅读 11 views 次

DoNews4月12日消息,云计算的广泛应用,给相关产业带来了本质性的改变,传统的信息安全也随之出现了新的挑战。

例如,云厂商不能很好地提供日志,合规很难解决,云安全风险成为云厂商、用户企业、监管机构等方面的最大担忧,因此难以在客户方建立信任——这在很大程度上迟滞了云计算产业发展的速度。

亚马逊云科技作为全球云计算的开创者和引领者,为全球顶级的大型企业和80%的初创独角兽企业提供安全稳定可信赖的云服务,这背后得益于亚马逊云科技在服务全球最大规模云计算客户的过程中积累的一系列经验。

亚马逊云科技最为人耳熟能详的一句话是“经验没有压缩算法”,这些宝贵的经验与亚马逊云科技遍布全球的基础设施和广泛而深入的云服务相结合,为全球云计算行业提供指引。

提高IT韧性的三种方法

亚马逊云科技从一开始就将“韧性”纳入基础设施、服务设计与部署、运营模式和机制当中。例如,亚马逊云科技的基础设施遍及33个地理区域的105个可用区,由部署在世界各地的数据中心组成,可以承受几乎任何类型或规模的中断冲击。

亚马逊云科技为客户提供了可靠的基础设施,让客户构建和运行他们的应用。但同时客户也需要确保运行在基础设施之上的应用同样具有韧性。

具体来讲,有三种方法可以帮助企业提高韧性。

一是,尽可能扩大自动化范围。

根据Uptime Institute的数据,大约70%的数据中心和服务中断是由人为错误造成的。因为手动操作会带来风险,为此从备份到测试需要尽可能地自动化,自动化是创建韧性架构的关键。

二是,持续测试来应对未知。

持续测试是工程师理解系统如何应对未知情况的方法,实现这个目标的做法之一是故意搞“破坏”。通过这种方法,企业能够执行故障注入实验,帮助团队营造真实世界所需的条件,来发现分布式系统中难以甄别的隐藏错误、盲点和性能瓶颈。

另一种流行的测试方法是韧性“游戏日”(game days),它通过模拟一个失败或其他事件来测试系统、流程和团队的响应。这种方法的目的是尽可能逼真地演习如果异常事件真的发生,团队会采取的行动。企业可以在亚马逊云科技中使用其生产环境的完整副本进行游戏日演练。

三是,统一可观测性指标。

了解系统的运行情况对实现卓越的运营和韧性至关重要。企业不断收集和分析应用数据,才能更快地检测和解决应用可用性和性能方面存在的问题,从而改善最终用户的体验。

将韧性构建到亚马逊云科技的方方面面

为构建和运行世界上最可靠的云,亚马逊云科技持续投入,在服务设计和部署机制中构建保障措施,并将韧性植根于运营文化之中。

亚马逊云科技服务的设计中就考虑了如何防止中断和事故的发生,因此当中断确实发生时,对客户和服务的连续性的影响将是最小的。

为了避免单点故障,亚马逊云科技最小化全球基础设施之间的互联性。亚马逊云科技全球基础设施地理位置分散,遍及33个地理区域的105个可用区。亚马逊云科技的区域由一个地理区域内的多个相互独立,且在物理上分隔的可用区组成。每个可用区都有独立的电力、制冷和物理安全设施,可用区之间通过冗余的超低延迟网络连接。同一区域内的可用区之间具有足够的距离,最远可达约100公里,既能防止相关故障,但又能实现单位毫秒级延迟的同步复制。

亚马逊云科技是唯一在每个区域内提供三个或更多可用区的云提供商,通过更多冗余和更好的隔离来控制故障的影响面。常见故障点,如发电机和冷却设备等,不会在可用区之间共享,并且设计为由独立的电力变电站供电。为了获得高可用性的同时可以实现更大的容错能力,客户可以将他们的应用程序设计为在多个可用区中运行。

赋能客户在其所有工作中构建韧性

数百万客户信赖亚马逊云科技,是构建和运行关键业务和关键任务应用程序的最佳场所。

亚马逊云科技提供了一套全面的专门构建的服务、策略和架构最佳实践,客户可以使用这些服务、策略和最佳实践来提升企业自身的韧性。这些服务、策略和最佳实践在亚马逊云科技韧性生命周期框架中被概述成了五个阶段:

  • 设定目标
  • 设计和实施
  • 评估和测试
  • 运营
  • 响应和学习

弹性生命周期框架模仿标准软件开发生命周期,因此客户可以轻松地将韧性纳入现有流程。

例如,客户可以使用Amazon Resilience Hub来设置目标,根据这些目标评估韧性状况,并根据Amazon Well-Architected Framework和Amazon Trusted Advisor的建议实施改进措施。在Resilience Hub中,客户可以创建和运行Amazon Fault Injection Service实验,这些实验允许客户测试其应用程序将如何响应某些类型的中断。

其他服务,如Amazon Backup、Amazon Elastic Disaster Recovery (Amazon DRS)和Amazon Route53 Application Recovery Controller (Route 53 ARC),可以帮助客户快速响应和从中断中恢复。当汤森路透(一家为超过100个国家的客户提供税务、法律、媒体和政府解决方案的国际媒体公司)希望改善其业务部门之一的数据保护和应用程序恢复时,他们采用了Amazon DRS。Amazon DRS为汤森路透提供了持续复制,因此他们在源环境中所做的更改会在几秒钟内更新到灾难恢复站点。

行而不辍,未来可期

新技术、新威胁和新的处事之道层出不穷。这就是亚马逊云科技不懈努力改进基础设施、服务设计、运营模式和机制,持续加强与发展云设施韧性的原因。亚马逊云科技将持续为客户提供广泛、深入的架构及运营最佳实践服务、工具和指导,帮助客户在云中构建和运行弹性应用程序。

(来源:DoNews)



用户登录