2024亚马逊云科技中国峰会第二天,亚马逊云科技大中华区解决方案架构总经理代闻发表了《架构演进连接未来想象》主题演讲。以下为演讲主要内容:
一. 基础组件能力决定了架构设计
云计算的最基础组件是计算、存储和网络,其中又以计算作为最核心的组件。
EC2发展的转折点:2017年推出的Nitro:第一台EC2在2006年发布,主频只有1.7GHz,网络带宽250Mbps,内存不到2GB,磁盘只有160GB,而且是机械盘。从2006年到2017年,亚马逊云科技用了11年的时间,将一种EC2做到了70种;2017年到2023年短短6年的时间,EC2的数量种类从70种发展到了750种,为所有的负载提供合适的计算实例。
回顾EC2的发展历程,不难发现2017年是一个拐点,转折来自Nitro。
在现在的EC2虚拟化架构图中,服务器部分100%为用户实例所用,网络、存储的虚拟化、虚拟机的管理、安全、监控都卸载到了Nitro系列上,主机的性能损耗几乎为0。
网络-SRD、SIDR、UltraCluster:Nitro应用的2013年,Amazon EC2 C3系列虚拟机获得了万兆带宽。之后随着Nitro创新,带宽发展到100Gbps、400Gbps,直到现在的单机6.4Tbps,为大模型训练提供了有力的保障。并且,最新Nitro支持的包转发达到了30Mpps(Packets Per Second),即每秒处理三千万个数据包。
存储:在最新的 Nitro 平台支持下,单个虚拟机的最大 IOPS 可以到 400K,存储带宽可以到 100Gbps。亚马逊云科技重写了主机和闪存之间的闪存转换层算法,并且将这个算法运行到 Nitro 系统的一块芯片里,将 SSD 访问延迟降低了 60%,抖动减少了 75%。
安全- Nitro Enclaves:从运行在Nitro卡上的操作系统中完全删除不必要的系统调用,任何亚马逊云科技的系统或员工都不能访问 Nitro 主机,也不能访问任何客户数据。第二,Nitro 提供了一些列的加密功能,比如 计算实例之间流量的加密、内存加密、本地存储加密、可信计算模块 TPM 的支持等。第三,Nitro 提供了一个隔离的敏感数据处理环境,Nitro Enclaves:
自研芯片Graviton:亚马逊云科技自研设计了更符合云计算业务和新时代需求的处理器,也是目前最广泛使用的 基于 ARM 架构的 云计算处理器 Graviton。回顾过去5年, 亚马逊云科技发布了四代Graviton。亚马逊云科技在全球规模化提供的基于 Graviton 的 Amazon EC2 实例种类达 150 多个,已经构建的 Graviton 处理器数量超过 200 万个,并拥有超过 50,000 客户。这些客户涵盖了 EC2 最大的前 100 个客户,他们使用基于 Graviton 的实例为其应用提供最佳性价比。
二. 架构体系创新拓展核心能力
韧性:桥梁的韧性需要处理的两方面的风险,天灾和人祸。在技术架构中,道理是类似的,如何应对不可控制的外部风险,以及管理不善造成的内部风险,是技术架构韧性要解决的主要题目。
最近一段时间,云服务自身的可靠性导致的事故原因大都与云平台的访问控制核心服务相关,那么,亚马逊云科技的Amazon IAM是如何提供高可靠的访问控制服务的呢?基于多区域的控制面与数据面的隔离,基于区域内 单元架构,Amazon IAM实现了全球高可靠架构。现在,Amazon IAM每秒处理超过十亿次调用,是毫无疑问的高韧性的安全基石。
弹性与效率- Firecracker、Amazon Lambda SnapStart、Caspian:Serverless不仅是产品,更是一种构建方式。
Firecracker轻量级虚拟化技术,旨在快速启动和管理容器化工作负载,提升资源效率和安全性;Amazon Lambda SnapStart提升10倍冷启动速度;Caspian实现了类似“多库同宿主,允许共享预留”的逻辑。
三. 多元技术融合驱动架构创新
现代应用的新时代多元化需求包括对生成式AI的智能体验、可持续发展、合规等。以亚马逊电商的AI导购聊天助手 Rufus 为例:除了商品搜索;下单;支付等基本购物功能以外,AI还提供了聊天式的咨询体验。
在与大模型聊天的场景中,要求底层的技术能够管理所有跟聊天相关的数据。这么多需求一起摆在面前的时候, 应用架构必需要打开思路, 做出过去从没做过的创新。
专门构建的数据服务——拆解需求,专门构建,各个击破:多元的需求首先是用多元的技术各个击破。只有专门构建才能在单一技术上实现最有性能和成本。为此亚马逊云科技专门构建了各种数据服务,包括关系型数据库、非关系型数据库、数据仓库,以及各种批式/流式的数据采集和分析服务。
生成式AI应用催生新的数据架构。生成式AI应用的云上的参考架构比过去三层web应用架构和微服务架构完全不同,核心原因是多了一个或几个响应没那么快的大模型。生成式AI应用的数据架构包括以下三个方面:在用户交互侧,不变的核心要求是响应时间要快;在后端涉及数据流的更新,数据的ETL处理;用户和后台中间的是大模型和用户聊天的各种上下文数据,或是来自企业业务的“特定领域”的知识数据。
亚马逊云科技通过RAG工程化手段融合多种数据库的需要,RAG不仅仅是向量数据库,知识提取的数据并不仅在一个地方,而是通过用户端到后端之间的一系列架构组件来解决。每一个组件在具体实现时,需要根据实际的应用场景选择合适的平台服务,比如一个面向端的应用可能更关注吞吐效率,而企业内部应用更关注知识检索的准确。
Zero-ETL:专门构建高效的支撑了业务依赖的技术特性, 但没有解决数据同步问题。今天不同数据引擎同步数据方案的解决方案是ETL,一个费人费力的做法。而云已经建立的基础能力,比如存储层的独立扩展,数据的独立同步,催生了数据数据流动自动发生的创新可能,也就是Zero-ETL。
优良架构体系(Well-Architected Framework):整体应用架构是多元技术均衡的结果,需要考虑以上诸多因素,包括成本、合规、扩展性、可持续发展、韧性、安全、性能、访问可达性、可用性等等。架构师的工作就是在不同的场景下对不同的需求,通过一系列的折中取舍持续优化。没有一个架构是十全十美的。架构本身也受技术发展不断影响,一个良好的架构应该能够随着多元因素的影响不断演进。
亚马逊云科技的优良架构体系(Well-Architected Framework)到现在已经超过十年了,从四个维度(卓越运营、安全、可靠、性能效率),演进到六个维度,新增了可持续发展和成本优化。随着客户对各种组件更深入的使用。架构师的决定和组件选择会直接影响到整块的应用负载在云上的成本。
总结-What Will You Build?
技术架构演进过程里面不变的三个主题需求:基础组件能力,架构体系创新,多元技术融合。我们应该看清变化的技术和不变的需求,积极推进架构演进,连接未来的想象。
作为架构师、工程师,或者任何一个有技术信仰的构建者,你的每一行代码,你的每一种选择,你的每一个决定,都是写给未来的信。
过去十年,云计算为创新和创业提供了前所未有的便利,未来十年,生成式AI让我们有机会一起重塑各行各业,想想10年后回首现在的自己,在这个特殊的时间点,What Will You Build?