第一财经
2021.10.22 09:11
I'm PortAI, I can summarize articles.

阿里云 12 年:向下扎根,向上生长

过去十多年,云计算从零起步发展到万亿规模,且仍以两位数增速持续攀升。Gartner 预测 2021 年全球云计算市场规模预计将达到 1.7 万亿元。

过去十多年,云计算从零起步发展到万亿规模,且仍以两位数增速持续攀升。Gartner 预测 2021 年全球云计算市场规模预计将达到 1.7 万亿元。

在规模持续攀升的同时,作为云计算领域的头部企业,阿里云更在意的是自己为数字化转型做出什么有价值的贡献。

“我们今天最大的挑战是如何去定义云计算未来是怎么样子的,去引领数字化转型的进程。在这个进程里面提供有竞争力、差异化的能力和产品。” 在 2021 杭州云栖大会期间,阿里云智能总裁张建锋表示,公司近几年推出的一系列产品就是为了能够引领未来。

过去两天,阿里云连续发布了多款重磅产品,包括自研通用 CPU、自研服务器磐久、神龙 4.0、龙蜥云操作系统、阿里灵杰 AI 平台等等。此前一周,发布了钉闪会、钉钉文档、钉钉项目等多款协同办公工具,并宣布低代码平台在 8 个月内新增 86 万应用、入驻开发者已达 90 万人。

这一系列动作,展示了阿里云对于未来发展的思考:双向生长。向下,持续夯实云基础技术;向上,为数字化提供一个标准化的开发平台。

不止步于云计算

云计算深入硬件领域,始于 2017 年。时年冬,亚马逊 AWS 发布了一款自研的云服务器硬件——Nitro,这一消息让整个科技圈一片沸腾。这意味着,云服务商——这一典型认知上的软件企业开始 “杀入” 硬件领域。

而在 45 天前,阿里云发布了第一款由云厂商自主研发的云硬件——神龙云服务器。

地球东西两端的两家云厂商,不约而同地走到了同一个路口,开始钻研硬件。他们其实都是为了解决同一个问题:用一款为云而生的硬件架构,解决云虚拟化损耗的问题。

虚拟化损耗是云计算行业的一大难题。云的一项基本工作是将物理服务器虚拟化,再将虚拟化后的 “云服务器” 提供给用户使用。例如,用户性能需求高时,用 8 核 16G 服务器;需求低时用 2 核 1G 服务器,以此来实现云的弹性。

然而,因为虚拟化的过程中需要分出一部分 CPU 用于调度,因此会造成性能 “损耗”,极端场景下,损耗甚至能超过一半。

2015 年,阿里云的虚拟化技术架构从 KVM 更换至 Xen,将虚拟化的损耗从极端场景下的 50% 降低至 10% 左右。那已是软件算法的极限,再进一步的可能性几乎为零。

想要彻底解决问题,只能从硬件入手。

2016 年,阿里云秘密启动了一项代号为 “X-Dragon” 项目,将外部云盘存储、VPC 网络等资源嵌入专属板卡,专门做调度工作,从而避免了调度 “打架” 造成的损耗。一年多以后,神龙云服务器正式面世,这款搭载了专属硬件板卡的裸金属服务器,史上首次将云计算性能损耗降至 0。

自此,云计算开始向下进入硬件领域。

亚马逊 AWS 推出了针对 EC2 Inf1 机器学习应用的芯片 AWS Inferentia,谷歌发布了一款为数据中心设计的机器学习芯片,直接命名为 “Cloud TPU”。阿里旗下的平头哥推出了 RISC-V 处理器玄铁 910、自研 AI 芯片含光 800、自研通用服务器 CPU。

目前,平头哥拥有处理器 IP、AI 芯片及通用 CPU 等产品,旗下玄铁系列处理器出货量已达 25 亿颗;两年前问世的阿里第一颗芯片含光 800 已实现规模化应用,通过阿里云服务了搜索推荐、视频直播等行业客户。

“我们芯片团队这两年能力成长还是非常快的,因为含光是 ASIC 的芯片,它的功能、复杂度可能与通用 CPU 来比还是有很大不一样的。所以你能设计通用 CPU,就是能力很大的检验。” 张建锋认为,能力主要体现在大型工程的管理能力、技术判断、芯设计到中间交付等。

芯片研发是一项高投入、高风险的事情。以芯片研发环节的流片为例,流片一次需费时数月,花费高达数千万美金。

迄今为止,全球云厂商中只有阿里云和 AWS 成功研发了通用服务器 CPU 芯片。此前,AWS 推出也曾推出自研 Garviton 2 服务器 CPU。

构建以云为核心的 IT 技术体系

为何云计算厂商非要 “死磕” 自研服务器、CPU 等硬件产品?

首先,最直接的考量是成本。

阿里云、AWS、微软管理着数百万台服务器规模的大型数据中心,以 100 万台服务器体量计算,CPU 芯片成本可达到 10 亿乃至几十亿美元。若采用自研服务器,可以有效降低成本。以手机行业类比,安卓手机采购一枚高通骁龙 800 系列旗舰处理器,价格约 120 美元,而苹果自研 iPhone 处理器 A 系列成本价不足 50 美元,且性能甚至更优。

几年前,为了解决虚拟化损耗问题,阿里云、亚马逊 AWS 分别推出神龙和 Nitro,大幅降低了云计算的使用成本。在 2019 年的 AWS 技术峰会中,亚马逊透露,基于 Nitro 架构的计算实例、内存实例、GPU 实例价格分别下降 35% 至 49% 不等。

另一重考量,是构建一个以云为核心的 IT 技术体系。

云的核心价值是 “按需使用” 形成弹性,用户计算高峰时配置高性能,低谷时则降低性能。这背后就是云的 “池化” 能力,通过虚拟化,将计算、存储等几项工作分离,形成一个个大资源池,需要时随时提供。

然而,云计算的解耦模式与传统 IT 中计算、存储、内存绑定模式所需的能力大相径庭,市场上的 IT 硬件都是为传统模式设计的,没有专门为云设计的 IT 架构。比如,传统 IT 像是一条广阔公路,注重的是单条公路的修缮能力;而云是 100 条公路同时开通,重要的是这 100 条公路的协调能力。

“我们的交换机都是自研的,这些交换机并非与其他产品有技术代差,但它们更适合在云计算的超级数据中心中使用。” 张建锋认为,构建更适合云的硬件体系,是云计算步入深水区的关键一役。

云是天然的平台属性,当千行百业迈向数字化转型时,云就是数字底座。阿里云反复强调 “做深基础”,就是不断强化数字底座的能力,基础越深,底座就越稳。在此基础上,足够强大的自研产品体系就是这个底座的有力支撑。

张建锋认为自研 CPU 是 “为云而生”,他介绍说,“云上负载是大规模、高并发的情景,而 CPU 有两类,一类是单核性能非常强,第二类是有很多核,多核工作。从测试结果看,多核表现明显优于单核表现,所以大家可以看到,自研 CPU 的核数多达 128 核。”

与自研 CPU 一同面世的,还有自研云服务器磐久、神龙 4.0、龙蜥操作系统和阿里 AI 一体化平台灵杰,并迎来自研数据库 PolarDB 的重磅升级。

一系列产品的发布不仅是单点技术的进步,更是从芯片、服务器、虚拟化架构、服务器操作系统到数据库、AI 能力的全方面升级。一套完整的、以云为核心的基础技术体系展现在世界面前。

阿里云、AWS、谷歌等厂商均有类似 “做深基础” 的动作,通过对芯片、虚拟架构、云操作系统、数据库等各层面云技术的自研和不断突破,构建出一个以云为核心的 IT 技术体系,进而形成一套为云量身定制的软硬件技术架构。这不仅是云计算的发展方向,更是对整体 IT 产业链的变革和重塑。

为企业数字化提供标准化开发平台

在向下持续夯实基础的同时;阿里云还在思考如何为企业数字化提供一个标准化的开发平台,将转型的门槛降至最低。

在底层技术层面,几个月前,阿里云宣布了 “一云多芯” 策略,飞天云操作系统全面兼容 x86、ARM、RISC-V 等多种 CPU 架构。

过去,如果用户想同时选用 ARM、x86 等 CPU,只能采用多云协同,为 ARM 集群和 x86 集群各自建设存储与网络的配套设备,不仅成本高、资源浪费,而且还会带来多云管理问题。而一云多芯将不同架构 CPU 的算力标准化,向下屏蔽硬件差异性,向上提供一致性服务。

这意味着企业可以同时选用多种 CPU 架构的服务器,综合使用多种优势,无需考虑适配问题。

在此基础上,企业进行数字化转型,也应该不必顾虑应用开发问题——顺应这一思路,阿里云采用了 “双向生长” 模式,向下屏蔽硬件,提供标准化服务,向上继续生长,“长” 出一个最直接的应用开发平台。

2020 年 9 月,阿里云推出 “云钉一体” 战略,即将钉钉作为一种新型操作系统和应用开发平台,让不懂代码的非技术人员也能按需开发企业应用,用最低成本满足企业数字化转型所需。今年 1 月,钉钉发布低代码应用开发平台,这是一种将各种开发程序模块化,使普通用户不必懂代码编程,也能通过 “拖拉拽” 方式开发应用的新模式。

过去,数字化常常成为许多企业的一笔烂账。从外部咨询、业务部门提需求开始,信息部门进行开发或者外部招投标,然后经历 “需求 - 开发 - 测试 - 上线 - 维护”;走完一个周期,往往又是新的部门需求、新周期开启,最后每多一个系统,就多出一个烟囱,导致即使是一个中小企业,内部也依然烟囱林立。在 “云钉一体” 的构想中,“企业应该拥有数字化的自主权”,每个普通的非技术员工,可以根据业务需求自己开发应用,他面对的应该是由低代码应用开发平台构成的简单界面,背后,AI、大数据、数据库、云操作系统、CPU 各种技术层层堆叠,共同支撑。

钉钉的低代码平台推出后 8 个月,平台入驻开发者增加至 90 万人,金蝶、用友、纷享销客等头部厂商入驻,低代码应用新增 86 万个,全平台 “钉应用” 数量超过 150 万。

这样的低代码平台切合了企业数字化转型的需要,与微软、谷歌云的方向不谋而合,微软打出 Teams+Azure 战略,该战略实施后,微软在两年内市值翻倍;谷歌将云与应用结合,将 G Suite 更名为 Worksapce,为用户提供全套协同办公软件。

除了企业层面,对于消费者而言,在今年的云栖大会上,阿里云为设计师用户打造了专属的一体机,采用阿里最新的无影架构,能过有效地提升设计师的使用体验。

过去,人们购买电脑需要先配置处理器、显卡、内存、硬盘,再决定安装哪种系统,并将应用下载到本地使用。如今,用户无论在云电脑还是其他设备上登陆无影,过去在 Windows、Linux、安卓或国产操作系统的 3D 渲染、视觉设计、编程环境、手机游戏等软件,10 多个演示应用图标聚集于一屏。用户无需切换系统,无需下载,即点即用。单应用经过适配,目前最高可使用 1024 核 CPU 和 8 块高性能 GPU。

云入深处,待新世界。