项目概述

       当前云计算用户体验与资源利用率之间的矛盾已成为阻碍其快速发展的瓶颈。例 如由于亚马逊 EC2 云平台无法保障性能,全球著名的云存储企业 Dropbox 于近日 宣布弃用 EC2,自主设计数据中心实现端到端全路径性能优化,为用户提供更好 的服务体验。美国工程院院士、谷歌数据中心资深专家 Jeffrey Dean 博士等总结 为“尾延迟(Tail Latency)”现象会导致云计算资源利用率低下(CPU 利用率 普遍<30%)。亚马逊、谷歌等企业已对上层软件栈开展了大量优化,但仍无法有效 解决问题。因此工业界呼吁通过底层硬件创新、软硬件协同方式来保障服务质量 提高资源利用率。学术界也已开始探索从底层硬件到上层应用的全系统栈协同设 计方案,如 UC Berkeley 于 2013 年启动的 FireBox 项目。 本项目的目标是研究软件定义云计算(Software Defined Cloud,SDC)理论与方 法,提出实用可计算性理论与标签化冯诺依曼体系结构模型;研究基于标签机制 的软件定义处理器、存储和网络设备,预期将在支持云计算和大数据的核心设备 方面突破一批关键技术;自主研制核心芯片及 16 节点原型系统验证关键技术,实 现比国际主流云平台降低长尾延迟 1 个数量级、提升效率 1 倍。

当前云计算面临的尾延迟、低效率、高干扰难题涉及如下科学问题:

  1. 实用可计算性问题:传统的图灵可计算性与算法可计算性不能刻画底层系统 对算法执行的影响以及交互式服务中响应时间的约束。而云计算的大量实践表明 “用户体验差的功能是不存在的功能”,但对此内在原理与因素尚无系统地分析 和研究。
  2. 体系结构的资源无序共享问题:共享云多租户环境多负载混合运行于一套物 理机群,但对性能攸关的资源(如处理器缓存、带宽等)管理封闭,多租户模式 下差异化资源需求难以表征与传递,导致资源处于无序共享状态。
  3. 平台软件的资源可编程与管控问题:在共享云多租户模式下,传统编程模型 对性能攸关的资源仍无抽象接口,且云平台管理软件会面临大量的多样化负载、 异构平台、资源碎片、动态调整操作,管理复杂度呈指数级增长,导致维护成本 极高。

围绕上述三个科学问题,项目拟采用“理论模型指导 + 软硬件协同设计 + 原型 系统验证”的研究思路,重点研究以下内容:

  • 实用可计算性的基础理论,
  • 计算、存储与网络三大关键硬件资源的软件可定义机制,
  • 云计算编程环境和软件可定义硬件资源按需管理的理论与方法,
  • 针对硬件资源、管控软件栈、云服务的多维度度量评测理论、模型、指标、方法与标准,
  • 研制原型验证系统。

面向软件定义的云计算改进了系统资源抽象层次,通过细粒度的资源划分及管理方式支持用户的多类型、定制化的资源请求,对用户和服务提供商双方都有较大的推动意义。本项目拟对云计算下用户体验与高资源利用率之间的平衡难题作深入研究,目标在提高资源利用效率1倍的基础上,降低尾延迟1个数量级。达成以上目标依赖于对造成尾延迟的硬件、软件和云服务应用的全系统栈原因的精确分析及控制,即解决上文所述的用户体验的尾延迟高、资源利用效率低和多租户间的干扰高三个科学问题。本项目将探索软件定义的云计算的实用可计算理论和标签式资源管理方法,拟采用“软硬件协同 +原型系统验证”的研究思路,由底层硬件、中层软件到顶层应用依次展开,重点围绕三方面进行研究:(1)硬件资源的软件可定义机制;(2)云计算管控软件栈实现软件可定义硬件资源按需管理的理论与方法;(3)针对硬件资源、管控软件栈和云服务的多维度度量评测理论、模型、指标、方法和标准。并在以上研究基础上,研制16节点的原型验证系统。

总体研究方案如图8所示,硬件资源的软件可定义机制方面,根据硬件资源的不同类型,将硬件资源的软件可定义机制进一步细分为三类:计算、存储和网络资源。其中,传统的基于虚拟化技术的云计算已经实现了对服务器计算资源中的CPU和内存资源的有效隔离控制。但是基于冯诺依曼结构的现代计算机体系结构还包括总线资源,以及为解决冯诺依曼瓶颈问题引入的高速缓存等资源,而目前这些资源的调度管理中,并不支持面向云计算多租户的差异化请求的资源分配方法。因此,课题1将以优化云服务器体系结构为目标,实现对云数据中心整体计算资源的有效管理。在面向用户的大数据量处理应用中,大数据量的负载是造成用户尾延迟现象的另一重要因素,课题2则从存储的角度出发,优化云计算下多租户多模式的数据处理负载,设计实现可降低用户尾延迟的数据放置策略。数据传输依赖于数据中心网络,而相比内存及硬盘访问速度,网络访问速度较慢。因此,课题3关注于网络资源的抽象层次,通过设计数据中心高速互联网络和虚拟网络到物理网络的映射方法,降低来自于网络的尾延迟原因。在以上各硬件资源独立优化的基础上,课题4作为中间层连接了用户和数据中心,负责将用户请求映射到硬件资源。主要从软件层面研究软件定义的云计算多元资源管理机制,根据用户资源请求量和尾延迟分析,实现对计算、存储和网络多元资源的协同智能分配。课题5在以上研究的基础上,研究设计面向软件定义云计算的实用度量及评测方法,监测资源利用效率,提出面向尾延迟的可用性度量模型和可审计性模型,还原用户体验的忠实性。以下为具体课题设置:

  • 课题1“软件定义标签化体系结构原理与方法”由中国科学院计算技术研究所(以下简称计算所)负责,中国计量科学研究院参与,主要研究实用可计算性理论,标签化冯诺依曼体系结构模型与验证,资源显式编程模型和编译方法,云计算应用体系结构特征分析、自主研制核心芯片、云服务器样机,实现原型系统集成与典型应用场景验证。
  • 课题2“软件定义的可重构分布式存储系统构建原理与方法”由计算所负责,华中科技大学参与,主要研究满足访问接口、可靠性、一致性语义、数据去重、服务质量等多样化需求的软件定于分布式存储系统,包括新型、异构、一体化的存储设备、存储栈协议、分布式组件调用与交互机制、可编程存储接口。
  • 课题3“软件定义网络”由清华大学负责,计算所参与,主要研究面向多租户模式的支持端到端性能保障的网络虚拟化技术,包括网络拓扑、协议栈、虚拟交换机与网络处理逻辑的软件可定义机制和关键算法。
  • 课题4“软件定义的云计算资源管理”由中国科学院深圳先进技术研究院负责,华中科技大学参与,主要研究自组织、自学习的软件定义云计算资源管控基础理论与关键技术,包括基于软件定义资源细粒度利用策略,服务特征、硬件能力自学习,云环境自组织方法,异构软硬件资源的管理策略、任务调度与资源分配方法。
  • 课题5“软件定义的云计算度量与评测”由天津大学负责,大连理工大学、工业与信息化部电子工业标准化研究院参与。关注影响用户体验的尾延迟现象,主要研究面向软件定义云平台的可用性度量模型及审计追溯解决方案,并设计开发测评工具包支撑度量和评测模型的检验。

发表评论