国家重点研发计划 “软件定义的云计算基础理论与方法” 项目实施方案论证暨年度进展情况汇报会

根据科技部国家重点研发计划工作部署,中科院计算所于2017年6月12日召开“软件定义的云计算基础理论与方法”项目实施方案论证暨年度进展情况汇报会。此次会议由中科院计算所主办,来自南京大学赵建华教授、南开大学袁晓洁教授、中国信息通信研究院石友康教授级高工、中国科学院自动化所张文生研究员、中国科学院软件所沈一栋研究员以及科技部高技术研究发展中心傅耀威处长、项目课题负责人及项目主要人员参加了会议。

会议首先由科技部高技术研究发展中心傅耀威处长致辞并介绍到会专家,之后傅处长重点介绍了国家当前对于重点研发项目的暂行管理模式,项目牵头单位在项目管理中应当履行的职责等。科研处王元卓副处长也发表致辞,对各位领导专家莅临指导表示欢迎。随后由包云岗研究员首先介绍本项目实施方案,按照说得清、可考核、用得上、有影响的要求,明确项目成果,标志性核心指标等。之后由项目负责人徐志伟研究员介绍项目年度进展,明确了项目整体以及各课题研究方向,并现场演示已有成果。

在专家提问与讨论环节,各位专家均对项目中提出的标签等概念表示了极大的兴趣并展开讨论,最终经专家组讨论确定,项目实施方案符合指南要求,整体可行。

会后项目课题负责人及项目主要人员根据专家组的意见和建议讨论并安排下一阶段的工作内容。

国家重点研发计划“软件定义的云计算基础理论与方法”项目第三次研讨会顺利召开

2017年6月5日,“软件定义的云计算基础理论与方法”项目第三次技术研讨会在天津大学顺利召开。本次会议由项目牵头单位中科院计算所主办,课题五承担单位天津大学承办。会议由中科院计算所研究员包云岗主持,天津大学计算机学院院长李克秋出席会议,副院长胡清华出席会议并致辞。包括项目首席科学家徐志伟研究员在内的30多名参研人员参与了此次研讨会。

项目的5个课题分别介绍了各自一年的研究进展,各位与会专家对各课题进展进行了点评,并提出了诸多需要注意的问题。随后,在徐志伟研究员的主导下大家对各个课题的研究内容进行了深入研讨,并分享了对低熵云计算系统的理解和思考,最后与各课题负责人协调制定了下一阶段的工作计划。

ETCD 2017 Call For Papers

The first Workshop on Emerging Technologies for software-defined and reconfigurable hardware-accelerated Cloud Datacenters (ETCD2017)

Architecture, Service, Application and Platform

To be held in conjunction with 22nd ACM ASPLOS
(Tentative date) April 8, 2017
Xi’an, China

Call For Papers

国家重点研发计划“软件定义的云计算基础理论与方法”项目 第二次研讨会顺利召开

2016年12月10日至12月11日, “软件定义的云计算基础理论与方法”项目第二次技术研讨会在中国科学院深圳先进技术研究院顺利召开。本次会议由项目牵头单位中科院计算所主办,课题四承担单位中科院深圳先进技术研究院承办。

会议由喻之斌研究员主持。先进院科研处处长李烨研究员,数字所所长须成忠研究员出席会议并致辞。包括项目首席科学家徐志伟研究员在内的50多名参研人员参与了研讨。为了促进研讨的深入开展,本次研讨会大大加长了讨论的时间,并从知名云计算企业阿里集团和深信服科技有限公司邀请了3位专家。针对云计算技术在企业实际中遇到的问题与挑战进行了分享与交流。

5个课题分别介绍了各自的研究进展,各位与会专家特别是项目首席科学家徐志伟研究员以及数字所所长须成忠研究员对各课题进展进行了点评,并提出了许多需要注意的问题。随后,徐志伟研究员主导大家对云计算2.0的特征进行了深入研讨,总结出了几个关键的特征,并指导本项目研究的深入开展。

最后各课题负责人及项目主要参与人员根据专家的意见和建议讨论了下一阶段的工作内容。

二次研讨会

软件定义的云计算度量与评测

针对传统云平台面向用户体验尾延迟的可度量性弱,度量方法局限于底层资源,缺乏度量指标关联性分析等问题,本课题拟基于超图理论来构建面向资源状态,用户标签及软件定义策略等多维度的度量空间。以此实现面向尾延迟的可用性度量和审计追溯。课题中,首先研究面向资源状态,用户标签体系结构及软件定义管控策略的度量与评测理论;其次,在理论模型与算法基础上,深入探讨多维度量空间的构建方法;最终,建立面向软件定义云计算的标准化度量与评测体系,构建相关评测软件工具。预期目标是形成一套完整的度量与评测理论、方法、软件及标准提案。

软件定义的云计算资源管理

本课题研究目标是研究出一套针对软件定义云计算基础设施和软件定义资源平台环境的高效资源管理与任务调度理论、模型与方法,达到用户服务响应时间、服务提供商效益、和平台提供商效益等多个目标的最优;开发出一套软件定义云计算平台的资源管控软件原型,用于验证所研究的理论、模型与方法。

软件定义网络

针对现有数据中心网络的一维“管道”模型所导致的抽象粒度粗、无法有效解决网络传输尾延迟的问题,研究从应用、协议栈到数据通路的统一多维网络资源抽象方法和管理机制,从而实现网络协议和拓扑从不可定义到可定义的转变。研究云计算环境下虚拟网络向物理网络的高效映射方法,在满足租户的虚拟网络资源请求的前提下提升物理网络资源的利用率,与传统方法相比利用率提升 1 倍以上。研究满足高效灵活映射的云计算网络交换架构、控制平面及数据平面。提出新的数据中心互联网络 CLHR 使得网络成本较现有相应 Cray,IBM 公司商用系统降低 10 倍。提出 CLHR 对应的高性能路由算法,流控技术,死锁消除机制;提出 CLHR 网络的高效的组播及广播算法,不需要修改路由器体系结构。

软件定义的可重构分布式存储系统构建原理与方法

共享云场景下,使用面向单一应用(文件存储,键值存储等)构建的专用存储系统。无法提供共享云所需的多样化数据访问模式(文件、键值、块、对象等),只能通过单独部署多个专用存储系统支持共享云所需的多样化存储服务,导致存储资源无法共享,存储资源利用率低。另一方面,存储软硬件系统资源共享后,由于租户间性能干扰,导致存储系统面临尾延迟问题。

本课题针对上述问题,定义分布式存储系统的功能性语义抽象与QoS保证语义抽象,提出微服务化的统一存储系统构建方法,包括存储微服务边界划分、接口规范、交互机制与适配方法,支持访问接口与存储服务动态可重构。另一方面,针对共享云多租户差异化QoS需求,本课题进一步采用标签化机制在统一存储系统上保证QoS需求,提出存储设备开放接口和层次化软硬件协同机制传递标签,实现IO全路径上多租户性能隔离;提出基于用户需求标签和存储系统主动感知相融合的方式构建按需适配的数据去重技术,减少存储空间和能耗,提升存储系统效能。

软件定义标签化体系结构原理与方法

本课题围绕云计算面临的尾延迟、低效率、高干扰三个问题,从理论模型、体系结构两个方面开展研究,预期实现以下研究目标:(i)针对尾延迟现象开展深入研究,提出“实用可计算性理论”,刻画面向云计算真实场景的实用可计算性理论,凝练出若干条指导云计算应用开发、架构设计、系统优化的根本法则;(ii)提出面向云计算应用场景的“标签化冯诺依曼体系结构LvNA(Labeled von Neumann Architecture)”,通过全路径标签化机制与软件定义策略管理,在云计算多租户环境下实现应用全生命周期海绵式云计算资源管理,数量级降低应用尾延迟,提高资源利用率;(iii)提出面向LvNA 标签化体系结构的资源显式编程模型与编程方法。上述理论预期产出系列高水平论文,在国际上形成影响力。

在理论研究的基础上,本课题将研制支持LvNA体系结构的原型系统,包含16个自主研制的云服务器节点。每个节点采用一颗自主研制、支持软件定义体系结构的SoC芯片,一些性能攸关的资源如共享Cache、内存带宽、I/O带宽等可在应用执行过程中由软件动态调节。16节点原型系统可部署云管控软件,支持多租户同时运行在线服务型应用与离线分析类应用。本课题目标是原型系统能在满足在线服务型应用的响应时间要求前提下,实现所有节点平均CPU利用率达到60%以上,预期达到世界领先水平。

本课题研究成果对未来云计算数据中心的性能提升、成本降低、绿色节能等需求提供有力的理论与技术指导,通过与国内互联网、云计算企业合作,部分研究成果有望应用到这些企业未来数据中心的设计中,有利于推动云服务相关产业发展与进步。

项目概述

       当前云计算用户体验与资源利用率之间的矛盾已成为阻碍其快速发展的瓶颈。例 如由于亚马逊 EC2 云平台无法保障性能,全球著名的云存储企业 Dropbox 于近日 宣布弃用 EC2,自主设计数据中心实现端到端全路径性能优化,为用户提供更好 的服务体验。美国工程院院士、谷歌数据中心资深专家 Jeffrey Dean 博士等总结 为“尾延迟(Tail Latency)”现象会导致云计算资源利用率低下(CPU 利用率 普遍<30%)。亚马逊、谷歌等企业已对上层软件栈开展了大量优化,但仍无法有效 解决问题。因此工业界呼吁通过底层硬件创新、软硬件协同方式来保障服务质量 提高资源利用率。学术界也已开始探索从底层硬件到上层应用的全系统栈协同设 计方案,如 UC Berkeley 于 2013 年启动的 FireBox 项目。 本项目的目标是研究软件定义云计算(Software Defined Cloud,SDC)理论与方 法,提出实用可计算性理论与标签化冯诺依曼体系结构模型;研究基于标签机制 的软件定义处理器、存储和网络设备,预期将在支持云计算和大数据的核心设备 方面突破一批关键技术;自主研制核心芯片及 16 节点原型系统验证关键技术,实 现比国际主流云平台降低长尾延迟 1 个数量级、提升效率 1 倍。

当前云计算面临的尾延迟、低效率、高干扰难题涉及如下科学问题:

  1. 实用可计算性问题:传统的图灵可计算性与算法可计算性不能刻画底层系统 对算法执行的影响以及交互式服务中响应时间的约束。而云计算的大量实践表明 “用户体验差的功能是不存在的功能”,但对此内在原理与因素尚无系统地分析 和研究。
  2. 体系结构的资源无序共享问题:共享云多租户环境多负载混合运行于一套物 理机群,但对性能攸关的资源(如处理器缓存、带宽等)管理封闭,多租户模式 下差异化资源需求难以表征与传递,导致资源处于无序共享状态。
  3. 平台软件的资源可编程与管控问题:在共享云多租户模式下,传统编程模型 对性能攸关的资源仍无抽象接口,且云平台管理软件会面临大量的多样化负载、 异构平台、资源碎片、动态调整操作,管理复杂度呈指数级增长,导致维护成本 极高。

围绕上述三个科学问题,项目拟采用“理论模型指导 + 软硬件协同设计 + 原型 系统验证”的研究思路,重点研究以下内容:

  • 实用可计算性的基础理论,
  • 计算、存储与网络三大关键硬件资源的软件可定义机制,
  • 云计算编程环境和软件可定义硬件资源按需管理的理论与方法,
  • 针对硬件资源、管控软件栈、云服务的多维度度量评测理论、模型、指标、方法与标准,
  • 研制原型验证系统。

面向软件定义的云计算改进了系统资源抽象层次,通过细粒度的资源划分及管理方式支持用户的多类型、定制化的资源请求,对用户和服务提供商双方都有较大的推动意义。本项目拟对云计算下用户体验与高资源利用率之间的平衡难题作深入研究,目标在提高资源利用效率1倍的基础上,降低尾延迟1个数量级。达成以上目标依赖于对造成尾延迟的硬件、软件和云服务应用的全系统栈原因的精确分析及控制,即解决上文所述的用户体验的尾延迟高、资源利用效率低和多租户间的干扰高三个科学问题。本项目将探索软件定义的云计算的实用可计算理论和标签式资源管理方法,拟采用“软硬件协同 +原型系统验证”的研究思路,由底层硬件、中层软件到顶层应用依次展开,重点围绕三方面进行研究:(1)硬件资源的软件可定义机制;(2)云计算管控软件栈实现软件可定义硬件资源按需管理的理论与方法;(3)针对硬件资源、管控软件栈和云服务的多维度度量评测理论、模型、指标、方法和标准。并在以上研究基础上,研制16节点的原型验证系统。

总体研究方案如图8所示,硬件资源的软件可定义机制方面,根据硬件资源的不同类型,将硬件资源的软件可定义机制进一步细分为三类:计算、存储和网络资源。其中,传统的基于虚拟化技术的云计算已经实现了对服务器计算资源中的CPU和内存资源的有效隔离控制。但是基于冯诺依曼结构的现代计算机体系结构还包括总线资源,以及为解决冯诺依曼瓶颈问题引入的高速缓存等资源,而目前这些资源的调度管理中,并不支持面向云计算多租户的差异化请求的资源分配方法。因此,课题1将以优化云服务器体系结构为目标,实现对云数据中心整体计算资源的有效管理。在面向用户的大数据量处理应用中,大数据量的负载是造成用户尾延迟现象的另一重要因素,课题2则从存储的角度出发,优化云计算下多租户多模式的数据处理负载,设计实现可降低用户尾延迟的数据放置策略。数据传输依赖于数据中心网络,而相比内存及硬盘访问速度,网络访问速度较慢。因此,课题3关注于网络资源的抽象层次,通过设计数据中心高速互联网络和虚拟网络到物理网络的映射方法,降低来自于网络的尾延迟原因。在以上各硬件资源独立优化的基础上,课题4作为中间层连接了用户和数据中心,负责将用户请求映射到硬件资源。主要从软件层面研究软件定义的云计算多元资源管理机制,根据用户资源请求量和尾延迟分析,实现对计算、存储和网络多元资源的协同智能分配。课题5在以上研究的基础上,研究设计面向软件定义云计算的实用度量及评测方法,监测资源利用效率,提出面向尾延迟的可用性度量模型和可审计性模型,还原用户体验的忠实性。以下为具体课题设置:

  • 课题1“软件定义标签化体系结构原理与方法”由中国科学院计算技术研究所(以下简称计算所)负责,中国计量科学研究院参与,主要研究实用可计算性理论,标签化冯诺依曼体系结构模型与验证,资源显式编程模型和编译方法,云计算应用体系结构特征分析、自主研制核心芯片、云服务器样机,实现原型系统集成与典型应用场景验证。
  • 课题2“软件定义的可重构分布式存储系统构建原理与方法”由计算所负责,华中科技大学参与,主要研究满足访问接口、可靠性、一致性语义、数据去重、服务质量等多样化需求的软件定于分布式存储系统,包括新型、异构、一体化的存储设备、存储栈协议、分布式组件调用与交互机制、可编程存储接口。
  • 课题3“软件定义网络”由清华大学负责,计算所参与,主要研究面向多租户模式的支持端到端性能保障的网络虚拟化技术,包括网络拓扑、协议栈、虚拟交换机与网络处理逻辑的软件可定义机制和关键算法。
  • 课题4“软件定义的云计算资源管理”由中国科学院深圳先进技术研究院负责,华中科技大学参与,主要研究自组织、自学习的软件定义云计算资源管控基础理论与关键技术,包括基于软件定义资源细粒度利用策略,服务特征、硬件能力自学习,云环境自组织方法,异构软硬件资源的管理策略、任务调度与资源分配方法。
  • 课题5“软件定义的云计算度量与评测”由天津大学负责,大连理工大学、工业与信息化部电子工业标准化研究院参与。关注影响用户体验的尾延迟现象,主要研究面向软件定义云平台的可用性度量模型及审计追溯解决方案,并设计开发测评工具包支撑度量和评测模型的检验。