2021-07-01

EnginePlus 朱亚东:跨越数据爆发式增长到智能处理之间的鸿沟

EnginePlus携手华为云,会交织出怎样的火花?汇量科技副总裁朱亚东博士与网易科技聊了聊——

当前,在全球企业“上云”浪潮热度不减的背景下,企业纷纷将目光聚焦智能升级,衍生数据量因此面临爆发式增长,对数据处理、人工智能等业务需求也日趋迫切。6月25日,记者与 Mobvista 汇量科技副总裁朱亚东基于汇量科技新一代“一站式云原生大数据 AI 平台” EnginePlus 进行了一次深度交流

 

 

EnginePlus 作为一站式的云原生大数据人工智能平台,可为客户提供面向多种业务场景的实时数据湖框架 StarLake、机器学习框架 MindAlpha 等自主研发的开源工具,能够与 Spark 计算框架深度集成,从而赋能客户实现更加高效便捷的数据智能升级。

朱亚东博士介绍到:“相比于其他的开源大数据计算框架和公司,EnginePlus 平台具有独特的优势,主要在于一站式、云原生、以及超大规模等特点。”

 

EnginePlus : 聚焦大数据 + AI + 云原生的“三板斧”

 

云原生的数据分析架构,经历了从传统数仓,到数据湖,再到湖仓一体的演进,对于湖仓一体的未来,朱亚东有着自己的看法:“湖仓一体的未来方向主要有两个方面,一是统一数据存储,二是计算引擎对湖仓一体的适配”。

汇量科技一直在进行有关数据湖和湖仓一体的技术实践。EnginePlus 团队自研并开源的数据湖框架 StarLake,便能够实现大规模数据的实时摄入和更新,高效构建湖仓一体化分析平台。

除了数据湖外,对数据进行人工智能建模,更是挖掘数据背后价值、赋能业务的一条重要途径。EnginePlus 团队自研、开源的机器学习框架 MindAlpha,能够轻松处理超大规模离散特征,并与 EnginePlus 平台之上的 Spark on k8s、StarLake 无缝结合,提供数据智能升级的一体化服务。

另外,企业数字化转型过程中,“云原生”概念被经常提及,而 EnginePlus 便是采用了云原生的架构,朱亚东认为:“得益于云原生的架构和优化,对于用户来说,能够做到很快捷的部署,在大幅提升计算效率的同时,也具备很高的性价比。”

记者了解到,Mobvista 汇量科技的新一代大数据智能平台 EnginePlus 近日已与华为云进行合作,赋能企业数字化转型。

在朱亚东看来,此次 EnginePlus 联手华为云,一方面能够推进汇量科技的 “SaaS 工具生态”战略的执行和落地;另一方面,在全球企业上云浪潮的背景下,EnginePlus 与华为云实现产品技术层面的深度集成,从而赋能更多云端用户、助力其业务增长,同样有益于华为云的服务生态。

谈及未来 EnginePlus 的发展方向,朱亚东希望在未来可以构建新一代的基建体系,帮助客户用最低的技术门槛、最低的成本、更小的风险实现数字化转型、智能化升级:

“我们希望能帮助客户快速建立起从数据摄入、分析到 AI 模型离线训练、在线预测的一体化能力,从而快速高效地实现企业的数字化转型和升级。”

 

以下为对话精选摘录:

 

问:EnginePlus 是一个怎样的产品?在企业业务、数字化转型过程中,可以帮助用户解决哪些问题?

朱亚东EnginePlus 是一个一站式的云原生大数据和人工智能平台,提供从数据摄入、大数据计算分析、到AI模型训练、模型线上推理的一站式 SaaS 服务;目前已应用于互联网金融、出海电商、移动广告等多种业务场景。

 

问:相比同类产品,EnginePlus 有何特点?

朱亚东:当前,越来越多的企业都加入了研发开源机器学习平台框架和大数据计算框架的大潮,比如 Google 的TensorFlow,Facebook 的 PyTorch,以及 Hadoop,此外,我们看到 Databricks 也研发了 Spark。

然而,市面上主流产品仍存在一些不足之处,例如一些企业提供的 AI 框架与大数据计算框架之间是割裂的,同时对云原生和数据湖的支持较弱,且回到 AI 框架本身,在互联网语境下,这些平台对模型的超大规模离散特征支持较差,并缺乏一体化的在线推理能力;而一些提供开源大数据计算框架的公司,其机器学习框架层面的能力又较弱。

所以,总的来讲,EnginePlus 平台具有自己独特的核心优势,包括一站式、云原生、超大规模等特点。

 

问:此次 EnginePlus 选择携手华为云,合作契机是什么?对于 EnginePlus 自身发展来讲,这次合作具有怎样的战略意义?

朱亚东:首先,Mobvista 汇量科技和华为云已经有比较久的业务合作,相互之间有较好地业务契合度和流畅的业务沟通经验,这个是基本的背景和前提;另一方面,华为云在 ICT 领域有30多年的技术和业务积累,企业具备很强的针对 to B 领域的交付方案解决能力,这个恰好是汇量科技 “SaaS 工具生态”战略亟需的基础能力;所以这次 EnginePlus 和华为云的合作,对于汇量科技“SaaS工具生态”战略的执行和落地都有很好的推进作用

另外,在全球企业上云浪潮的背景下,EnginePlus 也能帮助云上企业在充分利用云商已有服务的同时,实现高效的大数据分析、计算、及数据智能的挖掘和利用,这个对华为云的服务生态也是非常有益的

 

问:从技术层面,EnginePlus 与华为云合作模式是怎样的?

朱亚东:EnginePlus 与华为云进行了深度的产品技术集成,包括在华为云 CCE 容器引擎之上构建的统一弹性计算引擎,在华为云 OBS 对象存储之上构建的湖仓一体数据框架StarLake,以及离线在线统一的 MindAlpha AI 框架。

整体上来讲,EnginePlus 在华为云上实现了高弹性、高性能、计算存储分离的架构,并能够实现便捷、快速的部署。牵手华为云后,EnginePlus 将以其云原生、一站式数据智能的服务,赋能华为云全球客户,为其提供从数据分析到智能模型决策的一站式服务。

 

问:您能简单聊一聊 EnginePlus 诞生于怎样的背景? 这些年经历了什么样的演化?

朱亚东2017年汇量科技 自主研发了以 AI+Big Data 为核心的技术中台架构,之后多个技术中台组件研发产出,并成功赋能汇量科技的多个前台业务,包括数据中台 Datatory、统一的计算引擎中台、以及机器学习中台 MindAlpha 等,后来,这些中台组件都成为了 EnginePlus SaaS 平台的重要基础

在深度融合自身业务需求场景的同时,汇量科技 技术中台从中沉淀出平台化的能力,使之产品化、商业化,对外创造价值,从而最终建立可对外商业化输出的EnginePlus 平台;以汇量科技旗下程序化互动式广告平台 Mintegral 为例,其日均数据量已达 PB 级,调度数万 CPU 核心。基于 EnginePlus 平台,Mintegral 能实时处理用户行为特征,进行毫秒级反馈响应。在每天千亿次 DNN 模型预测请求下,满足万亿级排序量的排序业务服务,有效奠定了 Mintegral 在全球的领先地位。

 

问:前面提到,EnginePlus 最初源于汇量科技自身广告业务的数据处理需求,目前,EnginePlus 处于汇量科技业务链条的哪一环?

朱亚东:2019年,汇量科技提出 “SaaS 工具生态”战略:通过构建更完善的产品矩阵,覆盖开发者由小到大发展过程中,从统计分析、用户增长和商业化到云成本优化等不同阶段的核心场景。脱胎于汇量科技自身业务实践的 EnginePlus,作为 “SaaS 工具生态”的重要组成部分,也将与华为云共享“技术外溢”成果,赋能更多用户,助力企业的数字化转型之路。

 

问:EnginePlus 的技术架构如何?StarLake 数据湖框架的应用场景如何?

朱亚东:EnginePlus 包含了几大块,具体来讲有 StarLake(自研数据湖框架),Spark on K8s(云原生计算平台),MindAlpha(自研开源机器学习框架),MindAlpha Serving(异构弹性预测服务)等多个组件功能,用户可以根据需求单个/多个组合使用;

数据湖作为一种新一代的中心数据存储的容器,具有海量、高效、便捷的特性,但伴随着的是相当高的数据处理复杂度和高昂的计算成本。为了让客户更好地用上这种数据储存分析方式,汇量科技 自研并开源了数据湖框架 StarLake,实现了大规模数据的实时摄入和更新;通过优化的行列 upsert 功能、高并发入湖、元数据管理、对象储存 IO 性能深度优化等特性, StarLake 数据湖框架能够高效构建湖仓一体化的分析平台,相比开源同类数据湖框架具有显著优势。所以 StarLake 适用于大数据量的用户行为信息聚合、对大批量行列更新有较高性能要求的场景。

 

问:MindAlpha 机器学习框架是怎样解决海量数据的分析和模型训练挑战的?

朱亚东:MindAlpha 机器学习框架能轻松处理大规模的离散特征,与 EnginePlus 之上的 Spark on K8s、StarLake 无缝结合,它能提供从数据的输入到智能的一体化、一站式的高效体验。

MindAlpha 的开源 Parameter Server SDK 支持千亿级大规模稀疏离散特征,与 PyTorch、Spark MLLib 无缝衔接,特征处理与模型推理逻辑和参数能全自动导出至线上 Serving 服务。同时,其高性能在线 Serving 能进行模型横向切分,支持万亿参数,具有低延迟、自动弹性伸缩的特性,能进行 CPU、GPU 异构混布调度和负载均衡。

 

问:前面提到,EnginePlus 自研的数据湖框架 StarLake,是你们进行的有关数据湖和湖仓一体的技术实践。你怎么看湖仓一体的未来?

朱亚东:湖仓一体的未来方向主要有两个方面,第一个是统一数据存储,以湖为底座,通过流批一体,并发更新等创新技术,简化数据导入的流程和成本;

第二个方向是计算引擎对湖仓一体的适配,实时、批量计算、统计分析和机器学习,都能够直接使用在湖上构建的存储体系,消除数据冗余,最大化数据资产的价值。

 

问:目前,企业数字化转型过程中,越来越多地提到“云原生”概念。之前公网资料里,EnginePlus 也是云原生数据湖的深度用户,EnginePlus 在云原生领域都进行了哪些技术探索?对用户来说,云原生架构有哪些实际意义?

朱亚东:EnginePlus 从一开始采用了完全云原生的架构设计,在计算引擎层面,针对 Spark on K8s 做了大量优化,解决了很多社区开源版本的问题;在数据读写层面,针对云上对象存储系统,重新开发了异步并行 IO 的实现,相比开源提升了3倍的性能;整个平台的所有组件都针对云环境做了适配。

对于用户来说,得益于云原生的架构和优化,能够做到很快捷的部署,同时计算资源和存储资源都具有高度弹性的能力,在大幅提升计算效率的同时,也具备很高的性价比。

 

问:未来,EnginePlus 将瞄准哪些发展方向?

朱亚东:简单来讲,我们希望成为中国版 AI 加持的 Databricks,跨越数据爆发式增长到智能处理之间的鸿沟,构建新一代的基建体系。帮助客户用最低的技术门槛、最低的成本、更小的风险实现数字化转型、智能化升级。

 

问:在您看来, EnginePlus 这样的产品对行业的发展和其他企业的发展有什么借鉴意义?

朱亚东:EnginePlus 融合了丰富行业套件、开源代码、数据算法模型,能在数据分析、技术开发、业务发展等多个维度赋能客户;EnginePlus 可以帮助客户站在众人肩膀上,快速建立起从数据摄入、分析到 AI 模型离线训练、在线预测的一体化能力,快速高效地实现企业的数字化转型和升级。

 

Share