不是你不会做菜,你只是缺个好厨房:深谈御膳房架构演进

  • 时间:
  • 浏览:1

为了给用户提供数据探索能力,在御膳房中提出了虚拟桌面的架构,在虚拟机上安装常用的数据挖掘工具,如Python、R studio等,让开发者也能进行多种最好的办法的探索工作,一块儿还获得了安全加固的能力。因此 人 使用Guacamole在VNC Server和浏览器之间建立了有有另有四个代理,Guacamole与VNC Server进行通信,就像VNC Viewer和Server之间的通信一样,我希望Guacamole再将也能显示的数据传给浏览器用Canvas绘制出来。选用Guacamole的意味着是支持定制化(如登陆认证的扩展),与御膳房的租户模型进行对接;

上图是御膳房精准营销案例,用户是广告ISV,首先会上传种子用户,将种子用户当做正样本,通过御膳房提供的ID Mapping 服务和阿里数据进行关联,用户数据匹配过后通过人群画像功能对所关心的标签或属性进行画像;在具体营销前,也能对样当时人群进行放大,对于低阶用户,直接使用人群放大服务;对于高阶用户,也能使用海王星人群建模预测平台构建模型进行训练,对更大范围的人群进行预测;放大后的人群营销触达后的效果数据也能回传到御膳房平台上,进行后续的效果分析和进一步迭代优化模型。

 

业务安全策略包括生态内闭环、阿里内闭环和战略协议闭环。

输出安全包括出口控制和行为监控,输出安一定会 安全加固的最后一道闸口,也能确保敏感数据的不泄露。

在该过程中,还涉及因此 因此 模块,如用于提供可视化操作的运维管理、横跨开发环境和化产环境的权限管理和元数据管理等。

以下为在线分享观点埋点。

在DT时代,阿里集团战略中关键一环过多过多过多过多 让商家通过使用数据来提升业务,也过多过多过多过多 常说的数据赋能。初期,阿里通过官方数据产品的形式来满足商家的需求,让商家感知店铺的运营情况汇报,利用数据驱动运营;但随着商家规模的变化以及对数据的认知发展到一定程度,官方数据产品比较慢满足商家定制化的需求。这时,也能两种生活更加灵活的最好的办法让数据赋能商家,御膳房过多过多过多过多 在两种战略下应运而生,让商家自主使用数据的地方。御膳房的产品社会形态是希望通过赋能商家及其合作伙伴,让其安全的利用阿里与自身的数据进行业务优化,从而驱动阿里电商生态向DT转型。

展望与总结

展望未来:

御膳房的安全加固

在PAAS访问数据时,首先数据也能经过脱敏模块和数据安全定级打标,也能送至PAAS环境中;其次PAAS环境访问时,探索环节提供的是远程图形桌面,外理客户低成本地获取页面上展现的数据。开发环境和化产环境交互过程的核心是自动代码审核,用户的代码逻辑也能和安全规则匹配,此外,还有行为监控,用户在生产环境和开发环境的所有行为一定会通过行为监控埋点关键信息,自动分析后,对于异常行为告警。

御膳房内主次为有有另有四个隔离的系统环境,有有另有四个是合作伙伴也能接触的数据开发环境,有有另有四个是由平台接管删改封闭的数据生产环境。在御膳房中,用户之间相互隔离。如上图所示,在开发环境中提供了用户可触及的样本数据,用户也能基于哪此数据开发业务逻辑;生产环境提供的是真实数据,删改由平台控制,开发者是接触必须生产环境的。

幻灯片地址:点击此处下载

人群数据服务也能根据用户的设定,进行圈人、透视等操作,我希望无法用算法模型进行预测,为了实现人群的建模和预测操作,御膳房推出了海王星(即人群建模预测平台),

御膳房-由来

我希望,御膳房的代码审核模块也能自动地对用户的SQL代码进行语义分析,与安全的语义规则进行匹配,进而完成商业规则的审核,我希望自动代码审核不通过,则也能人工介入。对于出口控制,御膳房第一期的出口必须对接聚石塔。

御膳房的基础数据加工能力

在御膳房模式探索中,发现了两类接近的产品模式:一是OpenAPI架构,该架构是数据导出型架构,也也能理解成插管式数据开放,如开放平台、数据市场。数据资产一旦通过API调用过后,调用方很容易对这主次数据进行缓存或存储,进而把这主次数据占为己有,原先就严重损害了阿里的商业利益,一块儿该架构从必须很好地外理商家及其合作伙伴后续面临的大数据加工外理的问提。

御膳房的整体安全闭环核心要外理的问提有有有另有四个:一是数据不被导出,外理造成潜在商业价值的损失,御膳房的对应策略是给予客户数据弹性加工能力的一块儿构建数据闭环;第二是消费者的隐私不被侵犯,御膳房与之对应的策略是开发过程中增加严格的数据脱敏工具集。

上图是御膳房提供基础数据加工能力的简单架构图。整个架构分为上下两层,下层是IAAS层,用于提供基础的云设施,如ODPS、RDS;上层是PAAS层,PAAS又分为开发环境和化产环境,该层提供了核心的数据开发工作平台,供商家我希望合作伙伴灵活地加工、使用数据。阿里的数据经过抽样、脱敏过后塞进IAAS环境中,IAAS环境又分为样本空间和化产空间,用户在PAAS层的开发环境中也能触及样本空间,我希望也能完成基于样本数据进行业务逻辑的开发;业务逻辑开发完成后,也能将代码提交给生产环境,数据开发工作台通过工作流调度访问真实数据环境,执行的结果塞进生产环境中,数据结果有几种出口,初期的出口是通过导出服务将ODPS的计算结果导入RDS中,RDS通过查询服务,以TOP接口的最好的办法对接聚石塔,完成整个数据消费的可控闭环。

为哪此要有御膳房两种产品呢?

上图是御膳房补充高阶数据加工能力后的架构图。与过后的架构相比,主要的差异包括:开发环境中增加了算法、探索环境;其次,在数据出口,增加了授信业务环境,同类阿里妈妈的DMP、阿里的短信通道、支付宝红包通道等。

基于上述的探索和架构模式的分析,也能对御膳房平台给出清晰的定位:它的核心价值在于数据赋能,目标是打造集团对外安全的数据加工容器。御膳房的核心抓手是:

在上图所示的架构中,标红的模块覆盖了所有的关键链路,如PAAS访问IAAS链路、开发和化产交互过、数据出口到授信环境的链路。

本文根据阿里巴巴高级技术专家朱震杰在大流量高并发互联网应用实践在线峰会上题为《御膳房架构演进》的分享整体而成。在分享中重现了御膳房在探索大数据开放外理平台的道路上应对用户迫切需求和技术架构以及安全上的强大挑战。分享期间,朱震杰还重点剖析了御膳房在基础数据加工和高阶数据加工方面的能力,并对安全加固进行了删改讲解。 

关于分享者:

除了基础数据加工能力外,御膳房还提供了简单的安全控制。同类,数据塞进IAAS层前也能进行抽样、脱敏,分离出样本集和化产集;其次当合作伙伴或商家开发业务逻辑时,会有因此 基于阿里商业的约束,同类当合作伙伴操作授权店铺数据时,要杜绝两种生活情况汇报的指在:

御膳房提供了人群数据服务,通过数据服务的最好的办法将核心逻辑和底层数据都封塞进其中,一块儿通过前期的脱敏和后期的风控来外理开发者直接接触数据以及推导个体行为的我希望。人群数据服务也能简单理解成有有另有四个函数,开发者也能指定输入参数,核心逻辑在函数中黑盒完成,一块儿结果会在风控过后给到开发者,确保敏感数据的安全。在御膳房中,提供了行为/属性圈人、IDMapping、人群放大、人群透视等数据服务。

在精准营销场景,过多过多过多过多围绕人的分析都依赖于底层消费者信息的数据,对于同类数据的访问和外理极易引发信息泄露风险;

御膳房的模式探索

御膳房的愿景是:通过提供的数据安全容器也能帮助商家及其合作伙伴驾驭数据、驱动未来。

底层封装了阿里的海量数据,一块儿提供了灵活的社会形态构建和数据挖掘的高阶算法,让用户可视化的完成人群建模、训练、预测的工作流平台,轻松产出用户所关注的个性化定制人群。

该架构的核心流程包括伙伴开发、受控容器、授信对接、安全加固四主次。首先合作伙伴在平台上基于样本数据进行开发,所开发的代码提交给平台,平台提供有有另有四个不被商家及其合作伙伴接触的受控数据容器,用于提供真实数据计算和外理的场所;此后平台将计算结果对接可信的应用环境,包括集团内控 的业务系统和可控应用容器如聚石塔,从根本上外理数据侧漏的问提;此外,该架构还提供数据安全体系用于安全加固,包括代码审核和出口控制,构建多层次的安全保护。

对于商家、ISV来说,御膳房像有有另有四个酒店厨房,开发者就像厨师,也能在酒店厨房中用自带和平台提供的数据原材料,加工完成数据大餐。

御膳房面临的挑战

我希望,御膳房的安全闭环由沙箱安全平台和业务安全策略两主次组成,其中业务安全策略是运行在沙箱安全平台中。沙箱安全平台如上图所示,主要包括数据合规工具、代码审核工具、出口控制和智能审计四主次。

御膳房的高阶数据加工能力

御膳房结合阿里巴巴的云计算和大数据的技术布局,以及阿里的商业生态布局,提出了“数据容器”的设想。御膳房架构的思想在于放弃了传统的数据导出模式,将数据加工成数据任务,一块儿数据加工的结果对接可信应用环境,做到数据可用不可漏。

另两种生活思路是偏学术界的密码学体系,如同态加密或多方安全计算,前者是在加密的数据上进行任意计算,计算完的结果解密和正常计算结果一致,大约用密码给数据资产加了一把锁,这也能消耗少量的计算资源;多方安全计与非 指在指在问题可信平台的情况汇报下,双方或多方也能知道一块儿的计算结果,但彼此的数据内容保密,这其中涉及简化的加密、通信协议和交互,从而意味着信息的交换角度较低。

直播视频:点击此处观看

御膳房需过多过多过多过多 有有另有四个全新的产品模式,既要合作伙伴用到阿里和其它来源的数据,又要求合作伙伴在外理的整个环节保证安全,数据资产不泄漏。要完成上述哪此工作,御膳房面临着多方面的挑战。安全方面:首先阿里作为平台方提供的数据的商业价值必须泄露:其次阿里平台上消费者的隐私必须泄露。一块儿,多个商家使用御膳房时,相互之间必须干扰,这就要求数据、资源、运行时环境等相互隔离,并可独立计量。

御膳房的定位

御膳房在发展过程中也面临着新的需求:DT类的应用与IT类的应用最大的不同是它把数据当做资产,也能对数据进行简化的探索、剖析和模型试验后,也能决定使用哪此数据,如保使用数据。数据探索、挖掘的实验工具和最好的办法过多,如Python、R studio等,官方比较慢提供适合所有用户的数据探索产品,我希望在御膳房上如保给客户提供数据探索的能力是有有另有四个也能要外理的问提;

高阶数据加工,仅仅使用SQL和MR操作数据是远远指在问题的,也能引入更多数据挖掘的算法包,以帮助用户进行角度次的数据价值挖掘。

朱震杰(花名:澄苍),阿里巴巴高级技术专家,大数据外理专家,经历了官方数据产品店铺经和对外数据外理平台御膳房的构建,积累了富于的大数据实时/离线外理的经验和大数据平台构建的经验。

随着御膳房平台上链路和提供的能力增加,我希望数据风险性也随着增加,因此 人 也能确保在每条链路的各环节的数据安全。在数据安全加固过程带有有有另有四个关键点:第一,也能对数据进行严格的隐式脱敏与安全分级;第二,对数据的外理全过程进行严格的监控和审计。

御膳房精准营销案例

最后,通过出口控制限定数据最终的消费在授信环境中进行。

御膳房架构模式

外理过程安全主要关注代码行为、开发者行为:

也过多过多过多过多 说因此 人 当时一块儿面临了商业和学术上,有有另有四个看上去无法外理的问提。

上图是御膳房的数据安全加固模型,该模型主要包括输入安全、外理过程安全、输出安全有有另有四个模块,输入安全又包括数据安全分级、合理授权和数据脱敏,确保隐私数据和商业秘密不泄露,一块儿也能规避因此 法律风险: