乐鱼体育初度揭秘字节跳动数据平台为什么不选“纯中台制”
具体介绍

  面临本性化、众样化数据,以及企业内部的数据孤岛和营业孤岛,若是有一套不妨治理海量数据的底子步骤,那么正在很大水平上可能发现并领会出对营业开展有价格的消息,从而助助企业更速地作出数据驱动的决议,更速地推出适利用户 / 客户需求的产物。

  字节跳动数据平台团队遵循营业的需求,用七年期间研发并慢慢迭代出了一套数据平台,该平台束缚的总数据量正在几年前就仍旧高出了 EB 级别,正在营业平素晚顶峰时承载的埋点流量就已高出 1 亿 TPS,有超十万 core 的单使命需求上千台呆板来推算。

  如许的界限正在业界也极度罕睹,为了应对大界限的数据量,字节跳动数据平台团队没有采用古板的数据中台形式,而采用了“中台 +BP 制”形式,避免中台离开营业需求。BP 机制是一种立异,仿佛于 HRBP,联合束缚调配各个营业中的使命。相对付“纯中台制”,数据 BP 制的好处是更紧贴营业增援,规避了中台容易离开营业需求、制轮子自嗨的危害。相对付“纯 BU 制”,最大的好处则是杠杆率高,平台是容易赋能的。

  正在煽动 2022 年 3 月 24-25 日北京 ArchSummit 环球架构师峰会之初,我采访了字节跳动数据平台控制人罗旋,请他来讲讲字节跳动数据平台修立的经过和本事细节。罗旋正在 2014 年列入字节跳动,从零起首组修大数据平台,指挥团队搭修了网罗数据搜集、修立、料理、利用的全链道平台产物。倡始用数据驱动营业,以数据 BP 形式,圆活增援了今日头条、抖音、西瓜视频、日夕光年等各大营业线。正在大数据的架构、产物、料理、安静隐私、结构计划等方面有富厚践诺积蓄。以下是罗旋的答复实质。

  InfoQ :行为字节跳动数据平台的控制人,能否请您记忆一下,数据平台是奈何修立的?又体验了若何的演进流程?每次升级改制的靠山是若何?

  罗旋:字节跳动数据平台的修立流程也许跟其他公司不大相通。咱们通盘的修立和演进逻辑,都是环绕奈何能圆活高效增援营业,促使增加这个宗旨。以是你会挖掘,从平台演进史册中不妨看出,咱们的优化条件靠山,都是营业高速开展下,咱们需求用什么样的才干,来撑持和驱动延续增加。

  我是 2014 年列入字节的,只阐明 14 年之后的开展处境。正在此之前,也唯有过一两工程师,兼职参加过相干事变,以是基础仍然个从零起首的状况。刚列入字节时,唯有一个 Hive 和最底子的报外,仅网罗 DAU、时长等,报外仅以邮件方法来发送,吵嘴常原始的一个状况。然而很用意思的是,正在这个时期,咱们仍旧起首重度运用 A/B 测试了,这是咱们最早相对成熟的一个编制,坚信跟绝大大批公司的开展次序都分歧,由于正在谁人阶段,咱们以为最要紧的事,便是让营业不妨量化器量,并以极端迅疾试错的办法来迭代。

  正在 2015-2016 年间,营业迅疾开展,需求有更众报外、目标,和更灵动的领会才干。2015 年今日头条的日活仍旧过切切了,数据量增大,对引擎的治理才干提出了更高请求,也起首推敲时效性,交互性等题目,此时咱们采用 Spark 和 Storm 来举行数据治理。

  到了 2017 年,以抖音为代外的营业数据量膨胀,一贯寻事咱们的才干边境。生长太速带来的题目很昭彰,一方面是常常浮现资源到位的速率慢于营业增加,缺呆板、机架位以至机房。咱们良众时期对数据链道各闭头举行优化治理,不仅是由于本钱,更众时期是由于资源不足,导致咱们必必要做。通过优化来处分数据量和领会成果,成为咱们首要冲破要点,做了良众选型试验,如 Presto、Kylin、Druid 和 ClickHouse,也基于这些开源引擎,做了大方二次斥地和深度优化。这片面的参加,到这日也还正在接续,也让咱们正在片面引擎如 ClickHouse 的积蓄上,相对领先业界。

  除了引擎本事以外,咱们也起首确立面向营业的数据产物。网罗现正在仍旧对外部企业供给任事的 Finder(火山引擎增加领会),也是正在当年代替了贸易版的 Amplitude,起首笼罩公司整体营业线。咱们当时做过一版测算,按全产物线推算,每年可能给公司撙节数亿的开销,若是按现正在的数据体量,就要更众得众了。同工夫起首参加的,也网罗数据斥地平台、元数据束缚、使命依赖调动等主题平台才干。

  公司的营业形式正在这个工夫,也起首变得富厚,有了抖音、火山小视频、西瓜等等,也就起首形成了中台化诉求。

  到了 2018、2019 年,字节新营业的形成速率,又昭彰加快了。行为一个中台团队,奈何迅疾高效的增援这些一贯形成的、类型又越来越众样化的营业,成为一个很要紧的命题乐鱼体育

  咱们正在结构层面做了极少立异,修立了数据 BP 机制。BP 全称是 Business Partner,仿佛于 HRBP,结构方法上是聚会式的,可能联合束缚调配,推行上分散式到各个营业,处分营业题目。这种结构办法的上风正在于,只管 BP 团队向上撑持了分歧类型的营业线,但原本向下兼容了咱们平台底层的各项才干,具备相仿的技巧栈,对用具引擎的研习和运用是高效且顺滑的。

  行为数据平台才干的处分计划供给方,数据 BP 同砚正在结构上都报告正在数据平台,联合作育和调动,互相研习体味的角度,对中台才干也确保足够的熟习度,以便遵循分歧营业的性格,灵动组合,供给归纳性的数据处分计划,也确保了复用性,不简单反复制轮子。正在全体使命时,他们会扑正在分歧的营业线上,跟营业同砚坐正在沿道,把本人视为营业线的一片面,保险与营业沿道凯旋。

  数据产物层面,咱们起首越来越器重“产物化”,器重体验和下降门槛,而不但仅是底子才干,如许能力让公司内更广大的脚色群体,都能用数据驱动的理念使命。咱们的 ABI 产物“风神”便是这个时期推出的,这也成了字节简直全员运用的一款数据产物。内部传播的“A/B 是一种崇奉,风神是一种习气”,也是从这个工夫起首广为人知。

  2020 年时,咱们仍旧有两大块任事对象了。一个是对字节跳动的各营业线,以数据 BP 为接口,供给数据任事;另一个是面向外部企业,为外部客户成立价格。

  正在字节跳动内部,当增援了越来越众产物线之后,咱们针对数据 BP 这种形式,提出了一个更量化的任事编制尺度,叫做“0987”。这四个数字分歧指的是:稳固性 SLA 主题目标要到达 0 个变乱,需求知足率要到达 90%,数仓构修笼罩 80% 的领会需求,同时用户满足度到达 70%。任事字节内部营业,咱们是遵照这个高尺度来请求本人,同时这也是一种自禁锢的机制,不妨有用的防范自嗨,离开营业需乞降价格。

  正在外部客户方面,咱们原本从 2019 年就起首探究 ToB 墟市。到了 2020 年,ToB 升级成了字节跳动公司的战术,公司注册创办了“北京火山引擎科技有限公司”。火山引擎是字节跳动旗下的企业级本事任事平台,数据平台也行为个中要紧的大数据板块,延续加大参加。咱们将内部增援任事较量好的产物和体味,封装成数据套件,通偏激山引擎对外供给任事。目前,咱们仍旧推出了本事引擎和营销增加两大套件,也有了极少不错的标杆客户。同时咱们也正在思索数据 BP 的处分计划才干、体味和步骤论,是否能助助到外部客户,让他们也享福到和抖音相通的数据任事级别,起首正在这方面做极少试验。

  InfoQ :正如您方才所提,平台架构并不是一起首就确定的。咱们显露,架构延续升级的流程很少能一帆风顺,字节数据平台正在架构演进的流程中有没有走过极少弯道?能否举个例子?

  罗旋:也不算弯道吧,而是正在本事演进的道上,需求处分什么样的主题题目,跟着题目的改观,解法很也许也会转移。体验过架构演进升级的人城市显露,界限标准每增大十倍,良众架构计划点都需求调度。其余因为是给飞奔的火车换轮子,有时也需求正在资源、ROI 上做极少量度。举个例子,咱们的用户动作领会产物 Finder 所运用的底层查问引擎,就体验过较量大的调度。

  正在一起首探究的时期,咱们正在 2016 岁晚做了本事选型,推敲了查问速率和机能、稳固性等要素,咱们以为 Kylin 更适合谁人时期的需求。它的利益是“速”,能到达毫秒级别,不过数据需求预咸集,且推算量大,维度和器量也都需求提前界说。当时咱们接纳了极少步骤,当前缓解了这些题目。但跟着产物效用扩展到留存和转化领会,这套架构就难以做到交互式反映了。

  为了供给更众灵动性,咱们又迅疾用 Spark 做了极少试验,保存原始数据、做字典编码、按用户 ID 分片、分层缓存等等。但推敲到营业开展速率需求探求对资源和机能都更极致的计划,通过一系列的测试验证之后,咱们挑选了 ClickHouse 来行为底子的查问引擎。ClickHouse 当时还远不如现正在时兴,但咱们以为它正在仿佛场景的机能优化上做得较量极致,效用精简的同时完毕质料高,是一个极端好的底子。正在知足实质营业场景的流程中,咱们也做了大方的深度优化和定制批改。目前咱们具有邦内最大的 ClickHouse 集群,节点总数高出15000个、束缚数据量高出600PB、最大单集群界限正在2400余个节点,每天撑持着数万员工的交互式数据领会。

  本年,咱们也推出了企业版的 ClickHouse,叫 ByteHouse,除自研外引擎、扩展数据类型、冷热数据分袂等主题才干升级以外,数据及时写入才干相较原生 ClickHouse 也晋升了两倍以上。

  InfoQ :这个架构目前撑持了众大方级的数据界限?大界限治理碰到了哪些寻事?又是奈何处分的?

  罗旋:数据平台束缚的总数据量,几年前就仍旧高出 EB 级别了,从及时流量的角度,咱们正在营业平素晚顶峰时承载的埋点流量就已高出 1 亿 TPS,有超十万 core 的单使命需求上千台呆板来推算。如许的界限正在业界也极度罕睹,自然的会带来机能、扩展性、及时性等方面的寻事,前面提到的查问引擎的极少优化,也是由此激励的。再叠加上营业的众样性和繁杂度,又会正在大界限使命的调动、运维、资源优化、数据料理等维度上,境遇不少寻事。

  举个例子,目前咱们日均的数据治理功课量正在百万级。从使命调动的角度,依赖干系繁杂、目标也较量深,为了知足时效性请求,需求正在前置依赖停当的处境下迅疾触发调动推行。咱们通过自研的分散式调动编制,完毕了秒级调动才干。同时供给了使命的分级打标机制,集合 SLA 签订编制,通过众种使命资源驾御办法,完毕资源最合理的调配,集合优先级权重来确保 SLA 知足率。也可能遵循使命的史册处境,对不对理的使命设备,提出设备优化的告警创议,否则大使命量的运维也很容易成为灾难。

  InfoQ :除了界限和机能以外,奈何做好数据束缚也是另一个不得不重视的题目。特别是像字节如许营业富厚,数据类型一贯推广的企业,是奈何去处分这个题目?

  罗旋:咱们更习气叫数据料理,兴趣仿佛。当数据体量,众样化水平都很高的时期,这确实是一件尤其要紧的事变。

  第一个阶段,针对咱们的主贸易务,创办了数据料理委员会,以民主聚会的办法,做专项的诊断和料理,拿到标杆后果。同时,把正在这个流程中变成的最佳料理践诺,转化成可复用的架构、流程、产物,来下降料理门槛,以寻求可复制性。

  第二个阶段,把第一阶段重淀下来的中台料理才干,源源一贯地赋能给立异营业,完毕营业的分散式自治,使其不必都依赖特定团队。这个流程中,也会一贯有新的需求反应,让咱们对料理产物延续打磨。

  这套机制现正在仍旧运转得较量稳固,助助咱们完毕了较量高的数据料理尺度,也到达了更大水平的本钱资源节俭。因为体验过众种分歧类型营业的检验,以是也能确保料理产物和步骤论的泛化才干。咱们尽量用产物化的办法来下降门槛,让增援分歧营业的数据团队不妨自治,可能说咱们是用一种更圆活的办法完毕数据料理。行为比拟,极少公司的做法也许更仿佛于“一把手工程”,更依赖全程顶层决议推进,一方面这跟公司的文明相干,其余一方面咱们也倡始数据子民化的理念,把产物用具做得足够好,让门槛尽也许低。

  InfoQ :您众次提到圆活,这是字节数据平台的性格吗?显露正在哪些方面?

  罗旋:最先字节自身便是个较量圆活的公司。这对付字节数据平台来说,也算是一本性格,咱们探求的是圆活高效增援营业增加。从几个方面可能显露:

  InfoQ :圆活的个中一个显露是结构圆活,这和其他的数据平台极度不相通,您能再长远先容下数据 BP 的形式吗?

  罗旋:BP 形式的观点我正在上面的题目里仍旧详述了。相对付“纯中台制”,数据 BP 制的好处是更紧贴营业增援,咱们会坐正在营业身边供给任事,并主动请求考查营业对本人的满足度,规避了中台容易离开营业需求、制轮子自嗨的危害。相对付“纯 BU 制”,最大的好处则是杠杆率高,平台是容易赋能的。数据 BP 的同砚并不是本人正在战争,他背后有很强壮的团队,有很强的平台产物用具增援。营业开展弧线险要,或战术优先级改观时,数据 BP 的同砚能极端速地调和资源。BP 积蓄的营业增援体味,也更容易举行跨产物线的相易重淀,最终显露正在平台产物和步骤论的积蓄上。

  践诺数据 BP 制的起点,一方面是当营业体量越来越大,仅用通用的平台产物本事增援仍旧不不妨知足需求了,需求再长远集合营业性格,供给归纳性的处分计划和执行落地的才干;另一方面也是生气正在纯中台化和纯营业闭环之间取长补短,正在探求复用的同时,最大水平的晋升结构成果。从咱们几年下来的践诺后果看,还吵嘴常好的,固然仍然会有题目浮现,但各营业方基础都是认同的。迩来咱们挖掘几十个营业的具体 NPS 仍旧到达了 70,无论是从公司内仍然从业界来看,都算是一个较量高的值。

  InfoQ :上面提到了良众才干性格,能否再总结先容一下目前字节跳动数据平台的架构?

  面向通用领会需求的产物:ABI(圆活 BI 产物,内部叫风神)、Finder(动作洞察领会产物,内部名叫 TEA)、Gaia(一款用于数据流派修立的产物,营业可能自助模块化修立流派)、CDP(用户数据平台,内部叫 Mirror,重淀了各式领会标签)、Tester(A/B 试验平台,内部叫 Libra)

  面向分歧营业场景供给的洞察型产物,如热门宝(内部叫 Pugna,用于分歧营业的场景洞察,如抖音热门榜单等)、束缚驾驶舱(用于营业束缚层监测各式主题目标)以及安静合规的产物等。

  处分计划层,便是咱们的数据 BP 形式。一方面数据 BP 团队,仰赖咱们的平台才干对分歧的营业供给数据处分计划;另一方面,数据 BP 团队也能从营业中获取到更众开展诉求,进而使得咱们的平台才干一贯迭代并得以优化。

  InfoQ :方才讲了良众本事的寻事和开展。本事与营业原本是巢毁卵破,相互促使的。思请您从数据角度来看,你们正在赋能营业上,是否碰到过极少极度寻事?可否举个例子注脚?

  罗旋:当然,本事最终要通过营业来施展价格,也唯有繁杂的营业场景,才会带来足够的本事寻事。

  举一个出格的场景吧。2021 年抖音春晚行径中,流量洪峰到达平素的数倍,正在这个场景下,咱们需求供给各式及时目标数据,既要用于内部指点行径战术的及时更新,好比下个时段红包投放量的预算决议,也要给外部,好比把及时的春晚战报数据给到春晚现场和各媒体。这正在及时性、稳固性、目标无误度、架构容错才干都有极端高的请求,而通盘春晚项目从立项到上线 天,也增添了特地的难度和压力。

  最先,正在流量搜集侧,咱们有个很好的底子,字节通盘流量数据的搜集管控,都是正在联合的流量平台上。针对春晚红包项目,咱们又特地加强了容灾才干,做了三机房容灾预案,并增援一键容灾。针对尖峰流量,咱们跟相干团队合营,增援了任事端限流和客户端回避重试战术。为了正在分歧负载下灵动降级,也增援了埋点抽样和主动降级机制。

  然后,正在及时目标方面,咱们也仍旧重淀出了一套较量成熟的,以 Flink 及时推算引擎与 ByteHouse、LAS 等领会引擎相集合的及时数仓处分计划。针对春晚行径的及时决议和战报需求,咱们运用了两套分歧的本事架构,一套是基于 Flink 的推算架构,流式推算出最终目标,其余一套基于 ByteHouse 的存储架构,正在存储层及时写入明细数据,查问时咸集出最终目标。同时两种架构也都做了双机房双链道冗余灾备。

  结尾,正在离线场景下,也需求咱们有强壮的分级保险和数据料理才干。正在营业峰值期,咱们需求出让大方的离线资源给正在线营业编制,同时又要保险离线数据栈房仍旧能准时产出,产物和领会师能力对前一天的行径处境做周密的复盘,来指点下一步行为。这就请求能正在几十万张数据外,百万数据治理使命中,灵动的分级调配资源、降级和迅疾还原,咱们也确实做到了这一点,相干才干都重淀正在 DataLeap 产物中。

  InfoQ :字节正在数据利用上有良众自研的产物,但正在大数据底子架构上的自研倾向是何如推敲的?

  罗旋:从演进道途看,基础是三个阶段:1. 运用开源;2. 基于开源二次斥地;3. 自研。

  最起首探求处分营业题目,开源社区供给了良众不错的底子计划,好比 SparkSQL、ClickHouse、Airflow 等等,咱们会先试验直接运用,也便是阶段 1。正在运用的流程中,跟着营业繁杂度的增添,会正在可扩展性、易用性、笔直定制优化等倾向碰到瓶颈,此时咱们会做一轮本事决断,若是开源社区正在主题片面、中长远跟咱们预期相同,会走阶段 2,比方 SparkSQL、ClickHouse 等。不然会直接走阶段 3,比方数据使命的调动编制等。而极少编制,开源社区向来也没有好的挑选,咱们就会从一起首直接走阶段 3,好比 A/B Test 编制。走 2 的编制改动太众,慢慢积蓄下来,有时也会趋近于 3。

  从近况来看,咱们是一个 2+3 的混杂状况。正在流程中,咱们也向开源社区反应了极少全体的改动。目前也正在推敲把极少较量成熟的自研编制具体开源出来,回馈更广大的斥地者。内部正在主动的说论中,可能希望一下。

  InfoQ :将来正在 ToB 的计划,以及与字节内部本事演进的协同办法是若何的?

  罗旋:大的思绪上,咱们保持外里部联合,用统一套产物本事编制来任事公司外里各营业。如许有几个好处,一是吃本人的狗粮,用内部的概略量和众元化场景来打磨产物本事,给外部客户供给更成熟的产物,也是助助了字节跳动内部凯旋的产物和本事。

  二是任事内部时,视野更开阔长远,更有外部视角。好比,正在早期就去推敲外部墟市对这一本事的需求有众大,若是仅仅是个定制化的小场景,那就小参加加外部采购来处分;若是有广大需求,那就大参加,做到业界领先。

  三是从本钱成果来说也需求做到更优,不妨复用资源和体味。从全体推行道途来说,产物正在运用流程中会存正在极少版天职别,但更众是因为场景分歧,开展阶段分歧导致的,主题并不是从内部和外部客户来分辨,比方分歧界限巨细的营业带来的本事形式区别,操作易用性和效用繁杂度的量度等等,有点仿佛于良众软件的 Pro 和 Lite 版的感应。

  InfoQ :结尾思知道您目前都闭心哪些本事倾向?将来的大数据斥地者们应当具备哪些才干?

  罗旋:我目前首要闭心的大数据本事倾向网罗:及时化、智能化以及安静隐私合规。个中,及时化闭心的是及时数仓、流批一体等本事;智能化首要环绕智能物化视图、集合呆板研习的查问优化器、加强领会智能问答等;正在隐私合规上更闭心计谋趋向带来本事和架构演进趋向,网罗敏锐数据挖掘、众方推算、数据当地化、权限优化等。

  对付闭注将来开展的大数据斥地者来说,我感触最先需求有过硬的推算机底子本事储存,这是通用的才干。全体到大数据界限本事,一个特性是开源组件品种尤其众,大数据斥地者应当熟习知道这些开源组件的性格,这也是很好的研习流程;另一个特性是,必然要找到真正有大数据界限的场景和境况来践诺研习,由于它跟小数据场景本事是完整分歧的、有素质区此外。小数据场景下也显露不出寻事性。正在这个底子上,再去闭心极少前沿的倾向开展。

 

Copyright 2012-2023 leyu·乐鱼(中国)体育官方网站 版权所有 HTML地图 XML地图--备案号:豫ICP备20000747号  备案号:豫ICP备20000747号  
地址:河南省郑州市金水区丰庆路126号3号楼24层2401号  邮箱:19659724@qq.com  电话:13938535296