乐鱼体育官方网站营业数据汇总格式及其编制与流程
具体介绍

  漫衍式存储场景下,数据汇总碰面对良众题目,个中时效与本钱是两个冲突的成分。假使汇总频率高,则时效性也高,然而增进了收集传输本钱以及存储的本钱;假使汇总频率低,则时效性无法取得知足,且数据发作过疾时,反而会加大汇总的本钱。

  正在大数据场景下,跟着汇总粒度的不竭增加,数据汇总的本钱也会随之增加,最终导致无法承担其汇总本钱。综上所述,现有本领中匮乏看待漫衍式存储的大数据的数据汇总的有用的处理计划,因而有需要提出改善的本领权谋处理上述题目。

  本申请践诺例供给了一种生意数据汇总门径及其体系,以处理现有本领中的漫衍式存储的数据汇总本钱较高的题目。

  为分解决上述题目,遵照本申请践诺例供给一种生意数据汇总门径,其征求:通过漫衍式存储格式存储众个客户端发作的各生意数据;针对各生意数据,决断该生意数据是否属于热门数据,个中遵照该生意数据对应的客户端的属性决断该生意数据是否属于热门数据;要是,则遵照预设的第一数据汇总格式对所述热门数据举办生意数据汇总。

  个中,正在第一存储单位存储所述热门数据;所述遵照预设的第一数据汇总格式对所述热门数据举办生意数据汇总,整体征求:待预设光阴后,对所述第一存储单位存储的热门数据推广第一阶段数据汇总解决取得第一阶段汇总数据;将所述第一阶段汇总数据发送至第二存储单位举办存储;对所述第二存储单位存储的各第一阶段汇总数据推广第二阶段数据汇总解决。

  个中,还征求:若决断所述生意数据属于非热门数据,则遵照预设的第二数据汇总格式对所述非热门数据举办生意数据汇总。

  个中,正在第一存储单位存储所述非热门数据;所述遵照预设的第二数据汇总格式对所述非热门数据举办生意数据汇总,整体征求:将所述非热门数据发送至第二存储单位举办存储;对所述第二存储单位存储的各非热门数据推广数据汇总解决。

  个中,还征求:遵照近期起码运用算法lru识别客户端是否属于热门客户端,要是则决断该热门客户端发作的生意数据属于热门数据。

  个中,还征求:修树所述热门客户端的热门时段,所述热门客户端方在热门时段发作的生意数据属于热门数据。

  遵照本申请践诺例供给一种生意数据汇总体系,其征求:存储模块,用于通过漫衍式存储格式存储众个客户端发作的各生意数据;热门数据决断模块,用于针对各生意数据,决断该生意数据是否属于热门数据,个中遵照该生意数据对应的客户端的属性决断该生意数据是否属于热门数据;第一汇总解决模块,用于若决断所述生意数据属于热门数据,则遵照预设的第一数据汇总格式对所述热门数据举办生意数据汇总。

  个中,所述存储模块征求:第一存储单位,用于存储热门数据;第二存储单位,用于存储汇总数据;所述第一汇总解决模块还用于,待预设光阴后,对所述第一存储单位存储的热门数据推广第一阶段数据汇总解决取得第一阶段汇总数据;将所述第一阶段汇总数据发送至第二存储单位举办存储;对所述第二存储单位存储的各第一阶段汇总数据推广第二阶段数据汇总解决。

  个中,还征求:第二汇总解决模块,用于若决断所述生意数据属于非热门数据,则遵照预设的第二数据汇总格式对所述非热门数据举办生意数据汇总。

  个中,所述第一存储单位,还用于存储非热门数据;第二存储单位,还用于存储非热门数据及汇总数据;所述第二汇总解决模块,还用于将所述非热门数据发送至第二存储单位举办存储;对所述第二存储单位存储的各非热门数据推广数据汇总解决。

  个中,所述热门数据决断模块还用于,遵照lru算法识别客户端是否属于热门客户端,要是则决断该热门客户端发作的生意数据属于热门数据。

  个中,所述热门数据决断模块还用于,修树所述热门客户端的热门时段,所述热门客户端方在热门时段发作的生意数据属于热门数据。

  遵照本申请的本领计划,通过决断生意数据是否属于热门数据,并遵照决断结果运用对应的数据汇总格式,通过本申请也许有用消重漫衍式存储的大数据的数据汇总的本钱。

  此位置证据的附图用来供给对本申请的进一步会意,组成本申请的一局部,本申请的示意性践诺例及其证据用于外明本申请,并不组成对本申请的失当节制。正在附图中:

  为使本申请的目标、本领计划和利益特别明了,下面将团结本申请整体践诺例及相应的附图对本申请本领计划举办明了、完好地描摹。分明,所描摹的践诺例仅是本申请一局部践诺例,而不是整体的践诺例。基于本申请中的践诺例,本界限广泛本领职员正在没有做出成立性劳动条件下所取得的全豹其他践诺例,都属于本申请爱戴的限制。

  图1是遵照本申请一个践诺例的生意数据汇总门径的流程图,如图1所示,该门径征求以下步伐:

  个中,所述客户端可能是指电子商务平台的客户端,这些客户端发作巨额的生意数据。正在本申请践诺例中,这些巨额的生意数据通过漫衍式存储格式存储正在区别的存储单位。整体地,存储单位可能是一个存储分区、一块磁盘、一台揣度机、一个数据库实例、一个数据库集群、一个机房等,本申请对存储单位的行使限制并不举办局部。

  步伐s102,针对各生意数据,决断该生意数据是否属于热门数据,个中遵照该生意数据对应的客户端的属性决断该生意数据是否属于热门数据。

  正在本申请践诺例中,决断所存储的生意数据是否属于热门数据。个中,可能遵照对应客户端的属性决断该客户端是否属于热门客户端,也即是说热门客户端方在单元光阴内发作的生意数据量大于预设值。进一步,热门客户端发作的生意数据属于热门数据。

  步伐s104,若决断生意数据属于热门数据,则遵照预设的第一数据汇总格式对所述热门数据举办生意数据汇总。

  下面周密描摹第一数据汇总格式:起初正在第一存储单位存储所述热门数据,待预设光阴后,对所述第一存储单位存储的热门数据推广第一阶段数据汇总解决,取得第一阶段汇总数据;然后将所述第一阶段汇总数据发送至第二存储单位举办存储,并对所述第二存储单位存储的各第一阶段汇总数据推广第二阶段数据汇总解决。纯洁来说,第一数据汇总格式对决断属于热门数据的生意数据推广二次数据汇总,个中第一次是正在第一存储单位推广,第二次是正在第二存储单位推广。

  正在本申请的一个践诺例中,若决断所述生意数据属于非热门数据,则遵照预设的第二数据汇总格式对所述非热门数据举办生意数据汇总。下面周密描摹第二数据汇总格式:起初正在第一存储单位存储所述非热门数据,将所述非热门数据发送至第二存储单位举办存储,并对所述第二存储单位存储的各非热门数据推广数据汇总解决。纯洁来说,第二数据汇总格式对决断属于非热门数据的生意数据只推广一次数据汇总,即仅正在第二存储单位推广一次数据汇总,而不正在第一存储单位推广数据汇总,因而正在第一存储单位处不发作汇总本钱。

  下面团结图2周密描摹上述解决的细节。图2是遵照本申请另一践诺例的生意数据汇总门径的流程图,如图2所示,该门径征求以下步伐:

  正在本申请践诺例中,通过漫衍式存储格式存储众个客户端发作的生意数据。正在现实践诺中,可能遵照地区划分存储格式,比如,正在北京发作的生意数据存储正在修树正在北京的存储单位,正在上海发作的生意数据存储正在修树正在上海的存储单位。另外,还可能遵循其他维度举办漫衍式存储,此处不再赘述。

  步伐s204,决断所存储的生意数据是否属于热门数据,若决断是则推广步伐s206,不然推广步伐s208。

  正在本申请践诺例中,正在决断所存储的生意数据是否属于热门数据时,可能遵照对应客户端的属性决断该客户端是否属于热门客户端,也即是说热门客户端方在单元光阴内发作的生意数据量大于预设值。而且,还可能进一步修树所述热门客户端的热门时段,即热门客户端方在热门时段发作的生意数据属于热门数据,而热门客户端方在非热门时段发作的生意数据属于非热门数据。另外,看待突发性营谋,热门数据识别或者会滞后,可能采用提古人工预测的格式,人工识别并修树热门客户端。由此,热门客户端发作的生意数据属于热门数据。正在本申请的其他践诺例中,还可能通过修树热门营谋、热门商品等格式识别热门数据。须要证据,本申请看待热门数据的决断格式不举办局部。

  整体来说,假使识别生意数据属于热门数据后,将热门数据举办符号,守候举办第一阶段数据汇总。待预设光阴后,遵照符号对热门数据举办第一阶段数据汇总,第一阶段数据汇总也可称为单位汇总。单位汇总完工之后,将单位数据发送到汇总点装配推广第二阶段汇总。正在本申请中,所述汇总点装配是指推广最终汇总解决的装配。普通地,解决单位汇总的装配与存储热门数据的装配修树正在统一体系或统一地区,而汇总点装配与解决单位汇总的装配修树正在区别的地区。比如,正在北京发作的热门数据正在北京推广第一阶段数据汇总,正在上海发作的热门数据正在上海推广第一阶段数据汇总,正在北京单位汇总的第一阶段汇总数据和正在上海单位汇总的第一阶段汇总数据发送至汇总点装配(可能修树正在第三地),并由汇总点装配推广第二阶段汇总。

  整体来说,假使识别生意数据属于非热门数据,则直接将交往数据复制到汇总点装配,由汇总点装配举办数据汇总。也即是说,对非热门数据的生意数据并不推广单位汇总,仅正在汇总点装配推广一次数据汇总。比如,正在北京发作的非热门数据复制后直接发送到汇总点装配(可能修树正在第三地),正在上海发作的热门数据复制后直接发送到汇总点装配,由汇总点装配推广一次数据汇总。

  须要证据,数据汇总的汇总粒度可能遵照众种维度举办修树,以交往数据为例,假使以商家维度举办数据汇总,假设有100万商家,则汇总粒度为100万;假使以商品维度举办数据汇总,假设商品有1亿种,则汇总粒度为1亿。汇总粒度不随交往数据的增进而增进,汇总粒度遵照汇总维度的颗粒数裁夺。

  下面团结图3描摹本申请践诺例。正在本践诺例中,将生意数据以交往数据为例举办描摹。如图3所示,对电子商务平台的交往历程中发作的交往数据采用漫衍式存储格式举办存储,交往数据遵照必定的存储法例分手存储正在众个第一存储单位301中(为简明起睹,图3中仅示出一个第一存储单位)。个中,可能遵照数据发作的地区或其他法例漫衍式存储数据,本申请对此不举办节制。

  决断第一存储单位301存储的交往数据是否属于热门数据,整体的决断历程请参考本仿单之前的描摹,此处不再赘述。若决断第一存储单位301存储的交往数据属于热门数据,则为该热门数据举办符号,待预设光阴后,将第一存储单位301存储的一或众个(笔、批)热门数据正在当地推广第一次数据汇总(单位汇总),然后将单位汇总数据发送至第二存储单位302举办存储,并正在第二存储单位302举办第二次汇总(汇总点装配汇总)。若决断第一存储单位301存储的交往数据属于非热门数据,则复制一份一致的数据到第二存储单位302举办存储,并正在第二存储单位302举办一次数据汇总(汇总点装配汇总)。须要证据,第二存储单位302领受到的数据可能是众个第一存储单位301发送的数据,这些数据可能是热门数据(即颠末第一次数据汇总解决),也可能长短热门数据(未颠末第一次数据汇总解决)。

  下面举例证据数据汇总的本钱。假设商户数目为m,每分钟发作的交往数据为n,汇总频率为1分钟,每次汇总仅有20%的商户存正在数据,交往数据和商户数据离散度(即存储单位的数目)均为100。

  看待非热门数据,其数据汇总的每分钟的本钱为:数据传输本钱n,存储本钱为n,汇总本钱为m*20%;

  看待热门数据,其数据汇总的每分钟的本钱为:第一次汇总本钱m*20%*100乐鱼体育官方网站,数据传输本钱m*20%*100,存储本钱为m*20%*100,第二次汇总本钱为m*20%。

  遵照本申请的上述践诺例,决断生意数据是否属于热门数据,并运用对应生意数据类型的数据汇总门径,有用消重了汇总本钱。

  图4是遵照本申请践诺例的生意数据汇总体系的布局框图,如图4所示,该体系征求:

  热门数据决断模块42,用于针对各生意数据,决断该生意数据是否属于热门数据,个中遵照该生意数据对应的客户端的属性决断该生意数据是否属于热门数据。

  第一汇总解决模块43,用于若决断所述生意数据属于热门数据,则遵照预设的第一数据汇总格式对所述热门数据举办生意数据汇总。

  正在本申请的践诺例中,所述存储模块41征求:第一存储单位(未示出),用于存储热门数据;第二存储单位(未示出),用于存储汇总数据;所述第一汇总解决模块43还用于,待预设光阴后,对所述第一存储单位存储的热门数据推广第一阶段数据汇总解决取得第一阶段汇总数据;将所述第一阶段汇总数据发送至第二存储单位举办存储;对所述第二存储单位存储的各第一阶段汇总数据推广第二阶段数据汇总解决。

  第二汇总解决模块44,用于若决断所述生意数据属于非热门数据,则遵照预设的第二数据汇总格式对所述非热门数据举办生意数据汇总。

  正在本申请的一个践诺例中,所述第一存储单位还用于存储非热门数据;第二存储单位,还用于存储非热门数据及汇总数据;所述第二汇总解决模块44还用于将所述非热门数据发送至第二存储单位举办存储;对所述第二存储单位存储的各非热门数据推广数据汇总解决。

  正在本申请的一个践诺例中,所述热门数据决断模块42还用于,遵照lru算法识别客户端是否属于热门客户端,要是则决断该热门客户端发作的生意数据属于热门数据。

  正在本申请的一个践诺例中,所述热门数据决断模块42还用于,修树所述热门客户端的热门时段,所述热门客户端方在热门时段发作的生意数据属于热门数据。

  本申请的门径的操作步伐与装配的布局特质对应,可能互相参照,不再逐一赘述。

  综上所示,遵照本申请的上述本领计划,通过决断生意数据是否属于热门数据,并遵照决断结果运用对应的数据汇总格式,通过本申请也许有用消重漫衍式存储的大数据的数据汇总的本钱。

  本界限内的本领职员应领悟,本创造的践诺例可供给为门径、体系、或揣度机措施产物。因而,本创造可采用齐备硬件践诺例、齐备软件践诺例、或团结软件和硬件方面的践诺例的情势。并且,本创造可采用正在一个或众个个中包括有揣度机可用措施代码的揣度机可用存储介质(征求但不限于磁盘存储器、cd-rom、光学存储器等)上践诺的揣度机措施产物的情势。

  本创造是参照遵照本创造践诺例的门径、开发(体系)、和揣度机措施产物的流程图和/或方框图来描摹的。应会意可由揣度机措施指令竣工流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的团结。可供给这些揣度机措施指令到通用揣度机、专用揣度机、嵌入式解决机或其他可编程数据解决开发的解决器以发作一个呆板,使得通过揣度机或其他可编程数据解决开发的解决器推广的指令发作用于竣工正在流程图一个流程或众个流程和/或方框图一个方框或众个方框中指定的性能的装配。

  这些揣度机措施指令也可存储正在能辅导揣度机或其他可编程数据解决开发以特定格式作事的揣度机可读存储器中,使得存储正在该揣度机可读存储器中的指令发作征求指令装配的修设品,该指令装配竣工正在流程图一个流程或众个流程和/或方框图一个方框或众个方框中指定的性能。

  这些揣度机措施指令也可装载到揣度机或其他可编程数据解决开发上,使得正在揣度机或其他可编程开发上推广一系列操作步伐以产糊口算机竣工的解决,从而正在揣度机或其他可编程开发上推广的指令供给用于竣工正在流程图一个流程或众个流程和/或方框图一个方框或众个方框中指定的性能的步伐。

  正在一个规范的摆设中,揣度开发征求一个或众个解决器(cpu)、输入/输出接口、收集接口和内存。

  内存或者征求揣度机可读介质中的非永恒性存储器,随机存取存储器(ram)和/或非易失性内存等情势,如只读存储器(rom)或闪存(flashram)。内存是揣度机可读介质的示例。

  揣度机可读介质征求永恒性和非永恒性、可搬动和非可搬动媒体可能由任何门径或本领来竣工音信存储。音信可能是揣度机可读指令、数据布局、措施的模块或其他数据。揣度机的存储介质的例子征求,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、疾闪回顾体或其他内存本领、只读光盘只读存储器(cd-rom)、数字众性能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储开发或任何其他非传输介质,可用于存储可能被揣度开发拜访的音信。遵循本文中的界定,揣度机可读介质不征求暂存电脑可读媒体(transitorymedia),如调制的数据信号和载波。

  还须要证据的是,术语“征求”、“包括”或者其任何其他变体意正在涵盖非排他性的包括,从而使得征求一系列因素的历程、门径、商品或者开发不只征求那些因素,并且还征求没有了了列出的其他因素,或者是还征求为这种历程、门径、商品或者开发所固有的因素。正在没有更众局部的情状下,由语句“征求一个……”节制的因素,并不消灭正在征求所述因素的历程、门径、商品或者开发中还存正在此外的一致因素。

  以上所述仅为本申请的践诺例云尔,并无须于局部本申请。看待本界限本领职员来说,本申请可能有各类更改和蜕变。凡正在本申请的精神和道理之内所作的任何编削、等同交换、改善等,均应包括正在本申请的权益央浼限制之内。

 

Copyright 2012-2023 leyu·乐鱼(中国)体育官方网站 版权所有 HTML地图 XML地图--备案号:豫ICP备20000747号  备案号:豫ICP备20000747号  
地址:河南省郑州市金水区丰庆路126号3号楼24层2401号  邮箱:19659724@qq.com  电话:13938535296