数据分析中可视化图表缓存策略

2019-01-29 2020-05-29

bigdata

6 minutes read (About 879 words)

每一次ad-hoc查询，均是会占用有限的计算资源，而OLAP 系统在现有技术下，并不能支撑很高的查询并发，为了有效改善这个问题，在查询时间范围内数据未发生变化或者变化量小，有效运用缓存可以有效提高查询效率和用户体验

单纯的N小时缓存失效的机制，会导致数据刷新不及时，造成数据理解上的偏差：

现象：在相同指标在不同图表数据不一致，尤其是在同一个DashBoard内时，让人难以理解；
原因：图表在不同时间创建和缓存的，在时间差内，相关的数据发生了变更

在用户行为分析中，相关分析是离不开时间范围的，那么可以

根据时间范围，适当调整缓存时效：

实现方案：对分析条件中的时间进行判断，根据不同场景设置不同的时效

在数据变更量在一定范围内时，业务上允许介绍一定的误差。假设分析指标中相关事件从缓存时开始计数，对于的事件pv的变化量未达到前7日平均pv 的 1% ，则不进行缓存刷新。

以下为实现方案：

1.数据流处理时，记录每个event 的持续累加次数：(total_pv) 和过去N日的日pv:（20181201\_pv,20181202\_pv....dayN\_pv)

2.后续在进行查询时，会检索查询条件中所有事件，如果其中任意事件触发以下规则,则清理缓存进行重新查询：

1 2	- 假设变化量阀值设为 %1 - 判断是否刷新缓存：(持续累积次数total_pv - 缓存时间瞬时pvx)/ 过去N日的平均PV >= 1%

对于任意事件，同样的计算规则，不针对单个事件，对所有事件进行持续累积。

bigdata, tech-solutions