400-606-2017
400-606-2017

数据可视化工具中的数据集除了ETL功能外还有什么用意?

2022年04月12日 |

传统的数据可视化工具中都有一个概念叫做数据集,算是一个数据缓冲。大家最最了解数据集的应用是在ETL方面,而厂家宣传最多的也是在ETL方面,用户写好一些SQL之类的数据应用,然后定时任务按照固定频率将远程的数据加载到本地,其中的过程可以加工处理一部分的数据,起到一定的ETL作用。

而这个数据集,我们可以看做是本地的嵌入式数据库,诸如Java H2这样的内存数据库。定时任务按照固定频率,从远程数据库执行既定SQL,抽取出来的数据,插入到本地嵌入式数据库,而前端程序从这些嵌入式数据库中,无任何业务逻辑,从本地直接抽取,从而极大的提升了系统相应速度。

不过随着数据量越来越大,这种数据抽取的弊端越来越大,越来越多的ETL已经被剥离出数据可视化工具,这块从越来越多的数据可视化工具推出数据库直连就能看得出。因为大数据量的冲击,极其容易造成服务器的宕机,数据量太大了,这种越俎代庖的模式,确实不应该是数据可视化服务器该做的。相反,这些ETL应该挪移出去,在数据库或者别的地方处理。

那既然是这样,数据集的概念为什么还要存在呢?我们刚才说了,这是一个缓冲的渠道。其实确实,这个确实还有一个缓冲的概念。很多传统数据可视化工具的设计,都需要两个步骤,先是创建数据集,然后根据数据集进行设计绑定数据。每一次用户都要不厌其烦的设计这两步,其实就是为了最后的设计步骤。因为SQL输入,然后需要一个解析的过程。之后才是数据绑定,这样就可以利用前一步的解析结果进行绑定了,这种模式,方便之处就是可以方便用户的二次修改。不足之处就是,开发业务的时候,需要额外的工作量。还需要额外维护数据集,如果数据集被别人不小心修改了,就会造成整体功能崩溃。而查找起来费时费力!

而作为数据可视化BI界的领航标,云蛛系统,则是采用另外一种思维,就是将数据集的概念取消,直接采用输入SQL解析,然后绑定,这种一条龙的方式进行,虽然说后期修改起来稍微有些不太方便,但是其每一次修改都需要设置一些关键参数的特性,保持了整体业务的正确性!

商务咨询

电话:400-606-2017

技术支持

微信:cobwebtimes

电话:400-606-2017

微信

微博