一飞开源,介绍创意、新奇、有趣、实用的开源应用、系统、软件、硬件及技术,一个探索、发现、分享、使用与互动交流的开源技术社区平台。致力于打造活力开源社区,共建开源新生态!
一、开源项目简介一键部署,一行代码接入,无需大数据研发运维经验,轻松驾驭海量数据实时统计。
支撑百万量级数据指标,打造成本最低的数据化运营方案,帮助企业快速搭建数据化运营体系。
流式统计运算性能超越Flink/Spark 100倍!
开源、免费、可商用的自助式BI系统,除大数据版本外,同时支持单机版!
二、开源协议使用Apache-2.0开源协议
三、界面展示开源版本Web端部分功能预览四、功能概述XL-LightHouse是一套支持超大数据量、支持超高并发的通用型流式大数据统计系统【同时支持单机版】。常见的应用场景包括:PV、UV统计;电商销售额、下单用户数统计;日志量统计;接口调用量、异常量、耗时情况统计;服务器运维监控等功能。支持多维度统计,支持各种复杂的条件筛选和逻辑判断,一键部署,一行代码接入,轻松实现各种海量数据实时统计。帮助企业低成本搭建数据指标体系,是企业降本增效的好帮手!
概述XL-LightHouse是针对繁杂的数据统计需求而开发的一套集成了数据写入、数据运算和数据可视化等一系列功能,支持超大数据量,支持超高并发的【通用型流式大数据统计系统】。XL-LightHouse目前已涵盖了各种流式数据统计场景,包括count、sum、max、min、avg、distinct、topN/lastN等多种运算,支持多维度计算,支持分钟级、小时级、天级多个时间粒度的统计,支持自定义统计周期的配置。XL-LightHouse内置丰富的转化类函数、支持表达式解析,可以满足各种复杂的条件筛选和逻辑判断。XL-LightHouse提供了完善的可视化查询功能,对外提供API查询接口,此外还包括数据指标管理、权限管理、统计限流等多种功能。XL-LightHouse支持时序性数据的存储和查询。项目特点通用型流式数据统计或许是唯一一种有可能支撑百万量级数据指标,而成本仍可控制在企业可承受范围之内的技术。 XL-LightHouse是开源社区世界范围内第一个也是目前唯一一个通用型流式大数据统计系统。 目前业内广泛采用的以实时计算、离线计算、OLAP为主的技术方案都太过于臃肿和笨重,如果替换为以通用型流式数据统计为主,以其他技术方案为辅的实现方式可大幅降低企业成本。XL-LightHouse期望使用更为轻巧和实用的技术方案应对繁琐的数据统计问题。
依据流式统计的运算特点而设计,并对每一种运算单元进行反复优化,使得每一种运算单元可以以非常低的成本,无限制复用;可以短时间内快速实现庞大量级数据指标,而这是Flink、Spark、ClickHouse、Doris之类技术所不能比拟的;一套系统三种用途,可作为:通用型流式大数据统计系统、数据指标管理系统和数据指标可视化系统。对单个流式统计场景的数据量无限制,可以非常庞大,也可以非常稀少,既可以使用它完成十亿级用户量APP的DAU统计、几十万台服务器的运维监控、一线互联网大厂数据量级的日志统计、一线电商企业的订单统计、也可以用它来统计一天只有零星几次的接口调用量、耗时状况;有完善的API,支持高并发查询统计结果;支持数据自动备份、可以一键导入历史数据、可以方便的执行集群扩容/缩容;前端基于最新版ArcoDesign(React版本)开发,页面清爽大气,操作体验非常好;支持自定义存储引擎;所有代码100%开源,方便进行二次开发;轻量级开箱即用,一键部署、一行代码接入、普通工程人员即可轻松驾驭;可以用来做什么?XL-LightHouse可应用在企业生产的众多环节,可以帮助职场人从容应对大量琐碎、重复性的数据统计工作,减少不必要的时间浪费,提高工作效率。
以电商企业来说:
可以为企业决策层提供其所关注的平台交易额、交易量、下单用户数、订单平均金额、人均消费金额等指标;可以为产品经理提供其所负责产品模块的pv、uv和点击率等指标;可以为运营人员提供关注的拉新用户量、各访问渠道用户量、站内各个广告位的点击量、点击用户数、点击收益等指标;可以为开发人员提供其关注的接口调用量、异常量、耗时情况等指标,可以辅助进行压力测试;可以为算法工程师提供其关注的模型训练时长、模型上线后的效果评测等指标,可以辅助进行ABTest;可以为运维人员提供其关注的是线上集群的CPU、内存、负载状况、IO、请求数、流量传输大小等监控指标;可以为UI设计师提供其关注的不同设计方案的点击转化对比情况;可以为数据分析师提供全面的数据指标更准确判断业务短板、业务走势、辅助决策层有针对性制定营销计划;可以轻松实现对各类复杂业务逻辑各主要环节的数据监控,及时发现问题并辅助问题排查。可以快速建立数据指标之间的交叉验证体系,轻松佐证数据指标的准确性。可以面向物联网及工业互联网场景实现各类设备上报数据相关指标统计和监控。更多示例可参考:
即时通讯场景演示技术类场景演示电商类场景演示资讯类场景演示XL-LightHouse面向企业至上而下所有职能人员共同使用,期望帮助企业以极低的成本,搭建起"遍布全身"的数据化运营体系!
不管是单机版本还是大数据版本,XL-LightHouse的线上维护成本极低,不需要您进行任何优化操作,平常只要关注下磁盘使用率、内存使用率即可,不管您是前端程序员还是UI设计师,您只要有一点点Linux使用经验,就可以完全驾驭XL-LightHouse。
五、技术选型系统设计架构系统包括以下几个模块:
Client模块,业务方接入SDK,用于上报统计原始消息数据;RPC模块,用于接收客户端上报的统计消息数据并对外提供统计结果查询接口;Tasks运算模块,功能包括封装各种流式统计运算场景,执行限流规则判断,解析各统计项的配置信息,消费消息数据并按统计配置进行计算以及保存统计结果;Web模块,功能包括对统计组和统计项进行管理维护、查看统计结果、设置限流规则和管理统计指标访问权限。系统默认集成的存储引擎为HBase,默认集成的RPC服务为Zeroc-ICE。系统支持自定义扩展,可根据自身情况选择相应的存储引擎和RPC服务。
系统设计XL-LightHouse是通用型流式大数据统计系统,它将流式数据统计需求抽象分类成多种运算场景,并对各种运算场景进行高性能的封装从而让每一种运算可以达到无限制复用的效果。 XL-LightHouse使用【统计工程-统计组-统计项】的三层结构来管理所有统计需求。每一个统计需求叫做一个统计项。用户可根据需要创建若干个统计工程,每个统计工程可包含多个统计项,而基于同一份元数据的多个统计项叫做一个统计组。
系统环境部署脚本支持Rocky、AlmaLinux、CentOS、RHEL、Ubuntu、Debian等操作系统,已测试过的系统版本有Rocky(8.5 , 8.6 , 9.0 , 9.1 , 9.2)、AlmaLinux(8.5 , 8.6 , 9.1 , 9.2)、CentOS(7.4 , 7.9 , 8.4)、RHEL(8.6)、Ubuntu(18.04 , 20.04 , 22.04)、Debian(10.2 ,10.12 , 11.1 , 12.4),建议您优先选择以上系统发行版;系统必须为64bit,CPU选择Intel型号;执行部署脚本需要使用root账号,并且服务器需要有外网访问权限(外网权限仅用于yum/apt安装依赖包),部署完成后不再需要root和外网访问权限;单机模式最低配置为:CPU-Cores>=4,Memory>=8G;集群模式至少需要3个节点,单节点最低运行配置为:CPU-Cores>=4,Memory>=16G;各节点的系统发行版、系统版本号、节点内存大小和CPU型号、磁盘容量建议保持一致。各节点时区保持一致,请配置时间服务器,不同节点的hostname不可相同,提前关闭系统防火墙。更多内容请查看 README.md 文档
六、源码地址访问一飞开源:https://code.exmay.com/