喜讯!ARClab团队论文被国际顶级期刊IEEE TKDE录用

浙江大学计算机系统结构实验室(ZJU ARClab)一年级博士生袁新宇的论文《Learning-based Sketches for Frequency Estimation in Data Streams without Ground Truth》于 2026 年 月被数据库和数据挖掘CCF A类期刊 IEEE Transactions on Knowledge and Data EngineeringIEEE TKDE)正式录用。该论文在陈文智教授和王总辉老师指导下完成,首次将压缩感知思想纳入学习型流算法的设计之中,在理论精度和任务效率上取得了新的突破。

期刊介绍

IEEE Transactions on Knowledge and Data Engineering 是数据挖掘、数据库系统、知识工程和人工智能领域的顶级国际学术期刊。 作为电气电子工程师学会(IEEE)计算机学会旗下的汇刊,TKDE被评为CCF-A 和中科院计算机科学大类一区Top期刊,在学术界和工业界均享有极高的声誉,是相关领域研究人员发表高质量成果的首选目标之一。TKDE通常审稿周期较长,录用率较低,要求论文在理论深度、创新性、实验完备性上都有卓越表现。

研究背景

在网络通信、数据库及金融等领域,面对海量无终止的数据流,受限于存储资源,基于哈希的草图(Sketch)技术虽成为高频估计的主流方案,但在处理齐夫或幂律等非均匀分布时往往精度不足。近年来,融合深度学习的学习增强型流算法通过预言机识别并隔离高频项,显著改善了重尾分布下的性能,然而这类离线有监督方法在实际应用中面临三重困境:流式场景中真实标签(Ground Truth)的不可预知性、模型因数据分布动态变化而迅速失效导致的频繁重训练需求,以及深度模型引入的额外时空开销与数据流单遍处理(One-pass)高效性要求之间的矛盾,这使得现有方案难以直接部署于真实的动态流环境

方案设计

我们的方法在不降低传统草图插入速度的前提下,持续训练机器学习模型,仅利用草图计数器来恢复每个键的频率。尽管该方法前景广阔,但其过程带来了以下两个挑战:(1) 首先是自监督问题。在无法获取真实频率或标签的情况下,无监督学习对于克服现有可能基于学习的频率估计算法所面临的实际困难至关重要。(2) 其次是可扩展性或复杂度问题。许多现代流式场景已演变为包含数万个不同条目的复杂系统,且整个键空间不可避免地包含一些未来才会出现的不确定键。为了降低针对每个键进行预测的复杂度,处理此类数据的模型必须具备高度可扩展性,以应对流数据规模无限增长的情况。

为应对这些挑战,我们提出了一种新的频率估计框架,称为UCL-sketch(无监督压缩学习草图),旨在融合基于方程的方法和基于学习的草图方法的优势。与学习增强型算法相比,该框架在实际可行性和准确性方面实现了显著提升,同时相较于基于方程的同类方法,其查询开销显著更低。与以往工作的一个显著区别在于,我们的模型完全无需真实值(ground-truth free),仅依赖下采样频率进行在线训练。这一特性赋予了UCL-sketch极大的灵活性,并使其能够快速响应流数据分布的漂移此外,为减轻大规模和无界流数据的影响,我们采用了逻辑桶logical buckets)的概念,将数据拆分并利用共享参数联合学习多个与桶相关的映射关系,从而构建出一种高效且可扩展的架构。

理论与实验

我们对 UCL-sketch 进行了全面的分析。我们的理论结果证实,其准确性在根本上是可靠的,因此只需对草图计数器进行充分的快照采样,即可在实践中实现高性能。此外,我们还为其各个关键组件背后的设计思路提供了严谨的论证。具体来说,就估计精度而言,我们所设计的算法显著优于主流方案,并且算法的实际表现可能会超越理论结果,这一点在后续的大量实证结果中得到证实。我们的评估涵盖了小规模和大规模流、不同的数据偏度(skewness)以及不同的内存使用情况。主要结果表明:(iUCL-sketch 实现的估计质量几乎媲美拥有未来插入完美知识的理想预言机infeasible oracle),且其准确度在很大程度上不受存储资源和流条件变化的影响。(ii)通过在查询时调用学习型求解器(learned solver),UCL-sketch 的运行速度比运行传统压缩感知算法快 1  2 个数量级。

作者介绍

论文第一作者袁新宇为浙江大学计算机系统结构实验室2025级博士生,主要研究方向为机器学习,网络测量,网络管理和优化等。

 


<<< 返回