日前,北京理工大学数学与统计学院虞俊副教授课题组及其合作者在数据采集方向上的系列研究论文“A new approach to optimal design under model uncertainty motivated by multi-armed bandits”和“Multi-resolution subsampling for linear classification with massive data”分别被统计学四大国际顶级期刊《Journal of the American Statistical Association》(JASA) 和《Journal of the Royal Statistical Society Series B: Statistical Methodology》(JRSSB) 接收发表。
在统计学中,获得数据的方法主要可以分为两种:统计调查和试验设计。如何高效地收集数据,进而对研究者感兴趣的课题提供准确有效的统计推断是数据采集的重要研究方向。这两篇论文分别针对数据采集中的模型不确定性下的试验设计问题和大规模数据分类问题提出了创新高效的解决方案。JASA论文的作者(字母排序)为艾明要(北京大学)、Holger Dette(波鸿鲁尔大学)、刘正夫、虞俊,JRSSB论文的作者(字母排序)为陈浩林、Holger Dette、虞俊。虞俊副教授为两个工作的通讯作者。
A new approach to optimal design under model uncertainty motivated by multi-armed bandits一文针对如何在一组候选模型的情形下做最优设计的问题,从多臂赌博机问题中得到启发,提出了一种在模型判别和参数估计间做平衡的序贯设计方法。在“真实”统计模型未知,但被认为包含在一组候选模型中的情况下,如何进行最优试验设计一直是统计领域广泛研究且具有根本性挑战的问题。在最优设计领域,如何安排合理的试验,使得收集的数据对模型选择与参数估计都有帮助是一个公开的难题。尽管已有诸多研究尝试解决此问题,包括贝叶斯方法(通过最大化期望信息增益)与频率学派方法(通过非序贯或序贯方式的最优设计),这些方法普遍存在诸如计算复杂度高、在参数估计或模型判别方面效率低下等局限性。上述论文提出一种创新思路,基于Thompson采样策略设计了一个序贯试验设计算法,能够自适应地平衡探索与利用,在模型判别与参数估计两方面都实现近似最优效率。该方法不仅在理论上提供了有限样本下的效率下界保证,还在多个实例中展现出优异的实际表现,标志着对这一长期难题的重要突破。

论文链接地址:https://doi.org/10.1080/01621459.2025.2487223
Multi-resolution subsampling for linear classification with massive data一文针对大规模数据分类中的计算效率与统计精度平衡难题,提出了一种创新的多分辨率最优子抽样方法(MROSS),为高效处理海量数据提供了新思路。在大数据时代,分类算法面临计算复杂度高、资源消耗大的瓶颈。大量的研究结果表明,子抽样方法能够降低计算成本,有效解决大数据的统计推断问题。但传统子抽样方法一方面仅依赖局部样本信息,忽略了未抽样数据的全局特征,导致估计效率受限,另一方面还具有方差膨胀的风险。如何在有限计算资源下兼顾统计精度与效率,成为亟待解决的问题。研究团队提出的MROSS方法首次将未入样数据点的简单统计量与入样数据点结合,通过多分辨率信息融合提升分类器性能。该方法通过动态数据分区,对高信息密度区域进行抽样,同时对低信息区域提取简单统计量(如均值),提高了估计效率的同时显著降低了方差膨胀风险。理论证明与数值实验表明,MROSS在Logistic回归、DWD等分类模型中,与传统最优子抽样方法相比,在额外计算成本可忽略不计的同时,显著提高了模型估计效率和预测精度。

论文链接地址:https://doi.org/10.1093/jrsssb/qkaf017
以上工作是虞俊副教授指导课题组博士生刘正夫、硕士生陈浩林,与北京大学艾明要教授、波鸿鲁尔大学Holger Dette教授等合作完成,得到NSFC grant 12471244 以及the National Key R&D Plan of China No. 2024YFA1016200.基金的资助。其中,第二项工作也得到了概率系黄逸超教授的帮助。
附课题组及负责人简介:
北京理工大学数学与统计学院试验设计团队积极开展国内外合作研究和学术交流,团队负责人田玉斌教授以及团队成员孔祥顺博士,王典朋博士,虞俊博士,陈建斌博士等分别与国内外知名试验设计学者,如C.F.Jeff Wu院士、艾明要教授、Roshan Vengazhiyil Joseph教授等建立了长期的合作关系。团队成员分别开展着试验设计理论与应用的研究,表现出强劲的发展势头。团队潜心育人,一方面倾力培养具有深厚统计学基础的科研人员,指导学生在《Journal of the American Statistical Association》《Journal of the Royal Statistical Society Series B: Statistical Methodology》等统计学顶级期刊发表论文。另一方面也注重通过指导应用统计专业硕士等培养“懂统计,会用统计”的数据科学从业人员。
虞俊,副教授。本科毕业于南开大学、博士毕业于北京大学,曾在美国佐治亚州立大学作访问学者。主要从事试验设计,抽样理论以及相关的统计应用研究工作。在《Journal of the American Statistical Association》《Journal of the Royal Statistical Society Series B: Statistical Methodology》《Journal of machine learning research》《IEEE Transactions on Pattern Analysis and Machine Intelligence》《Technometrics》《StatisticaSinica》等统计学权威期刊发表了30余篇高水平学术论文,其中3篇为ESI高被引论文。
刘正夫,北京理工大学数学与统计学院统计学研究生,主要研究方向为试验设计。在JASA期刊上发表论文一篇。曾获研究生一等奖学金、北京理工大学优秀硕士毕业生的荣誉称号。
陈浩林,北京理工大学数学与统计学院研究生,主要研究方向为大数据重采样理论与方法。在JRSSB期刊上发表论文一篇。曾获硕士研究生特等奖学金。