文字
縮放
增大字体
减小字体
明尼苏达大学 杨宇泓教授:Model selection and combination for estimating treatment effects

([西财新闻] 发布于 :2019-07-23 )

光華講壇——社會名流與企業家論壇第5506期

 

主題:Model selection and combination for estimating treatment effects

主講人:明尼苏达大学 杨宇泓教授

主持人:统计学院统计研究中心 林华珍教授

時間:2019年7月23日下午2:00-3:00

地點:人人棋牌柳林校区经世楼E102教室

主辦單位:统计研究中心 统计学院 科研处

 

主講人簡介:

杨宇泓教授于1988年获中国科大数学学士,1993年获伊利诺伊大学统计硕士,1996年获得耶鲁大学统计学博士,现为明尼苏达大学统计系教授及Director of Graduate Studies。他曾荣获美国国家科学基金会杰出青年教授奖(NSF CAREER Award),此奖项每年只有1-2名学者获此殊荣。并于2010年成为(国际)数理统计学会会士。曾主持美国自然科学基金项目4项。其研究兴趣包括高维数据分析理论、模型选择和组合、多臂老虎机问题(Multi-Arm Bandit)、精准医学统计、预测,并在这些领域建立了很多重要且深刻的理论和方法,发表论文70余篇,其中18篇为独立作者(single author)。这些论文发表在统计、机器学习、信息论、计量经济、预测、逼近论等领域顶尖刊物,如Annals of Statistics, JASA, Biometrika, JRSSB, IEEE Transactions on Information Theory, Journal of Econometrics, Journal of Approximation Theory, Journalof Machine Learning Research, and International Journal of Forecasting等,在Google Scholar上的引用多达4000多次。

主要內容:

It is increasingly clear that a treatment’s effect on a response may be heterogeneous with respect to baseline covariates (including possible genetic information). This is an important premise of personalized medicine. Several methods for estimating heterogeneous treatment effects have been proposed. However, little attention has been given to the problem of choosing between estimators of treatment effects. Models that best estimate the regression function may not be best for estimating the effect of a treatment; therefore, there is a need for model selection methods that are targeted to treatment effect estimation. We develop a treatment effect cross-validation aimed at minimizing treatment effect estimation errors. Theoretically, treatment effect cross-validation has a model selection consistency property when the data splitting ratio is properly chosen. Practically, treatment effect cross-validation has the flexibility to compare different types of models. We illustrate the methods by using simulation studies and data from a clinical trial comparing treatments of patients with human immunodeficiency virus.

When estimating conditional treatment effects, the currently dominating practice is to select a statistical model or procedure based on sample data. However, because finding out the best model can be very difficult due to limited information, combining estimates from the candidate procedures often provides a more accurate and much more stable estimate than the selection of a single procedure. We propose a method of model combination that targets accurate estimation of the treatment effect conditional on covariates. We provide a risk bound for the resulting estimator under squared error loss and illustrate the method using data from a labor skills training program.

This work is joint with Craig Rolling and Dagmar Velez.

就基線協變量(包括可能的遺傳信息)而言,治療效果作爲響應變量的異質性表現得越來越突出。這也是個性化醫療的重要前提。目前已有集中估計異質性治療效果的方法。然而,少有研究關注治療效果各估計量之間的選擇問題。回歸函數的最優估計模型在估計治療效果時可能並不是最優的;因此,需要建立針對治療效果估計的模型選擇方法。我們構建了一個治療效果交叉驗證方法,目的是最小化治療效果估計誤差。從理論上講,當數據分割率選擇得當時,治療效果交叉驗證在模型選擇上具有一致性。在實踐中,治療效果交叉驗證在比較不同類型模型具有很好的靈活性。我們通過模擬研究和來自對比免疫缺陷患者治療效果的臨床試驗的數據來說明這些方法。

在評估條件治療效果時,目前的主流做法是根據樣本數據來選擇統計模型或程序。然而,由于信息有限,找到最佳模型可能非常困難,因此在備選過程中對多個估計進行組合通常能得到比單個過程更准確、更穩定的估計。我們提出了一種基于協變量的,能准確地估計治療效果的模型組合方法。我們還得到了平方誤差損失下估計結果的風險邊界,並使用勞動技能培訓計劃的數據進一步說明了該方法。

这项工作是与Craig Rolling和Dagmar Velez联合进行的。

☆該新聞已被浏覽: 次★

【打印本文】 【關閉窗口