“弘文·尚德”成长营学术沙龙第四期 | 基于树的数据分类方法及应用专题
11月18日,纽约国际588888线路检测中心专业学位硕士教育中心在励耘楼B310举办了“弘文·尚德”成长营学术沙龙第四期第六场沙龙,主题为基于树的数据分类方法及应用,由国际商务与管理研究中心李久坤副教授主讲。
李久坤老师首先向同学们介绍了数据模型(方法)的选择策略:一是预测精度和可解释性的权衡,二是偏差和方差的权衡。接着对分类方法进行了简单的概述,介绍了分类的概念,有哪些常用分类方法(模型)及相应的应用场景,以及如何评估分类方法(模型),如混淆矩阵、ROC曲线等。然后通过文献实例,给出了决策树的概念,回归树与分类树的差别,进一步讲解了决策树“分而治之”的思想,其的核心问题是决策树的生长(如何划分)和剪枝。
针对这次讲座的主题,李老师用文献实例介绍了分类树的构造过程,给出了分类树区域划分的准则,如分类错误率、基尼系数和互熵,用图(R实现)展示了不同规模的树对应的交叉验证误差,训练误差和测试误差,以及根据交叉验证误差最小化剪枝的树。
李老师还通过讨论树方法的优缺点,向同学们介绍了以树为基本模块的集成法:装袋法、随机森林和提升法,这些方法能建立更有效的预测模型,但以牺牲可解释性为代价。在分类方法应用环节,李老师分别用决策树(分类树)、随机森林和提升法做了员工离职预测分析。
随着本学期最后一场学术沙龙的结束,同学们纷纷表示在各位老师的细致讲解下,对经济计量方法以及一些统计模型有了了解,受益匪浅。