• 书信范文
  • 文秘范文
  • 党团范文
  • 工作总结
  • 工作计划
  • 工作报告
  • 心得体会
  • 合同范文
  • 节日大全
  • 自我鉴定
  • 演讲稿
  • 汉字意思
  • 其他范文
  • 当前位置: 天一资源网 > 使用寿命 正文

    基于GS-LGBM的乘用车使用寿命预测研究

    时间:2023-01-22 08:35:09 来源:天一资源网 本文已影响 天一资源网手机站

    徐国强, 徐 妍, 郭德卿

    (1.中汽数据(天津)有限公司, 天津 300300;

    2.大连理工大学 经济管理学院, 辽宁 大连 116024)

    使用寿命是乘用车产品属性的基本要求,也是乘用车客户最看重的指标之一,是指汽车从投入运行到报废的整个过程,可以用累计使用年数或里程数表示。对乘用车使用寿命的准确预测在汽车产业的生产、销售、使用、置换和报废环节中起着至关重要的作用。

    在以往的研究中,关于寿命预测领域已经进行了大量的研究,但大多集中于零部件的使用寿命预测[1-3]、LED的使用寿命预测[4]以及人的寿命预测[5-6]等。目前,寿命预测的方法大体可以划分为基于数理统计的寿命预测和基于机器学习的寿命预测。王强等[7]基于轮胎径向刚度法提出车辆翻新轮胎剩余使用寿命不安全系数计算方法,从而判定和评价翻新轮胎的使用价值。黄民锋等[8]基于名义应力法以零部件的名义应力与寿命间的关系为基础,用最小二乘法得出应力-寿命(S-N)曲线的拟合方程进行疲劳寿命分析。曹惠玲等[9]采用欧式距离法计算时间序列之间衰退趋势的相似度,依据相似度大小赋予历史样本不同权重从而预测发动机剩余寿命。Chen等[10]提出具有自相关观测量的隐马尔科夫模型,用于制造系统剩余使用寿命的预测并提出最优维修策略。但统计方法的前提是大量的试验和数据的积累,而且数据量较小,对于大样本数据是不适用的。于是,一些学者尝试采用基于机器学习的寿命预测方法,克服了传统数理统计方法的一些弊端。目前,在该领域中应用最多的是人工神经网络和支持向量机,并在其基础上引入其他算法进行改进,从而提高预测精度。Mahamad等[11]和Guo等[12]分别采用前馈神经网络(feed forward neural network, FFNN)和递归神经网络(recurrent neural network, RNN)实现了轴承剩余使用寿命的准确预测,以提高机器的可靠性,降低维护成本。Zhao等[13]采用BP神经网络(back propagation neural network, BPNN)算法预测发动机剩余使用寿命,并在其损失函数中加入相邻的差分项,提高了寿命预测的准确性。Zhang等[14]提出了一种基于Levenberg-Marquardt算法和动量项的改进BP神经网络并将其应用于轴承剩余使用寿命预测,取得了更优的预测精度。张龙龙[15]针对轴承状态的不同退化趋势,分别构建不同的支持向量机模型,实现了轴承的剩余使用寿命分阶段预测。Chen等[16]提出了一种改进的基于相似度和支持向量机的方法实现了发动机剩余使用寿命的有效预测。

    然而,传统的机器学习算法仍存在一些不足从而影响预测精度。比如,神经网络容易陷入局部最优和过拟合,支持向量机存在对缺失数据敏感度高和计算量过大的问题。大量研究表明,集成学习相比单一学习器具有更高的准确性和泛化性能。近年来,基于决策树的集成模型在机器学习领域应用广泛。Zheng等[17]采用梯度提升树(gradient boosting decision trees, GBDT)实现了锂离子电池剩余使用寿命的预测,证明了GBDT算法在预测精度上的优越性。Que等[18]采用极端梯度提升树(extreme gradient boosting, XGboost)和基于相似度的动态时间规整(dynamic time warping, DTW)算法实现了汽轮机的异常检测和剩余使用寿命预测,取得了优于支持向量机的预测性能。与XGboost相比,轻量梯度提升机(light gradient boosting machine, LGBM)拥有更高的训练效率和更低的内存占用率,并有效应用于贷款违约预测[19-20]、风速预测[21]、股票指数预测[22]、电力负荷预测[23]等领域。

    因此,本文基于优化的LGBM算法构建乘用车使用寿命预测模型,并分析各影响因素对于预测乘用车使用寿命的重要程度。通过对2014—2019年乘用车报废数据进行大量的计算研究,基于25个特征维度利用LGBM算法预测车龄,采用网格搜索对LGBM算法参数寻优并进行十折交叉验证,并与4种传统单一模型以及5种基于决策树的集成模型进行对比,以期可以更准确高效地预测乘用车使用寿命。对于保持车辆在使用过程中具有良好的性能,节约能源、减少污染,从而增强车辆的经济效益和社会效益;
    指导车主及时采取合理措施对车辆进行维护,避免维护不足或维护过剩的问题,减少交通事故和意外维护,从而减少人员伤亡和经济损失;
    进行二手车评估时准确判断车辆的剩余使用寿命,合理估测车辆的成新率,从而尽可能准确地确定被评估车辆的价格;
    权衡各方面因素合理制定整车质保等方面具有实际意义。

    大量研究表明,集成学习相比单一学习器具有更高的准确性和泛化性能。近年来,回归树模型在机器学习领域应用广泛。Freidman[24]提出的GBDT算法是集成多个回归树的主流方法。在算法迭代过程中,以损失函数的负梯度近似残差去构建一个树,每一个弱学习器都能从之前的树中检测到残差进行纠正,将来自多个回归树的所有结果相加,从而得到最终预测值。然而,当数据量很大或特征维度很高时,GBDT需要遍历所有的数据来寻找最优分裂点,导致其计算复杂度会变得非常高,十分耗时。为了进一步优化GBDT算法的预测精度和效率,Chen等[25]提出了XGboost算法,在代价函数上做二阶泰勒展开,使预测模型的性能进一步提升。2017年,微软开源了一个比XGboost更强大、速度更快的模型——LGBM[26]。与XGboost相比,LGBM拥有更高的训练效率和更低内存占用率,解决了GBDT在处理海量数据时遇到的问题。在Kaggle等各种数据挖掘比赛中,LGBM也是一种致命武器。得益于LGBM算法在处理大规模数据挖掘问题上的优越性,本文提出了基于网格搜索优化LightGBM(GS-LGBM)模型的乘用车使用寿命预测方法,实现了对乘用车使用寿命的精准预测。其模型结构如图1所示。

    图1 优化的GS-LGBM模型结构

    结合使用基于梯度的单边采样(gradient-based one-side sampling, GOSS)和专有特征捆绑(exclusive feature bundling, EFB)的GBDT算法就是LGBM,其主要优化技术包括Histogram算法、leaf-wise生长策略、直方图做差加速、支持类别特征和支持高效并行等。

    Histogram算法是将连续型特征离散化为k个值并构造相应的直方图。通过遍历样本可以得到每个离散值的个数,进而遍历离散值找到最优分裂点。其训练和预测过程见表1。在Histogram算法的基础上,LGBM进一步优化,采用按叶子生长(leaf-wise)的策略取代原有的按层生长(level-wise)策略,循环挑选分裂增益最大的叶节点进行分裂。Histogram算法还可以进一步加速,通过将父节点与兄弟节点的直方图做差可以直接得到叶节点的直方图,而无需遍历所有数据,从而达到加速的目的。此外,LGBM克服了大多数机器学习算法无法直接输入类别特征的弊端,优化了对类别特征的支持,而无需将其转化为one-hot编码,且具有支持高效并行的特点,从而提升了空间和时间的效率。

    表1 直方图算法

    在数据量大或特征维度高的情况下,减少数据量和特征维度而不影响预测精度是提升效率和扩展性的直接方法。为了减少训练样本,通常采用欠采样的方法,但已有算法都是基于Adaboost,而不能直接用于GBDT。为了减少特征维度,通常使用主成分分析法等降维算法来过滤弱特征,但这些算法通常是基于特征具有强冗余性的假设,实际中并不实用。GOSS通过区分不同梯度的样本,保留梯度较大的样本,同时对梯度小的样本随机采样来减少计算量,从而在保证精度的前提下达到提升效率的目的。EFB(互斥特征捆绑)是通过捆绑互斥特征来减少特征维度的方式,从而在不丢失信息的前提下提升计算效率。

    为了提高模型的预测精度,需对LGBM模型进行参数优化。网格搜索(grid search)对于参数优化十分有效,采用穷举搜索循环遍历全部候选参数,以挑选误差最小、模型表现最好的参数组合进行最终的预测。在此基础上对基于网格搜索优化的GS-LGBM模型进行十折交叉验证,以防止选取数据不均衡,从而提升模型的泛化能力。

    2.1 数据准备及预处理

    本文所使用的数据来源于中汽数据(天津)有限公司乘用车报废数据,记录了从2014年到2019年共1 930 475个报废样本,包含了报废时间、车龄、区域、使用性质、车型信息、车辆技术参数等26个维度,其中有15维是类别型数据,11维是数值型数据,车龄即为衡量乘用车使用寿命的目标变量。汽车使用寿命的长短不仅取决于汽车的设计制造,还取决于驾驶技术和维护保养等人为因素[27],由于驾驶技术和维护保养因人而异,为避免主观人为因素干扰,假设驾驶技术和维护保养是一定的。实验中最终使用的变量见表2。

    为了提高预测的准确性和训练效率,分别对原始数据集的变量和记录进行了数据预处理。将价格、功率等区间型的数据根据专家经验转换成均值或最大最小值,删除缺失值和异常值,处理后得到894 125条数据样本。针对类别型变量,采用标签编码将类别文本转换成整型标签,为了适应线性回归、K近邻(K-nearest neighbor, KNN)和BP神经网络等传统机器学习算法,将每个变量进行独热编码转换为标签为0或1 的多维变量。针对数值型变量,根据式(1)采用Z-score进行标准化处理,标准化后的数据是均值为0、方差为1的正态分布。

    (1)

    式中:x为原始数据;
    μ为x的均值;
    σ为x的标准差。

    表2 变量描述

    2.2 实验设计

    将25个所选特征作为输入样本,车龄作为输出样本衡量乘用车使用寿命。然后随机将样本实例的90%划分为训练集,10%划分为测试集利用LGBM模型进行训练。将平均绝对误差(MAE)、中位绝对误差(MEAE)、均方误差(MSE)和拟合优度判定系数R2作为评价指标。学习曲线可以很好地展示训练集的拟合效果及模型性能,图2展示了损失函数为l1(MAE)时的训练过程。

    图2 训练LGBM的收敛曲线

    2.3 算法比较

    为了检验模型的预测性能,将LGBM与KNN、线性回归(linear regression, LR)、BPNN和支持向量机(support vector machines, SVM)4种传统单一模型以及XGboost、分类提升树(categorical boosting, catboost)、随机森林(random forest, RF)、GBDT和自适应提升树(adaptive boosting, Adaboost)5种基于决策树的集成模型进行对比,在所有的比较实验中都进行了十折交叉验证,所得结果为10次独立运行的平均结果,以防止选取数据不均衡,从而提升模型的泛化能力。几种算法的对比结果见表3,可见LGBM从MAE、MEAE、MSE和R2各项指标来看均为最优,同时其训练时间也非常短,仅次于LR,能够快速准确地预测乘用车的使用寿命,在众多机器学习算法中预测效果最好。

    表3 不同算法的预测结果对比

    2.4 参数优化

    训练参数的选定是训练机器学习模型的重要步骤,这一过程将直接影响模型的预测性能。因此本实验利用网格搜索在LGBM模型上进行调参,选出最优的参数组合:学习率为0.1,最大深度为8,叶节点数为15,弱学习器个数为500。参数优化后的GS-LGBM模型预测结果见表4。可见相比原始的LGBM模型,参数优化后的LGBM模型的MAE降低11.02%,MEAE降低15.05%,MSE降低14.45%,R2提升7.46%,说明优化后的预测精度及模型效果有很大的提升。

    表4 GS-LGBM与LGBM预测结果对比

    为进一步分析输入特征对使用寿命预测结果的贡献度,采用随机森林算法进行特征重要度排序,得出影响因素的重要性。图3列出了所选特征中排名较为靠前的14个特征的重要性结果。

    由图3可知,特征重要性最大的为省份,其重要度可达一半以上。可见,由于不同省份的道路状况、城镇化率、车辆密度等均有不同,会在很大程度上影响乘用车使用寿命。其次,从时间维度上来看,乘用车使用寿命是逐年增加的,由于技术的进步,车辆的质量和稳定性均有所提高,因此年份对于乘用车的使用寿命影响显著。再次,国家政策对于乘用车使用寿命也有着莫大的影响,随着国家排放标准的升级,一旦车辆环保不通过被贴黄标了,就算还未达到使用年限也等于是报废,因此乘用车的排放标准也是影响其使用寿命的重要因素。此外,乘用车的油耗与使用寿命也有着很大的关系,由于发动机使用时间长了之后会影响车辆的油耗,使用年限久的汽车,发动机性能下降,相应油耗就会增加,同时驾驶习惯和维修保养也会对油耗有一定的影响。最后,品牌和车型也在一定程度上决定了乘用车的使用寿命,由于技术和质量上的差别,相对而言,合资车比自主品牌乘用车的使用寿命会更长一些。

    图3 特征重要性排序

    本文针对乘用车的使用特点,提出基于GS-LGBM 的乘用车使用寿命预测模型,并分析各影响因素对于预测乘用车使用寿命的重要程度。通过对2014—2019年乘用车报废数据进行了大量的计算研究,基于25个特征维度利用LGBM算法预测车龄,并与KNN、LR、BPNN和SVM 4种传统单一模型以及Xgboost、Catboost、RF、GBDT和Adaboost 5种基于决策树的集成模型进行对比。为进一步提升模型预测精度,采用网格搜索算法对LGBM模型进行参数优化。根据实验结果得到以下结论:

    1)与其他4种单一模型和5种集成模型相比,LGBM算法在MAE、MEAE、MSE和4项指标上均明显优于其他算法。

    2)相比原始的LGBM模型,参数优化后的GS-LGBM模型具有更高的预测精度和模型效果,其MAE降低11.02%,MEAE降低15.05%,MSE降低14.45%,R2提升7.46%。

    3)对于乘用车使用寿命预测影响度最大的特征为省份,其重要度可达一半以上,其次依次为年份、排放和油耗。

    4)该方法可以更准确高效地预测乘用车使用寿命,对于保持车辆在使用过程中具有良好的性能,节约能源、减少污染,从而增强车辆的经济效益和社会效益;
    指导车主及时采取合理措施对车辆进行维护,避免维护不足或维护过剩的问题,减少交通事故和意外维护,从而减少人员伤亡和经济损失;
    进行二手车评估时准确判断车辆的剩余使用寿命,合理估测车辆的成新率,从而尽可能准确地确定被评估车辆的价格;
    权衡各方面因素合理制定整车质保等方面具有实际意义。

    猜你喜欢 使用寿命乘用车预测 无可预测黄河之声(2022年10期)2022-09-27筒间密封装置使用寿命研究舰船科学技术(2022年10期)2022-06-17选修2-2期中考试预测卷(A卷)中学生数理化(高中版.高二数学)(2022年4期)2022-05-25选修2-2期中考试预测卷(B卷)中学生数理化(高中版.高二数学)(2022年4期)2022-05-25选修2—2期中考试预测卷(A卷)中学生数理化·高二版(2022年4期)2022-05-09基于KCC-PF的锂离子电池剩余使用寿命预测装备环境工程(2022年4期)2022-05-06国内市场主要乘用车型价格表中国汽车市场(2009年10期)2009-12-02国内市场主要乘用车型价格表中国汽车市场(2009年8期)2009-10-26国内市场主要乘用车型价格表中国汽车市场(2009年12期)2009-04-19国内市场主要乘用车型价格表中国汽车市场(2009年1期)2009-03-09 相关关键词: 手机保养小技巧,延长手机使用寿命! 如何延长手机使用寿命 使用寿命
    相关热词搜索: 使用寿命 乘用车 预测

    • 范文大全
    • 教案下载
    • 优秀作文
    • 励志
    • 课件
    • 散文
    • 名人名言