基于机器学习的我国网络借款人信贷风险评估

学校代号 10532 分类号学号密级 S1918W1289 专业硕士学位论文基于机器学习的我国网络借款人信贷风险评估学位申请人姓名培养单廖金红位金融与统计学院导师姓名及职称杨晓临副教授谢朝晖高级经济师学科专业金融研究方向新型金融和金融新业务论文提交日期 2021 年 4 月 10 日学校代号：10532 学号：S1918W1289 密级：湖南大学专业硕士学位论文基于机器学习的我国网络借款人信贷风险评估学位申请人姓名：导师姓名及职称：培养单位：专业名称：论文提交日期：论文答辩日期：答辩委员会主席：廖金红杨晓临副教授谢朝晖高级经济师金融与统计学院金融 2021 年 4 月 2021 年 5 月晏艳阳教授 Credit Risk Assessment of Chinese Internet Borrowers Based on Machine Learning by LIAO Jinhong B.E.( Jiangxi University of Science and Technology)2019 A thesis submitted in partial satisfaction of the Requirements for the degree of Master of Economics in Finance in the Graduate school of Hunan University Supervisor Associate Professor Yang Xiaolin and Senior Economist Xie Zhaohui April,2021 I 专业硕士学位论文摘要随着大数据、移动支付等以互联网为载体的现代信息科技的迅速发展，网络借贷作为新型金融模式迅速发展壮大。借款人是网络借贷的主要参与者，其信用风险影响到了网络借贷平台的发展，而大部分的网络借贷用户都是央行征信体系中的白户，相关的信用信息极少。因此如何将机器学习方法运用到互联网金融领域，判断借款人是否违约，提升网贷行业的效率，是学术研究和行业发展的迫切需要。本文基于文献研读，说明了网络信贷的相关定义以及网络借款人信贷风险成因，分析了网络借款人信贷风险影响因素，介绍了我国网络借贷平台的运营模式和发展情况，并以翼龙贷公司为例开展实证研究。首先收集了翼龙贷平台 2016-2020 年的信贷数据样本 50000 条，进行了数据清洗和量化，引入五折交叉验证划分数据集，基于此运用 SMOTE 算法对非平衡训练集数据做平衡处理，并分别对非平衡数据和平衡数据建立随机森林模型，根据五折交叉验证结果发现，平衡数据的随机森林模型性能明显优于非平衡数据随机森林模型。在性能优越的模型基础上，得出变量的重要性，结果表明：借款总额、年收入、信用等级和职位的重要性程度较高。综合实证结果，本文的模型和方法具有较好的综合性、客观性、全面性、普适性、准确性和便捷性，为我国各类信贷平台提供了实用性较高的模型参考。最后，本文对全文进行了总结并提出了相应的建议，为稳步推进我国网络借贷的合规发展贡献借鉴价值，具有较强的现实意义。关键词：网络信贷；信贷风险；SMOTE 算法；随机森林； II 基于机器学习的我国网络借款人信贷风险评估 Abstract With the rapid development of modern information technology based on the Internet, such as big data and mobile payments, online lending has grown rapidly as a new financial model. Borrowers are major participants in online lending, and their credit risk affects the development of online lending platforms. Most of the online lending users are white accounts in the central bank's credit investigation system, and there is very little credit information. Therefore, how to apply machine learning methods to the field of Internet finance, determine whether borrowers are in default, and improve the efficiency of the online lending industry is an urgent need for academic research and industry development. Based on literature study, this article explains the definition of online credit and the causes of online borrower credit risk, analyzes the factors affecting online borrower credit risk, and introduces the operating mode and development of online lending platforms in my country, and uses Yilong Loan Company as an example. Example to carry out empirical research. First, 50,000 credit data samples of the Yilongdai platform from 2016 to 2020 were collected, data cleaning and quantification were performed, and five-fold cross-validation was introduced to divide the data set. Based on this, the SMOTE algorithm was used to balance the unbalanced training set data, and A random forest model was established for unbalanced data and balanced data. According to the results of five-fold cross-validation, it was found that the performance of the random forest model with balanced data was significantly better than the random forest model with unbalanced data. On the basis of a model with superior performance, the importance of variables is obtained, and the results show that the importance of total borrowings, annual income, credit rating and positions are higher. Based on the empirical results, the models and methods in this article are comprehensive, objective, comprehensive, universal, accurate and objective, and provide a practical model reference for various credit platforms in my country. Finally, this article summarizes the full text and puts forward corresponding suggestions, which contributes reference value for the steady advancement of the compliance development of my country's online lending, which has strong practical significance. Key words: Internet credit; credit risk; SMOTE algorithm; random forest III 专业硕士学位论文目录学位论文原创性声明................................................................................................................. Ⅰ 学位论文版权使用授权书......................................................................................................... Ⅰ 摘要....................................................................................................................................... II Abstract................................................................................................................................... III 插图索引................................................................................................................................... VI 附表索引................................................................................................................................. VII 第 1 章绪论............................................................................................................................... 1 1.1 研究背景与意义..........................................................................................................1 1.1.1 研究背景...........................................................................................................1 1.1.2 研究意义...........................................................................................................2 1.2 文献综述......................................................................................................................2 1.2.1 网络信贷风险...................................................................................................2 1.2.2 网络信贷风险评估方法...................................................................................4 1.2.3 文献评述............................................................................................................8 1.3 研究内容与方法..........................................................................................................9 1.3.1 研究内容...........................................................................................................9 1.3.2 研究方法.........................................................................................................10 1.4 创新与不足................................................................................................................11 第 2 章理论分析..................................................................................................................... 12 2.1 网络信贷的定义.........................................................................................................12 2.1.1 网络信贷的定义..............................................................................................12 2.1.2 网络借款人信贷风险评估..............................................................................12 2.2 网络借款人信贷风险成因.........................................................................................13 2.2.1 信息不对称......................................................................................................13 2.2.2 道德风险和逆向选择......................................................................................14 2.2.3 征信体系不完善..............................................................................................15 2.3 网络借款人信贷风险影响因素.................................................................................16 2.3.1 宏观经济环境因素..........................................................................................16 2.3.2 借款人因素......................................................................................................16 2.3.3 网络借贷平台因素..........................................................................................17 第 3 章我国网络借贷发展现状............................................................................................. 18 3.1 我国网络借贷平台运营模式....................................................................................18 3.2 我国网络借贷的发展................................................................................................19 IV 基于机器学习的我国网络借款人信贷风险评估 3.2.1 我国网络借贷发展历程.................................................................................19 3.2.2 我国网络借贷发展现状.................................................................................20 3.2.3 翼龙贷公司发展现状.....................................................................................25 第 4 章网络借款人信贷风险评估......................................................................................... 27 4.1 数据的收集和处理....................................................................................................27 4.1.1 数据的获取......................................................................................................27 4.1.2 数据的预处理..................................................................................................27 4.1.3 数据集划分......................................................................................................29 4.1.4 非平衡数据处理..............................................................................................31 4.2 基于随机森林建立的模型及结果............................................................................32 4.2.1 模型的建立.....................................................................................................32 4.2.2 SMOTE 算法前后模型结果对比................................................................... 33 4.3 影响信贷风险的重要性变量分析............................................................................36 4.4 建议............................................................................................................................39 结论....................................................................................................................................... 41 参考文献............................................................................................................................. 43 建模算法代码....................................................................................................... 47 附录 A 致谢....................................................................................................................................... 50 V 专业硕士学位论文插图索引图 1.1 技术路线图................................................................................................................ 10 图 3.1 网贷问题平台量........................................................................................................ 21 图 3.2 图 3.3 问题平台区域分布.................................................................................................... 22 停业类型.................................................................................................................... 23 图 3.4 翼龙贷 2020 年累计用户量...................................................................................... 26 图 4.1 图 4.2 实证路线图................................................................................................................ 30 随机森林步骤............................................................................................................ 33 图 4.3 未平衡数据的随机森林 ROC 曲线............................................................................ 35 图 4.4 SMOTE-RF-ROC 曲线................................................................................................... 36 VI 基于机器学习的我国网络借款人信贷风险评估附表索引表 3.1 我国 P2P 平台的发展历程........................................................................................ 19 表 3.2 2019 年网贷行业运营情况....................................................................................... 21 表 3.3 表 3.4 全国转型及停业平台分布........................................................................................ 23 2015-2020 年网络小贷公司数量及其贷款余额..................................................... 24 表 3.5 翼龙贷平台 2019 年-2020 年运营信息................................................................... 25 表 4.1 表 4.2 数据预处理................................................................................................................ 28 五折交叉验证数据集................................................................................................ 30 表 4.3 平衡数据构成............................................................................................................ 31 表 4.4 表 4.5 原训练数据 RF-混淆矩阵......................................................................................... 34 原训练数据 RF-五折交叉验证结果......................................................................... 34 表 4.6 分类器评价指标计算................................................................................................ 34 表 4.7 表 4.8 AUC 值的判断标准..................................................................................................... 35 SMOTE-RF-五折交叉验证结果.................................................................................. 36 表 4.9 变量重要性................................................................................................................ 37 表 4.10 五折交叉验证前 3 个重要性变量排序.................................................................... 38 VII 专业硕士学位论文第 1 章绪论 1.1 研究背景与意义 1.1.1 研究背景互联网正以其开放性、广泛性和高效性等特点，改变着我们的社会经济活动，为社会经济的发展提供了助推之力。互联网金融融合了互联网技术和传统金融对资源的优化配置功能，展现了其经济便利、信息共享、普惠金融等优势，对传统金融做出了重要补充。随着互联网金融和民间借贷的发展，互联网借贷基于互联网以新型的金融模式迅速发展壮大。但近几年，随着网络借贷的不断发展，相关法律法规未及时更新完善，由于信息不对称导致了大量爆雷事件。面对网络借贷频出的金融风险问题，政府采取了相应的措施，加大对网络借贷的合规管理。在网贷平台逐步走向合规发展的阶段，恰与我国发展适度提前消费和“双创”小微企业对资金的强烈需求形成交汇，互联网借贷不仅大大降低了中小微企业融资门槛，还积极推动了普惠金融的发展，在提高金融服务质量等各个方面都发挥了重要作用。2017 年 12 月，我国政府要求各地应当在 2018 年推动辖内主要网络借贷机构的备案登记工作； 2018 年，网贷相关监管工作都是围绕着网络借贷的“整改验收”进行；2019 年，政府开展了互联网金融风险专项整治，优剩劣汰，优质平台得到了更大的发展空间，推动网贷机构回归信息中介本源，完成部分机构的备案登记工作；2020 年，政府继续深入加强互联网保险规范，完善对借款人的信用建设，推动不合规的网络借贷平台良性退出，进一步推进网贷机构全面接入央行征信系统，同时增强对失信人的打击力度。网络借贷以互联网为媒介，独立于正规金融机构体系之外，打破了民间传统熟人借贷的限制，以其自身的优势和特点成为民间借贷行为的补充，满足了大部分的理财、经营、消费和个贷需求，发挥了金融民主化和普惠金融的重要作用，由此所形成的信用机制、市场化机制和技术机制对金融改革有着深远的借鉴意义。在网络借贷中，借款人是主要的参与者，就当前的市场环境下，由于银行等金融机构的借贷门槛相对较高，很多个体或小微企业难以获得银行的贷款，只能通过互联网金融贷款平台融资，这些用户大部分都是央行征信中的信用白户，即从来没有办过任何银行贷款的人，并且个人无房贷、车贷，也没有为别人在银行做过担保，个人信用空白，但可以提供社保、工作、收入证明等。因此，在传统的信用评分模型的基础上，如何通过运用人工智能算法建立模型，评估借款人的信用风险，提高预测准确率，更加精准地将借款人与其风险承受能力相匹配，使最终的评估结果能够为各种网络信贷平台及其投资人的投资决策和放贷决策提供借鉴，以此提升整个网贷行业的效率，使行业健康、稳定地发展，是学术研究和行业发展的迫切需要。 1 基于机器学习的我国网络借款人信贷风险评估 1.1.2 研究意义首先，我国支持网络借贷合规平台发展。根据我国监管政策，我国监管机构以引导机构良性退出为主要工作导向，稳步深入推进我国网络借贷风险的专项整治。简言之，就是发展正规平台，清退非正规平台，管理信贷风险对于平台的合规发展是极为重要的，因此管理信贷风险有利于网络借贷机构合规发展。其次，在合规监管下，网络借贷是一种较好的理财方式。互联网借贷能够提高社会整体资本利用率，抑制高利贷的增长和扩散，促进经济发展和维持社会稳定。虽然网络借贷雷期时间较长风险较大，但是投资网络借贷的环境正在一步步变好，2019 年算是风险整治的一年，相关监管政策不断完善，各大平台也在积极参与监管。目前来说，网络借贷的市场是在加快走向规范化的。第三，在我国金融行业的发展历程中，网络借贷已经成为了普惠金融的重要组成部分，有其重要的存在意义，尤其是在解决小微企业融资困难、三农业务以及个人消费等方面，做出了较大贡献。第四，部分网络借贷暴雷的主要原因包括庞氏骗局、自融、流动性风险和借款人逾期还款，平台自身的问题需要借助监管机构的合规监管，而关于借款人的信贷风险，则需要平台加强自身的风险管控力度，严格评估借款人的信贷风险。因此，研究基于大数据研究网络借款人信贷风险的影响因素有着重大的理论和现实意义。第五，以 P2P 为例，通过对比整体客户群体的特性和违约客户群体的特性来分析网络借款人信贷风险产生的原因，并探究影响借款人信贷风险的个人特征，可以为网络小贷等其他金融借贷平台提供参考价值，具有一定的借鉴意义。综上，我国网络借贷行业仍将继续合规发展，但是影响网络借款人的信贷风险因素较多，网贷平台需要对借款人的信用有着足够的了解，才能保证借款人能够及时还款，而在大数据时代下，研究如何以更低成本、更高效率、更为合理地从借款人的数据中获取有价值的信息，提高平台的风险防控能力至关重要，因此研究借款人的信贷风险对于维持平台、行业、金融市场的整体健康稳定发展进而更好地服务于实体经济有着较为深远的意义。 1.2 文献综述 1.2.1 网络信贷风险随着网络贷款的兴起和发展，金融界和学术界不断聚焦于网络贷款领域，从网贷平台的运营机制，到投资者的投资决策，以及网贷用户的借贷行为和社交行为等方面，都展开了多方面的理论研究。为了降低信贷平台的信贷风险，部分学者从借款人的个人信贷风险水平及其标的质量等方面展开研究，已取得了一些具有代表性的研究成果。在识别网络借贷信用风险方面，蒋先玲（2020）等人指出，在我国金融市场中，网络借贷市场是信息不对称最严重的市场之一，任何网贷平台的相关用户对信用风险的识 2 专业硕士学位论文别和判断都会与真实情况产生偏差，导致借款人付出更高的借款成本，而平台和投资者对借款人的信用评估出现误差，往往忽略借款人的学历，网络借贷市场应当积极打破借款人征信数据的壁垒，尽可能使个人征信产品更加多元化 [1] 。张健（2020）认为虽然网络借贷在我国发展迅猛，但是带来了一系列的问题，引发了很多用户违约状况，建议网络借贷投资者在进行投资的过程中理性决策，平台和投资者对债务人的信用水平、偿债能力及其经济状况做一个充分的调查和了解，尽可能降低违约风险[2]。在网络借贷市场中借贷双方行为机制的研究方面，陈冬宇（2014）基于社会认知理论，以放贷平台的视角，构建了交易信任理论框架，研究发现，影响交易信任的主要因素为借款人的社会资本情况、借款请求的信息质量、放贷的信任倾向和平台的安全保障水平[3]。章宁（2018）等人构建了网贷平台上借贷双方之间的不完全信息动态博弈模型，发现借款利率、金额、期限、收益率和违约成本是影响借款人逾期的重要影响因素，运用二元 logistic 回归进一步研究，发现借款利率和期限与逾期率成正比，另三个因素与逾期率成反比[4]。闫钰炜（2019）引用博弈论、突变理论、社会动力学和观点动力学等理论和方法，对网络借贷平台用户的行为决策进行了研究计算，研究发现，在投资者的信任交互中，对平台的不确定性是影响其行为决策的关键因素，平台的信息披露可以突破借贷双方的信任壁垒，引导投资者行为决策的发展趋势和发展方向，这对网络借贷平台持续稳定发展有着至关重要的意义[5]。在网贷平台投资者贷款决策以及借款人违约影响因素的研究中，Tan（2011）等人认为网络借贷市场使借贷双方的交易更加方便快捷，通过考察网络借贷市场参与者的福利情况，建立了借贷双方的博弈模型，研究网络借贷市场的效率，结果表明借贷利率不仅反映的是借贷双方的借贷成本，还可以反映双方的福利状况[6]。Galak（2011）从性别、职业和姓氏三个维度进行研究，发现贷款人更偏向于投资给与自己有更多共同点的人[7]。 Wang 等（2013）研究表明，在网络社会中，关系越丰富的借款人越能够以较低的成本获取贷款，而且违约率更低 [8] 。Barasinska（2014）对德国一家大型的网贷平台上成功获得贷款的女性借款人进行研究，发现在其他条件不变的情况下，性别对个人借款人在该平台上获得贷款的机会没有影响，并提出女性歧视因网贷市场投资人的群体智慧而得以缓解[9]。廖理（2015）运用网络借贷平台的最新数据，探讨学历的高低是否影响借款人的违约概率，实证结果指出，高学历借款人按期还款的概率更高[10]。唐艺军（2015）等人以陆金所平台的用户为例，对网络平台的信贷风险成因进行了探讨，研究发现，用户的贷款利率、期限、教育程度、逾期次数和提前还款次数与借款人是否逾期呈正相关，用户的收入、居住地、生活情况、信用积分、借款次数和按时还款次数与借款人是否逾期呈负相关，同时男性发生逾期的概率大于女性，借款额度、有无逾期和借款次数与是否逾期无显著相关[11]。孙海莹（2015）在网络借贷公司相关业务特点的基础上，不仅从理论上分析了影响用户信用风险的因素，还通过层次分析法构建了评价模型，对网络信贷风险做了仿真模 3 基于机器学习的我国网络借款人信贷风险评估拟，研究结果表明，理性选择放贷项目，以降低平台信贷风险[12]。李星（2018）等人以拍拍贷为例，以流标次数为判断借款人信用状况指标，运用 Logistic 回归方法建立了借款人信用评估模型，结果表明此模型的预测能力较好[13]。刘洋（2018）根据我国网络借贷的发展现状及其用户的基本情况，运用层次分析法建立信贷风险评价体系，以红岭创投平台为例，通过模糊综合评价法分析了影响网络借贷平台信贷风险的因素，建议平台设立准入门槛和自律组织，提高平台的尽职调查能力和信息披露水平[14]。舒坤（2019）选取了 246 家“网贷”平台，9 个数据指标，运用 logistics 方法建立回归模型，结果表明平台的投资者和借款人数量是影响平台违约风险的主要因素[15]。马瑞（2019）收集了广东省 925 家网贷平台的相关数据，运用 Logistic 回归方法，研究了影响网络借贷平台违约风险的主要因素，研究发现网络借贷平台的运营质量同时受多种因素影响，平台的平均收益率水平呈显著正相关，存续年限、注册资本和用户评价等因素呈显著负相关，注册地无显著影响[16]。崔炎炎（2020）等人对我国 692 家网贷平台进行研究，应用了四种模型构建网络借贷平台风险评价体系，研究结果表明，支持向量机和随机森林算法的准确率较高，评价体系中排名位于前三的指标为：风险防控信息、评论信息和交易信息[17]。 1.2.2 网络信贷风险评估方法学术界和金融界探究企业和个人风险模型评估的方法由来已久，本文主要研究个人的信贷风险模型和方法。在现有文献中，早期主要通过信用卡来预测信贷风险，其中常用的个人信用评分方法都是基于专家的经验而进行的样本评价，具有强烈的主观色彩和局限性。在传统的信用评分模型中，逻辑回归、判别分析等方法备受推崇。结合金融理论与实践，为构建更为客观的个人信用评分模型，学术界对数理统计方法的运用日渐广泛。基于数理统计方法建立的个人信贷风险评分模型能够更加全面且客观的衡量个人特征，更加精准地预测个人违约概率。由于近几年大数据的爆发和积累，机器学习技术愈加成熟，更多学者将机器学习方法运用至评估网络借贷借款人的信用风险，在传统模型的基础上融合机器学习中的前沿算法形成的评估模型也在不断地取得新的突破，并在学术界得到认可。 1. 传统信用评估方法在传统的信用评估中，学者们提出了很多分析借款人还款能力和还款意愿的个人信用评分方法，如专家分析法，判别分析、逻辑回归、线性回归等统计方法，以及线性规划、K 最近邻、决策树等非参数方法，其中应用最为广泛的是逻辑回归、决策树等。判别分析（Discriminant Analysis）由 Fisher 首次提出，Durand（1942）首次应用判别分析法识别贷款风险，将对信贷风险的研究从定性分析过渡至定量分析的探索阶段 [18] 。Rosenberg（1994）在应用判别分析法评估贷款风险时，指出了判别分析法存在的制约条件，因为在研究过程中，收集的信息通常是已获得贷款的客户，而没有未获得贷款的客户的相关信息，导致判别分析会偏离原本的距离属性[19]。Hand（1997）等进行了 4 专业硕士学位论文深入地探讨，研究表明，若忽略样本自身存在的有偏性，只要样本变量近似服从正态分布，就认为样本适合进行判别分析[20]。在实际应用的过程中，在判别分析的基础上演化出了很多信贷风险评估模型，如 FICO 评分，就是基于判别分析方法研究探索而成。在二分类问题当中，逻辑回归（Logistic Regression）是一种比较常用的统计方法。逻辑回归函数的预测值会在 0 和 1 之间形成“S 型”曲线，因此它不服从线性分布，通常用极大似然估计求解参数，只要确定了模型系数，给定一组变量数值就可以计算出概率并预测结果。至今，仍然有许多学者运用逻辑回归法研究信贷市场中客户的信用风险。 Emekter 等（2015）利用网上贷款公司之一 Lending Club 的数据，评估了借款人的信用风险，研究发现，对高风险的借款人收取更高的利率仍无法补偿他们所带来的贷款违约概率，借款人的债务收入比、FICO 评分、信用等级和循环额度利用率对违约风险有着重要影响 [21] 。黄源（2019）运用了逻辑回归算法，把用户分为高用户和低风险用户，高风险用户将被拒绝发放贷款，实证结果表明，逻辑回归算法比以往的算法更加精确且运用更加广泛[22]。任晓萌（2020）采用逻辑回归模型对公司的信用风险进行预测，研究发现，我国上市公司信用资质从高到低的区域依次是华东、中南、华北、西南、东北和西北地区，在行业特征中，邮政业、仓储和交通运输的信用资质最好，批发和零售业的信用资质居中，房地产行业的信用资质最差[23]。层次分析法是将与决策有关的元素分解成目标、准则、方案等层次，在此基础之上进行定性和定量分析的决策方法。Chen（2008）等人分析了现有模型的不足，并构建了改进的基于 AHP 的多维信用评价模型，该模型能够更有效地揭示节点的真实信用状况，帮助节点根据自己的偏好选择合适的交易伙伴[24]。Aouam(2009)等人建立了金融机构信用评估与决策模型，用于评估潜在借款人的信用状况，基于基准的分析层次分析法，分析决策者基于知识和经验的主观决策，然后利用摩洛哥开发银行的一个实际案例对所提出的模型进行了应用和验证[25]。赵崤宏（2019）通过梳理相关文献，定性分析了影响大学生信用的众多因素，采用 AHP 层次分析法定量分析，选择了对于大学生信用风险影响较大的因素设计出风险评价数学模型,将风险量化评估，运用 Matlab 编程计算各因素的权重，构建出一个较为合理的指标权重体系，再运用德尔菲法采用五分制对每一指标的评价分值进行分配，得出一个较为完整的大学生信用风险评价指标体系[26]。最近邻（Nearest Neighbor）方法也是被充分运用于个人信贷风险评估研究领域，Yeh （2009）剖析了最近邻方法的特征，认为该方法不需要预先进行模拟训练，可以直接对信息进行分析处理，在个人信用评级方面表现出的效果较佳[27]。王海峰（2017）等运用模糊聚类与模糊识别相结合的方法，建立了评估网络借贷客户信用的模型，充分弥补了现有研究无法对新用户信用等级进行准确预测的不足[28]。Pratiwi（2019）等人对信用评估中的加权 k 近邻(WKNN)方法进行了评述，使用印尼一家私人银行的信贷数据，结果表明，基于修正分类百分比值为 82.4%的高斯核和矩形核具有较好的分类性能[29]。除了最近邻方法，聚类方法也在较多的研究中与其他方法组合构建成新的模型，Song（2020） 5 基于机器学习的我国网络借款人信贷风险评估等人提出了一种基于距离模型和自适应聚类的多视图集成(DM-ACME)学习方法来预测 P2P 借贷中的违约风险，实验结果表明了该方法的优越性，同时也说明了某些特征在贷款违约预测中的重要性[30]。决策树（Decision Tree）是较为常用的分类方法，可以对新出现的对象给出正确的分类。目前，较为常见的三种决策树算法别是 CHAID 算法（Chi-Square Automatic Interaction Detector ）、CART（Classiﬁcation and Regression Tree）和 C5，三者的区别在于树结构标准的不同，CART 使用 gini 指数作为分割标准，C5 使用熵作为分割标准，而 CHAID 算法则使用卡方检验作为分割标准。Lan（2018）等人在决策树模型中利用随机森林抽样加替换，自动迭代得到最优结果，建立了个人信用评价模型的自拟最优 C50 决策树，对个人信用评价质量有显著提高聚类方法（Clustering）不仅能提高信贷风险评估的精准性，而且还可以有效地解决样本偏差问题[31]。Yin（2019）比较了几种决策树分类算法的优缺点，选择了决策树 C5.0 算法作为建模方法，基于农村商业银行农户小额贷款的数据信息，建立了客户信用评价决策树模型，为农村商业银行对农户信用进行评价提供参考 2. [32] 。机器学习方法科学合理的模型可以提高个人信贷风险评估能力，全面且丰富的数据集、数据的处理和对数据的合理分析能够进一步提高个人信贷风险评估的精准度。人工智能技术随着信息技术的发展而不断地更新强化，与个人信用评估的融合应用更是不断地深入。常应用于信用风险评估的机器学习方法包括 AdaBoost、神经网络、支持向量机、随机森林等。 AdaBoost 算法主要通过对同一个训练集进行训练，训练出不同的弱分类器，再将弱分类器进行集合，构成强分类器。袁泉（2012）引入了组合分类思想，将 AdaBoost 组合分类模型应用于信用评估领域，从稳健性、精确性和应用范围三个方面分析了模型的性能，研究结果表明，Adaboost 组合分类模型在稳健性和精确性上均优于决策树分类模型、Logistic 回归分类模型、和 BP 神经网络分类模型，说明 Adaboost 算法能够使单一模型得精确性和稳健性同时兼得[33]。Li（2017）等人以澳大利亚银行的信用数据集为例，研究分类预测问题，基于特征选择和 PCA - Ada Boost -Logistic 集成学习算法进行测试，研究发现，AdaBoost 算法能够在提取关键特征的基础上提高稳定性，而且分类精度比 Logistic 分类器更高[34]。金俊玲（2018）对征信机构提供的数据进行处理，运用 AdaBoost 提升算法构建模型，结果表明该方法模型精度较高，分类器的平均性能达 80%以上[35]。神经网络（Neural Network，NN）主要模仿动物神经网络行为特征，并调整内部的大量节点之间相互连接的关系，以此完成对信息的处理，具备较强的自学习和自适应能力。在已有的文献中，有不同类型的神经网络均被运用于评估信用，如张道宏等（2006）基于神经网络构建了个人信用评分模型，基于神经网络的自学习、自调整和非线性映射功能，量化个人信用评估模型，并提出了解决模型实际应用的具体方法[36]。神经网络预测性能并不是最好的，如 Huy（2017）分别使用判别分析、二元决策树分析、逻辑回归 6 专业硕士学位论文和人工神经网络四种方法构建信用评分模型，研究结果表明逻辑回归效果最好，因为逻辑回归操作简单、易于解释、假设要求低。但在许多研究结果中，神经网络也表现出了较高的分类准确率[37]。蒋维（2018）构建了基于神经网络的个人信用评价模型，利用粒子群优化算法代替 BP 神经网络中的梯度下降算法，训练神经网络的权值和阈值,使神经网络模型具有更优的网络结构[38]。Guo（2019）为了评价评估算法的性能，提出了一种基于 BP 神经网络的借贷风险评估算法，搜集了 2015-2019 年的大规模网络贷款数据，对 Logistic 回归与 BP 神经网络方法做比较，研究发现，基于 BP 神经网络的算法性能优于传统的 Logistic 回归算法，能有效降低投资者风险[39]。支持向量机（Support Vector Machine，SVM）假设存在一个分离超平面能够完全将不同类别区分开来，在解决小样本、非线性和高维模式识别中，展现出许多特有的优势，可以用于分析数据、分类和回归分析，很多学者都将 SVM 作为主要研究方法应用于信用评分模型中。在近几年的研究中，Yao（2019）等人提出了一种新的 RFSVM 混合集成模型，该模型利用随机森林选择重要变量，并采用集成方法(bagging 和 boosting)对单基模型进行聚合作为鲁棒分类器，实验结果表明，该模型能够实现有效的改进，在信用评分 SVM 领域具有广阔的应用前景[40]。同时，在与其他方法的比较中，支持向量机也表现出一定的优势，如 Putri（2019）等人认为与 LASSO logistic 回归相比，SVM 方法的分类性能结果相对稳定[41]。余乐安（2020）等人以数据样本的非均衡特征为基础，提出了基于重采样与深度置信网络的 SVM 集成学习模型，并在数据样本的高维性特征上，提出了基于 AR- WSAB 的信用分类模型，结果表明根据信用风险分类数据集的特征选择合适的分类模型，有利于提高模型分类预测效果[42]。随机森林是在弱分类器集成的思想基础上，集成多个简单的决策树，形成分类能力更强的强分类器，不仅可以使单个决策树的泛化能力等到提高，还可以增强预测精度，解决过拟合问题。随机森林在分类方面表现出了一定的优势，James（2013）等首先说明了随机森林模型的诸多优点，如随机森林可以通过图形来解释和呈现出重要变量及其重要性排序，而且随机森林算法中的自变量没有分布假设，便无需创建虚拟变量，可以直接处理定性预测指标，随机森林模型还可以解释分析变量的随机子集，以此分析相关预测的影响因素[43]。Malekipirbazari (2015)基于随机森林算法构建了借款人违约状态预测分类器，在 Lending Club 数据集的基础上进行了实证研究，发现随机森林方法在预测借款人违约情况上的能力较强，并由于 FICO 评分和 Lending Club 自身的信用评级方法[44]。萧超武（2018）等运用了随机森林算法评估商业银行个人信贷业务中的客户信贷风险，并对多种算法模型进行对比，计量结果表明，随机森林的预测精度和稳定性都高于 CART、KNN 和 SVM[45]。除了对在信用风险的识别和预测方面，也有学者运用随机森林研究信用风险的影响因素，Gu（2019）以人人贷平台为例，搜集了相关的的个人信用数据，采用随机森林方法对个人信用进行预测，实证研究结果发现，借款人的婚姻状况、出生地、信用卡额度、年收入、贷款和信用卡逾期情况等相关因素对预测个人信用 7 基于机器学习的我国网络借款人信贷风险评估风险有显著的影响，并发现随机森林模型的准确性和特异性均优于支持向量机和 logistic 回归算法[46]。另外，在使用随机森林时，运用 Bootstrap 抽样法可以有效解决建模时无法提前预知误差项分布的问题。段德峰（2010）不仅介绍了 Bootstrap 的三种主流风险度量方法，还说明了他们在信用风险市场中应用，并通过 Bootstrap 样本的经验分布求解了预期违约概率 EDF[47]。张万军（2015）提出了基于大数据环境下的个人信用风险评估模型，并将该模型分为 3 个阶段，在第 2 阶段中将随机森林模型和 Logisitic 回归模型结合，构建了 RF-L 核模型，充分挖掘大数据信息，将这些信息转换为一定数量的具有风险评估能力的子模型，同时使用 Bootstrap 抽样法，对无法提前预知误差项分布的建模提供了一种有效的解决方案[48]。目前，国内学者广泛运用 SMOTE 算法来处理信用评估中的非平衡数据问题。王文敬（2019）基于“东证期货杯”统计建模比赛金融机构提供的个人征信数据，从平衡数据结构和组合模型两个方面来改进个人信用评分模型，平衡数据结构方面，通过 SMOTE 过抽样平衡样本，并对平衡前后的数据分别建立模型，比较 AUC 指标；组合模型方面，建立了新的 XGB -SMOTE -Logistic 组合模型，显著提高了预测准确性和可解释性[49]。张雷等（2020）为处理高维特征，采用随机森林算法，用 SMOTE 算法对训练集样本做采样处理，在模型训练阶段使用粒子群优化算法提高 XGboost 模型分类精度，结果表明，模型在评估时比一般的 GBDT 模型和网格搜索法有更好的精度与收敛性[50]。杜昕（2020）针对信用评估数据的不平衡问题，创新性地对经典 SMOTE 算法进行改进，提出新的过采样算法 MS-SMOTE，用核距离替代欧几里得距离，使线性插值更加合理，并根据少数类样本的分布情况，采用不同的插值规则，合成新的少数类样本，以次改变数据集的不平衡度，能够有效提高少数类样本的分类精度，降低模型的过拟合现象，体现了该算法的可行性及推广价值[51]。 1.2.3 文献评述综合以上对文献的梳理和分析，从定性研究到定量研究，从统计学分析法到非参数方法，从传统数理统计模型到集成性机器学习算法，尽管对于个人信贷风险评估的研究已经完成了多轮突破性发展，但是在对于优化影响个人信用风险方面的研究仍然在深入探索中，并已呈现出向智能化方向发展的趋势。评估个人信贷风险影响因素的实质是区别出“好”的借款人和“坏”的借款人，这是一个分类问题。传统的金融机构在对个人信贷风险的评估中主要是应用老专家的经验知识和统计模型相结合的方式得出客户的信用评分，从而根据给定的信用评分高低识别出“好”的客户和“坏”的客户。但是在互联网金融环境下的网贷市场中，一方面，与传统金融机构的覆盖人群相比，网贷的主要客户群体是与传统金融机构互为补充的众多薄文件人群，这些用户大多缺少央行征信记录，这对网贷借款人进行信贷风险评估提出了更大的挑战。另一方面，互联 8 专业硕士学位论文网技术的发展不仅推动了网贷市场规模的扩大，第三方数据的接入也丰富了用户的信息量，在借款人申请借款的过程中，网贷平台搜集的借款人的海量行为数据，还能以变量的形式完善借款项目和借款人的信贷风险评估指标体系。因此，以网贷借款人信用评分系统优化为首要目标，应用机器学习算法挖掘既有数据的价值，探索网贷借款人信贷风险影响因素的行为机制，对互联网借贷行业的发展至关重要，也是未来一段时间内该领域的重点研究方向。基于对文献的研究，发现在众多的机器学习算法中，随机森林算法的分类性能、泛化能力和准确率较高。随机森林的特点是能够处理高纬度数据，因其特征子集是随机选择的，在模型得出训练结果后，模型能够计算出变量的重要性系数，同时对缺失值不敏感，计算速度快，泛化能力强，能够简单实现，准确性较高。因此本文将采用随机森林的方法建立模型，对客户群体进行分类，区分客户群体的信贷质量，进而分析影响借款人信贷风险的重要变量。 1.3 研究内容与方法 1.3.1 研究内容第一章是绪论。首先介绍本文的研究背景及研究意义，其次是互联网金融借贷及其信贷风险评估的相关文献综述，以及本文的研究内容和方法，同时说明本文可能的创新之处和不足之处。第二章是理论基础。主要介绍网络信贷的相关定义，以及网络借款人信贷风险的成因，并从理论上分析影响网络借款人信贷风险的因素，为后文的研究奠定理论基础。第三章是我国互联网贷款的发展现状。这部分主要详细介绍了网络借贷的相关概念、运作模式、运作特征，在此基础上对我国互联网借贷发展现状进行了深入分析，同时以翼龙贷平台为例进一步剖析网络借贷的发展现状。第四章为实证研究。首先对来源于翼龙贷平台 2016 年-2020 年的数据进行清洗，其次运用五折交叉验证方法划分数据集，并采用 SMOTE 算法对训练集进行平衡，然后基于非平衡数据和平衡数据分别建立随机森林模型，对互联网金融借款人的信贷风险进行实证分析，运用训练集训练模型，再通过测试集进行验证，得出模型分类结果。评价并对比两个不同平衡性的数据集建立的分类器性能，再在评估信贷风险性能较好的模型的基础上，分析变量的重要性，即影响信贷风险的主要因素，为平台提供具有参考价值的变量指标，以便区分信贷风险高和信贷风险低的借款人员，提高信贷风险控制能力。同时结合实际经济意义，为平台做好信贷风险评估模型的建立和应用提供相应的建议。第五章为结论。对本文的实证研究结果进一步分析，同时对全文进行总结。 9 基于机器学习的我国网络借款人信贷风险评估本文技术路线图如下图：图 1.1 技术路线图 1.3.2 研究方法 1. 文献研读法本文第一章搜集了大量的国内以及国外对互联网金融借贷及其信贷风险评估的相关研究文献，同时对文献进行分析并归纳总结，为本文的研究提供了良好的基础。 2. 理论和实证分析相结合本文第二章和第三章为理论基础和发展现状分析，分析主要的发展情况，从理论上分析互联网借款人信贷风险的成因及其影响因素，同时从信贷风险管理的角度介绍本文的几个核心理论，通过理论进一步分析借款人信贷风险；本文第四章则是实证分析，以翼龙贷平台为研究对象，搜集大量该平台的散标数据，运用五折交叉验证划分数据集，使用 SMOTE 算法对训练集数据进行平衡处理，然后分别基于非平衡数据和平衡数据构 10 专业硕士学位论文建随机森林模型，将信用风险评估转化为二分类问题，分析模型的性能，比较两个模型的分类精度，并以较优的一类分类器为主，分析影响信贷风险的主要因素，为第五章的结论及建议部分提供具有实际意义的参考价值。 1.4 创新与不足（1）数据集的处理：在数据处理和变量的选择上，本文全面考虑了借款人的信息变量，综合考量借款人所在的区域性问题，如将借款人的所在地区以我国七大地域为标准进行分类，以此保证研究的全面性、精确性和覆盖性；（2）数据集的平衡：在处理非平衡数据上，本文使用了 SMOTE 算法对数据进行处理，若不对数据进行平衡，会导致分类倾向多数类样本，影响结果的准确性，本文在参数的调整过程中，正负类样本并非以 1:1 的比例平衡，而是以 3:5 的比例进行平衡，以确保数据的平衡性和真实性，以及后续模型建立的有效性；（3）研究对象：本文选择的是翼龙贷平台 2016 年-2020 年的数据共 50000 条，属于大数据样本；（4）研究方法：在实证研究的方法上，本文运用了随机森林算法，结合五折交叉验证和 SMOTE 算法，分别对 SMOTE 前后的数据建立随机森林模型，并对前后结果进行对比，同时根据五折交叉验证的结果，取均值得到模型的评估指标，并对模型分类器进行评价。随机森林是学术研究中大数据样本里分类效果较佳的算法，使信用风险评估工作更加科学合理地开展，提高结果的准确性。本文的不足之处在于数据的可获得的局限性，获取的数据不够全面，以致于在数据清洗过程中，对于每个特征值的分类也不够全面，最终影响经济意义分析。 11 基于机器学习的我国网络借款人信贷风险评估第 2 章理论分析 2.1 网络信贷的定义 2.1.1 网络信贷的定义网络信贷是指以网络为媒介，在相关的网络借贷平台通过线上填报申请借款，由网络借贷平台审核相关资料并发放贷款资金，即直接在网络平台上完成借贷程序的一种借款方式，其放贷门槛相比与银行及其他相关金融机构更低，且极具方便快捷的优势，作为一种新型的融资渠道，广泛受信用白户和中小微企业的欢迎，常见品平台包括京东白条、蚂蚁借呗、有钱花、美团借钱、翼龙贷等。网络信贷具备高效而便捷的特征，其高效性是基于强大的信贷系统的运行，以支持整个网络贷款流程，包括投资者的投资、借款人的借款申请、对客户申请信息的综合分析、对相应的客户发放适当地款项。为了维持平台的稳定运转，网络借贷必须建立强大的系统，以应对每天因大量交易而产生的数据分析和处理压力，需要花费巨大的人力、物力和财力，一旦平台无法承受，同时不能够合规管理平台，维持平台的流动性和安全性，就会产生暴雷风险，因此需要相关的政府机构的介入，促进行业的稳定、健康发展。 2.1.2 网络借款人信贷风险评估虽然网贷行业已经发展了十几年，但至今仍存在诸多问题，甚至有新的问题层出不穷。从借贷的参与方角度来看，网络借贷的信贷风险通常包括网贷平台的信贷风险和借款人的信贷风险等。而本文所探讨的主要内容是网络借款人的信贷风险，指借款人因缺乏还款能力或还款意愿，甚至故意拖延和其他欺诈行为，无法在规定日期内还款，由此产生的违约风险，使网络借贷平台无法及时收回款项，影响平台的流动性，投资者也难以追回本金，同时遭受预期收益的损失，从而导致平台暴雷。作为信贷业务的一种补充，网络贷款属于信用贷款，具有高流动性、低门槛的特征，大多数信用白户都是网络借贷的常客，又因白户的征信信息太少，极大地增加了平台对这些白户的信用风险评估难度，相对的，平台的风险也随之增大。在传统借贷市场中，信用评分出现以前，决定是否授信的判断标准是专家判断，专家判断成为影响授信的唯一因素。债权人常常总结过去的经验作为评估新借款人信用风险的基础，历史经验的总结过程较为漫长，甚至容易出现错判，具有极强烈的主观性，信赖度不高。而后，债权人使用信用评分标准化并量化信用决策，以消除专家评估法的主观性偏差。如今互联网和大数据急速发展，用户的相关信息可以通过更多的渠道收集和存储，数据量越发庞大，为了更加深入地对用户进行评估，引入了很多统计计量的方法，全面考虑多种变量，构建相应的统计分析模型，这对债权人做出合理的授信决策提供了很大的帮助。 12 专业硕士学位论文除了传统的信贷评估方式和统计方法，在后面的研究中，越来越多学者运用数据挖掘的方法，不仅对借款人的信息进行纵向的史今对比，还对不同借款人之间进行横向的信息对比，对具有相类似信息的借款人之间进行偿还贷款的记录对比，并以此作为是否向借款人发放贷款的判断标准。除了重视对发放贷款的判别，衡量以何种借款利率授予多大的借款额度，也能确定哪些用户可能会为平台带来更多的收益，其中信用评分或信用评级是衡量网贷借款人信用风险的重要参考依据。当前网贷市场中，借款人的信用评分通常是由网贷平台或者相关资信机构通过实地调查，或者是在信贷机构的信用报告信息以及网贷平台收集的借款人相关信息的基础上进行人工审核，一些更好的平台会运用多种统计分析方法对相关信息建立模型综合分析，评估出借款人的个人信用风险，以表示借款人的信用程度，并基于此确定贷款项目的相关额度和利率，在一定程度上说明借款人的借款意愿和借款能力。评估借款人信用风险的相关信息主要包括用户的个人基本情况、信用记录、财产信息、资产认证情况等，通常来说，借款平台和投资者可以通过借款人的信用信息分析其潜在的违约风险，以降低借款人违约而造成的不良贷款和投资损失。一般来说，违约风险越小的借款人会匹配更高的信用评分和信用评级，表明这类借款人按期还款的概率更大，这类借款人也能够更快通过贷款审核，并以更低的利率获得更高的借款额度。但是信用评分和信用评级还不足以全面反映借款人的信用情况，因此还需要通过更多的渠道获取更多地信息，用稳定且准确的方法去评估借款人的信用风险。 2.2 网络借款人信贷风险成因 2.2.1 信息不对称信息不对称理论主要说明不同人员对相关信息的掌握程度不同，在市场经济的各类活动中，手中掌握越多信息的人处于越有利的状态，信息越是缺乏的人往往处于劣势。该理论认为在市场中，大部分的卖家都比买家更加了解商品的各种信息，这时卖家可以通过向买家传递可靠的信息，以此在市场中获得利益，因为买家会努力从拥有信息的那一方获取商品信息。有时候，市场信息可以在一定程度上弥补信息不对称带来的问题，如股票市场。信息不对称在信贷市场表现非常突出，有些借款人为了达到以低息申请高额贷款的目的，或者为了能够申请到贷款，故意隐瞒自己的信息或者修改重要信息，包括个人财务状况、经营情况、还款意愿以及还款能力等，甚至在获取贷款之后，将资金用在其他地方，与申请时写的借款用途相悖，但信贷平台无法实时跟踪资金的流动，无法完全了解借款人的所有信息。由于信贷平台处于信息劣势，在评估借款人的信用风险时，容易出现偏差，和实际情况不符合，无法掌握借款人的真实情况，导致平台难以把控借款人的信贷风险，造成损失。由于缺乏有效的信用甄别手段，为了降低或转移这些可能存在 13 基于机器学习的我国网络借款人信贷风险评估的损失，平台会采取较高的准入措施，或者要求借款人提供担保人、抵押或者保险等，甚至产生了很多“不认信用、只认抵押”的经营模式。对于信息量太少的借款人，平台为了规避这些信息不对称带来的风险，通常会拒绝这些借款人的贷款申请，而商业银行也是由于信息缺乏的因素，无法大力支持这些群体的信贷。在互联网技术的帮助下，基于网络构建的网贷交易平台逐渐地解决了一些信息不对称带来的问题，但是仍无法全面解决。在网络借贷中，也存在很多信息不对称的问题，包括借款人的还款能力、意愿、借款用途和项目的质量等，平台仍然不能实时追踪贷款的用途，无法得知借款人是否存在欺骗行为，因此信息不对称也是造成网络借贷信用风险的主要原因之一。在网络借贷交易的过程中，借款申请是由借款人主动上传个人信息和贷款项目信息，投资者和网贷平台只能通过这些单一又片面的信息评估借款人的信用和意愿。由于现阶段网贷平台的征信体系尚未健全，借款人存在故意隐瞒或造假的情况，导致投资者和网贷平台处于非常被动的劣势处境，因此在网贷市场中，急需完善相关的征信体系，以降低借款人违约带来的信贷风险。 2.2.2 道德风险和逆向选择道德风险是指双方在交易过程中，其中一方总是面临着另一方为使自己的效用达到最大化而导致对方利益受损的情况，主要原因仍是信息不对称，这是由于本方不完全了解另一方的行为，难以观测或监督其行动而给本方带来风险。因此，道德风险具有损人不利己的特点，表示的是风险制造者获取的风险收益是建立在信息劣势方的损失基础上，是信息不对称的体现。逆向选择也是信息不对称的一种体现，常常造成“劣币驱逐良币”的现象，导致市场交易中的产品质量整体下降。在金融市场中，逆向选择体现的是越想得到融资的人，越有可能得到资金，但是往往会导致违约风险。这些积极的借款人由于信息不对称，无法判断借款项目质量的优劣，往往过于充分相信自己的还款能力，无法为自己匹配适合的借款额度，通常存在更高的信贷风险。在信贷市场中，信息不对称比较严重，因此道德风险和逆向选择格外突出。其中不对称主要体现在投资者、平台和借款人三者之间的信息不对称，若借款者不如实说明自身情况，则平台在面对不多期限不同额度的众多借款人时，很难根据仅有的信息条件准确评估借款人的信贷风险。款项发放后，平台不能够完全控制和及时跟踪借款人的贷款流向和还款行为，一旦借款人的金融知识和道德意识浅薄，就会存在采取风险行为的可能，导致信贷平台最终承受违约风险带来的损失。因此信贷平台的逾期利润率往往取决于借贷利率和违约风险的大小，由于信贷平台无法跟踪借款人的用贷情况，也无法准确评估众多借款人的信贷风险，若是盲目的提高利率，反而会致使低风险的借款人退出信贷市场，这就是逆向选择行为；若信贷平台引导借款人选择风险更高的贷款项目，即道德风险行为，会使信贷平台的平均风险上升，预期收益率下降。 14 专业硕士学位论文同传统的信贷市场一样，网络借贷市场中往往存在明显的信息不对称，进而出现道德风险和逆向选择的问题。信用较好的借款人会充分考量自己的还款能力，匹配合适的借款额度和利率，综合分析各项指标后选择相应的借款项目；而信用较差的借款人仅仅只是为了通过网贷获得尽可能多的资金，通常会忽略自己的还款能力与借款额度之间的平衡，甚至不在乎利率的高低。越多信用差的借款申请人，会带来越大的信用风险，导致网络贷款平台为了规避风险而不断提高平均利率水平，使借款成本不断上升，逆向选择行为会使更多信用好的借款人被迫退出网络贷款市场，网络借款市场一旦只剩下信用差的借款人，整体的坏账率就会大大提高，降低投资者的投资欲望，这种道德风险和逆向选择机制会导致网贷市场成为柠檬市场。为了防范和控制信息不对称带来的风险，国外的网贷平台积极和信用评级机构合作，国内的网贷平台则通过接入央行的征信体系和第三方征信机构，不断填补大量信用白户的征信信息，以降低信息不对称带来的影响和风险。 2.2.3 征信体系不完善中国人民银行征信系统是由国家设立的，主要由金融机构使用的金融信用信息基础数据库，囊括了企业和个人的信用信息，其主要责任是建设、运行并维护企业和个人征信系统。当前征信体系中的信息主要来源仍然只是商业银行等金融机构，主要记录了企业和个人在金融机构的借款、担保等信贷信息，以及企业的主要财务指标。目前央行征信体系仍不完善，数据信息来源单一，覆盖的人群较为片面。网络借贷自在我国发展到现在，一直处于“信息孤岛”的状态，主要是因为大多数网络借款人是信用白户，央行征信系统中没有对白户的相关记录，缺乏个人征信数据，导致部分借款人同时从多各平台借款，恶意骗贷，却没有足够的还贷能力和还贷意识。此外，征信机构间独立征信，征信标准差异化，就算征信机构规模很大，也很难使机构之间的征信信息数据达到共享互通，这容易造成授信重复。因此，我国的征信体系亟待完善，尤其是网络借贷，作为普惠金融的重点代表，其主要为个人和小微企业等对象服务，即银行等传统的金融机构没能完全照顾到的对象，努力帮助小微企业解决融资难、融资贵的问题，是信贷市场的的重要补充。网络贷款的借贷业务积累了很多小微企业和个人的海量数据，能够极大地丰富和完善我国央行的征信系统，有助于网贷平台评估价款人的信贷风险，进而减少违约带来的损失。近几年，在政府的合规管理下，网贷平台不断被纳入央行征信系统，以完善征信体系的建设，全面获取借款人的借贷信息，为衡量借款人的信用提供了有效的历史信息。 15 基于机器学习的我国网络借款人信贷风险评估 2.3 网络借款人信贷风险影响因素 2.3.1 宏观经济环境因素（1）宏观经济环境的好坏影响网络借款人信贷风险一般而言，若宏观经济整体下行，会导致部分小微企业在市场上的生存较为艰难，甚至倒闭关门，如 2020 年由于新冠疫情的影响，导致很多餐饮店、商店无法持续经营，被迫退出市场。除此之外，国家相关的经济政策调整也会影响企业的经营，经济发展具有周期性，经济处于不同的发展阶段，会影响企业的发展阶段，而且近几年的国际贸易争端和贸易壁垒也极大地影响了很多制造业和对外贸易企业的经营，企业的发展环境急剧恶化，经营风险增加，还款来源受阻，还贷能力下降，信贷风险随之上。因此，借款人的违约概率可能随着随着宏观经济环境的变化而变化。（2）区域性因素影响网络借款人信贷风险区域性因素是指不同区域之间的金融发展、地方政策、经济环境的不同，这些区域性间的差异会使借款人由于所在环境的不同而存在信用程度上的区别。若借款人所在的地区经济发展落后，发展动力不足，导致该区域更多的白户申请网贷，而他们的经济来源受阻，还款能力不强，还贷压力增大，影响借款人的信贷风险。 2.3.2 借款人因素（1）借款人客观条件借款人的客观条件即个人的基本信息，如性别、年龄、学历、婚姻和所处行业、职位等。这些都有可能是影响借款人信贷风险的一个特征，不同的性别、不同的年龄阶段、不同的教育程度和不同的家庭婚姻状况，都会在一定的程度上影响借款人的还款能力和还款意愿，但由于我国人口基数大，这些基本信息对信贷风险的影响没有明显的差异性。因为不同性别的人的收入稳定性没有固定的特征，不同的年龄阶段也有收入多和少的借款人，虽然他们的教育程度不一样，但同样受其道德观和价值观的影响。对于借款人的所处行业，每个小微企业和个人都有其所定位的行业，他们得生存和发展与行业的发展密切相关，若行业处于衰退阶段，则该行业存在很大的风险，相应的企业会出现经营风险，整个行业不被看好，行业发展不景气，便导致企业的盈利具有更大的不确定性，个人的收入来源也同样出现问题。因此，这些基本信息因素应当与其他因素综合考量，不能以一概全、一概而论。（2）借款人的还款能力理论上讲，借款人的还款能力越强，其信用风险越小，而借款人的年收入、还款的主要来源、工作情况、是否拥有个人房产和车产都能够直接衡量借款人的还款能力。通常来说，借款人的年收入越高、房产和车产价值越高、还款来源或工作越稳定，借款人的还款能力就越强。但不同的工作、不同的行业的工资不同，还款能力也会不同。此外， 16 专业硕士学位论文借款人的贷款记录、信用卡额度和借款利率也会从不同的程度上影响借款人的还款能力，若借款人的贷款记录过多，则借款人的资金周转容易出现问题，会影响借款人的还款能力；信用卡额度越高，不仅能够增强借款人的还款能力，还会增加借款人的还款负担；而借款利率越高，其还款的压力越大，也会影响借款人的信贷风险。（3）借款人的还款意愿借款人的还款意愿是信贷风险的一个重要因素，借款人的还款意愿越强，则违约的可能性越小；还款意愿越弱，信贷风险越高。由于信息不对称，借款人的真是还款意愿难以把握。（4）借款人的历史表现借款人的历史表现可以通过借款人的信用等级和征信报告考察，信用等级越高、征信越好的借款人，违约风险越低。 2.3.3 网络借贷平台因素（1）平台调查信息不对称由于信息不对称因素，导致平台掌握的关于借款人的信息不全面，甚至不能够确保信息的真实性，如借款人的真实用途无法得知，若借款人的个人行为不断，就会使平台陷入信贷风险。（2）平台债权复杂在网络借贷平台上进行借贷交易时，没有限制投资人的数量，这样就会出现一个借款标的对应多个投资人的情况。当借款人发生违约时，投资人不仅要面临与借款人之间的纠纷，还要处理与其他投资人先后获得违约赔的关系，这样的借贷模式给信用风险管理又带来更多难题。（3）贷款成本高信贷市场的信息不对称导致了严重的道德风险和逆向选择，平台为规避风险而对借款人收取更高的手续费和利率，导致借款人的贷款成本过高，通常称为借款人违约的一大理由。投资者和平台在获取高收益的同时，对应了借款人的高成本，导致借款人的经济压力上升，违约风险增强。 17 基于机器学习的我国网络借款人信贷风险评估第 3 章我国网络借贷发展现状 3.1 我国网络借贷平台运营模式网络借贷模式是我国新兴的互联网金融模式，主要涉及信贷市场中的借贷关系，以网络平台为媒介，由民间散户投资者出资，基于一定利息向借款人提供相应额度的借款资金，申请程序快速简单，门槛低，吸引了众多的小微企业和独立借款人。很多商业银行缺乏中小微企业和个人用户主要是因为这些用户带来的利差收益小，同时违约风险高，产生的坏账较多，为了降低风险，银行通常会对中小微企业和部分信用较差的借款人收取更高的利率，促使这些用户将网络借贷作为首选融资方式。目前我国的网络借贷主要分为以下几种模式：（1）保证本金/利息模式：该模式的本质是间接融资，主要由网络借款平台向投资者保证投资本金不遭受亏损，甚至能够收获利息收益。这种保证本金或利息的模式是当前我国比较流行的一种，平台不仅是中介，还成为了风险中介，为投资者寻找、审核借款人，同时对资金进行合理分配。但是这种模式对借款人的信息审核仍然运用的是线下审核模式，没有结合互联网技术优势，风险控制措施与传统金融机构相类似，但网络平台没有相应的制度性保障，更容易导致系统性风险。（2）纯粹 P2P 模式：本质上是直接融资，但是其与以往不同的地方在于，这种模式下的资金不是通过银行进行汇集后再分配的，而是以信息中介的身份，向借贷双方提供信息互通的渠道，但是平台本身不参与借贷双方，不介入交易过程，全凭投资者自己去选择借款人，并判别借款人的信用风险。（3）交易平台借贷模式：这种模式中有 2 家为 B2C 平台，4 家为 B2B 平台，包括京东金融和阿里等。这种平台机构主要是通过构建交易平台，在交易过程中获取客户的交易信息并分析客户的还款能力，以此衡量贷款的审批和发放。两者的差异主要体现在服务对象不同，B2C 平台主要面向平台上的供应链商家，而 B2B 平台定位于平台上的中小微企业。（4）众筹模式：众筹是指面向群众筹资，门槛低，多样化，依靠群众的力量进行融资。作为融资工具的补充，众筹不同于传统的融资方式，众筹可以以互联网为媒介，从很多人手中获取或多或少的资金，不需要再依赖于几家融资机构。（5）证券化资产销售模式：不同于其他模式，这种模式的优势不在于互联网技术，而是在监管方面具有一定的优势。传统金融机构受限于严格的监管机制，具有额度小、期限灵活的产品，但是难以销售，而这种新模式可以突破监管进行类似操作。 18 专业硕士学位论文 3.2 我国网络借贷的发展 3.2.1 我国网络借贷发展历程网络借贷模式是 2007 年从国外引入我国，并在我国迅速发展，初具规模。在整个发展历程中，以 P2P 模式的网络借贷为例，经历了大约五个阶段：表 3.1 我国 P2P 平台的发展历程阶段时间模式 Ⅰ 2007-2012 信用借款——初始发展期 Ⅱ 2012-2013 地域借款——快速扩张期 Ⅲ 2013-2014 自融高息——风险爆发期 Ⅳ 2014-2018 规范监管——政策调整期 Ⅴ 2018-2020 停业转型——清退整改期如表 3.1 所示，P2P 模式发展的第一阶段以信用借款为主，随着网络借贷的发展，越来越多的网络投资者接触网络借贷，引至更多的互联网创业者在网贷市场创业，但是他们的相关经验和金融知识较为薄弱，没有丰富的金融操控经验，只能借鉴其他平台，通过信用借款的方式，由借款人在网络平台申请并填写相关信息，平台对借款人的资料进行审核和评估，发放一定的借贷额度，借款人就能够凭借借贷额度在平台上发布借款标，并由投资者通过平台选择，向借款人提供资金。由于我国的信用体系尚不完善，平台之间没有充分的信息交互，出现了同一个借款人在不同的多个网络借贷平台同时借款的现象，这些借款人手中积欠了越来越多的贷款，无力偿还，以致平台产生坏账。为了解决相关问题，各个平台在 2011 年逐渐降低借款人的授信额度，由于多平台集中违约，导致网络信贷市场在 2011 年至 2012 年第一次发生大规模的违约风险，网络借贷平台最高违约额度高达 2500 万，截至现在，仍然存在很多坏账无法收回。第二阶段是以地域借款为主的快速扩张期，与第一阶段不同，第二阶段建立网络借贷平台的互联网创业者具备相关借贷经验，平台相对更加成熟，互联网技术也更加完善。基于此，国内的网络借贷平台迅速增加至 240 家左右。这一阶段的创业者了解民间借贷的风险，总结了前阶段平台发展的经验和教训，开始转换模式，为了吸引当地的客源，将模式打造成线上融资和线下放贷，便于平台及时追踪借款人借款资金流向、还款来源和抵押物的相关情况，降低信息不对称带来的风险。虽然借款风险得到了控制，但有些平台自身道德缺乏，被贪欲控制，同时在经营和管理上也有所欠缺，致使平台被挤兑倒闭。第三阶段是以自融高息为主的风险爆发期，该阶段平台以高息回报吸引了更多的投资者，然后通过投资者的投入偿还银行贷款、民间借贷，甚至用于投资自营项目，实质是通过 P2P 平台达到融资自用的目的，大大增加了平台的风险，导致 2013 年很多平台 19 基于机器学习的我国网络借款人信贷风险评估集中暴雷，主要是由于流动性出现问题，平台没有足够的现金流应对投资者大量提现的局面，使得越来越多的投资者产生恐慌，加剧集中提现的状况，致使平台倒闭甚至跑路。 2013 年，近 75 家平台暴雷，涉及资金越 20 亿。第四阶段是以规范监管为主的政策调整期，基于第三阶段大量 P2P 平台集中暴雷的情况，政府介入网络借贷市场的发展，表态鼓励互联网金融创新，并在政策上大力支持平台发展，吸引了越来越多的企业家进入了这个领域。为了控制平台的风险，政府着手抓紧行业的监管，分别从资金存管、备案等方面进行规定。随着越来越多人进入行业， P2P 平台之间的竞争不断加剧，出现群雄逐鹿的情况，大量平台退出市场，预期收益下降。2018 年又一次发生平台集中暴雷，更多的平台跑路和倒闭，行业面临着被深度清理的局面。第五阶段是以停业转型为主的清退整改期，由于 2018 年行业不仅没有健康发展，甚至暴雷的更为严重，引起了国内市场的恐慌，为了降低影子银行带来的风险，政府进一步收紧了对整个行业的合规监管，平台的合规压力越来越大，停业退出的平台也越来越多。随着越来越多的问题平台曝出，出现了更多的严重坏账，相关的监管已经不足以控制局面，政府不得不大量清退了 P2P 平台，同时严厉整顿了民间的借贷市场。截至 2020 年，P2P 平台已经被全面清退。 3.2.2 我国网络借贷发展现状截至目前，我国 P2P 模式的网络借贷历经近 3 次“暴雷”潮，虽然原因各异，但总体反映了同一个问题，便是在互联网开放性特征的基础上，P2P 模式的网络借贷缺乏有效的监管，使其偏离了本质，从而由信息中介演变成了信用中介。除了 P2P 模式，其他互联网借贷平台也面临着被纳入央行征信系统，被政府深入合规监管。 P2P 模式的网络借贷 3 次暴雷中，第一次暴雷发生于 2013 年，由于宏观经济不景气，而网络借贷独立于信贷市场监管，自融、假标和庞氏骗局等违法经营事件层出不穷，平台难以周转，提现困难，甚至卷钱跑路；第二次暴雷潮发生于 2014-2016 年，网贷行业准入门槛低，开始涌现大量平台，在监管逐渐涉足下，仍有不少平台违规操作，导致行业面临着第二次大清洗；第三次暴雷潮发生于 2017 年至今，在政府明令支持下，网贷行业又进入了更多的平台，竞争达到白热化阶段，但是受行业整体流动性的影响，投资者更加恐慌，为了解决民间借贷和影子银行带来的金融风险，国家不得不全面清退所有 P2P 平台。伴随着政府金融去杠杆政策的推进，违约风险的上升极大地恶化了网贷平台的偿付危机。目前我国互联网借贷发展现状主要有以下两个方面：（1）P2P 频繁暴雷，众多互联网借贷平台掀起转型浪潮，网贷平台失控，国家政策由“合规监管”到“全面清退”。 20 专业硕士学位论文图 3.1 网贷问题平台量数据来源：网贷之家（https://www.wdzj.com/）由上图可知，从 2015 年起，累计转型及停业平台量不断增加，主要由于 P2P 平台的高运行成本，如平台的运营维护成本、资金存管于银行的费用、平台的推广宣传成本、坏账清理成本等。此外，还包括合规成本、获取备案号等费用，加上政府在监管方面越来越严格，很多网贷平台被迫转型或停业退出。为了响应国家政策，禁止暴力催收贷款，加大了回收款项的难度，坏账增加，风控能力较差，以致平台暴雷。表 3.2 2019 年网贷行业运营情况 2019 年新增平台累计平台 1月 0 6655 1064 2871 2720 2月 0 6655 1021 2904 2730 3月 0 6655 975 2951 2747 4月 0 6655 869 3011 2775 5月 0 6655 805 3054 2796 6月 0 6655 739 3100 2816 7月 0 6655 642 3160 2853 8月 1 6656 554 3227 2875 9月 0 6657 509 3267 2880 10 月 0 6658 451 3305 2900 11 月 0 6659 403 3327 2926 12 月 0 6660 366 3354 2936 正常运营平台累计停业转型平台累计问题平台数据来源：网贷之家（https://www.wdzj.com/）如上表所示，2019 年我国网贷行业运营情况不佳，由于国家出台的各种合规监管政策，提高了行业的准入门槛，新增平台几乎为零，累计平台保持 6655 家，其中正常运 21 基于机器学习的我国网络借款人信贷风险评估营平台逐月下降，已从 2019 年 1 月的 1064 家减少到了 366 家，主要是因为平台出现的各种坏账问题，以及平台的停业转型计划。其中问题平台在全国各地的区域划分如下图所示：数据来源：网贷之家（https://www.wdzj.com/）图 3.2 问题平台区域分布通过上图所示，全国 34 个省级行政区域中，北京、山东、浙江、上海、广东五个地区的问题平台数量较多，大于 300 家，网贷问题较为严重；其次是河北、安徽、四川、湖南、湖北等地区，问题平台数均少于 100 家；其他地区的问题平台数较少，原因可能是由于大多数网贷平台均设立于经济较为发达的省市区域，导致部分区域的网贷平台基数大，出现的问题平台就比较多，而经济不太发达的地区网贷平台基数小，因此出现的问题平台就少。而下表是国内转型及停业平台的分布，由下表可知，广东、上海、北京、浙江、山东五个省市不仅问题平台数量多，其转型和停业平台在全国转型和停业平台的占比中均大于 10%，分别达到了 18%、13%、13%、10%、10%，其他省市地区占比均未高于 5%，由此可知，广东、上海、北京、浙江和山东五个省市的网贷机构平台出现的问题比较多，应当增强风险控制能力，加速合规监管，深入整顿清退，同时对投资者进行必要的警示和教育。 22 专业硕士学位论文表 3.3 全国转型及停业平台分布地区占比平台数地区占比平台数广东 18% 599 辽宁 2% 40 上海 13% 414 江西 2% 47 北京 13% 423 陕西 2% 47 浙江 10% 312 天津 2% 41 山东 10% 322 贵州 2% 47 江苏 5% 159 云南 2% 41 湖北 4% 109 新疆 1% 16 河北 4% 105 海南 1% 10 福建 3% 85 内蒙古 1% 15 重庆 3% 90 宁夏 1% 17 河南 3% 76 黑龙江 1% 20 湖南 3% 73 吉林 1% 16 四川 3% 80 山西 1% 23 安徽 3% 99 甘肃 1% 10 广西 2% 43 青海 1% 1 数据来源：网贷之家（https://www.wdzj.com/）图 3.3 停业类型数据来源：网贷之家（https://www.wdzj.com/）图 3.3 主要是说明网贷平台停业类型的分布，其中占比最高的事件类型平台跑路，占比高达 41%，其主要特征是平台小，规模不大，运营维护人员少，设立时间段，风控能力差，不能妥善经营，甚至没有独立 APP，平台网站也比较粗制滥造，资金没有银行存管，资金去向无法准确把握，导致了较高的逾期率和坏账率，平台追不回资金，只能选择跑路；其次占比较高的事件类型是平台提现困难，占比为 31%，提现困难时平台暴 23 基于机器学习的我国网络借款人信贷风险评估雷的主要因素之一，归咎于平台自身经营不善，坏账率高，前期调查和风险控制不到位，后期追不回款项，资金周转出现重大问题，导致投资人提现困难；最后三个类型分别是经侦介入、延期兑付和网站关闭，这些停业整顿类型均离不开平台经营不善、技术不完善的原因，同时受平台管理人员、借款人的道德因素影响。（2）网络小贷监管布局加速，新规出炉“紧箍咒”渐牢。网络小额贷款平台是主要以小额度的贷款业务为主，结合大数据和云计算等互联网技术，通过合法渠道和方式获取网络平台所累积的客户数据、交易信息和相关的消费情况，并在此基础上分析借款人的信用风险，衡量借款人的授信额度和贷款方式，并在线上完成借贷流程。网络小贷具有小额、分散的特征，符合我国产业政策和信贷政策，同样以服务三农、小微企业和低收入人群等普惠金融对象为主，贯彻普惠金融的理念，促进实体经济的发展，发挥着网络借贷的优势。随着互联网技术的进步，网络小贷以其数据、场景、流量等优势，使互联网借贷行业蓬勃发展，同时为了使其健康发展，政府也在逐步建立相关的监管政策。随着互联网借贷的发展，2019 年开始步入“强监管”阶段，高压监管一直持续至 2020 年。2020 年政府发布了“网贷新规”，为互联网合规经营指明了方向，有利于网贷行业良性发展，督促相关平台和机构及时自我反省并纠正，保护消费者的合法权益，维持借贷市场稳定发展。网贷新规的发布不仅规范了网贷小额借贷平台的业务发展，更是防范了借贷过程中的各项风险，并要求对网贷的监管需要银行监管看齐，改善金融监管方面的欠缺和不足。表 3.4 2015-2020 年网络小贷公司数量及其贷款余额时间小额贷款公司数量小额贷款余额（亿元）） 2015 年 12 月末 8910 9412 2016 年 12 月末 8741 9293 2017 年 12 月末 8551 9799 2018 年 12 月末 8133 9550 2019 年 12 月末 7551 9109 2020 年 9 月末 7277 9020 数据来源：人民银行网站（http://www.pbc.gov.cn/）根据我国央行得相关数据显示，截至 2020 年 9 月末，我国共有小额贷款公司 7227 家，小额贷款余额为 9020 亿元。由表 3.4 可知，随着对网络小贷公司的监管改善，提高网络小贷整体门槛，网络小贷公司的数量和小额贷款余额逐年下降。未来对网络小贷平台的监管将不断完善，为投资者和借款人提供安全的网络消费信贷服务。 24 专业硕士学位论文 3.2.3 翼龙贷公司发展现状翼龙贷公司是国内最早的一批 P2P 平台，成立于 2007 年。翼龙贷公司在国内设立了很多运营中心，分散于几百个城市，覆盖了约 1000 个区县，并计划拓展至 3000 个。翼龙贷公司以为三农和小微企业提供借贷服务为核心宗旨，为普惠金融对象提供低成本、高效率、低门槛、安全稳定的投融资渠道，满足普惠金融对象的借贷需求。 2012 年，翼龙贷成为我国首家营业执照中包含“民间借贷撮合业务服务”的网络借贷企业，也是首个国家级金融综合改革试验互联网金融企业，成功转型为“同城借贷 O2O”，具备多维、全面、系统的风险管理系统。2014 年，该公司获得联想控股战略投资，成为联想控股成员企业，在资本、管理、人才和品牌的助力下快速发展。2015 年，该公司作为中国支付清算协会互联网金融专业委员会成员单位，成为第一批介入中国支付清算协会互联网金融风险信息共享系统的机构之一，极大地提高了平台的风控能力。表 3.5 翼龙贷平台 2019 年-2020 年运营信息日期新增借贷金额（万元）新增借贷笔数（笔）新增出借笔数（笔） 2020 年 10 月 57470.18 7678 109787 2020 年 9 月 35990.42 4863 105048 2020 年 8 月 28491.01 3771 116085 2020 年 7 月 32488.89 4635 114946 2020 年 6 月 32486.25 4725 124173 2020 年 5 月 22134.26 3255 82943 2020 年 4 月 31663.17 4689 140397 2020 年 3 月 33732.88 5330 148405 2020 年 2 月 33307.74 5363 133272 2020 年 1 月 79645.34 13634 159570 2019 年 12 月 82889.98 13123 167443 2019 年 11 月 40603.91 6367 155230 2019 年 10 月 59344.35 9398 149836 2019 年 9 月 94803.82 14954 171767 2019 年 8 月 87559.42 12321 186165 2019 年 7 月 79158.73 10520 186826 2019 年 6 月 72030.35 10249 193275 2019 年 5 月 68859.96 9953 222302 2019 年 4 月 69654.93 10583 232773 2019 年 3 月 93264.6 13860 313493 数据来源：中国互联网金融协会（http://www.nifa.org.cn/nifa/index.html） 25 基于机器学习的我国网络借款人信贷风险评估 2017 年前，翼龙贷平台由平台自身官网公布相关信息，2017 年起，转为由中国互联网金融协会信息披露系统公布，公开接受群体监督和检验。由表 3.5 来看，2019 年至 2020 年，受行业整体影响，翼龙贷在监管机构的高压监管下，凭借自身实力和优势，在新增借贷金额、借贷笔数和出借笔数上仍逐月增加。翼龙贷以其信息搜集的能力，和低成本、手续简单、催收灵活和风控机制等优势，在一定程度上解决了部分借贷需求，缓解了小微企业和三农人群的融资困难，促进了信贷市场的稳定发展。图 3.4 翼龙贷 2020 年累计用户量数据来源：中国互联网金融协会（http://www.nifa.org.cn/nifa/index.html）图 3.4 是翼龙贷平台截止至 2020 年的累计用户量，其中累计出借人数量高达 49 万多，累计借款人 29 万多，但受整个网贷行业暴雷、转型、清退浪潮的影响，当前剩余的出借人数量仅有 4 万多人，而借款人数量仍高达 16 万多。翼龙贷平台能够在整个行业清退浪潮中仍然维持运营，与其自身实力和优势有关，主要包括以下几个方面：首先，翼龙贷公司是合法的互联网金融借贷平台；该平台以联想控股为背景，接入金融风险信息共享系统，作为中国支付清算协会互联网金融专业委员会成员单位，兼北京市网贷行业协会常务副会长单位，表明了平台极具合法性。其次，翼龙贷公司是具备三证的合规网贷平台；翼龙贷平台已经成功备案，同时具备了国家信息系统安全等级保护三级认证和 ICP 经营许可证，接入了央行征信系统，资金由厦门银行存管，小额分散投资，具有普惠特性。第三，翼龙贷平台信息披露公正透明；平台相关信息由中国互联网金融协会披露，突出了平台的合法、合规性和透明性，能够积极接受大众的监督和检验，及时完善平台的不足，建立健全风险管理体系。基于以上几点，结合数据的可获得性，本文选取翼龙贷公司为研究对象，主要以 2016 年-2020 年为研究阶段，获取相应的数据信息，对已发生逾期的网贷借款人的主要特征进行探究，以此研究影响网络借款人信贷风险的主要因素。 26 专业硕士学位论文第 4 章网络借款人信贷风险评估 4.1 数据的收集和处理 4.1.1 数据的获取以翼龙贷公司为例，使用 Python 编写程序获取翼龙贷平台在官网上公布的项目数据（http://about.eloancn.com/information/rtdata.html），抽取了 2016-2020 年的数据，累计收集数据 50000 条，包含 ID、借款原因、借款人地区、借款人性别、借款金额、利率等 40 个变量。 4.1.2 数据的预处理 1. 剔除部分变量首先剔除取值相同的变量，包括车担保、房担保和借款进度，借款人均无车担保和房担保，而借款进度均为 100%，因此删除此类取值为唯一值的变量。其次剔除含义重复的变量，如申请时间和最后还款时间，这两个变量与借款期限提供的分析作用相同，因此剔除申请时间和最后还款时间，保留借款期限。此外还有借款人所在城市，与借款人所在省份含义相同，由于省份类别少于城市类别，便于分析，因此剔除借款人所在城市。最后剔除与研究目的无关的变量，包括 ID、所属计划、项目编号、借款人姓名、身份证号以及借款描述，该网站为保护客户隐私，披露的身份证号并不完全，此身份证号仅代表一个变量名称。剔除部分变量后，剩余 26 个变量。 2. 错误值和缺失值处理部分借款项目中出现错误值和缺失值，其中错误值表现为“#NAME?”，定位到各个单元格中发现其详细内容为“=-一公司担任主管一职”，错误的原因为内容前面误输入的等号和下划线或减号，导致内容无法准确读取，因此对于出现的部分错误值，均可手动修改，即删除内容前面的符号。而缺失值主要包括空白值和待定值，空白值表现为借款人所在地区、借款人职业等变量值的缺失，待定值表现为借款人职业等变量值的不确定性，可以通过借款人所在省份以及借款描述等变量对空白值和待定值进行补充，对于无法通过其他变量进行补充的缺失值，则做删除处理，删除部分数据后，剩余 41950 条数据。 3. 数据规范化处理以及量化首先对部分变量数据进行规范化处理，如根据各个借款人的不同借款原因将借款原因归类为 11 大类，以此对借款原因进行规范化整理；将借款人地区划分为华东地区、华南地区、华中地区、华北地区、东北地区、西北地区、西南地区七大类并进行整理；将借款人的年收入进行分段处理，分为 0-2 万、2-6 万、6-12 万、12-24 万、24-40 万、 40-100 万和 100 万以上七个年收入区间；其次对规范化的数据量化处理，如将未逾期项 27 基于机器学习的我国网络借款人信贷风险评估目标记为 1，逾期已还项目标记为 0；将性别、担保人、商业保险、征信报告等二值型变量值以 0 和 1 表示；将借款原因、借款人地区、借款总额等变量用连续的整数（1,2,3,4,5...）量化。预处理后的变量及数据的量化如下表所示：表 4.1 数据预处理变量含义数据处理 1：发展、扩大种养殖业；2：扩大经营；3：购建房、装修；4：日常生 1.Reason 借款活消费；5：购车、车库；6：购买家禽、货物、原料、设备用品；7：原因投资、创业；8：资金周转、业务扩展；9：教育培训；10：承包工程； 11：其他 2.area 3.Amount 借款人 1：华东地区；2：华南地区；3：华中地区；4：华北地区；5：东北地地区区；6：西南地区；7：西北地区借款 1:0-1000；2:1000-10000；3：10000-50000；4:50000-100000；总额 5:100000-500000；6:500000-1000000:； 1：批发/零售业；2：加工/制造业；3：公共事业/公益组织；4：餐饮/ 4.industry 借款人住宿业；5：建筑业/采矿业/安装；6；教育/培训/宣传；7：交通运输业/ 行业汽车维修；8：IT/电商；9：金融/财会/法律；10：卫生医疗/保健；11：政府机关/事业单位/国企；12：农业；13：服务业/商贸/个体；14：其他 5.type 6.period 7.Age 8.level 9.guarantor 10.gender 11.education 借款 1：农户贷款；2：商户贷款；3：工薪贷款；4：工程贷款；5：房产抵类型押；6：运输贷款；7：翼企贷；8：生意周转；9：其他借款 1:6 个月以下；2：6-12 个月；3：12-24 个月；4:24-36 个月；5：36-60 期限个月借款人 1:20-30；2:30-40；3:40-50；4:50-60；5:60-70 年龄信用等级 1：A；2：AA；3：AAA；4：B；5：BB；6：BBB；7：C 担保人 0：无；1：有性别 0：男；1：女教育 1：初中或初中以下；2:高中（中专）；3:专科；4：本科：5：硕士研究程度生或以上 1：国家机关公务员；2：金融机构；3：事业单位员工；4：学生、待业 12.Profession 职业或无业人员；5：一般股份公司、私营企业员工；6：一般上市公司员工； 7：优质公用事业单位员工；8：其他职业 13.Aincome 年收入 1:0-2 万；2：2-6 万；3:6-12 万；4:12-24 万；5:24-40 万；6:40-100 万； 7:100 万以上 28 专业硕士学位论文 14.workY 15.Binsurance 工作年限商业保险 1：1 年以下（含）；2：1-3 年（含）；3：3-5 年（含）；4：5 年以上 0：无；1：有 1：行业人员、学生和职位不确定、其它人员；2：一般员工、工人、科 16.position 职位员；3：一般管理人员、部门经理、科级干部、中、少尉；4：中级管理人员、公司或分公司总经理；5：高级管理人员、总公司总经理、中校以上（教授）社保 1：未缴纳；2：1 年以下（含）；3：1-3 年（含）；4：3-5 年（含）； 17.ssp 年限 5：5 年以上 1：租赁、无房；2：父母所有；3：自有未按揭，价值 0-100 万元（不 18.estate 房产含）；4：自有未按揭，价值 100 万元以上（含）；5：按揭 40 万以下（含）；6：按揭 40 万以上（不含） 19.marital 20.Loan 21.Ccard 22.Creport 23.status 24.ASD 25.GDP 26.rate 婚姻 1：未婚；2：离异；3：已婚无子女；4：已婚有子女；5：离异无子女；状况 6：离异有子女；7：丧偶无子女；8：丧偶有子女贷款记录 1：无贷款；2:1-3 年；3:3-5 年；4:5 年以上信用卡 1：无信用卡；2:3000 以下；3:3001-6000；4:6001-20000:；5:20001-50000；额度 6:50001-100000；7:100000 以上征信报告项目状态 0：无；1：有 0：逾期已还；1：未逾期还款 1：工资收入；2：经营收入；3：销售收入；4：种养殖收入；5：工程来源收入；6：加工制造收入；7：运输收入；8：年收入；9：其他收入国内生产总值借款年利率 - 1:10 以下；2：10-15；3:15-20；4:20 以上 4.1.3 数据集划分为了在一定程度上有效地减小过拟合现象，并且从已有的数据中尽可能多的获取有效信息，以此建立可靠稳定的模型，下文将引入 k 折交叉验证，并对数据集进行划分。 k 折交叉验证的具体操作为：将已知样本数据集等比例的划分成 k 份，随机选取其 29 基于机器学习的我国网络借款人信贷风险评估中的任意一份作为测试集，余下的 k-1 份整体作为模型的训练集；反复进行 k 次上述过程，最终的结果即为 k 次测试的平均值。交叉验证方法的优势在于，模型判定的结果是对 k 个训练集训练产生的模型结果进行平均，因而模型的性能也不依赖于数据的划分，结果更加稳定准确。交叉次数一般根据数据量的大小选择，数据量小的时候，k 可以设大一点，使训练集占整体比例较大，数据量大的时候，k 可以设小一点。根据本文的数据量，选择五折交叉验证。表 4.2 五折交叉验证数据集 dada dada1 dada2 dada3 dada4 dada5 1 test train train train train 2 train test train train train 3 train train test train train 4 train train train test train 5 train train train train test 如表 4.2 所示，首先将原始数据集不重复抽样随机分为 5 份，每一次选取其中一份作为模型的测试集 test，另外四份综合成训练集 train 用于模型的一次训练，然后重复选取测试集和训练集五次，使每个数据子集都有一次机会作为测试集，其余作为训练集。在五个训练集上分别训练后得到一个对应的模型，将该模型应用于测试集的数据进行模型的效果评估，计算并保存事先设定的模型评估指标，最后取五组测试结果的平均值作为模型分类性能的估计。后续实证研究流程如下图所示：图 4.1 实证路线图 30 专业硕士学位论文 4.1.4 非平衡数据处理在数据预处理后的 41950 条数据中，违约项目 3180 条，占比为 7.58%，非违约项目有 38770 条，占比为 92.42%，正负样本比例约为 2:25，由于违约样本比非违约样本要少很多，属于非平衡数据集，产生了非平衡数据分类的问题，因此需要引入 SMOTE 算法，对训练集数据重新平衡，减小类别倾斜带来的影响。 SMOTE 是综合采样人工合成的数据算法，用于处理数据类别严重失衡的问题。它是在随机过采样算法的基础上提出的一种改进方案，随机过采样方法虽然也可以使样本集变得均衡，但该方法只是简单复制少数样本来平衡数据，容易出现过拟合，导致模型在训练集上效果很好，在测试集上效果很差。SMOTE 算法的不同之处在于对少数类样本的位置分布特点进行分析，基于少数样本之间的距离合成原本不存在的新样本加入到数据集中，具体流程如下：（1）计算每一个原始的少数类样本 x 与其他少数类样本之间的欧式距离，作比较，选择 k 个距离最短的少数类样本作为 k 近邻样本；（2）然后从每一个少数类样本 x 的 k 近邻样本中随机选择任意一个少数类样本，设为 xn；（3）结合原样本和步骤（2）中选择的近邻样本 xn，运用下列式子构建新样本： xnew  x  rand (0,1)  x  x 。对于上述过程，调用 R 语言 DMwR 包中的 SMOTE 函数。假设原始数据集中少数类样本 N 个，多数类样本 M 个，分别向上和向下采样，采样倍率分别为 n=n1%和 m=m1%，平衡后少数类样本数为 N+nN，多数类样本数为 nNm，由此组成新的训练数据集。对五折交叉验证划分的训练集采用 SMOTE 算法进行平衡，其中少数类 N=2544、多数类 M=31016，取 n=200%、m=250%，平衡后的新训练集与原始训练集对比如下表所示，其中少数类与多数类的比例由 2:25 变为 3:5，将新训练集用于后续的建模中效果良好。表 4.3 平衡数据构成数据处理随机抽样 SMOTE 数据集 0 1 总计 0（占比） 1（占比）原始数据 3180 38770 41950 7.58% 92.42% 训练集 2544 31016 33560 7.58% 92.42% 测试集 636 7754 8390 7.58% 92.42% 新训练集 7632 12720 20352 37.50% 62.50% 新测试集 636 7754 8390 7.58% 92.42% 注：其中 0 和 1 分别代表项目是否违约情况，0 表示正类样本（违约），1 表示负类样本（未违约） 31 基于机器学习的我国网络借款人信贷风险评估 4.2 基于随机森林建立的模型及结果综合各类文献的研究结果，表明随机森林的分类准确性、稳定性以及预测精度都一定程度上优于其他分类算法，同时由于本文的样本属于大样本数据，适用于随机森林算法，因此引入随机森林的方法，结合五折交叉验证，分别对 SMOTE 平衡前后的数据进行测算，取五折交叉验证后的均值，比较数据平衡前后的分类效果，通过最佳分类器得出影响网络信贷风险的变量重要性，并以此分析网络信贷风险的影响因素。 4.2.1 模型的建立随机森林（Random forest）是基于决策树的一种高效算法，将多棵决策树整合成森林，同时结合用于预测最终结果。最终模型判定的类别是由多个决策树判定结果的众数所决定的。随机森林算法主要过程如下： 1. 样本集的选择：假设在原始样本集中包含有 N 个样本，每次从原始样本数据集中随机选择（通过 Bootstraping 的方式）N 个样本，进而得到一个样本量为 N 的训练集。在整个选择过程中，可能有被重复选择的样本，也存在着一次都没有被抽到的样本。建立随机森林要抽取 k 轮，每轮抽取的训练集记为 T1，T2，...，Tk。 2. 决策树的生成：假设数据集每个样本包含着 D 个特征，但并不是所有的特征都会参与每一颗决策树的生成。每一轮随机从所有的 D 个特征属性中选取出 d 个组成新的特征子空间，且满足条件 d<<D，并使用上述特征集来生成一棵决策树。重复 k 次此过程构造 k 棵决策树。在生成过程中，由于每颗决策树使用的训练集和特征子集都是随机且独立选择的，因此每个决策树在训练学习上各自独立，互不关联，在随机森林中的地位也是相等的。 3. 模型的组合前述过程表明决策树之间是相互独立的，自然每个决策树的重要性也是相等的，因而通过多棵决策树构成随机森林时，每棵决策树所占权重应当保持一致，最终通过所有决策树进行投票的方式来决定最终的分类结果。 4. 模型的验证模型的验证往往需要使用训练集以外的数据充当验证集，而在随机森林模型中由于其决策树生成过程的特性，无需额外考虑获取验证集。在从原始样本中通过有放回采样的方式选择训练集时，存在着部分样本在整个过程中一次都没有被选中过，同样在进行特征的选择时，也可能会有部分特征从未被使用的情况出现，故只需用这两阶段均未被使用的数据验证最终的模型即可。如下图所示，随机森林运用 Bootstrap 抽样生成多个决策树，进而对测试数据进行判别与分类。相比于单个决策树而言，这种组合分类器的分类效果更优。同时，它在对 32 专业硕士学位论文数据进行分类的同时，还可以给出各个变量在分类过程中的重要性评分，从而评估某个变量在分类器中所起的作用。图 4.2 随机森林步骤调用 R 语言中的“RandomForest”包，首先读取数据，然后根据前述五折交叉验证将数据分为训练集和测试集，将训练集和测试集中的 status 列设置为目标类别，然后运用随机森林对训练集进行分类，其中可以优化参数 mtry，即每棵树使用的特征个数，以此改变每次构造决策树的变量个数，一般 mtry 须小于等于 N ，其中 N 为变量总个数，运用随机森林分类之后，可查看变量的重要性，并计算出正确率，输出混淆矩阵和绘制 ROC 曲线。 4.2.2 SMOTE 算法前后模型结果对比首先针对未使用 SMOTE 算法平衡的原始训练数据进行建模，调用 R 语言中的 “randomForest”包，输出结果，如下表所示： 33 基于机器学习的我国网络借款人信贷风险评估表 4.4 原训练数据 RF-混淆矩阵 SMOTE 前 TP FP FN TN 1 351 203 285 7551 2 328 200 308 7554 3 345 196 291 7558 4 352 231 284 7523 5 345 200 291 7553 其中 TP（True Positive）表示真正例，即实际逾期的正类样本被准确判断为逾期的情况；FP（False Positive）表示假正例，即实际未逾期的负类样本被误判断为逾期的正类样本的情况；FN（False Negative）表示假负例，即实际逾期的正类样本被误判为未逾期的负类样本的情况；TN（True Negative）表示真负例，即分类器将实际未逾期的负类样本准确判断为未逾期的情况。由随机森林混淆矩阵计算出相关评价指标如下表所示：表 4.5 原训练数据 RF-五折交叉验证结果 SMOTE 前真正率真负率准确率 AUC 1 0.5519 0.9738 0.9418 0.7630 2 0.5157 0.9742 0.9395 0.7450 3 0.5425 0.9747 0.9420 0.7590 4 0.5535 0.9702 0.9386 0.7620 5 0.5425 0.9742 0.9415 0.7580 均值 0.5412 0.9734 0.9407 0.7574 上述相关评价指标计算公式和含义如下表：表 4.6 分类器评价指标计算判断指标计算公式含义准确率 ACC=(TP+TN)/(TP+TN+FP+FN) 分类模型中判断正确的概率真正率 TPR=TP/(TP+FN) 正类样本分类准确的概率真负率 TNR=TN/(TN+FP) 负类样本分类准确的概率由表 4.5 可知，未经 SMOTE 算法平衡的原训练数据得到随机森林分类器的准确率五折交叉验证均值为 0.9407，由于准确率在计算的过程中，会将正负类别同等对待，采用准确率来评价结果过于片面且不合理，因此全面考虑度量指标是合理且必要的，如真正率和真负率。从五折交叉验证结果来看，真正率普遍较低，均值为 0.5412，而真负率整体较高，均值达到 0.9734，这是由于训练集数据不平衡导致的，算法在处理这类数据 34 专业硕士学位论文时，容易倾向多数类，对少数类样本分类不够准确。通过混淆矩阵计算的部分判断指标都属于静态指标，在正负样本不平衡是会出现一些严重的问题，为了精确的判断随机森林的分类性能，通过 R 语言的“PRoc”包可以画出随机森林的 ROC 曲线并计算 AUC 值，如下图所示：图 4.3 未平衡数据的随机森林 ROC 曲线 ROC 曲线表示的是分类器混淆矩阵中假正例率和真正例率之间的相对变化极其权衡，是遍历模型的所有阈值，计算当前阈值的假正例率和真正例率，然后把所有阈值下的假正例率和真正例率连成一条曲线。当所描述分类器的分类性能越好，即把正负样本分开能力越强时，真正例率越高，假正例率越低，这样 ROC 曲线就越往左上方偏斜。当真正例率增长的较快时，曲线就越往上，AUC 值即 ROC 曲线下方的面积就越大，所展现的分类器的分类性能就越好，AUC 值的一般判断标准如下：表 4.7 AUC 值的判断标准 AUC 值判断标准 0.1-0.5 模型的表现比随机猜测还差 0.5-0.7 效果较低，但用于预测股票已经很不错了 0.7-0.85 效果一般 0.85-0.95 效果很好 0.95-1 效果非常好结合上表和 AUC 值可知，随机森林经过五折交叉验证后的 AUC 均值为 0.7574，表示在未运用 SMOTE 平衡数据前，原始数据建立的随机森林模型的分类器效果一般，主 35 基于机器学习的我国网络借款人信贷风险评估要是因为数据不平衡导致分类器效果不理想，因此，运用 SMOTE 算法平衡后的训练集再次建立随机森林模型，结果如下：表 4.8 SMOTE-RF-五折交叉验证结果 SMOTE 后 TP FP FN TN 真正率真负率准确率 AUC 1 595 727 41 7027 0.9355 0.9062 0.9085 0.9190 2 601 799 35 6955 0.9450 0.8970 0.9006 0.9210 3 588 829 48 6925 0.9245 0.8931 0.8955 0.9090 4 592 776 44 6978 0.9308 0.8999 0.9023 0.9150 5 588 798 48 6956 0.9245 0.8971 0.8992 0.9110 均值 - - - - 0.9321 0.8987 0.9012 0.9150 图 4.4 SMOTE-RF-ROC 曲线由上图表可知，运用 SMOTE 算法平衡后的数据建立的随机森林模型，五折交叉验证后得到的真正率、真负率、准确率和 AUC 均值分别为：0.9321、0.8987、0.9012、0.9150，真正率较平衡前明显改善，说明了本文模型方法的有效性，并且从 AUC 值来看，数据平衡后的随机森林分类器分类效果显著提高。 4.3 影响信贷风险的重要性变量分析基于上述模型结果，运用 SMOTE 算法平衡后的训练数据所建立的随机森林模型计算得到各个变量的重要性。变量重要性评估的大致思路为：首先针对各个决策树而言，分析统计各个变量在当前生成决策树上对于所抽取数据分类效果做出的贡献大小；然后将多个决策树上的分析结果综合取平均值，最后比较变量的整体平均贡献并排序。通常 36 专业硕士学位论文情况下，使用准确率和基尼指数（Gini index）对变量在决策树中的贡献大小进行评估与衡量。运用 R 语言运行随机森林分类器可得出相关变量的重要性，结果如下表所示：表 4.9 变量重要性变量 0 1 MeanDecreaseAccuracy MeanDecreaseGini 借款总额 Amount 0.1790 0.1584 0.1661 3040.9297 信用等级 level 0.0012 0.0843 0.0531 579.8603 年收入 Aincome 0.0166 0.0635 0.0459 760.1540 国内生产总值 GDP 0.0217 0.0461 0.0370 297.9176 职位 position 0.0090 0.0415 0.0293 654.0079 商业保险 Binsurance 0.0048 0.0361 0.0244 365.2277 借款类型 type 0.0231 0.0227 0.0228 304.1634 借款期限 period 0.0186 0.0187 0.0186 218.2467 信用卡额度 Ccard 0.0071 0.0232 0.0172 338.8435 借款年利率 rate 0.0028 0.0246 0.0164 132.5968 职业 Profession 0.0054 0.0213 0.0153 349.5013 还款来源 ASD 0.0023 0.0226 0.0150 222.1317 社保年限 ssp 0.0006 0.0183 0.0117 237.4966 教育程度 education 0.0024 0.0139 0.0096 209.6133 房产 estate 0.0018 0.0140 0.0094 231.9791 借款原因 Reason 0.0016 0.0136 0.0091 196.3037 担保人 guarantor 0.0118 0.0055 0.0079 84.6860 借款人行业 industry 0.0024 0.0099 0.0071 210.7992 借款人地区 area 0.0022 0.0100 0.0071 184.2700 贷款记录 Loan 0.0014 0.0095 0.0064 163.8341 借款人年龄 Age -0.0004 0.0068 0.0041 165.0834 征信报告 Creport 0.0002 0.0054 0.0034 47.1584 工作年限 workY 0.0005 0.0046 0.0031 103.5000 婚姻状况 marital 0.0014 0.0038 0.0029 135.1634 性别 gender 0.0010 0.0020 0.0016 64.9449 由于篇幅限制，本文只展示 AUC 值最高的变量重要性。随机森林中变量的重要性计算，主要是通过将相应变量替换成一列随机的数后，计算模型准确率或者 GINI 系数的变化。其中 0 表示变量替换后对分类为 0 的数据的影响；1 表示变量替换后对分类为 37 基于机器学习的我国网络借款人信贷风险评估 1 的数据的影响；Mean Decrease Accuracy 表示变量替换后准确率的下降；Mean Decrease Gini 表示变量替换后 GINI 系数的降低，数值越大表示变量越重要。下表 4.10 为五折交叉验证后得出的前五个重要性变量排序：表 4.10 五折交叉验证前 3 个重要性变量排序 1 2 准确率基尼系数准确率 Amount Amount Amount level Aincome level Aincome position Aincome 3 4 5 基尼系数准确率基尼系数准确率基尼系数准确率基尼系数 Amount Amount Amount Amount Amount Aincome level Aincome level position Amount Amount level position position Aincome position Aincome Aincome Aincome Aincome 结合五折交叉验证结果，重要性在前三出现频率较高的变量有：借款总额、年收入、信用等级和职位；从准确率来看，重要性排名前三的均为借款总额、年收入和信用等级；从基尼系数来看，重要性排名前三的为借款总额、年收入和职位。得出结论：（1）在借款人的个人信贷风险评估中，借款信息包括借款总额重要程度较高；主要是因为借款总额的多少能够反映借款人的信用情况，信用情况越好，其能够申请到的借款总额越多，信用情况越差，能够申请到的借款总额越少。此外，借款总额若和借款人的还款能力不匹配，其违约的概率就更大，即使借款总额很低，也有可能存在违约的风险，借款总额越高，还款压力越大，一旦流动性出现问题，违约风险就会增加。因此，借款人获得的借款总额会在一定程度上对其还款能力和意愿造成影响。相关的信贷平台和机构应当谨慎评定借款人的借款总额，需要根据借款人的还款能力匹配合适的贷款额度，同时尽量要求借款人提供担保人，以降低借款人的违约风险。（2）借款人的个人信息如年收入和职位较为重要；借款人的还款能力和意愿共同决定了借款人的信贷风险，年收入和职位都能够直接反映借款人的还款能力，只要有还款能力，还款意愿一般不会太低，因此，相关信贷平台和机构应当重视这些特征，并按时跟进借款人的信息更新，以确保借款人的还款能力足够稳定。（3）借款人的相关信用信息如信用等级也尤为重要，其他相关的变量如性别、年龄、婚姻、借款类型等重要程度相对较低；诸如信用等级等可以反映借款人信用情况的信息可以为平台提供借款人的历史信息，另一方面可以初步判定借款人的信用风险高低，为衡量借款人的信用风险提供重要参考。而其他的相关变量如性别、年龄、婚姻状况和借款类型重要性较低的原因主要在于对评估借款人的还款能力贡献不大，难以通过这些特征判别借款人的还款意愿，但这些变量仍有其存在意义，平台应当借此辅助分析。综合上述结论，本文的模型和方法具有以下几方面的优势和现实意义：（1）综合性：我国的违约项目主要是由信息不对称导致的，例如信用白户，平台对这类用户的历史信息知之甚少，这就导致传统方法的不适用；另外，倘若借款人存在隐瞒真实情况的行为，平台基于传统方法很难进行识别。由于传统方法最大的弊端在于借款人与借款人之间的信息是孤立的，那么对于上述的情况传统评分机制难以做出合理 38 专业硕士学位论文的判别；对比来看，机器学习的方法可以将所有数据融合使用，综合类似借款人的相关信息进行分析，而不必单独凭借个人信息去评估其信用风险。（2）客观性：我国部分网络借贷平台为追求放款速度，通常忽略了放款质量，其信用评分机制往往都是根据历史经验和人为判断设置的，例如专家评估法，是通过专家的经验而进行的样本评价，具有强烈的主观色彩和局限性，缺乏客观性；甚至有些平台通过人工审核借款人的相关申请材料，人为判断客户的信用情况，极易产生误判，从而导致了较多的违约项目；而本文中的信用评估模型是由数据驱动，通过机器学习结合历史信息和不断地训练提高分类的准确性，对目标样本的特征描述更具客观性。（3）全面性：我国大部分网络借贷平台的评分机制过于简单，设置过程中参考的历史数据较少，对借款人特征描述的变量选择不够全面，收集的信息未完全纳入评分机制中，而本文建立的信用评分机制中，无论是数据的体量还是数据的维度，都远超传统的信用评分方法，对借款人的信息把握的更全面，有利于最终结果的分析。（4）普适性：当前的借贷数据普遍具有非平衡性和海量性，从五折交叉验证的实证结果来看，本文提出的 SMOTE 算法和随机森林相结合的两步评分机制普遍适用于这类借贷数据，所得结果与实际相吻合，具有较强的现实意义和实用性。对于这类数据，建议广泛使用前述方法，以提高模型的稳定性和有效性。（5）准确性：处理非平衡数据是分类过程中最为棘手的一类问题，主要体现在违约数据和非违约数据信息的不对等，无论是传统的信用评分机制还是分类方法都会倾向于多数类样本，从而导致结果误差较大，不具有参考意义；本文引入 SMOTE 算法对非平衡训练集处理后，对违约项目信息的把握更加准确，分类准确性显著提高。（6）便捷性：相比于传统的信用评估方法，随机森林算法针对高维度数据时有着突出的优势，过程更具便捷性，训练速度快，容易实现。 4.4 建议综合本文研究结论，分别对我国政府和平台提出相应的建议：第一，建议各借贷平台积极引入人工智能技术，逐步完善信贷风险管理系统；各网贷平台应引入人工智能技术，完善信用评估机制，加强贷前审查，并细化对借贷信息的审核，强化审核用户信息的力度，并对违约行为处以严重处罚措施，合理运用机器学习方法，综合处理非平衡的海量数据，提高对借款人信用风险评估预测的准确性和稳定性，降低借款人违约带来的风险。平台还应当结合大经济环境和行业的自身发展，以借款人的借款总额、年收入、信用等级、职位等重要的影响因素为主，综合考量为辅，重视借款人的信誉、还贷能力和还贷意愿，逐渐完善信贷风险管理系统，同时提高平台自身的合规性和信息的透明性。第二，平台或其他相关机构应兼顾安全性和流动性；借贷平台的流动性和安全性是最为重要的，各平台应当引起重视，在追求利益的同时应保证借贷的流动性，以促进平 39 基于机器学习的我国网络借款人信贷风险评估台的安全运营。平台需要关注自身的风险承受能力，降低资金杠杆比例，避免面临流动性不足的风险。第三，完善征信体系构建，进一步降低信贷违约风险；政府及相关机构部门应当持续关注中小微企业的生存能力以及发展空间，加大扶持力度，搭建平台信息互通渠道，推动行业信贷风险管理能力的整体提升，控制并降低借款人的违约风险带来的损失；相关的监管机构应当加强监管，努力完善征信体系，通过与互联网借贷平台构建信息桥梁，纳入更多的信用白户的相关信息，建立更加全面的信息交互系统，促进央行构建统一征信数据库，持续推动网络借贷普惠金融发展。综上所述，在政府及监管机构的不断努力下，各平台应不断增强自身实力，引入人工智能技术完善信用评估机制，加强风控能力，设计合规产品，做好贷前宣传教育工作，降低借款人的违约风险，稳步推进网络借贷的合规发展。 40 专业硕士学位论文结论网络借贷作为一种创新的网络借贷模式，它的出现实现了投资人和借款人之间的双赢。投资人通过出借资金获得高于传统投资回报率的收益，借款人在不提供抵押或担保的情况下获得资金，这种新型的借贷模式成为我国金融体系中的一个重要补充。然而，我国网络借贷监管不到位，又属于互联网金融，存在很多风险，主要是借款人的信贷风险，借款人违约将直接影响网络借贷平台的发展。本文从信用风险的角度出发，从网络借贷的运作模式入手，对网络借贷中借款人这一角色的信用风险进行了分析。将机器学习方法运用到互联网金融领域，结合互联网金融的特点，构建信贷风险评估模型，衡量借款人的违约概率。根据这一本质，把对网络借款人的信用风险评估转化为分类问题，利用分类算法预测借款人的信贷风险，根据收集到的有关网络贷款借款人的数据资料，对数据本身进行分析，发现这些数据都是非线性的，基于数据特点，分别使用随机森林算法来对网络贷款借款人进行违约的分类处理。本文首先对网络借贷进行了简单的介绍，描述了我们国家的网络借贷的发展历程和现状，并以翼龙贷平台为例，收集翼龙贷平台 2016-2020 年的数据，对变量和数据进行清洗，并量化了数据，同时用五折交叉验证划分原始数据集，基于此，运用 SMOTE 算法对非平衡训练集数据处理，以便于后续研究。将处理前后的数据运用 R 语言的程序包，分别建立随机森林模型，根据程序运行结果得到非平衡数据和平衡数据的随机森林五折交叉验证结果，并通过相关评价指标对结果进行分析。在本文的实证研究过程中，共有变量 26 个，数据 41950 条，违约项目 3180 条，运用五折交叉验证方法对数据集进行划分，训练集和测试集之比为 4：1，通过 SMOTE 算法将训练集的正负样本比例平衡至 3:5，再用平衡前后的数据分别建立随机森林模型，经过五次的交叉验证后，结果表明，平衡后的数据建立的随机森林的混淆矩阵和 AUC 值均高于未平衡的数据模型，说明基于 SMOTE 算法的随机森林分类性能远优于未使用 SMOTE 算法的随机森林模型。在 SMOTE 算法的随机森林模型基础上，计算变量的重要性，通过五折交叉验证计算的重要性排序来看，借款总额、年收入、信用等级和职位的重要程度较高。最后本文得出的结论主要有以下几点：（1）基于 SMOTE 算法的随机森林分类模型性能优于未使用 SMOTE 算法的随机森林模型；（2）在网络借款人信贷风险评估中，借款人的个人信息如年收入和职位较为重要，借款信息如借款总额重要程度较高，信用评估信息如信用等级等相对来说也很重要，综合体现了借款人的还款能力，其他相关变量如性别、年龄、婚姻、借款类型等重要程度相对较低； 41 基于机器学习的我国网络借款人信贷风险评估（3）本文的模型和方法具有较好综合性、客观性、全面性、普适性、准确性和便捷性，能够为我国各类信贷平台提供参考，降低借款人的信贷风险，提高风控能力。 42 专业硕士学位论文参考文献 [1] 蒋先玲,张庆波,程健. P2P 网络借贷市场信用风险识别[J].中国流通经济, 2020(4): 67-75. [2] 张健.关于我国 P2P 网络借贷发展概况浅析[J]. 时代金融, 2020(1):3-57. [3] 陈冬宇. 基于社会认知理论的 P2P 网络放贷交易信任研究[J]. 南开管理评论, 2014, 17(3):40-48. [4] 章宁, 于成龙, 王舞宇. 基于声誉模型的 P2P 网贷逾期行为及其影响因素[J]. 企业经济, 2019, 000(002):80-87. [5] 闫钰炜.网络借贷组织中投资者信任与行为决策的计算研究:[华中科技大学博士学位论文]. 华中科技大学,2019,20-25. [6] TanJ, DeSilva DG.Better Off Or Worse Off: An Economic Analysis Of Online P2p Lending Market[C]//International Conferenceon Service Systems& Service Management. IEEE, 2011,12-18. [7] Galak J, Small D A, Stephen A T. Micro-finance decision making: a field study of prosocial lending. Journal of marketing research,2011,48:130 -137. [8] Wang Y , Li S , Lin Z . Revealing Key Non-financial Factors for Online Credit-Scoring in e-Financing[C]// Service Systems and Service Management (ICSSSM), 2013 10th International Conference on. 2013,57-58. [9] Barasinska N, Schäfer D. Is crowd funding different? Evidence on the relation between gender and funding success from a German peer-to-peer lending platform. German Economic Review, 2014, 15(4):436-452. [10] 廖理,吉霖,张伟强.借贷市场能准确识别学历的价值吗?——来自 P2P 平台的经验证据.金融研究, 2015(3):146-159. [11] 唐艺军,葛世星.我国 P2P 网络信贷风险控制实证分析[J].商业研究, 2015,000(010): 64-72. [12] 孙海莹.我国 P2P 网络信贷信用风险影响因素分析 [J]. 对外经贸, 2015, No.258 (12): 82-85. [13] 李星,管河山,王谦,等. P2P 网络借贷借款人违约风险及影响因素探究[J]. 时代金融, 2018, No.703(21):211-213. [14] 刘洋. P2P 网络借贷平台信贷风险评价研究:[湖南大学硕士学位论文].湖南大学, 2018,30-33. [15] 舒坤. P2P 网贷平台违约影响因素研究:[华中师范大学硕士学位论文]. 华中师范大学,2019,22-25. 43 基于机器学习的我国网络借款人信贷风险评估 [16] 马瑞.基于 Logistic 模型的 P2P 网贷平台违约风险问题研究——以广东省为例[J]. 特区经济, 2019(4):032. [17] 崔炎炎,刘立新. 基于大数据的 P2P 网络借贷平台风险评价 [J]. 统计与信息论坛,2020(4):42 -51. [18] Durand D. Risk elements in consumer instalment financing. Journal of Marketing, 1942,6(4):407 -408 . [19] Rosenberg E, Gleit A. Quantitative methods in credit management: a survey. Operations research,1994,42(4):589 -613 . [20] Hand D J, Henley W E. Statistical classification methods in consumer credit scoring: a review. Journal of the Royal Statistical Society: Series A (Statistics in Society), 1997,160(3):523-541 . [21] Emekter R, Tu Y, Jirasakuldech B, etal. Evaluating credit risk and loan performance in online Peer-to-Peer (P2P) lending. Applied Economics, 2015, 47(1):54-70 . [22] 黄源 . 基于逻辑回归算法的信贷风险研究 [J]. 科学咨询 ( 科技 · 管理 ), 2019, 629(04):77. [23] 任晓萌. 基于逻辑样条回归的信用风险预测模型:[大连理工大学硕士学位论文]. 大连理工大学,2020,36-39. [24] Chen X , Liu Y , Sun H . AHP-Based Multi-Dimension Credit Evaluation Model for E-Commerce[C]// IEEE International Conference on E-business Engineering. IEEE, 2008,12-15. [25] Aouam T , Lamrani H , Aguenaou S , et al. A benchmark based AHP model for credit evaluation[J]. International Journal of Applied Decision Sciences, 2009, 2(2):151-166. [26] 赵崤宏, 温然. 基于层次分析法的大学生信用风险评价指标体系研究[J]. 西部金融, 2019(3):50-56. [27] Yeh I C, Lien C. The comparisons of data mining techniques for the predictive accuracy of probability of default of credit card clients. Expert Systems with Applications, 2009,36(2):2473 -2480 . [28] 王海峰,张晓妮,石宝峰.基于模糊聚类的 P2P 网贷个人信用评估模型及应用. 浙江金融, 2017(10):19-26 . [29] Pratiwi H , Mukid M A , Hoyyi A , et al. Credit scoring analysis using pseudo nearest neighbor[J]. Journal of Physics Conference Series, 2019, 1217:012100. [30] Song Y, Wang Y, Ye X, et al. Multi-view ensemble learning based on distance-to-model and adaptive clustering for imbalanced credit risk assessment in P2P lending[J]. Information ences, 2020(3):027. 44 专业硕士学位论文 [31] Lan J , Yan G . Research and Empirical Analysis on Personal Credit Evaluation Model Based on Iterative Adaptive Random Decision Tree Algorithm[J].Journal of Quantitative Economics, 2018,31-34. [32] Shui-Jun, Yin . "Study on Evaluation of Small Loan Credit of farmers' Based on the Decision Tree." Computer Knowledge and Technology .2019,55. [33] 袁泉. Adaboost 组合分类模型在信用评估领域应用研究:[哈尔滨工业大学硕士学位论文].哈尔滨工业大学, 2012,18-20. [34] Li C , Yan-Ying H , De-Chuang Y , et al. Application on Individual Credit Score for Bank of a Boosting-based Ensemble Learning Algorithm[J]. Value Engineering, 2017,32 -35. [35] 金俊玲. 基于 AdaBoost 提升算法的个人信用评估模型研究[J]. 社会科学前沿, 2018, 007(010):P.1724-1734. [36] 张道宏, 张璇, 尹成果. 基于 BP 神经网络的个人信用评估模型 .情报杂志, 2006, 25(3):68 -70. [37] Huy D. Pham. Determination of default probability in auto finance through predictive analytics: [thesis]. Long Beach:California State University,2017,12-15. [38] 蒋维.基于改进 PSO-BP 神经网络的个人信用评价模型及算法研究:[电子科技大学硕士学位论文].电子科技大学,2018,26-28. [39] [1] Guo Y . Credit Risk Assessment of P2P Lending Platform towards Big Data based on BP Neural Network[J]. Journal of Visual Communication and Image Representation, 2019, 71:102730. [40] Yao J R, Chen J R . A New Hybrid Support Vector Machine Ensemble Classification Model for Credit Scoring[J]. Journal of Information Technology Research, 2019, 12(1):77-88. [41] Putri Dina Sari, Muhammad Nur Aidi,et al. Credit Scoring Analysis using LASSO Logistic Regression and Support Vector Machine (SVM)[J]. International Journal of Engineering and Management Research, 2017, 4(7):393-397. [42] 余乐安,张有德.基于关联规则赋权特征选择集成的信用分类研究[J].系统工程理论与实践,2020,40(02):366-372. [43] James, G., Witten, D., Hastie, T., & Tibshirani, R. An introduction to statistical learning: With applications in R (2nd Ed.). New York, NY: Springer,2013 ,16-19. [44] Malekipirbazari M., Aksakalli V. Risk assessment in social lending via random forests[J]. Expert Systems with Applications, 2015, 42(10):4621-4631. [45] 萧超武, 蔡文学, 黄晓宇, 等. 基于随机森林的个人信用评估模型研究及实证分析. 管理现代化, 2014, 34(6):111-113 . 45 基于机器学习的我国网络借款人信贷风险评估 [46] Yuqing, &Gu.The Application of Random Forest in Individual Credit Risk Management. 2019,25-27. [47] 段德峰.基于 Bootstrap 方法的信用风险度量及应用:[武汉理工大学硕士学位论文]. 武汉理工大学,2010,34-38. [48] 张万军.基于大数据的个人信用风险评估模型研究:[对外经济贸易大学博士学位论文].对外经济贸易大学,2016,56-60. [49] 王文敬.基于 SMOTE 过抽样法的个人信用评分模型研究:[上海师范大学硕士学位论文].上海师范大学,2019,36-39. [50] 张雷,王家琪,费职友,罗帅,隋京岐.基于 RF-SMOTE-XGboost 下的银行用户个人信用风险评估模型[J].现代电子技术,2020,43(16):76-81. [51] 杜昕.基于改进的 SMOTE 下 Boosting 算法在个人信用评估中的应用研究:[上海师范大学硕士学位论文].上海师范大学,2020,12-16. 46 专业硕士学位论文附录 A 建模算法代码 1.读取数据并数据划分： getwd() #查看路径信息 setwd("D:\\study\\机机机") library(readxl) data<-read_excel("try4.xlsx") #读取数据 library(DMwR) data2<-as.data.frame(data) table(data2$status) #查看数据中两类的个数 library(sampling) #输入相关参数（少数类个数、多数类个数、份数） k1=3180 k2=38770 n=5 #将原始数据通过分层抽样平均分成 5 份 a=strata(data2,stratanames=("status"),size=c(1/n*k1,1/n*k2),method="srswor",descriptio n=FALSE) data11=data2[a$ID_unit,] tempdata=data2[-a$ID_unit,] b=strata(tempdata,stratanames=("status"),size=c(1/n*k1,1/n*k2),method="srswor",descri ption=FALSE) data22=tempdata[b$ID_unit,] tempdata1=tempdata[-b$ID_unit,] c=strata(tempdata1,stratanames=("status"),size=c(1/n*k1,1/n*k2),method="srswor",desc ription=FALSE) data33=tempdata1[c$ID_unit,] tempdata2=tempdata1[-c$ID_unit,] d=strata(tempdata2,stratanames=("status"),size=c(1/n*k1,1/n*k2),method="srswor",desc ription=FALSE) data44=tempdata2[d$ID_unit,] tempdata3=tempdata2[-d$ID_unit,] e=strata(tempdata3,stratanames=("status"),size=c(1/n*k1,1/n*k2),method="srswor",desc ription=FALSE) data55=tempdata3[e$ID_unit,] 47 基于机器学习的我国网络借款人信贷风险评估 #根据五折交叉验证，将数据划分成训练集和测试集 train_data=rbind(data11,data22,data33,data44) test_data=data55 2.SMOTE 算法： #对训练集进行 smote 算法 data2=train_data #需要进行 smote 的部分 train_data=data2 #newdata 就是新的训练集 newdata<-SMOTE(status~Reason+area+Amount+industry+type+period+Age+level+gua rantor+gender+education+Profession+Aincome+workY+Binsurance+position+ssp+estat e+marital+Loan+Ccard+Creport+ASD+rate+GDP,train_data,perc.over=200,k=2,perc.un der=250) table(newdata$status) #查看新训练数据两类样本个数 3.随机森林算法： #下载安装读取包 install.packages('randomForest') library(randomForest) library(pROC) library(randomForest) # 用随机森林对新训练集进行训练 data_randomForest<-randomForest(status~Reason+area+Amount+industry+type+period +Age+level+guarantor+gender+education+Profession+Aincome+workY+Binsurance+p osition+ssp+estate+marital+Loan+Ccard+Creport+ASD+rate+GDP,data =newdata, ntree =200, mtry=4,importance=T,proximity=F,na.action = na.omit) #查看变量的重要性并绘图可视化 importance= data_randomForest$importance varImpPlot(data_randomForest,main='variable importance') #用随机森林对测试集进行分类预测，并输出为数据框形式 pre_randomForest<- predict(data_randomForest,newdata = test_data) obs_p_randomForest = data.frame(prob=pre_randomForest,obs=test_data$status) #计算正确率 n<-ifelse(obs_p_randomForest$prob==obs_p_randomForest$obs,1,0) 48 专业硕士学位论文 correct_rate<-sum(n)/nrow(test_data) #输出混淆矩阵 table(test_data$status,pre_randomForest,dnn = c('真实值','预测值')) #绘制 ROC 曲线 randomForest_roc<-roc(test_data$status,as.numeric(pre_randomForest)) plot(randomForest_roc, print.auc=TRUE,auc.polygon=TRUE) 49 基于机器学习的我国网络借款人信贷风险评估致谢在我的硕士论文即将完成之际，我要向所有给予我帮助和支持的人们表示感谢！首先感谢我的导师杨晓临副教授，杨老师严谨的教学态度，丰富的学术修养对我产生了深远的影响。杨老师在我的研究生学习生涯中，给予了我很多的关心和帮助，在学习、生活、求职、论文开题和写作的每一个过程中，在我每一个迷茫的时刻，不管我何时以何事向杨老师请教，杨老师都是非常耐心地给我答疑解惑。在此，我要向杨老师表达我最真诚的感谢和祝福，同时，也非常感谢其他传授我知识的老师们，感谢您们的每一个知识讲解，让我能够对知识点融汇贯通！其次，我要感谢我的父母、兄长以及男朋友，他们总是在背后默默的支持我，无论我遇到什么问题，他们总是站在我的角度为我考虑和分析，为迷茫的我指明方向，无论我做什么决定，他们总是无条件地支持着我，总是在物质和精神上都给予我很大的帮助。在此，我还要感谢给予我帮助的所有同学和所有同门，在我遇到困难的时候，他们总是热心帮助我解决问题，使我能够安心且勇敢地一往无前。最后，感谢百忙之中抽出时间来审阅本论文的专家教授们，能够得到您们的指导是我莫大的荣幸。再次由衷的感谢所有给予我关心和帮助的人们！ 50

基于机器学习的我国网络借款人信贷风险评估

Add this document to collection(s)

Add this document to saved

Suggest us how to improve StudyLib