spark 实践-ML-分类-使用随机森林做风控预测
大数据 , 笔记 / 2018年12月12日

这是一组信用风控的场景, 需要根据 个人信用度的数据集来预测; 需要预测什么? 某个人是否会按时还款? 来参与预测的特征有哪些? 申请人的基本信息和社会身份信息:职业,年龄,存款储蓄,婚姻状态等等…… 从这个场景看,这个是一个二元分类预测的问题, 可以使用Python  本地环境也可以是使用spark , 都支持随机森林的ML库; 下面是Spark ML 库+ SparkSQL + datafra…