spark – margaret 学习笔记

大数据 , 笔记 / 2018年12月12日

这是一组信用风控的场景, 需要根据个人信用度的数据集来预测; 需要预测什么？某个人是否会按时还款? 来参与预测的特征有哪些？申请人的基本信息和社会身份信息：职业，年龄，存款储蓄，婚姻状态等等…… 从这个场景看,这个是一个二元分类预测的问题, 可以使用Python 本地环境也可以是使用spark , 都支持随机森林的ML库; 下面是Spark ML 库+ SparkSQL + datafra…