整个机器学习的流程主要分如下几个主要过程: 业务理解 数据分析理解 数据预处理 建模 模型效果评估 使用合格的模型做预测 数据分析理解是机器学习建模的基础,目的是分析挖掘数据维度中和预测目标强相关的因素, 剔除不相关或者弱相关的因素, 用于后续的机器学习; Python ,spark框架中常用dataframe结构处理数据集,下面使用python+银行营销数据做数据分析实践: 1 理解分析数据 …
场景&模型选择: 根据 花的几个特征, 预测花的种类, 属于多元分类问题 花有哪几个分类? — Iris Setosa — Iris Versicolour — Iris Virginica 需要哪几个特征参与模型学习? 1. sepal length in cm 2. sepal width in cm 3. petal length in cm 4….
这是一组信用风控的场景, 需要根据 个人信用度的数据集来预测; 需要预测什么? 某个人是否会按时还款? 来参与预测的特征有哪些? 申请人的基本信息和社会身份信息:职业,年龄,存款储蓄,婚姻状态等等…… 从这个场景看,这个是一个二元分类预测的问题, 可以使用Python 本地环境也可以是使用spark , 都支持随机森林的ML库; 下面是Spark ML 库+ SparkSQL + datafra…
现象 绝大多数task执行得都非常快,但个别task执行极慢。比如,总共有1000个task,993个task都在1分钟之内执行完了,但是剩余两7个task却要一两个小时。 原本能够正常执行的Spark作业,某天突然报出OOM(内存溢出)异常,观察异常栈,一般是业务代码造成的。这种情况比较少见。 原理 在进行shuffle的时候,会将各个节点上相同的key拉取到某个节点上的一个task来进行处理,…
Spark核心概念之间的关系: Spark Driver用于提交用户应用程序,实际可以看作Spark的客户端; Spark Driver的初始化始终围绕着SparkContext的初始化。SparkContext可以算得上是所有Spark应用程序的发动机引擎; SparkContext初始化完毕,才能向Spark集群提交任务执行。 Spark context 处理原理如下图: &nb…
为了方便监控 ES 的慢查询日志, 采用方案:flume+elasticsearch+kibana方式, 但是我们ES版本是6.*, 而Flume官方版本只兼容ES1.7… 所以需要自定义flume 对接ES的 Sink代码 Flume 原理&架构 flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。支持在日志系统中定制各类数据发送方,用于收集…
项目介绍:信用卡欺诈检测—imbalanced-datasets 欺诈行为是小概率事件,因此数据集中欺诈标签的数据比例会比较少,本案例主要介绍标签分布不均衡场景下的数据建模 处于隐私考虑,下面部分数据特征的名字和含义没有,但不影响数据分析; Time:Number of seconds elapsed between this transaction and the first tra…
项目说明: 根据用户诊断信息数据判断泌尿系统的疾病–肾炎症还是膀胱炎症? 这是一个典型的分类问题 数据集: http://archive.ics.uci.edu/ml/machine-learning-databases/acute/ a1 病人的体温 { 35C-42C } a2 有恶心反胃症状 { yes, no } a3 是否腰疼 { yes, no } a4 排尿…
项目说明: 心脏疾病预测 数据源 https://www.kaggle.com/sarubhai56/heart-disease > 1. age > 2. sex > 3. chest pain type (4 values) > 4. resting blood pressure > 5. serum cholestoral in mg/d…
大数据产品,从系统性和体系思路上来做,主要分为五步: 针对前端不同渠道进行数据埋点,然后根据不同渠道的采集多维数据,也就是做大数据的第一步,没有全量数据,何谈大数据分析; 第二步,基于采集回来的多维度数据,采用ETL对其各类数据进行结构化处理及加载; 然后第三步,对于ETL处理后的标准化结构数据,建立数据存储管理子系统,归集到底层数据仓库,这一步很关键,基于数据仓库,对其内部数据分解成基础的同类数…