大数据 – margaret 学习笔记

0

数据分析实践1

大数据 , 笔记 / 2019年1月2日

整个机器学习的流程主要分如下几个主要过程: 业务理解数据分析理解数据预处理建模模型效果评估使用合格的模型做预测数据分析理解是机器学习建模的基础，目的是分析挖掘数据维度中和预测目标强相关的因素, 剔除不相关或者弱相关的因素, 用于后续的机器学习; Python ,spark框架中常用dataframe结构处理数据集，下面使用python+银行营销数据做数据分析实践： 1 理解分析数据 …

0

spark实践-ML-分类-RF+多元分类评估

大数据 , 笔记 / 2018年12月15日

场景&模型选择：根据花的几个特征, 预测花的种类, 属于多元分类问题花有哪几个分类? — Iris Setosa — Iris Versicolour — Iris Virginica 需要哪几个特征参与模型学习? 1. sepal length in cm 2. sepal width in cm 3. petal length in cm 4….

0

spark 实践-ML-分类-使用随机森林做风控预测

大数据 , 笔记 / 2018年12月12日

这是一组信用风控的场景, 需要根据个人信用度的数据集来预测; 需要预测什么？某个人是否会按时还款? 来参与预测的特征有哪些？申请人的基本信息和社会身份信息：职业，年龄，存款储蓄，婚姻状态等等…… 从这个场景看,这个是一个二元分类预测的问题, 可以使用Python 本地环境也可以是使用spark , 都支持随机森林的ML库; 下面是Spark ML 库+ SparkSQL + datafra…

0

如何发现Spark数据倾斜

大数据 , 笔记 / 2018年12月10日

现象绝大多数task执行得都非常快，但个别task执行极慢。比如，总共有1000个task，993个task都在1分钟之内执行完了，但是剩余两7个task却要一两个小时。原本能够正常执行的Spark作业，某天突然报出OOM（内存溢出）异常，观察异常栈，一般是业务代码造成的。这种情况比较少见。原理在进行shuffle的时候，会将各个节点上相同的key拉取到某个节点上的一个task来进行处理，…

0

spark 简单实践1

大数据 , 笔记 / 2018年11月29日

Spark核心概念之间的关系： Spark Driver用于提交用户应用程序，实际可以看作Spark的客户端； Spark Driver的初始化始终围绕着SparkContext的初始化。SparkContext可以算得上是所有Spark应用程序的发动机引擎； SparkContext初始化完毕，才能向Spark集群提交任务执行。 Spark context 处理原理如下图： &nb…

0

Elasticsearch日志监控–自定义flume-elasticsearch-sink

大数据 , 性能 / 2018年11月27日

为了方便监控 ES 的慢查询日志, 采用方案:flume+elasticsearch+kibana方式, 但是我们ES版本是6.*, 而Flume官方版本只兼容ES1.7… 所以需要自定义flume 对接ES的 Sink代码 Flume 原理&架构 flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。支持在日志系统中定制各类数据发送方，用于收集…

0

机器学习实践-信用卡欺诈检测-imbalanced-datasets

大数据 / 2018年6月17日

项目介绍：信用卡欺诈检测—imbalanced-datasets 欺诈行为是小概率事件，因此数据集中欺诈标签的数据比例会比较少，本案例主要介绍标签分布不均衡场景下的数据建模处于隐私考虑，下面部分数据特征的名字和含义没有，但不影响数据分析； Time：Number of seconds elapsed between this transaction and the first tra…

0

机器学习实践–疾病分类

大数据 / 2018年6月17日

项目说明：根据用户诊断信息数据判断泌尿系统的疾病–肾炎症还是膀胱炎症？这是一个典型的分类问题数据集： http://archive.ics.uci.edu/ml/machine-learning-databases/acute/ a1 病人的体温 { 35C-42C } a2 有恶心反胃症状 { yes, no } a3 是否腰疼 { yes, no } a4 排尿…

0

机器学习实践—心脏疾病预测

大数据 / 2018年6月6日

项目说明：心脏疾病预测数据源 https://www.kaggle.com/sarubhai56/heart-disease > 1. age > 2. sex > 3. chest pain type (4 values) > 4. resting blood pressure > 5. serum cholestoral in mg/d…

0

大数据知识体系（ZT）

大数据 / 2018年5月30日

大数据产品，从系统性和体系思路上来做，主要分为五步：针对前端不同渠道进行数据埋点，然后根据不同渠道的采集多维数据，也就是做大数据的第一步，没有全量数据，何谈大数据分析；第二步，基于采集回来的多维度数据，采用ETL对其各类数据进行结构化处理及加载；然后第三步，对于ETL处理后的标准化结构数据，建立数据存储管理子系统，归集到底层数据仓库，这一步很关键，基于数据仓库，对其内部数据分解成基础的同类数…