新年第一篇, 先做个机器学习实践总结—几种常见场景下的特征提取方法: 机器学习中最重要的一环就是特征工程,特征工程的好坏直接影响模型的效果,如果做得不好大概率会出现“garbage in,garbage out ”的情况; 特征的提取主要指特征信息的数值化,向量化的过程,下面仅仅根据个人实践经验和理解简要总结常见应用场景下的特征提...

1. 问题分析 发布一个子系统到线上,根据测试流程中收集的质量数据 预测其可能的 线上问题数; 2. 模型设计 一般影响子系统质量的因素可能有哪些? 能获取到多少纬度的数据,取决于各厂的质量大数据平台的数据挖掘能力, 这里,由于本人无实际数据平台,举个样例,纬度不一定齐全 构造的训练数据: https://github.com/margaretmm/AI/blob/mas...

测试原理 比较适合做回归测试,基于baseline image比对的UI测试   测试工具数据流图 AI能力体现在哪里? Eyes Sever中提供图片screenshot比对功能, 使用了AI 算法, 只返回2个图片的差异点,包括图像尺寸和位置差异; 用户不用做 图像处理和模型训练,使用很方便 Eggplant AI 的AI智能也是用在图像识别上...

智能算法系统如何评估? 算法模型的评估: 主要衡量模型对未知新数据的预测能力,即泛化能,衡量泛化能力的指标(也叫模型的性能度量): 1.1   准确率(accuracy) :对于给定的数据集,正确分类的样本数占总样本数的比率。 1.2   精确率(precision)==查准率:对于给定的数据集,预测为正例的样本中真正例样本的比率。 1.3 召回率( rec...

1. 问题分析 基于房屋的各种纬度特征,预测房屋价格 2.原始数据扒取 从http://hz.ganji.com/fang5 网站上扒取 杭州市房屋特征数据: 'Address':div.find('span',class_=re.compile('area')).text.strip().replace(' ','').replace('\n',''), 'Rooms': div.find('d......

数据分析实践1
大数据 , 笔记 / 2019年1月2日

整个机器学习的流程主要分如下几个主要过程: 业务理解 数据分析理解  数据预处理 建模 模型效果评估 使用合格的模型做预测 数据分析理解是机器学习建模的基础,目的是分析挖掘数据维度中和预测目标强相关的因素, 剔除不相关或者弱相关的因素, 用于后续的机器学习; Python ,spark框架中常用dataframe结构处理数据集,下面使用python...

特征提取场景与常见方法
AI , 笔记 / 2019年1月1日

新年第一篇, 先做个机器学习实践总结—几种常见场景下的特征提取方法: 机器学习中最重要的一环就是特征工程,特征工程的好坏直接影响模型的效果,如果做得不好大概率会出现“garbage in,garbage out ”的情况; 特征的提取主要指特征信息的数值化,向量化的过程,下面仅仅根据个人实践经验和理解简要总结常见应用场景下的...

spark实践-ML-分类-RF+多元分类评估
大数据 , 笔记 / 2018年12月15日

场景&模型选择: 根据 花的几个特征, 预测花的种类, 属于多元分类问题 花有哪几个分类? — Iris Setosa — Iris Versicolour — Iris Virginica 需要哪几个特征参与模型学习? 1. sepal length in cm 2. sepal width in cm 3. petal length in cm 4.......

Spark 实践–ML Pipelines& 自动调参
笔记 / 2018年12月13日

虽然 MLlib 已经足够简单易用,但是如果目标数据集结构复杂需要多次处理,或者是对新数据进行预测的时候需要结合多个已经训练好的单个模型进行综合预测,那么使用 MLlib 将会让程序结构复杂,难于理解和实现。 因此在 Spark 的生态系统里,出现一个可以用于构建复杂机器学习工作流应用的新库 ML Pipeline   原理: 先理解一下Spa...

spark 实践-ML-分类-使用随机森林做风控预测
大数据 , 笔记 / 2018年12月12日

这是一组信用风控的场景, 需要根据 个人信用度的数据集来预测; 需要预测什么? 某个人是否会按时还款? 来参与预测的特征有哪些? 申请人的基本信息和社会身份信息:职业,年龄,存款储蓄,婚姻状态等等…… 从这个场景看,这个是一个二元分类预测的问题, 可以使用Python  本地环境也可以是使用spark , 都支持随机森林的ML库; 下...

如何发现Spark数据倾斜
大数据 , 笔记 / 2018年12月10日

现象 绝大多数task执行得都非常快,但个别task执行极慢。比如,总共有1000个task,993个task都在1分钟之内执行完了,但是剩余两7个task却要一两个小时。 原本能够正常执行的Spark作业,某天突然报出OOM(内存溢出)异常,观察异常栈,一般是业务代码造成的。这种情况比较少见。 原理 在进行shuffle的时候,会将各个节点上相同的key拉...

spark 理解–存储管理系统
笔记 / 2018年12月8日

BlockManager是一个嵌入在 spark 中的 key-value型分布式存储系统,也是 Master-Slave 结构的, RDD-Cache、 Shuffle-output、broadcast 等的实现都是基于BlockManager来实现的: spark shuffle 的过程总用到了 BlockManager 作为数据的中转站 spark broadcast 调度 task 到多个......

spark简单实践—日志挖掘& SVM算法
笔记 / 2018年12月7日

一.  简单实践spark 日志挖掘: 1.  日志是通过flume读取并且保存在ES中的 , 所以需要从ES中读取,需要引入 elasticsearch_spark 的Jar包(Jar版本要和ES版本一致) 2. 日志所在索引内容简单分析: 统计分析 带有“RED”字符串的日志的产生日期和 IP地址个数 的Map关系   scala代码: import org.apache.spark......

spark 理解–网络通信系统
笔记 / 2018年12月4日

spark中网络通信无处不在,如下图standalone模式下和核心组件通信流程 例如: driver和master的通信,比如driver会向master发送RegisterApplication消息 master和worker的通信,比如worker会向master上报worker上运行Executor信息 executor和driver的的通信,executor运行在worker上,spar......