新年第一篇, 先做个机器学习实践总结—几种常见场景下的特征提取方法: 机器学习中最重要的一环就是特征工程,特征工程的好坏直接影响模型的效果,如果做得不好大概率会出现“garbage in,garbage out ”的情况; 特征的提取主要指特征信息的数值化,向量化的过程,下面仅仅根据个人实践经验和理解简要总结常见应用场景下的特征提...

1. 问题分析 发布一个子系统到线上,根据测试流程中收集的质量数据 预测其可能的 线上问题数; 2. 模型设计 一般影响子系统质量的因素可能有哪些? 能获取到多少纬度的数据,取决于各厂的质量大数据平台的数据挖掘能力, 这里,由于本人无实际数据平台,举个样例,纬度不一定齐全 构造的训练数据: https://github.com/margaretmm/AI/blob/mas...

测试原理 比较适合做回归测试,基于baseline image比对的UI测试   测试工具数据流图 AI能力体现在哪里? Eyes Sever中提供图片screenshot比对功能, 使用了AI 算法, 只返回2个图片的差异点,包括图像尺寸和位置差异; 用户不用做 图像处理和模型训练,使用很方便 Eggplant AI 的AI智能也是用在图像识别上...

智能算法系统如何评估? 算法模型的评估: 主要衡量模型对未知新数据的预测能力,即泛化能,衡量泛化能力的指标(也叫模型的性能度量): 1.1   准确率(accuracy) :对于给定的数据集,正确分类的样本数占总样本数的比率。 1.2   精确率(precision)==查准率:对于给定的数据集,预测为正例的样本中真正例样本的比率。 1.3 召回率( rec...

1. 问题分析 基于房屋的各种纬度特征,预测房屋价格 2.原始数据扒取 从http://hz.ganji.com/fang5 网站上扒取 杭州市房屋特征数据: 'Address':div.find('span',class_=re.compile('area')).text.strip().replace(' ','').replace('\n',''), 'Rooms': div.find('d......

Applitools –AI powered UI测试工具
AI / 2018年9月26日

测试原理 比较适合做回归测试,基于baseline image比对的UI测试   测试工具数据流图 AI能力体现在哪里? Eyes Sever中提供图片screenshot比对功能, 使用了AI 算法, 只返回2个图片的差异点,包括图像尺寸和位置差异; 用户不用做 图像处理和模型训练,使用很方便 Eggplant AI 的AI智能也是用在图像识别上...

智能算法系统评估
AI / 2018年9月10日

智能算法系统如何评估? 算法模型的评估: 主要衡量模型对未知新数据的预测能力,即泛化能,衡量泛化能力的指标(也叫模型的性能度量): 1.1   准确率(accuracy) :对于给定的数据集,正确分类的样本数占总样本数的比率。 1.2   精确率(precision)==查准率:对于给定的数据集,预测为正例的样本中真正例样本的比率。 1.3 召回...

房价预测–基于NN算法详解
AI / 2018年9月9日

1. 问题分析 基于房屋的各种纬度特征,预测房屋价格 2.原始数据扒取 从http://hz.ganji.com/fang5 网站上扒取 杭州市房屋特征数据: 'Address':div.find('span',class_=re.compile('area')).text.strip().replace(' ','').replace('\n',''), 'Rooms': div.find('d......

机器学习实践-信用卡欺诈检测-imbalanced-datasets
大数据 / 2018年6月17日

项目介绍:信用卡欺诈检测—imbalanced-datasets 欺诈行为是小概率事件,因此数据集中欺诈标签的数据比例会比较少,本案例主要介绍标签分布不均衡场景下的数据建模 处于隐私考虑,下面部分数据特征的名字和含义没有,但不影响数据分析; Time:Number of seconds elapsed between this transaction and the first tra......

机器学习实践–疾病分类
大数据 / 2018年6月17日

项目说明: 根据用户诊断信息数据判断泌尿系统的疾病–肾炎症还是膀胱炎症? 这是一个典型的分类问题   数据集: http://archive.ics.uci.edu/ml/machine-learning-databases/acute/ a1 病人的体温 { 35C-42C } a2 有恶心反胃症状 { yes, no } a3 是否腰疼 { yes, no } a4 排尿......

机器学习实践–blackFriday
未分类 / 2018年6月16日

项目说明:  根据用户购物行为发现一些特征相关性,并做一些分类预测或者聚类; 比如预测客户的年龄,预测用户购买物品的种类,比如基于用户的聚类等   数据源 来自零售商店的事物数据 User_ID: Unique identifier of shopper. Product_ID: Unique identifier of product. (No key given) Gender: S......

机器学习实践—心脏疾病预测
大数据 / 2018年6月6日

项目说明:  心脏疾病预测   数据源 https://www.kaggle.com/sarubhai56/heart-disease > 1. age  > 2. sex  > 3. chest pain type (4 values)  > 4. resting blood pressure  > 5. serum cholestoral in mg/d......

大数据知识体系(ZT)
大数据 / 2018年5月30日

大数据产品,从系统性和体系思路上来做,主要分为五步: 针对前端不同渠道进行数据埋点,然后根据不同渠道的采集多维数据,也就是做大数据的第一步,没有全量数据,何谈大数据分析; 第二步,基于采集回来的多维度数据,采用ETL对其各类数据进行结构化处理及加载; 然后第三步,对于ETL处理后的标准化结构数据,建立数...