新年第一篇, 先做个机器学习实践总结—几种常见场景下的特征提取方法: 机器学习中最重要的一环就是特征工程,特征工程的好坏直接影响模型的效果,如果做得不好大概率会出现“garbage in,garbage out ”的情况; 特征的提取主要指特征信息的数值化,向量化的过程,下面仅仅根据个人实践经验和理解简要总结常见应用场景下的特征提...

1. 问题分析 发布一个子系统到线上,根据测试流程中收集的质量数据 预测其可能的 线上问题数; 2. 模型设计 一般影响子系统质量的因素可能有哪些? 能获取到多少纬度的数据,取决于各厂的质量大数据平台的数据挖掘能力, 这里,由于本人无实际数据平台,举个样例,纬度不一定齐全 构造的训练数据: https://github.com/margaretmm/AI/blob/mas...

测试原理 比较适合做回归测试,基于baseline image比对的UI测试   测试工具数据流图 AI能力体现在哪里? Eyes Sever中提供图片screenshot比对功能, 使用了AI 算法, 只返回2个图片的差异点,包括图像尺寸和位置差异; 用户不用做 图像处理和模型训练,使用很方便 Eggplant AI 的AI智能也是用在图像识别上...

智能算法系统如何评估? 算法模型的评估: 主要衡量模型对未知新数据的预测能力,即泛化能,衡量泛化能力的指标(也叫模型的性能度量): 1.1   准确率(accuracy) :对于给定的数据集,正确分类的样本数占总样本数的比率。 1.2   精确率(precision)==查准率:对于给定的数据集,预测为正例的样本中真正例样本的比率。 1.3 召回率( rec...

1. 问题分析 基于房屋的各种纬度特征,预测房屋价格 2.原始数据扒取 从http://hz.ganji.com/fang5 网站上扒取 杭州市房屋特征数据: 'Address':div.find('span',class_=re.compile('area')).text.strip().replace(' ','').replace('\n',''), 'Rooms': div.find('d......

flink实践–taxi fare预测–均值填充空值
未分类 / 2018年5月13日

项目说明:  目标是根据行程的距离和时长,额外的乘客数、信用卡而不是现金支付等综合考虑预测纽约的出租车费,   数据源 字段名 含义 说明 vendor_id 供应商编号 特征值 rate_code 比率码 特征值 passenger_count 乘客人数 特征值 trip_time_in_secs 行程时长 特征值 trip_distance 行程距离 特征值 payment_type......

flink实践–家庭温度和湿度感知器数据处理&预测
大数据 / 2018年5月7日

项目说明:  IOT领域,家庭温度和湿度感知器传回的数据信息做分析,用于线性回归预测   数据源 http://archive.ics.uci.edu/ml/datasets/Appliances+energy+prediction date time year-month-day hour:minute:second Appliances, energy use in Wh light......

flink&spark stream 实践–在线LR模型训练与预测
未分类 , 笔记 / 2018年4月30日

项目目的: 和《flink实践–datastream-taxi到达目的地时间预测》章节一样,目的还是利用实时获取taxi行车轨迹数据,实时数据经过处理和提取特征过程,特征数据再实时被用于模型在线训练模型,用于实时预测taxi 到达目的地的时间, 只不不过实现方式稍微不同,由于flink的ML库不是很成熟, 新方案试着使用flink  实现特征提取 data...

flink实践–家用电器用电消耗分析&预测
笔记 / 2018年4月25日

项目目标: 对家用电器电量消耗数据做分析和多种模型的预测 a. 实时提取部分特征用于预测家用用电和季节的关系 b.提取部分特征用于聚类分析—根据用电量特征做聚类 c. 还可以使用Spark离线机器学习做复杂的预测   数据集(离线)分析: household_power_consumption数据维度信息: 1.date: 日期,格式为 dd/mm/yyyy 2.time: ......

flink实践–dataset-ML
性能 / 2018年4月16日

Flink也支持ML库,但不太成熟: flink 比spark 支持的ML算法少很多 flink中只有dataset 类型的数据才能使用ML,datastream类型数据没有专门的ML库; flink 中dateset 不能转换成dataframe结构…特征数据处理感觉不是很方便 flink dateset  ML库中的算法类似乎没有提供模型评估方法   一个简单的线性回归算......

机器学习实践–Titanic 乘客生还率预测
性能 / 2018年4月5日

1.业务分析: 根据乘客的各维度特征预Titanic乘客生还概率 框架选择: 数据分析–pandas 机器学习–sklearn   2.数据分析: 导入数据分析维度和类型: df = pd.read_csv('D:/code/sparkProject/sparkInput/titanic-data.csv') print(train_df.head()) 结果显示......