机器学习实践–blackFriday
未分类 / 2018年6月16日

项目说明:  根据用户购物行为发现一些特征相关性,并做一些分类预测或者聚类; 比如预测客户的年龄,预测用户购买物品的种类,比如基于用户的聚类等   数据源 来自零售商店的事物数据 User_ID: Unique identifier of shopper. Product_ID: Unique identifier of product. (No key given) Gender: S…

flink实践–状态管理&特征提取
未分类 / 2018年5月16日

项目说明:  通过实时检测室内光,温度,湿度,二氧化碳来判断是否有人,一个典型的二元分类问题   数据源 http://archive.ics.uci.edu/ml/machine-learning-databases/00357/ “date”: 日期 “Temperature”: 温度 “Humidity”: 湿度 “Light”: 光线 “CO2”: 二氧化碳 “HumidityR…

吴恩达 深度学习练习
未分类 / 2018年5月16日

https://blog.csdn.net/u013733326/article/details/79827273 1. 神经网络和深度学习 – 第二周作业 – 具有神经网络思维的Logistic回归 目标: 搭建一个能够【识别猫】 的简单的神经网络 引入的库: numpy :是用Python进行科学计算的基本软件包。 h5py:是与H5文件中存储的数据集进行交互…

flink实践–taxi fare预测–均值填充空值
未分类 / 2018年5月13日

项目说明:  目标是根据行程的距离和时长,额外的乘客数、信用卡而不是现金支付等综合考虑预测纽约的出租车费,   数据源 字段名 含义 说明 vendor_id 供应商编号 特征值 rate_code 比率码 特征值 passenger_count 乘客人数 特征值 trip_time_in_secs 行程时长 特征值 trip_distance 行程距离 特征值 payment_type…

flink&spark stream 实践–在线LR模型训练与预测
未分类 , 笔记 / 2018年4月30日

项目目的: 和《flink实践–datastream-taxi到达目的地时间预测》章节一样,目的还是利用实时获取taxi行车轨迹数据,实时数据经过处理和提取特征过程,特征数据再实时被用于模型在线训练模型,用于实时预测taxi 到达目的地的时间, 只不不过实现方式稍微不同,由于flink的ML库不是很成熟, 新方案试着使用flink  实现特征提取 dataStream, 通过Kafka…