初识机器学习平台 PAI
参考网站:阿里云 机器学习 PAI
1. 抽象概念
- 机器学习(笼统说法):机器通过统计学算法,对大量的历史数据进行学习从而生成经验模型,利用经验模型指导业务。
- 常见营销类业务举例:商品推荐、用户群体画像、广告精准投放等。
- 其他业务:文本类、非结构化类(如图片等),金融预测、比赛预测……
- PAI 平台,具有数据处理、建模、离线预测、在线预测等功能。
- 有监督学习(含目标列)、无监督学习(无目标列,只有特征列)、半监督学习(仅有部分目标数据)。
4. 其他重要概念如下,参考:[PAI基本概念](https://help.aliyun.com/document_detail/114445.html?spm=a2c4g.11186623.6.548.32ea7d03DKKmDg)
1. 分区:
2. 生命周期:
3. 稀疏数据格式:
4. 特征:
5. 降维:
9. 归一化:去除量纲对数据计算的影响。例如把不同跨度的计算结果归一化到 0~1 之间。
+ y = (x - MinValue) / (MaxValue - MinValue).
2. 宏观一览
- PAI 平台分成三层:
- 顶层:Web UI 界面;
- 中层:算法层;
- 底层:MAXCOMPUTE 平台层。
- 阿里云的算法库:
- PAI 的目的:一站式开发环境,避免工具间的频繁切换。
- 以往,一个数据智能应用的链路很长,从数据的 ETL、到预处理、特征工程、模型训练、评估和服务。
- PAI 的机器学习框架有:Tensorflow、Caffe、MXNet,底层提供 M40 型号的 GPU卡进行训练
- 业务架构:
6. 协同过滤算法,collaborative filtering ,即 CF,基于类别的推荐算法。
1. 挑选出爱好/属性相似的人或物,他们通常有相似的购物癖好。
2. 啤酒和尿布的故事。
7. 逻辑回归算法,Logistic regression,LR,广义的现行回归分析模型,属于监督学习算法。最常用的二分类。
1. Sigmoid 函数,目的是将值域控制在 0~1 之间。
2. 梯度下降算法进行拟合 。