Fork me on GitHub

ali PAI(1)

初识机器学习平台 PAI

参考网站:阿里云 机器学习 PAI

1. 抽象概念

  1. 机器学习(笼统说法):机器通过统计学算法,对大量的历史数据进行学习从而生成经验模型,利用经验模型指导业务。
    1. 常见营销类业务举例:商品推荐、用户群体画像、广告精准投放等。
    2. 其他业务:文本类、非结构化类(如图片等),金融预测、比赛预测……
  2. PAI 平台,具有数据处理、建模、离线预测、在线预测等功能。
  3. 有监督学习(含目标列)、无监督学习(无目标列,只有特征列)、半监督学习(仅有部分目标数据)。
 4.  其他重要概念如下,参考:[PAI基本概念](https://help.aliyun.com/document_detail/114445.html?spm=a2c4g.11186623.6.548.32ea7d03DKKmDg)
       1.  分区:
       2.  生命周期:
       3.  稀疏数据格式:
       4.  特征:
       5.  降维:
    9.  归一化:去除量纲对数据计算的影响。例如把不同跨度的计算结果归一化到 0~1 之间。
    + y = (x - MinValue) / (MaxValue - MinValue).

2. 宏观一览

  1. PAI 平台分成三层:
    1. 顶层:Web UI 界面;
    2. 中层:算法层;
    3. 底层:MAXCOMPUTE 平台层。
  2. 阿里云的算法库:

  1. PAI 的目的:一站式开发环境,避免工具间的频繁切换。
    1. 以往,一个数据智能应用的链路很长,从数据的 ETL、到预处理、特征工程、模型训练、评估和服务。
  2. PAI 的机器学习框架有:Tensorflow、Caffe、MXNet,底层提供 M40 型号的 GPU卡进行训练
  3. 业务架构:

 6. 协同过滤算法,collaborative filtering ,即 CF,基于类别的推荐算法。
       1. 挑选出爱好/属性相似的人或物,他们通常有相似的购物癖好。
       2. 啤酒和尿布的故事。
  7. 逻辑回归算法,Logistic regression,LR,广义的现行回归分析模型,属于监督学习算法。最常用的二分类。
        1. Sigmoid 函数,目的是将值域控制在 0~1 之间。
        2.  梯度下降算法进行拟合 。
-------------The End-------------