Pandas 基础用法 、Cookbook 、 pandas 常见用法-简书、初学者使用Pandas的特征工程
以及一些乱七八糟的东西,随用随查
注:以下代码基本省略了import 的内容,需要的自己补上
dataframe 的列处理:空值、替换、整列删除
1 | df_train.isnull().sum() ## 查看各列空值情况 |
dataframe 的行处理:
1 | ## 按序号删行 |
dataframe 的 lambda
1 | ## 接入整个 dataframe,然后取某列数据进行数学计算,得出的结果被 apply 添加成新列 |
dataframe 的拼接用法(新行)
1 | ## output4拼接到 output3 下面,按字段匹配,结果:行数增加 |
dataframe <—> json
1 | ## dataframe 跟 json 的转换 |
Merge
1 | ### 普通 Merge 的多种方式 |
dataframe 的 groupby 用法
1 | ## groupby + agg 组合用法,diff 等需要提前 def |
dataframe 处理时间
1 | ## 按时间格式取 year |
python 读文件
done_list 是处理过的文件的路径,以下读文件时会自动跳过。
1 | # 从路径中获取日期和文件名 |
python 删除文件
1 | # 删除文件 |
python 连接 mysql
1 | from sqlalchemy import create_engine |
python 发送 mqtt 消息
1 | # -*- coding: utf-8 -*- |
threading 多线程执行程序(也可读文件)
1 | # 进程池方式 |
特征工程&可视化
1 | ### 查看字段的频率 |
Numpy 之 axis
axis=0代表往**跨行(down),而axis=1代表跨列(across)**,作为方法动作的副词。而且Pandas保持了Numpy对关键字axis的用法
- 使用0值表示沿着每一列或行标签\索引值向下执行方法
- 使用1值表示沿着每一行或者列标签模向执行对应的方法
seaborn 绘图
1 | ## 一行双图 |
python+md5 加密
1 | # 获取原始密码+salt的md5值 |
树模型查看特征重要性
1 | ## 以下传参中的 gbm 是训练好的模型 |
lightgbm
1 | x_train, x_test, y_train, y_test = train_test_split(X_train, |
随机森林+GridSearchCV
1 | # 将分类随机森林实例化 |
LR
1 |
|
SVM
1 |
|
五折 Stacking
1 |
|
OPTICS _优化的 DBScan 聚类
1 |
|