零基础学习机器学习(五)机器学习方法小结

这篇博客简单梳理下机器学习的算法,训练方法和训练一个模型的步骤。

机器学习的步骤

  1. 数据收集:通过公开的数据集或者网页爬取的方式获取
  2. 数据标注:对收集到的数据进行打标,这里有多种情况:
    1. 如果所有的数据已经有了标注,比如爬取的目的是为了预测房价,那么爬取到的数据本身就含有标注,这种情况不需要特殊标注
    2. 如果只有部分数据有标注,且这部书数据足够开始训练一个小模型,那么可以采用半监督学习,具体可以看本系列的第一篇博客
    3. 如果所有数据都没有标注,而你又需要标注,可以考虑众包的方式去找标注工标注,但如果没有足够的资金,可以考虑弱监督学习,从数据本身提取标注
    4. 如果没有标注,且机器学习的目的不是获得标注,那么可以采用无监督学习
  3. 数据分析:通过简单的绘制一些柱状图,折线图等看一下数据的分布情况,为后续的算法选择提供帮助
  4. 数据清理:清除一些噪声数据,比如房价数据是乱码的数据
  5. 数据变换:将数据进行变化,变化到机器学习的更加擅长的数据类型:
    1. 对于数字,可以缩放到指定的区间,避免因为单位的不同导致机器学习的更偏向于某种权重
    2. 文本进行词根化,如car,cars,car’s都变为car,或者语法化,如am,is,are都变成be,或者拆分token
    3. 比如对图片,视频,音频进行向量化
  6. 特征工程:
    1. 对于数字,把连续数字拆分为桶,比如100和101都落在在10号桶中
    2. 对于种类数据,进行独热编码
    3. 对于时间戳数据,拆分为年月日
    4. 也可以通过矩阵外乘的方式,将多个种类进行组合称一种独热编码
  7. 模型训练
  8. 模型评估

机器学习的训练方法

参考本系列第一篇博客

机器学习的几种算法