零基础学习机器学习(五)机器学习方法小结
这篇博客简单梳理下机器学习的算法,训练方法和训练一个模型的步骤。
机器学习的步骤
- 数据收集:通过公开的数据集或者网页爬取的方式获取
- 数据标注:对收集到的数据进行打标,这里有多种情况:
- 如果所有的数据已经有了标注,比如爬取的目的是为了预测房价,那么爬取到的数据本身就含有标注,这种情况不需要特殊标注
- 如果只有部分数据有标注,且这部书数据足够开始训练一个小模型,那么可以采用半监督学习,具体可以看本系列的第一篇博客
- 如果所有数据都没有标注,而你又需要标注,可以考虑众包的方式去找标注工标注,但如果没有足够的资金,可以考虑弱监督学习,从数据本身提取标注
- 如果没有标注,且机器学习的目的不是获得标注,那么可以采用无监督学习
- 数据分析:通过简单的绘制一些柱状图,折线图等看一下数据的分布情况,为后续的算法选择提供帮助
- 数据清理:清除一些噪声数据,比如房价数据是乱码的数据
- 数据变换:将数据进行变化,变化到机器学习的更加擅长的数据类型:
- 对于数字,可以缩放到指定的区间,避免因为单位的不同导致机器学习的更偏向于某种权重
- 文本进行词根化,如car,cars,car’s都变为car,或者语法化,如am,is,are都变成be,或者拆分token
- 比如对图片,视频,音频进行向量化
- 特征工程:
- 对于数字,把连续数字拆分为桶,比如100和101都落在在10号桶中
- 对于种类数据,进行独热编码
- 对于时间戳数据,拆分为年月日
- 也可以通过矩阵外乘的方式,将多个种类进行组合称一种独热编码
- 模型训练
- 模型评估
机器学习的训练方法
参考本系列第一篇博客