Google机器学习课程笔记part2：泛化，验证，表示法，特征组合

系列笔记索引：
官方课程

Github仓库

Part1：基础概念，降低损失

Part2：泛化，验证，表示法，特征组合

Part3：L2正则化，逻辑回归，分类

Part4：L1正则化，神经网络

Part5：训练神经网络，多类别神经网络，嵌套

理论上：泛化理论（略）

直觉上：奥卡姆剃刀（越简单越好）

经验上：用测试集上的表现作为新数据的预测

前提假设：

为了防止对测试集的过拟合，将数据集分为三个子集（新增一个验证集）

定义：将原始数据转化为特征矢量

对于一些无法直接转化为数字的数据（如字符串），通过映射，独热编码转化：

首先，为您要表示的所有特征的字符串值定义一个词汇表
然后，使用该词汇表创建一个独热（one-hot）编码（使用N位状态寄存器对N个状态进行编码），用于将指定字符串值表示为一个二元矢量。在该矢量（与指定的字符串值对应）中：
- 只有一个元素设为 1。
- 其他所有元素均设为 0。
该矢量的长度等于词汇表中的元素数

对于分类值

分类特征具有一组离散的可能值，通常将每个分类特征表示为单独的bool值（是a吗？是b吗？），该方法同时有利于多分类情况

良好的机器学习依赖于良好的数据，数据的重要性大于模型

将浮点特征值从自然范围转换为标准范围

作用：

方法有：

某些特征值需要分箱处理后才能与标签值建立更好的预测模型（如房价与纬度没有线性关系，但在某一纬度范围内是可以预测的）

处理数据集时要将不可靠的样本给移出或修正

定义：通过将两个或多个输入特征相乘来对特征空间中的非线性规律进行编码的合成特征

种类：如[A x B],[A x B x C],[A x A]

学习高度复杂模型：