数据集产生方法:
- 留出法:将数据集分为两个互斥集合,一个集合用于训练,一个集合用于测试。
- 交叉验证法(cross validation):将数据集分为 $ k $ 个大小相似的互斥集合,每次用 $ k-1 $ 个子集的并集作为训练集,剩下的子集作为测试集,就可以获得 $ k $ 组训练/测试集,可以进行 $ k $ 次训练,得到 $ k $ 个模型,返回 $ k $ 个结果。
- 自助法():暂时没看
模型效果评估方法:
- 准确率 Precision:
- 召回率 Recall:
- 真正例率:
- 假正例率:
基于上述概念,有了RUC的概念。