K折验证(K-fold validation)将数据划分为大小相同的 \(K\) 个分区。对于每个分区 \(i\) ,在剩余的 \(K-1\) 个分区上训练模型,然后在分区 \(i\) 上评估模型。最终分数等于K个分数的平均值。
K折验证(K-fold validation)将数据划分为大小相同的\(K\)个分区。对于每个分区\(i\),在剩余的\(K-1\)个分区上训练模型,然后在分区\(i\)上评估模型。最终分数等于K个分数的平均值。对于不同的训练集-测试集划分,如果模型性能的变化很大,那么这种方法很有用。K折验证也需要独立的验证集进行模型验证。示意图见下图:
代码如下所示:
k = 4 num_validation_samples = len(data) // k np.random.shuffle(data) #通常需要打乱数据 validation_scores = [] for fold in range(k): print('processing fold #', i) # 选择验证数据分区 validation_data = data[num_validation_samples * fold: num_validation_samples * (fold + 1)] # 使用剩余数据作为训练数据。注意,+运算符是列表合并,不是求和 training_data = data[: num_validation_samples * fold] + data[num_validation_samples * (fold + 1):] # 创建一个全新的模型实例(未训练) model = build_model() model.train(train_data) validation_score = model.evaluate(validation_data) validation_scores.append(validation_score) # 最终验证分数:K折验证分数的平均值 validation_score = np.average(validation_scores) # 在所有非测试数据上训练最终模型 model = get_model() model.train(data) test_score = model.evaluate(test_data)