张量(tensor)


1. 张量(Tensor)的基本概念 人工智能领域,往往需要海量的数据处理,此前在机器学习部分,为了便于理解概念,我们一直将数据表示为标量,而实际应用中,数据可能是向量、矩阵、高阶张量。 接下来的深度学习中,数据愈发丰富,很多数据是高维的,如图像、视频、音频等。同时,深度学习算法本身也愈加和张量的一

集成学习(5)XGBoost(Extreme Gradient Boosting)


在上一篇文章中我们已经了解到GBDT 是一种强大的集成学习方法,具有高准确性、良好的泛化能力和处理非线性关系的优势。 但是其仍存在训练时间长、难以并行化和超参数调优复杂等缺点。而XGBT(Extreme Gradient Boosting) 是一种改进的 GBDT,旨在解决上述问题。 1. XGBT

集成学习(4)GBDT 梯度提升树 (Grandient Boosting Decision Tree)


1. 残差(Residual) 在学习决策提升数之前,我们需要先了解一个基本的概念——残差。残差是预测值和真实值之间的误差。 例如,我们要预测一个学生A的成绩,预测值为70,真实值为50,那么残差就是80-50=30。 我们可以很容易构建一个残差树: 满分100分,学生A成绩70分 第一次预测:取满

集成学习(3)Adaboost算法

1 基本概念 Adaptive Boosting(自适应提升),简称AdaBoost,基于 Boosting思想实现的一种集成学习算法。 它通过结合多个弱分类器(通常是决策树桩/decision stump,也就是深度为1的决策树)来形成一个强分类器,从而提高分类性能。 弱分类器(Weak Lear

集成学习(2)随机森林算法

1. 基本概念 随机森林(Random Forest)由 Leo Breiman 和 Adele Cutler 提出是一种集成学习方法,属于 Bagging 方法的一种代表性实现。主要用于分类和回归任务。它通过构建多个决策树并将其结果结合起来,能显著提高模型的准确性和鲁棒性。 算法步骤如上图: 数据

集成学习(1)基础概念

1. 基本概念 现实场景中,在海量数据下,训练一个单一的模型往往会达不到要求,或是过于拟合。 基于这样的场景下,集成学习的产生理念就非常朴素。其核心思想是训练多个模型进行预测,互相弥补单个模型的不足。 2. 集成学习的目的 简单归纳一下,使用集成学习可以尝试达到以下目的: 提高准确性:单个模型可能在