文章目录

第一章 绪论第二章 模型评估与选择第三章 线性模型第四章 决策树第五章 神经网络第六章 支持向量机第七章 贝叶斯分类器第八章 集成学习附加小题

第一章 绪论

单选题

下列有关机器学习基本术语说法错误的是() A 从训练数据中学得模型的过程称为“学习”或“训练” B 训练过程中使用的数据称为“训练数据”,每一个样本称为一个“训练样本”,训练样本组成的集合称为“训练集 C 学得模型对应了关于数据的某种潜在规律,称为“假设” D 学习过程就是为了找出数据的某种潜在规律,这个规律自身,一般称为“数据特征”

正确答案: D 这个规律自身,一般称为“真相“或“真实”,学习过程就是为了找出或逼近真相

下列不属于机器学习任务的是() A 人脸识别 B 网页编写 C 文本分类 D 销量预测

正确答案: B 网页编写不属于机器学习

下列说法错误的是() A 模型是通过学习算法得到的 B 机器学习通常解决高度不确定性和复杂性的问题 C 分类和回归是监督学习的代表 D 机器学习一定需要类别标记

正确答案: D 机器学习不一定需要类别标记,如无监督学习中聚类的训练样本不包含标记

下列说法错误的是() A 学得模型适用于新样本的能力称为“泛化”能力 B 机器学习一般有“独立同分布” C 机器学习在只要见过的数据上做好了就行,未见过样本的性能不重要 D 半假设拿到的所有数据都来自一个潜在的分布

正确答案: C 泛化能力很重要

下列说法错误的是() A 色泽”取值为“青绿”,这里的“青绿”是属性值 B 输出是离散值的学习任务为分类任务 C 模型找出的规律一定是正确的 D 般假设正类和反类是可交换的

正确答案:C 模型找出的规律不一定正确

下列关于归纳偏好的说法错误的是() A 机器学习算法在学习过程中对某种类型假设的偏好,称为“归纳偏好”,或简称为“偏好 B 一般来说,任何一个有效的机器学习算法都有其归纳偏好 C “奥卡姆剃刀”原则在某些情况下可以指导选择偏好 D 在任何情况下,总有一个最优的学习算法

正确答案: D

多选题

以下那个选项不是指“奥卡姆剃刀”原则?( A 若有多个假设与观察一致,则随机选一个 B 若有多个假设与观察一致,则选即不简单又不复杂的那个 C 若有多个假设与观察一致,则选最简单的那个 D 若有多个假设与观察一致,则选最复杂的那个

正确答案: A,B,D 奥卡姆剃刀是选最简单,其他都不是

以下关于机器学习预测任务的说法正确的是() A 一般地,预测任务是希望对训练集进行学习,建立一个从输入空间x 到输出空间y 的映射f:x →y B 对于二分类任务,一般令y={-1,+1} 或{0,1} C 对于回归任务,一般y=R D 预测任务不需要训练样本的标记信息

正确答案: A,B,C ABC皆为课本P3原话

填空题

把未见过的汽车分为若干组,这是一个______(分类/回归/聚类)任务

正确答案:聚类 没见过意思是没有标签信息,因此进行聚类分组

根据训练数据是否拥有标记信息,我们可以将学习任务分为两大类,监督学习和 ______学习

正确答案: 无监督/非监督

学得模型后,使用其进行预测的过程称为______

正确答案:测试

算法聚类算法是机器学习中一种典型的______学习算法

正确答案:无监督/非监督

学出来的模型适用于新样本的能力,称为_____能力。该能力越强,说明学得的模型越能很好地适用于整个样本空间.

正确答案: 泛化

分类和回归任务,按照数据是否拥有标记信息来说,属于机器学习中的________

正确答案: 监督学习 按照标记信息分为监督学习和无监督学习,分类和回归属于监督学习

第二章 模型评估与选择

在训练集上的误差被称为() A 泛化误差 B 经验误差 C 测试误差 D 以上三个选项都不对

正确答案: B

当学习任务对数据集分布的轻微变化比较鲁棒且数据量较少时,适合使用什么样的数据集划分方式?() A 留出法 B 交又验证法 C 自助法 D 以上三个选项都可以

正确答案: C 本题关键是考虑“数据量较少”,此时无论是使用留出法还是交叉验证法,都会使得训练集数据量进一步变少,而使用自助法则不改变样本数量(训练集与原样本集同规模);其次考虑“对数据分布轻微变化比较鲁棒”,说明使用自助法时带来的训练数据分布变化不会有太多负面影响。综上,本题应该选C。

两种算法在某种情况下取得评估结果后不能直接比较以评判优劣的原因中,正确的是() A 测试性能不等于泛化性能 B 测试性能随着测试集的变化而变化 C 很多机器学习算法本身有一定随机性 D 以上均正确

正确答案: D

对于留出法,下列说法正确的是() A 测试集小的时候,评估结果的方差较大 B 训练集小的时候,评估结果的偏差较大 C 留出法需要对数据集进行多次切分并将结果取平均值 D 以上说法均正确

正确答案: D

我们通常将数据集划分为训练集,验证集和测试集进行模型的训练,参数的验证需要在____上进行,参数确定后_____重新训练模型。() A 训练集,需要 B 训练集,不需要 C 验证集,需要 D 验证集,不需要

正确答案: C

当西瓜收购公司去瓜摊收购西瓜时即希望把好瓜都收走又保证收到的瓜中坏瓜尽可能的少,请问他应该考虑什么评价指标?() A 精度 B 查全率 C 查准率 D F1度量

正确答案: D 本题希望“既” 把好瓜都收走,“又”要求坏瓜尽可能的少,所以需要一个综合考虑查全率、查准率的性能度量,而F1度量恰好对查全率、查准率均有所考虑,因此本题选D。

以下哪些是留出法的注意事项() A需要保持训练集和测试集数据分布的一致性 B只需进行一次划分 C测试集不能太大,不能太小 D以上选项都不是

正确答案: A,C 留出法需要进行多次划分

当我们使用一个多项式函数去逼近数据集时,下列哪些说法是错误的?() A 多项式的次数时超参数 B 多项式的系数是超参数 C 多项式的次数必须通过数据去学习 D 多项式的次数可以人工设置

正确答案: B,C 次数可以设置,系数需要训练求解

Mcnemar检验基于_____ (成对t检验/卡方检验)

正确答案:卡方检验

训练模型时,选择经验误差最小的模型会存在什么风险______ (过拟合/欠拟合)

正确答案:过拟合

对于从数据(0,1),(1,0),(1,2),(2,1)通过最小二乘拟合的不带偏置项的线性模型y=x,其训练误差(均方误差)为 ______(保留三位小数)

正确答案:1.000

使用留出法对数据集进行划分时,为了保持数据分布的一致性,可以考虑什么采样_________。

正确答案:分层采样/分层抽样

第三章 线性模型

下列关于对数几率回归的描述中错误的是? A 无需事先加上数据分布 B 使用对数函数作为联系函数 C 可得到类别的近似概率预测 D 可直接应用现有数值优化算法求取最优解

正确答案: B 以对数函数作为联系函数的广义线性模型叫对数线性回归;对数几率回归是以sigmoid函数为联系函数的模型,是分类学习方法。书中段落比较靠近,易混淆。

孙悟空想请你帮他预测下一次妖精会在多久后出现,你会使用下列哪种方法?() A 使用历史上妖精出现的时间以及八戒每日食量数据并使用对率回归模型 B 使用历史上妖精出现的时间以及师父念紧箍咒的时间数据,并使用指数线性回归模型 C 使用历史上妖精出现的时间以及师徒四人的前进速度数据,并使用多元线性回归模型 D 使用历史上妖精出现的时间以及沙和尚每日体重数据.并使用对数线性回归模型

正确答案: C

处理类别不平衡问题时,复制小类样本不是一种好的过采样方法,下列哪个不是其原因?() A 复制样本效率低下 B 容易过拟合 C 受噪声影响大 D 有过拟合噪声的风险

正确答案: A 复制小类样本之后,过拟合的可能性会大大增加,并且,如果小类样本中有噪声,则噪声的影响会被成倍放大,模型过拟合噪声的风险也会大幅度增加。

Jerry想通过西瓜的重量、西瓜的颜色、西瓜根蒂的长短来判断一个西瓜是否是好瓜,Jerry记录了一些购买西瓜的记录如下:(5500g,乌黑,长,否),(6000g,青绿,很长,是),(5800g,翠绿,短,是)。如果Jerry想收集更多西瓜数据并利用线性模型判断西瓜好坏.下列哪个选项是上述三个记录的合理表示?() A (5500,1,2),(6000,2,4),(5800,3,1) B (5.5,1,0,0,3),(6,0,0,1,5),(5.8,0,1,0,1) C (5500,1,0,0,5),(6000,0,1,0,3),(5800,0,0,1,1) D (5.5,1,0,0,3),(6,0,1,0,2),(5.8,0,0,1,1)

正确答案: B 用5.5表示5500,6表示6000,对于连续变量大小表示合理;对于没有大小关系的特征采用独热编码:(1,0,0)表示乌黑,(0,0,1)表示青绿,(0,1,0)表示翠绿。对于有大小关系的特征值,3表示为长,5表示很长,1表示短也很合理。

小明想利用心率数据、运动与用餐时间间隔这两项数据来预测是否会发生低血糖,他利用平时锻炼数据收集了100个末发生低血糖的数据与3个发生低血糖的数据 3个发生低血糖的数据为:(180,比较久),(170,久),(165,非常久)。小明想请你帮他过采样一些低血糖数据,你认为下列哪个数据是合理的过采样数据?() A (175,比较久) B (200,久) C (150,非常久) D (175,不久)

正确案: A 插值需要在现有数据之间插值,排除BC,显然A比D更加合理。

下列哪个选项不是多元线性回归使用正则化的原因?() A 计算机数值精度有限 B 样例维度大于样例数 C 样例的采样过程存在偏差 D 存在大量线性相关的样例

正确答案: C 根据线性代数相关知识可以知道,B、D选项所描述的两种情况对应的XTX一定不满秩导致有无限个解,我们需要引入正则化来表达我们的归纳偏好。当XTX可逆但是病态矩阵(条件数很大)时,标记微小的误差都会导致解产生巨大的变化。 由于计算机数值精度有限,标记存储在计算机中的数值与采样值很可能并不完全相等,加之计算时的舍入误差、截断误差,最终计算出的数值解很可能与理论值相差甚远,此时也需要引入正则化。

在求解对率回归时,下列哪个选项是极大似然法的优势?() A 优化目标是凸函数 B 具有闭式解 C 可以使用梯度下降法求解 D 优化目标连续可微

正确答案: A,C,D 极大似然法不具有闭式解,只有数值解(通过数值逼近等方法获得),解析求解如最小二乘,当

X

T

X

X^TX

XTX为满秩矩阵或正定矩阵才有闭式解:

w

ˆ

=

X

T

X

1

X

T

y

\^w=(X^TX)^{-1}X^Ty

wˆ=(XTX)−1XTy

下列关于梯度下降法描述正确的是?() A 可以用于求解对数几率回归 B 是一种迭代求解的方法 C 可以比较好的并行化 D 可以高效地求解所有凸优化问题

正确答案: A,B,C 并不能解决所有

给定数据集D={(-1,0),(0,0),(1,1)}最小二乘法学得的线性模型斜率为______ (保留三位小数)

正确答案: 0.500 根据

w

ˆ

=

X

T

X

1

X

T

y

\^w=(X^TX)^{-1}X^Ty

wˆ=(XTX)−1XTy可以算出,建议手算试一试

卖商家想利用天气来预测销售额,已知他只考虑温度、湿度、降雨量三种天气特征。若商家使用线性回归模型预测,则模型的输入是__(填写阿拉伯数字) 维度的。

正确答案:3

对率回归 ______(需要/不需要)事先假设数据分布

正确答案: 不需要

对率回归可以得到样例是正类的概率的 _____(精确值/近似估计)。

正确答案:近似估计

多元线性回归不满秩的情况下__(是/否)可以通过加入归纳偏好来选取较好的解

正确答案:是

第四章 决策树

决策树划分时,若当前结点包含的样本集合为空,则应该怎么做?() A 将结点标记为叶结点,其类别标记为父结点中样本最多的类 B 将结点标记为叶结点,其类别标记为父结点中样本最少的类 C 将结点标记为叶结点,其类别标记为父结点中任意一个类 D 从其他结点获得样本,继续进行划分

正确答案:A 用父节点的分布作为当前节点先验分布,一般都标记为父节点最多的类

决策树划分时,当遇到以下哪种情形时,将结点标记为叶节点,其类别标记为当前样本集中样本数最多的类? A 当前属性集为空,或所有样本在所有属性上取值相同 B 当前属性集不为空,或所有样本在所有属性上取值相同 C 当前结点包含的样本集合为空,或当前属性集为空 D 当前结点包含的样本集合为空,或所有样本在所有属性上取值相同

正确答案:A

随着决策树学习时的深度增加,会发生人现象?() A 位于叶结点的样本越来越少 B 不会把数据中不该学到的特性学出来 C 决策树不会过拟合 D 叶结点一定学到一般规律

正确答案:A

关于剪枝,下列说法错误的是() A 对于同一棵树,进行预剪枝和后剪枝得到的决策树是一样的 B 决策树的剪枝算法可以分为两类,分别称为预剪枝和后剪枝 C 预剪枝在树的训练过程中通过停止分裂对树的规模进行限制 D 后剪枝先构造出一棵完整的树,然后通过某种规则消除掉部分节点,用叶子节点替代

正确答案: A

预剪枝欠拟合风险(),后剪枝欠拟合风险()。 A 降低;降低 B 增加;基本不变 C 基本不变;基本不变 D 基本不变;增加

正确答案: B 预剪枝会提高欠拟合风险,后剪枝则不影响

下列说法正确的是() A 信息增益准则对可取值较少的属性有所偏好 B C4.5算法并不是直接选择增益率最大的候选划分属性 C 基尼指数反映了从数据集中随机抽取两个样本,其类别标记不一致的概率 D 基尼指数越小,数据集的纯度越高

正确答案: B,C,D C4.5先在划分属性选出信息增益高于平均水平的,再从中选择增益率最高的

下列说法错误的是() A 决策树处理缺失值时,仅通过无缺失值的样例来判断划分属性的优劣 B 若数据中存在缺失值,决策树会仅使用无缺失的样例 C 若数据维度很高,不容易出现大量缺失值 D 对决策树,给定划分属性,若样本在该属性上的值缺失,会随机进入一个分支

正确答案: B,C,D 计算信息熵判断优劣只考虑没缺失的样本, 无缺失也会用, 维度高更容易大量缺失, 不是随机进一个,是权重划分后分别进入分支

ID3决策树划分时,选择信息增益最____(大/小)的属性作为划分属性

正确答案:大

若数据集的属性全为离散值,决策树学习时,这______(可以/不可以)把用过的属性再作为划分属性.

正确答案: 不可以 在一颗树中每个属性只用一次

色泽对西瓜数据集2.0(《机器学习》教材第76页),属性“触感”和“色泽”,____(触感/色泽)的增益率更大

正确答案:色泽

对西瓜数据集2.0(《机器学习》教材第76页),属性“色泽”的基尼指数为___________(保留2位有效数字)

正确答案: 0.43

6

/

17

(

1

(

1

/

2

)

2

(

1

/

2

)

2

)

+

6

/

17

(

1

(

4

/

6

)

2

(

2

/

6

)

2

)

+

5

/

17

(

1

(

1

/

5

)

2

(

4

/

5

)

2

)

=

0.4275

6/17∗(1−(1/2)^2−(1/2)^2 )+6/17∗(1−(4/6) ^2−(2/6) ^2)+5/17∗(1−(1/5)^2−(4/5)^2 )=0.4275

6/17∗(1−(1/2)2−(1/2)2)+6/17∗(1−(4/6)2−(2/6)2)+5/17∗(1−(1/5)2−(4/5)2)=0.4275

只学习一颗决策树作为模型时,一般_____(要/不要)选择剪枝

正确答案: 要 不剪枝容易造成过拟合

第五章 神经网络

下列哪个选项是神经网络万有逼近的正确表述?() A 仅需一个包含足够多神经元的隐层,多层前馈神经网络就能以任意精度逼近任意复杂度的可测函数 B 仅需一个包含足够多神经的隐层,多层前馈神经网络就能完美表示任意复杂度的连续函数 C 仅需一个包含足够多神经元的隐层,多层前馈神经网络就能以任意精度逼近任意复杂度的连续函数 D 仅需一个包含100000000个神经元的隐层,多前馈神经网络就能以任意精度逼近任意复杂度的连续函数

正确答案: C 万有逼近性:仅需一个包含足够多神经元的隐层,多层前馈神经网络就能以任意精度逼近任意复杂度的连续函数[Hornik et al.1989]

下列哪个模型不具备万有逼近性?() A 线性模型 B 泰勒展开 C 傅里叶变换 D 决策树

正确答案: A

下列关于多层前馈神经网络的描述中错误的是哪个?() A 可以使用BP算法优化 B 至少包含一个隐层 C 神经元之间不存在同层连接 D 输入层可以直接连接到输出层

正确答案: D

下列哪个选项的步长(学习率)调整方法是给出的四种方案中最好的?( A 先使用较大的步长,后使用较小的步长 B 先使用较小的步长,后使用较大的步长 C 直使用较大的步长 D 直使用较小的步长

正确答案:A

下列哪项使神经网络具有非线性?() A 随机梯度下降 B 激活函数 C 卷积函数 D 权重矩阵

正确答案: B 跟上面广义线性模型的内容呼应,目的就是映射到非线性的真实值

目前神经网络最常用的网络结构是下列哪个选项?() A 单层后向网络 B 多层后向网络 C 单层前馈网络 D 多层前馈网络

正确答案:D

BP算法的每一轮采用的是什么学习规则?() A 广义感知机学习规则 B 广义最小二乘学习规则 C 广义决策树学习规则 D 广义支持向量机学习规则

正确答案:A

下列关于BP算法使用小步长优化神经网络的说法中正确的是哪个?() A 一定能学到最优解 B 可以较好的避免振荡现象 C 训练速度快 D 学得的解比使用大步长具有更小的泛化误差

正确答案: B

使用梯度下降训练Logistic回归分类器后,如果发现它对训练集欠拟合,在训练集或验证集上没有达到所需的性能,那么以下哪项可能是有希望采取的步骤?() A 采用其他优化算法,因为梯度下降法得到的可能是局部极小值 B 增加训练样本 C 增加多项式特征值 D 增加训练集样本数在全部数据集中的比例

正确答案: B,C

以下哪些函数可做为神经网络的激活函数使用?() A sigmoid B tanh C ReLU D Hinge

正确答案: A,B,C hinge损失函数是用来作为软间隔SVM中代替0/1损失的松弛变量的函数

神经网络必须包括的结构有() A 输入层 B 卷积层 C 激活函数 D 输出层

正确答案: A,C,D

BackPropagationBP算法的英文全称为____

正确答案: BackPropagation / Back Propagation

Sigmoid函数在自变量Z=0.5处的导数值为___

正确答案:0.235

具有10个隐层结点的单隐层网络在处理输入维度为6维的三分类任务时,网络中共有多少个参数______

正确答案:103 (d +L+1)q +L,d为输入层神经元数量,L为输出层神经元数量,q为隐层神经元数量:(6+3+1)10 +3 = 103

第六章 支持向量机

对于线性可分的二分类任务样本集.将训练样本分开的超平面有很多,支持向量机试图寻找满足什么条件的超平面?() A 在正负类样本“正中间”的 B 靠近正类样本的 C 靠近负类样本的 D 以上说法都不对

正确答案: A

下面关于支持向量机的说法错误的是 A 支持向量机基本型是一个凸二次规划问题 B 将训练样本分开的超平面仅由支持向量决定 C 支持向量机的核心思想是最大化间隔 D 支持向量机更适合做分类任务

正确答案: D 要看具体问题的效果

下面哪一项不是支持向量机基本型得到对偶问题的求解步骤( A 引拉格朗日乘子得到拉格朗日函数 B 对拉格朗日函数求偏导并令其为0 C 回带变量关系 D 梯度下降

正确答案: D 对偶问题求解步骤

引拉格朗日乘子得到拉格朗日函数对拉格朗日函数求偏导并令其为0回带变量关系

支持向量到超平面的距离为() A 1 B 2 C 2/||w|| D 1/||w||

正确答案: D

如果不存在一个能正确划分两类样本的超平面SVM的做法是() A 将样本从原始空间映射到一个更高维的特征空间,使样本在这个特征空间内线性可分 B 将样本从原始空间映射到一个更高维的特征空间,使样本在这个特征空间内非线性可分 C 将样本从原始空间映射到一个更低维的特征空间,使样本在这个特征空间内线性可分 D 将样本从原始空间映射到一个更低维的特征空间,使样本在这个特征空间内非线性可分

正确答案: A

将样本映射到高维空间后,支持向量机问题的表达式为()

正确答案: A 真实值与预测值相乘大于等于1才代表分类正确

采用hinge损失,当软间隔支持向量机松他变量ξn 满足什么条件时,样本位于间隔内,位于决策边界的正确一侧? A ξn<0 B ξn=0 C 0<ξn≤1 D ξn>1 本题得分: 1分

正确答案: C

下面有关软间隔支持向量机说法错误的是 A 软间隔是支持向量机缓解过拟合的一种手段 B 软间隔的基本思路为在最大化间隔的同时,让不满足约束的样本尽可能少。 C 正则化参数C越小,模型对分类错误的容忍度越小. D 采用hinge损失函数后仍保持了SVM解的稀疏性

正确答案: C C越小容忍度越高,因为C是ξn求和的系数,C越小说明对ξn的“惩罚力度”很小,容忍度就越大;反之“惩罚力度”大,容忍度就小。

关于支持向量机基本型中的间隔、支持向量和超平面wx+b=0 的说法,下列说法正确的是 A 对于线性可分的训练样本,存在唯一的超平面将训练样本全部分类正确 B 对于线性可分的训练样本,支持向量机算法学习得到的能够将训练样本正确分类且具有“最大间隔”的超平面是存在并且唯一的 C 支持向量机训练完成后,最后的解与所有训练样本都有关 D 间隔只与w有关,与b无关

正确答案: B

以下关于替代函数的说法错误的是() A 替代函数有良好的数学性质 B 替代函数在最优化时,原来的目标也在最优化 C “0/1”损失函数是常用的替代损失函数 D 机器学习较少采用替代损失函数。

正确答案: C,D(少选不得分)

对于SVM回归中 e-不敏感损失函数说法正确的是() A 当自变量的绝对值小于 e 时没有惩罚 B 当自变量的绝对值小于e 时,惩罚是线性的 C 当自变量的绝对值大于e 时没有惩罚 D 当自变量的绝对值大于e 时惩罚是线性的

正确答案: A,D(少选不得分)

考虑两个正例样本(0.0),(1.1)和两个负例样本(1.0),(0.1这四个样本是线性不可分的,通过下列哪些映射函数可以让这四样本线性可分?I(x) 为示性函数,当自变量为真时取值为1,否则取值为0。 A (x,y)→(x,y,I(x+y>1)) B (x,y)→(x,y,I(x+y≤0)) C (x,y)→(x,y,I(x=y)) D (x,y)→(x,y,I(x≠y))

正确答案: A,B,C,D(少选不得分)

支持向量满足的表达式为wTx+b=___

正确答案:±1

第七章 贝叶斯分类器

贝叶斯分类器属于什么模型?() A 判别式 B 生成式 C 判别式和生成式 D 以上都不对

正确答案: B

极大似然中,若直接连乘,易造成什么现象?() A 下溢 B 上溢 C 内存不足 D 计算开销大

正确答案:A

对数似然中,一般对概率取对数,然后进行以下哪个的操作?() A 求差 B 求和 C 求积 D 以上都不是

正确答案: B 对数求和相当于概率相乘

贝叶斯公式中,估计后验概率P(clx)的主要困难在于估计?() A p(c ) B p(x|c) C p(x) D 以上都是

正确答案: B 属性上的联合概率难以从有限的样本中获得

朴素贝叶斯算法是基于()的生成分类器 A 贝叶斯公式 B 特征条件独立 C 高斯公式 D 特征条件依赖

正确答案: A,B

当训练集变大时,拉普拉斯修正所引入的先验的影响也会逐渐变_____(大/小)

正确答案: 小 拉普拉斯修正是为了防止未出现的事件概率为零,对分母+N、分子+1,当训练集大到一定规模时,对于没出现事件赋予的概率也会接近与零,引入的先验影响会变小

7.从贝叶斯决策论的角度看,机器学习要实现的是基于有限的训练样本尽可能准确地估计出后验概率P(c|x),这句话___(正/错)

正确答案:正确

8.极大似然估计中,对数似然的解与原问题____(一致/不一致)

正确答案:一致

第八章 集成学习

下列哪个关于集成学习的描述是正确的?() A 集成学习一定能取得比最好的个体学习器更好的性能 B 集成学习的性能可能与个体学习器的平均性能相同 C 集成学习的性能一定不差于最差的个体学习器 D 集成学习的性能在个体学习器平均性能与个体学习器最佳性能之间

正确答案: B

下列哪个选项不是集成学习在分类任务中取得好性能的要求?() A 个体学习器犯错的样本较为分散 B 个体学习器具有较好的性能 C 存在一个完美的个体学习器 D 个体学习器分对的样本不完全一致

正确答案: C

下列哪个算法是并行化集成学习方法?() A XGBoost B Random Forest C AdaBoost D LPBoost

正确答案: B

下列关于Boosting算法的说法中错误的是哪个?() A Boosting算法适用于分类、回归、排序等机器学习问题 B 后一个基学习器更关注前一个基学习器学错的样本 C Boosting算法的输出是所有基学习器的加权求和 D 不同基学习器使用的样本权重是相同的

正确答案:D

下列关于Bagging算法中采样的描述哪个是错误的?() A 可以使用Bootstrap采样 B 每个样本在每个基学习器的数据集中只会出现一次 C 采样是为了获得不同的基学习器 D 不同基学习器的数据从相同分布中采样得到

正确答案: B 跟A矛盾,抽样是又放回,肯定会重复

下列关于集成学习的说法中错误的是?() A 个体学习器准确率很高后,要增加多样性可以不牺牲准确性 B 当基分类器的错误率相互独立时,随着个体数目的增大,集成错误率将指数级下降 C 现实任务中,个体学习器很难做到相互独立 D 集成学习的核心是如何产生并结合好而不同的个体学习器

正确答案:A 增加多样性必须牺牲准确性

多样性是集成学习的关键,现实任务中往往会在学习过程中引入随机性来增强个体学习器的多样性,你认为下列哪个做法不是合适的增强多样性的方法?() A 每个个体学习器使用不同的数据子集 B 生成大量随机样本放入到数据集中 C 每个个体学习器使用不同的输入属性子集 D 当个体学习器有参数可以设置时,对不同个体学习器设置不同的参数

正确答案: B 大量随机样本属于逆天操作

下列关于Boosting算法中样本权重调整的说法中错误的是哪个?() A 所有样本的权重和保持不变 B 前一个基学习器分错的样本会获得更大的权重 C 只要权重调整的方向正确,Boosting算法的性能就可以获得理论保证 D 决策树可以直接处理带权重的样本

正确答案:C 权重和为1确实不变,不是权重不变;只要……就很有绝对;直接处理带权重的样本是决策树的特点。

下列关于集成学习描述正确的是?( A 集成学习只能使用若千个相同类型的学习器 B 集成学习使用多个学习器解决问题 C 集成学习在许多比赛中取得了优异的成绩 D 集成学习在分类问题上的性能比不过深度学习

正确答案: B,C 可以用不同的组合;不一定比不过深度学习,要看具体问题

下列哪些学习器可以作为集成学习中的学习器?() A 支持向量机 B 决策树 C 神经网络 D 逻辑回归

正确答案: A,B,C,D 都可以

在随机森林里生成几百棵决策树,然后对这些决策树的结果进行综合,下面关于随机森林中每棵决策树的说法哪些是正确的? A 每棵决策树都是通过数据集的子集构建的 B 每棵决策树都是通过数据特征的子集构建的 C 每棵决策树都是通过所有数据构建的 D 每棵决策树都是通过所有的数据特征构建的

正确答案: A,B 每棵树都是子集的数据集和特征构建

如果随机森林模型现在处于欠拟合状态,则下列哪些操作可以提升其性能?() A 增大叶了结点的最小样本数 B 增大决策树的最大深度 C 增大中间结点分裂的最小样本数 D 减小叶子结点的最小样本数

正确答案: B,D 欠拟合就进行可能过拟合的操作,BD就属于容易过拟合的操作

由若干个相同类型的学习器构成的集成学习被称为____(同质/异质)集成学习

正确答案:同质

Boosting是一种___(同质/异质)集成学习方法

正确答案:同质

Bagging算法使用的采样方法是__(有/无)放回采样

正确答案:有

附加小题

西瓜数据集中,“好瓜、坏瓜”是一个西瓜样例的什么? A 属性 B 类别标记 C 属性值 D 数据集名称

正确答案:B

回归任务的性能度量之一均方误差添加系数后 CE(f; D)(c >0) ,是否会影响判断哪个模型是最好的。__(是/否)

正确答案:否

收购西瓜的公司希望把瓜摊的好瓜都尽量收走,请问他的评价标准是? A错误率 B精度 C查准率 D查全率

正确答案: D

当增加L2正则项的超参数λ时,参数w的权重如何变化? A权重变得更小 B权重变得更大 C权重不变 D权重变化不确定

正确答案:A

最小二乘法的求解步骤是什么? (1)均方误差对w与b求偏导; (2) 令偏导为0; (3)求解线性方程组。 A (1)(2)(3) B (1)(3)(2) C (2)(1)(3) D (3)(1)(2)

答案A

以下线性回归模型不能用梯度下降算法优化求解的是? A 最小二乘回归 B 岭回归 C Lasso回归 D 弹性网络回归

答案CD,Lasso回归和弹性网络回归都含有L1正则项,L1正则存在不可求导的部分因此没法使用梯度下降。

当下列那个条件满足时,多元线性回归的最小二乘解唯一? A

X

T

X

X^TX

XTX不满秩 B

X

T

X

X^TX

XTX满秩 C

X

X

T

XX^T

XXT满秩 D

X

X

T

XX^T

XXT不满秩

答案:B,线性代数知识:满秩才有唯一解

以下哪个模型没有超参数? A 最小二乘线性回归 B 岭回归 C Lasso回归 D 弹性网络回归

答案A,最小二乘回归无正则项

单位阶跃函数的缺点是什么? A 不连续且不可微 B 单调增 C 非负 D 最大值为1

答案A

以下那种方法不是常见的类别不平衡学习方法? 最小二乘法 过采样 欠采样 闽值移动

正确答案:A

答案B

在二分类任务中,若当前样本集合的正类和负类的数量刚好各半,此时信息为[填空1] (保留1位小数)

正确答案: 1.0

在一个3-5-1的神经网络中,有多少个待定参数? A 9 B 15 C 20 D 26

答案D,需通过学习确定的参数数目:(d +L+1)q +L,d为输入层神经元数量,L为输出层神经元数量,q为隐层神经元数量:(3 +1+1)5 +1=26

下列说法正确的是 A 贝叶斯决策论是概率框架下实施决策的基本理论 B R(c|x)表示样本x分到第i类面临的风险 C 如果概率都能拿到真实值,那么根据贝叶斯判定准则做出的决策是理论上最好的决策 D 以上都正确

正确答案: D

精彩文章

评论可见,请评论后查看内容,谢谢!!!评论后请刷新页面。