在数据标注任务中,以下哪一项是确保标注质量最关键的原则?
标注速度越快越好
标注结果必须与标注规范完全一致
标注结果可以存在少量主观差异
标注工具的选择比规范更重要
在进行图像分类任务的数据标注时,以下哪些情况可能导致训练数据出现“脏数据”?(多选)
同一物体在不同图片中被标注为不同类别
模糊或难以辨认的图片被随意标注
严格按照标注规范进行标注
标注员根据自己的理解修改了部分标注规则
在自然语言处理任务中,命名实体识别(NER)标注通常需要识别出文本中的实体,如人名、地名、组织机构名等。请列举至少三种常见的实体类型。
以下关于训练集、验证集和测试集划分的说法,哪一项是正确的?
测试集用于在训练过程中调整模型超参数
验证集用于最终评估模型的泛化能力
训练集、验证集和测试集的数据分布应尽可能保持一致
可以将测试集的数据用于数据增强以扩充训练集
在模型训练过程中,过拟合(Overfitting)可能表现出以下哪些现象?(多选)
在训练集上准确率很高,在验证集上准确率很低
在训练集和验证集上的准确率都很低且接近
模型在训练集上的损失持续下降,在验证集上的损失先降后升
模型学到了训练数据中的噪声和无关特征
请写出两种常用的、用于缓解模型过拟合的技术或方法。
评估一个二分类模型时,如果正样本(Positive)非常少,以下哪个指标通常比准确率(Accuracy)更能反映模型的性能?
精确率(Precision)
召回率(Recall)
F1分数(F1-Score)
均方误差(MSE)
在目标检测任务中,IOU(Intersection over Union)是衡量预测框与真实框重合度的关键指标。请写出IOU的计算公式(用文字描述即可)。
对于一个多分类模型,其输出层通常使用什么激活函数?
Sigmoid
Tanh
ReLU
Softmax
以下关于学习率(Learning Rate)的说法,哪些是正确的?(多选)
学习率设置过大会导致模型无法收敛
学习率设置过小会导致模型收敛速度过慢
学习率在整个训练过程中通常保持不变
可以使用学习率衰减策略来优化训练过程
在模型训练开始前,对输入特征进行标准化(Normalization)或归一化(Standardization)的主要目的是什么?(请简要说明)
在数据标注项目管理中,“一致性检验”(Consistency Check)通常是指?
检查标注员是否在规定时间内完成任务
检查不同标注员对相同数据的标注结果是否一致
检查标注工具的运行是否稳定
检查标注数据的总量是否达标
以下哪些是模型部署后需要进行持续监控的常见指标?(多选)
模型的推理延迟(Latency)
模型在测试集上的准确率
线上预测数据的分布变化
服务器的CPU和内存使用率
请解释什么是“数据标注中的歧义样本”(Ambiguous Sample),并举例说明。
在构建对话系统时,将用户的一句话“我想订一张明天去北京的机票”进行意图识别(Intent Classification),这属于以下哪种任务类型?
请简述“主动学习”(Active Learning)在数据标注中的核心思想及其一个主要优势。
在评估语义分割模型时,以下哪个指标是逐像素计算分类准确度,并忽略类别不平衡的?
平均精度(mAP)
交并比(IoU)
像素准确率(Pixel Accuracy)
Dice系数(Dice Coefficient)
为了提高数据标注的效率,可以采取以下哪些措施?(多选)
提供清晰、可操作性强的标注规范与示例
使用功能强大、交互友好的专业标注工具
对标注员进行充分的岗前培训和定期复盘
为了赶进度,允许标注员跳过有难度的样本
在机器学习中,“特征工程”(Feature Engineering)指的是什么?请给出一个简单的例子。