以下哪项技术是处理大数据“4V”特性中“Velocity”(速度)挑战的核心技术?
Hadoop HDFS
Apache Spark Streaming
关系型数据库索引
数据仓库建模
从AI模型训练转向大数据分析,最需要优先掌握的数据处理范式是什么?
在数据工程中,用于将非结构化或半结构化数据转换为适合分析的规范化格式的过程,通常被称为______。
以下哪个大数据组件的主要设计目标与AI训练中的“参数服务器”概念最为相似?
Apache Kafka(消息队列)
Apache ZooKeeper(协调服务)
Apache HBase(列式数据库)
Apache Flink(状态管理)
在大数据生态中,______是一种支持SQL查询的分布式计算引擎,常作为Hive或Spark SQL的底层执行引擎。
对于一名从深度学习转向大数据平台的工程师,理解哪种资源调度系统至关重要?
Kubernetes
Docker Swarm
Apache Mesos
YARN
下列哪种数据存储格式因其列式存储和高效压缩特性,特别适合大数据分析场景下的快速聚合查询?
在数据湖架构中,原始数据通常以______格式保存,而不预先定义严格的模式。
从专注于模型算法的AI工程师,转型为需要保障数据 pipeline 稳定运行的数据工程师,哪项能力变得尤为重要?
超参数调优
数据建模理论
任务监控与故障恢复
神经网络架构设计
用于实时处理无界数据流,并支持事件时间、状态管理和精确一次语义的大数据处理框架是______。
以下哪项是数据仓库(如Snowflake, Redshift)与Hadoop数据湖在数据管理上的一个关键区别?
支持SQL查询
存储成本低廉
写时模式(Schema-on-Write)
支持非结构化数据
在大数据安全领域,______是一种对敏感数据(如姓名、身份证号)进行变形处理,使其无法识别个人身份的技术。
AI工程师在构建推荐系统时常用协同过滤,转型后若要处理超大规模用户行为数据实现实时推荐,应优先考虑哪种大数据技术栈?
Hive on Tez 进行离线分析
Spark MLlib 进行批量训练
Flink CEP 进行复杂事件处理
Apache Kafka + Flink 进行实时特征计算与更新
描述数据在不同系统间流动、转换和存储的端到端视图,被称为数据______。
从AI的Python生态转向大数据开发,必须熟练掌握的另一门JVM系语言是?
在大数据质量评估中,用于衡量数据集中缺失值、错误值或异常值比例的维度是数据______。
对于希望利用现有AI模型(如TensorFlow/PyTorch模型)进行大数据批量预测的场景,最合适的Spark组件是?
Spark SQL
Spark Streaming
Spark MLlib
Spark Pandas API
将大规模数据集划分为更小、更易于管理的块或分区,以便并行处理的技术,在大数据中常被称为______。
以下哪项不是数据湖仓(Lakehouse)架构试图融合的优势?
数据湖的低成本存储与格式灵活性
数据仓库的事务支持与高性能查询
实时流处理的事件时间处理能力
两者统一的数据管理与治理能力
在数据可视化与BI工具中,______是一种允许用户通过拖拽字段自主探索数据的分析方式。