联通研究院《Spark计算框架应用与实践》测试题

感谢您能抽出几分钟时间来参加本次答题,现在我们就马上开始吧!

Q1:姓名

no_show

Q2:单位部门

no_show

Q3:手机号码

A1

:一、单选题(每题4分,共80分)

Q4:以下哪一个不是Spark的组件?

A. Spark Core
B. Hive​
C. Spark SQL​
D. Spark Streaming

Q5:大数据研究的核心问题是?

A. 数据的存储
B. 数据的计算
C. 以上都是

Q6:搭建一个数据仓库可能需要使用哪些技术?

A. Oracle​
B. MySQL
C. Hadoop
D. 以上都是

Q7:启动HDFS的命令是?

A. Start-dfs.sh  
B. Start-all.sh
C. Start-yarn.sh
D. Start.sh

Q8:Spark 的四大组件下面哪个不是_____

A.Spark Streaming    
B. Spark Core  
C Spark SQL 
D.Spark R

Q9:Spark Core的核心数据模型是________

A.​DataFrame  
B.​Array
C.​RDD
D.​DStream

Q10:Spark SQL的核心数据模型是________

A.​DataFrame  
B.​Array
C.​RDD
D.​DStream

Q11:Spark Stream的核心数据模型是________

A.​DataFrame  
B.​Array
C.​RDD
D.​DStream

Q12:Spark SQL默认支持分析语句是________

A.​SQL
B.​DSL
C.​Java
D.​Scala

Q13:park SQL默认的数据源是________

A.​CSV
B.​Parquet
C.​JSON
D.​TXT

Q14:下面哪个端口是Spark Web服务的端口( )

A.8080
B.4040
C.8090
D.18080

Q15:下面哪个不是 RDD 的特点 ( )

A. 可分区   
B 可序列化   
C 可修改   
D 可持久化

Q16:Spark 支持的分布式部署方式中哪个是错误的 ( )

A standalone
B spark on mesos  
C spark on YARN
D Spark on local

Q17:下面哪个操作是宽依赖 ( )

A groupByKey
B filter
C map
D union

Q18:下面哪个操作肯定是窄依赖 ( )

A map
B group
C reduceByKey
D groupBykey

Q19:下面哪个操作肯定是窄依赖 ( )

A.join
B filter
C group
D reduce

Q20:生产上Spark HA应使用哪种模式? ( )

A.ZooKeeper
B. FileSystem
C NONE
D hadoop

Q21:列哪个不是 RDD 的缓存方法 ( )

A persist()
B Cache()
C Memory()

Q22:DataFrame 和 RDD 最大的区别 ( )

A.科学统计支持
B.多了 schema
C.存储方式不一样
D.外部数据源支持

Q23:Spark体系架构的组成的部分不包括:

A:Master
B:Worker
C:ZooKeeper
D:Driver

:二、判断题(每题4分,共20分)

Q24:由于Spark和Flink是基于内存进行计算,所以数据不会发生落地的情况。

Q25:Spark与Flink类似,在执行流式计算的时候都支持状态的管理。

Q26:在设置Spark任务的并行度时,一般不超过该节点CPU的核数。

Q27:Spark和Flink都支持流式计算,并且都是真正的流式处理引擎。

Q28:Spark是一种分布式计算引擎。

问卷网
联通研究院《Spark计算框架应用与实践》测试题
关于
1年前
更新
1
频次
30
题目数
分享
问卷网
有问题?问问AI帮你修改 改主题:如咖啡问卷改为奶茶问卷