联通研究院《Spark计算框架应用与实践》测试题

感谢您能抽出几分钟时间来参加本次答题，现在我们就马上开始吧！

Q1:姓名

no_show

Q2:单位部门

no_show

Q3:手机号码

A1

:一、单选题（每题4分，共80分）

Q4:以下哪一个不是Spark的组件？

A. Spark Core

B. Hive

C. Spark SQL

D. Spark Streaming

Q5:大数据研究的核心问题是？

A. 数据的存储

B. 数据的计算

C. 以上都是

Q6:搭建一个数据仓库可能需要使用哪些技术？

A. Oracle

B. MySQL

C. Hadoop

D. 以上都是

Q7:启动HDFS的命令是？

A. Start-dfs.sh

B. Start-all.sh

C. Start-yarn.sh

D. Start.sh

Q8:Spark 的四大组件下面哪个不是_____

A.Spark Streaming

B. Spark Core

C Spark SQL

D.Spark R

Q9:Spark Core的核心数据模型是________

A.DataFrame

B.Array

C.RDD

D.DStream

Q10:Spark SQL的核心数据模型是________

A.DataFrame

B.Array

C.RDD

D.DStream

Q11:Spark Stream的核心数据模型是________

A.DataFrame

B.Array

C.RDD

D.DStream

Q12:Spark SQL默认支持分析语句是________

A.SQL

B.DSL

C.Java

D.Scala

Q13:park SQL默认的数据源是________

A.CSV

B.Parquet

C.JSON

D.TXT

Q14:下面哪个端口是Spark Web服务的端口（）

A.8080

B.4040

C.8090

D.18080

Q15:下面哪个不是 RDD 的特点 ( ）

A. 可分区

B 可序列化

C 可修改

D 可持久化

Q16:Spark 支持的分布式部署方式中哪个是错误的 ( )

A standalone

B spark on mesos

C spark on YARN

D Spark on local

Q17:下面哪个操作是宽依赖 ( )

A groupByKey

B filter

C map

D union

Q18:下面哪个操作肯定是窄依赖 ( )

A map

B group

C reduceByKey

D groupBykey

Q19:下面哪个操作肯定是窄依赖 ( )

A.join

B filter

C group

D reduce

Q20:生产上Spark HA应使用哪种模式？ ( )

A.ZooKeeper

B. FileSystem

C NONE

D hadoop

Q21:列哪个不是 RDD 的缓存方法 ( )

A persist()

B Cache()

C Memory()

Q22:DataFrame 和 RDD 最大的区别 ( )

A.科学统计支持

B.多了 schema

C.存储方式不一样

D.外部数据源支持

Q23:Spark体系架构的组成的部分不包括：

A:Master

B:Worker

C:ZooKeeper

D:Driver

:二、判断题（每题4分，共20分）

Q24:由于Spark和Flink是基于内存进行计算，所以数据不会发生落地的情况。

对

错

Q25:Spark与Flink类似，在执行流式计算的时候都支持状态的管理。

对

错

Q26:在设置Spark任务的并行度时，一般不超过该节点CPU的核数。

对

错

Q27:Spark和Flink都支持流式计算，并且都是真正的流式处理引擎。

对

错

Q28:Spark是一种分布式计算引擎。

对

错

联通研究院《Spark计算框架应用与实践》测试题

关于

1年前

更新

1

频次

30

题目数

分享

问卷网

有问题？问问AI帮你修改改主题：如咖啡问卷改为奶茶问卷