以下哪一个不是Spark的组件?
         
                         A. Spark Core    
       
                         B. Hive    
       
                         C. Spark SQL    
       
                         D. Spark Streaming    
      
 
大数据研究的核心问题是?
         
                         A. 数据的存储    
       
                         B. 数据的计算    
       
                         C. 以上都是    
      
 
搭建一个数据仓库可能需要使用哪些技术?
         
                         A. Oracle    
       
                         B. MySQL    
       
                         C. Hadoop    
       
                         D. 以上都是    
      
 
启动HDFS的命令是?
         
                         A. Start-dfs.sh    
       
                         B. Start-all.sh    
       
                         C. Start-yarn.sh    
       
                         D. Start.sh    
      
 
Spark 的四大组件下面哪个不是_____
         
                         A.Spark Streaming    
       
                         B. Spark Core    
       
                         C Spark SQL    
       
                         D.Spark R    
      
 
Spark Core的核心数据模型是________
         
                         A.DataFrame    
       
                         B.Array    
       
                         C.RDD    
       
                         D.DStream    
      
 
Spark SQL的核心数据模型是________
         
                         A.DataFrame    
       
                         B.Array    
       
                         C.RDD    
       
                         D.DStream    
      
 
 Spark Stream的核心数据模型是________
         
                         A.DataFrame    
       
                         B.Array    
       
                         C.RDD    
       
                         D.DStream    
      
 
Spark SQL默认支持分析语句是________
         
                         A.SQL    
       
                         B.DSL    
       
                         C.Java    
       
                         D.Scala    
      
 
park SQL默认的数据源是________
         
                         A.CSV    
       
                         B.Parquet    
       
                         C.JSON    
       
                         D.TXT    
      
 
下面哪个端口是Spark Web服务的端口( )
         
                         A.8080    
       
                         B.4040    
       
                         C.8090    
       
                         D.18080    
      
 
下面哪个不是 RDD 的特点 ( )
         
                         A. 可分区    
       
                         B 可序列化    
       
                         C 可修改    
       
                         D 可持久化    
      
 
Spark 支持的分布式部署方式中哪个是错误的 ( )
         
                         A standalone    
       
                         B spark on mesos    
       
                         C spark on YARN    
       
                         D Spark on local    
      
 
下面哪个操作是宽依赖 ( )
         
                         A  groupByKey    
       
                         B  filter    
       
                         C map    
       
                         D union    
      
 
下面哪个操作肯定是窄依赖 ( )
         
                         A map    
       
                         B group    
       
                         C reduceByKey    
       
                         D groupBykey    
      
 
下面哪个操作肯定是窄依赖 ( )
         
                         A.join    
       
                         B filter    
       
                         C group    
       
                         D reduce    
      
 
生产上Spark HA应使用哪种模式? ( )
         
                         A.ZooKeeper    
       
                         B. FileSystem    
       
                         C NONE    
       
                         D hadoop    
      
 
列哪个不是 RDD 的缓存方法 ( )
         
                         A persist()    
       
                         B Cache()    
       
                         C Memory()    
      
 
DataFrame 和 RDD 最大的区别 ( )
         
                         A.科学统计支持    
       
                         B.多了 schema    
       
                         C.存储方式不一样    
       
                         D.外部数据源支持    
      
 
 Spark体系架构的组成的部分不包括:
         
                         A:Master    
       
                         B:Worker    
       
                         C:ZooKeeper    
       
                         D:Driver    
      
 
由于Spark和Flink是基于内存进行计算,所以数据不会发生落地的情况。
 
Spark与Flink类似,在执行流式计算的时候都支持状态的管理。
 
在设置Spark任务的并行度时,一般不超过该节点CPU的核数。
 
Spark和Flink都支持流式计算,并且都是真正的流式处理引擎。