Tổng hợp các câu hỏi về Apache Spark | Ôn tập cuối kì môn Lưu trữ và xử lý dữ liệu lớn
Xem phần trước: Tổng hợp các câu hỏi về Apache Hadoop | Ôn tập cuối kì môn Lưu trữ và xử lý dữ liệu lớn
Số thứ tự | Câu hỏi | Đáp án | Câu Trả Lời |
---|---|---|---|
1 | Spark được phát triển bằng ngôn ngữ nào | A. Java B. Scala C. Python D. R |
B |
2 | Trong Spark Streaming dữ liệu có thể lấy từ những nguồn nào? | A. Kafka B. Flume C. Kinesis D. Tất cả |
D |
3 | Apache Spark có API cho các ngôn ngữ: | A. Java B. Scala C. Python D. Tất cả |
D |
4 | Đâu không phải là một thành phần trong hệ sinh thái Spark? | A. Sqoop B. GraphX C. MLlib D. BlinkDB |
A |
5 | Cấu trúc dữ liệu cơ bản của Spark Streaming là gì? | A. DStream B. RDD C. Shared Variable D. Không có trong số đáp án trên |
A |
6 | Thuật toán nào sau đây không có trong Spark MLlib | A. Streaming Linear Regression B. Streaming KMeans C. Tanimoto distance D. Không có trong các phương án trên |
C |
7 | DStream là gì? | A. Chuỗi các RDD liên tục B. Chuỗi Dataframe liên tục C. Chuỗi Dataset liên tục D. Không có trong các phương án trên |
A |
8 | Đâu không phải là một đặc điểm của Spark | A. Hỗ trợ xử lý tính toán trên RAM B. Tính chịu lỗi C. Tiết kiệm chi phí D. Tương thích với hệ thống lưu trữ tệp khác |
C |
9 | Đâu không phải là một ouput operation của DStream | A. SaveAsTextFiles B. ForeachRDD C. SaveAsHadoopFiles D. ReduceByKeyAndWindow |
D |
10 | Apache Spark có khả năng xử lý hàng loạt khi chạy trên RAM nhanh hơn bao nhiêu lần so với MapReduce | A. 10 B. 20 C. 100 D. 200 |
C |
11 | Đâu là lý do khiến Spark nhanh hơn MapReduce | A. Công cụ thực thi DAG và tính toán trên RAM B. Hỗ trợ cho việc sử dụng nhiều ngôn ngữ khác nhau như Scala; Java; Python; R C. RDD là bất biến và có khả năng chịu lỗi cao D. Không có trong các phương án trên |
A |
12 | Điều nào sau đây là đúng khi nói về RDD | A. RDD là một mô hình lập trình B. RDD là một tập hợp đối tượng bất biến C. Là database D. Không có trong các phương án trên |
B |
13 | Khả năng chịu lỗi của RDD thể hiện qua đâu? | A. Tính bất biến của RDD B. DAG (Directed Acyclic Graph) C. Lazy-evaluation D. Không có trong các phương án trên |
|
14 | Đầu vào dữ liệu cho chương trình Spark có thể là: | A. Local files B. HDFS; NFS C. Amazon S3; Elasticsearch D. Cả 3 phương án trên |
D |
15 | Đâu là lệnh lưu dữ liệu ra ngoài chương trình Spark? | A. input.saveAsTextFile('file:///usr/zeppelin/notebook/dataset/new.txt') B. input.saveAsTextFile('/usr/zeppelin/notebook/dataset/new.txt') C. input.saveAs('file:///usr/zeppelin/notebook/dataset/new.txt') D. input.saveAsTextFile:'file:///usr/zeppelin/notebook/dataset/new.txt' |
A |
16 | Đâu là cách submit đúng một job lên Spark cluster hoặc chế độ local | A. ./spark-submit wordcount.py README.md B. ./spark-submit README.md wordcount.py C. spark-submit wordcount.py README.md D. Phương án A và C |
A |
17 | Câu lệnh MapReduce trong Spark dưới đây chia mỗi dòng thành từ dựa vào delimiter nào: input.flatMap(lambda x: x.split('\t')).map(lambda x: (x;1)).reduceByKey(add) | A. Tab B. Dấu cách C. Dấu hai chấm D. Dấu phẩy |
A |
Tham khảo: https://data-flair.training/
0 Bình luận:
Post a Comment