当前位置：首页 > news >正文

思考与练习（大学计算机基础系列：大数据概论）

news 2026/6/27 21:57:05

一、单项选择题（本大题共 15 小题）

1、关于“大数据”（Big Data）的定义，以下哪种说法最为准确？

① 大数据仅指规模超过 1 TB的数据集合

② 大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合

③ 大数据就是存储在大型数据中心的所有数据

④ 大数据特指由社交媒体产生的海量文本数据

2、大数据的特征通常被概括为“5V”模型。以下哪一项不属于这“5V”之一？

① Volume（大量）

② Velocity（高速）

③ Variety（多样）

④ Visibility（可见性）

3、根据大数据的分类，来自关系型数据库的、具有严格行和列定义的数据通常属于：

① 结构化数据

② 半结构化数据

③ 非结构化数据

④ 流式数据

4、在大数据技术栈中，HDFS（Hadoop Distributed File System）主要用于解决什么问题？

① 高速流式数据的实时计算

② 大规模数据的分布式存储

③ 复杂机器学习模型的训练

④ 非关系型数据的查询

5、用于描述大数据中数据产生和处理速度极快这一特征的术语是：

① Volume

② Velocity

③ Variety

④ Veracity

6、以下哪种数据库类型特别适合存储和处理如 JSON、XML 这类具有自描述结构，但缺乏严格模式定义的数据？

① 关系型数据库（如 MySQL）

② 键值数据库（如 Redis）

③ 文档数据库（如 MongoDB）

④ 图数据库（如 Neo4j）

7、在经典的大数据处理框架 MapReduce 中，负责对 Map 阶段输出的中间结果进行合并和汇总，并生成最终结果的阶段是：

① Input 阶段

② Map 阶段

③ Shuffle 阶段

④ Reduce 阶段

8、大数据分析中，旨在将数据集中的对象划分为若干个组，使得同一组内的对象彼此相似，而不同组间的对象相异的技术被称为：

① 回归分析

② 聚类分析

③ 分类分析

④ 关联规则分析

9、在评估大数据价值时，一个普遍观点认为大数据具有“价值密度低”的特点。这主要是指：

① 存储大数据的硬件成本非常低廉

② 单个数据记录通常包含极高的商业价值

③ 海量原始数据中有价值的信息比例相对较低

④ 大数据分析的结果总是准确的

10、为了保证大数据系统的可靠性，HDFS 采用了数据块副本机制。如果一个文件的原始大小为 200MB，HDFS 的块大小设置为 128MB，副本系数设置为 3，那么该文件在 HDFS 集群中实际占用的存储空间大约是（忽略元数据开销）：

① 200 MB

② 400 MB

③ 600 MB

④ 800 MB

11、大数据处理可分为批处理和流处理两种模式。以下哪种场景通常更适合使用流处理框架（如 Apache Flink、Storm）？

① 月底结算，需要统计整个月的销售总额

② 实时监控网络流量，检测异常入侵行为

③ 对过去一年的用户日志进行挖掘，生成年度报告

④ 每周一次对客户数据库进行备份

12、在大数据分析过程中，对数据进行清洗、转换、集成和规约，以消除噪声、不一致和冗余，为后续分析准备高质量数据集的步骤被称为：

① 数据可视化

② 数据建模

③ 数据预处理

④ 数据采集

13、大数据的一个典型应用场景是个性化推荐系统（如电商网站、视频平台）。这种系统主要利用了大数据哪方面的能力？

① 高速（Velocity）处理用户实时请求

② 多样（Variety）处理多种类型的数据（文本、图像、行为）

③ 从海量（Volume）用户行为数据中挖掘模式和价值（Value）

④ 确保数据真实性（Veracity）以提供准确推荐

14、以下关于大数据挑战的描述中，不正确的是：

① 大数据分析技术已完全成熟，没有技术门槛

② 数据安全和用户隐私保护是大数据应用面临的重要问题

③ 数据质量参差不齐（真实性问题）会影响分析结果的准确性

④ 可能存在“数据孤岛”，即数据在不同部门或系统间难以共享和整合

15、在数据挖掘算法中，通过构建树状模型来进行分类或预测，其模型结构直观易懂，便于解释。这种算法是：

① K-Means 算法

② 决策树算法

③ 朴素贝叶斯算法

④ 支持向量机算法

二、填空题（本大题共 5 小题）

1、大数据的“5V”特征包括：大量（Volume）、高速（Velocity）、多样（Variety）、价值（Value）和（）。

2、与传统的（）数据库不同，NoSQL 数据库通常不遵循固定的表结构，具有良好的可扩展性，适合处理大规模非结构化和半结构化数据。

3、在 Hadoop 生态系统中，负责对存储在 HDFS 上的大规模数据集进行并行计算的编程模型和框架是（）。

4、从大量数据中通过算法搜索隐藏于其中有价值的信息和知识的过程，被称为（）。

5、大数据处理中的（）处理模式，是指对已经存储好的静态数据集（如历史日志）进行分析计算；而（）处理模式则是指对连续不断产生的动态数据流进行实时分析。

附：参考答案与解析

“点赞有美意，赞赏是鼓励”

查看全文

http://www.cnnetsun.cn/news/77175.html

雀魂数据分析神器：从新手到高手的段位突破指南

36、编程中的运算符、bc计算器与数组使用指南

雀魂数据分析终极指南：如何用牌谱屋3周提升段位？

解锁船舶设计新维度：开源船舶设计软件的实战应用指南

5大脚本工具实战：让ESP32 AI助手开发效率飙升90%

1、深入了解Solaris 10：从操作系统基础到实践操作

3、Solaris 系统启动与关机操作全解析

15、Solaris高级安装方法全解析

OpenModScan工业通讯调试全攻略：从入门到精通

CIDR合并工具终极指南：简单快速管理IP地址

桌面宠物终极选择指南：从使用场景到性能实测的完整决策方案

MQTT Explorer：可视化你的MQTT网络世界

ML307 4G模块：xiaozhi-esp32移动网络终极接入方案

树莓派系统烧录神器：Raspberry Pi Imager 5大实战技巧全解析

开源Android输入法终极选择：OpenBoard完全使用指南

ExoPlayer状态恢复黑科技：告别进度丢失的终极指南

Foliate电子书阅读器：重新定义数字时代的阅读艺术

36、系统管理工具与网络技术实用指南

JavaScript反混淆终极指南：快速处理Obfuscator混淆代码的完整教程

2、探索 PC - BSD：开源操作系统的新选择

11、PC-BSD系统常见操作与设置指南

微信自动化技术探秘：打造智能微信机器人的完整指南

WinUtil插件开发深度实战：从零构建高效系统工具

Obsidian Zotero集成：科研工作流自动化的完整指南

探索Unitree RL Gym强化学习的无限可能：从仿真到实体的智能机器人进化之路

38、搭建Web和FTP服务及数据备份与恢复指南

5分钟上手OCAT：让OpenCore配置变得像玩游戏一样简单！[特殊字符]

CSS网格生成器：可视化布局设计的终极解决方案

JPEGView：重新定义极简图像浏览体验的5个关键特性

终极指南：在Vue项目中快速集成轻量级Markdown编辑器

相关文章：