您的当前位置:首页>聚焦 > 正文

什么是大数据?数据是如何采集的?

来源:三好在线 时间:2022-11-22 13:33:34

大数据的基本概念

1. 什么是大数据

要说什么是大数据我想大家多少已经有所了解了,很多落地的案例已经深入到了我们的生活中。大数据具有数据量大、数据类型丰富复杂、数据增长速度快等特点,一切的数据分析必须建立在真实的数据集上才会有意义,而数据质量本身也是影响大数据分析结果的重要因素之一。

作为学者,我们关心的应该是大数据能够解决什么样的问题,能够应用在哪些领域,应该学哪些内容,侧重哪一方面。

简单来说,我们需要学的就是一系列的大数据生态圈技术组件,以及贯穿整个数据分析流程的分析方法和思维,并且思路更加重要一些!只有明确了数据分析场景与流程,我们才能够确定需要整合哪些大数据组件来解决这一问题。

下面我们将一起推开这一领域的大门~

2. 数据是如何采集的

大数据分析的第一步就是对数据的收集和管理,我们需要先来了解一下数据是如何产生的?又是被如何捕获的?那些看似杂乱的数据真的能被分析吗?

(1) 主动的数据产生与用户行为数据收集

主动产生的数据比较好理解,在我们使用互联网或者各种应用的过程中,通过填写提交表单就会产生数据。类似的,我们在线下环境中,比如银行开卡、纸质表格的填写,最终都会变成电子数据流入到系统中。通常,我们会将这一类行为归为用户注册,通常会是产生数据的起点。(当然,有些时候我们分析的数据也可能并不关心用户自身的信息。)除此之外,通过使用一些台的功能,用户会上传和发布各种类型的数据,如文本类信息、音频、视频等,这都是数据产生和积累的方式。

对于用户行为数据更多的来自于应用埋点和捕获,因为用户使用应用必须通过鼠标点击或者手指触碰来和用户界面进行交互。以网页应用(网站)为例,对于鼠标的所有行为基本上都可以通过事件监听的方式来捕获,鼠标在某个区域停留的时间、是否进行点击,我们甚至可以根据用户的行为数据刻画出整个页面的热力图。

在不同的应用场景中,我们可以对行为类型、功能模块、用户信息等维度进一步的划分,做更加深入的分析。

(2) 结构化数据与非结构化数据

最常见的结构化数据就是存储在关系型数据库中的数据,如MySQL、Oracle等,这些数据都具备一个特点,就是十分规范。因为关系型数据库属于写时模式,也就是说不符合预先设定的数据类型和规范的数据不会通过校验,存不到数据库中。除数据库中的数据以外,那些能直接导入到数据库中的数据文件我们也可以把它们视为结构化的数据,如:CSV格式。这些数据通常需要具备统一的列分隔符、行分隔符,统一的日期格式等等。

对于非机构化的数据指的就是除结构化数据以外的另一大类数据,通常没有预期的数据机构,存储在非关系型数据库中,如:Redis、MongoDB,使用NoSQL来进行操作。也可能是非文本类型的数据,需要特别对应的手段来处理和分析。

标签: 什么是大数据 数据采集 数据是如何采集的 大数据的基本概念

最新新闻:

新闻放送

关于我们 | 联系我们 | 投稿合作 | 法律声明 | 广告投放
 

版权所有©2017-2020   三秦科技网
 

浙ICP备2022016517号-20
 

所载文章、数据仅供参考,使用前务请仔细阅读网站声明。本站不作任何非法律允许范围内服务!
 

联系我们: 514 676 113 @qq.com
 

Top