bigdata开始使用bigdata


备注

本节概述了bigdata是什么,以及开发人员为什么要使用它。

大数据是以4 V为特征的数据。这些是体积,速度,品种和准确性。

  1. 卷 - 当数据量巨大时,如太字节或数PB。正如报告所述,我们在过去的2到3年内创造了世界上90%的数据。
  2. 速度 - 数据在系统中流动的速度。例如,数百万用户同时在社交网站上上传他们的内容会产生高达每兆兆字节/秒的数据。
  3. 多样性 - 基于其性质的不同类型的数据。它可以是结构化的(大多数旧的RDBMS处理),半结构化(电子邮件,XML等)和非结构化(视频,音频,传感器数据等)。
  4. 准确性 - 这是我们在可用数据中获得有意义洞察力的手段。这可以被视为数据最重要的方面,因为大多数业务决策取决于数据的有用性。

用于存储和处理大数据的最通用平台是Hadoop Framework。它由两件事组成:

  1. Hadoop分布式文件系统(HDFS) - 数据存储在Hadoop分布式文件系统(HDFS)上,它实际上是商品硬件的集群,不像在服务器上存储的原始方式。数据驻留在HDFS上,可能会被处理以使用各种工具获得洞察力和框架。
  2. MapReduce(MR) - 这是Hadoop的默认处理框架。 MapReduce (是Apache Hadoop的一部分)

随着Hadoop的进步,Hadoop社区开始出现新的处理工具。最流行的工具/框架中很少有:

  1. Apache Spark

  2. Apache Storm

  3. Apache Flink

    还有很多..

除了普通HDFS之外,很少有存储机制:

  1. 蜂巢
  2. HBase的
  3. 卡桑德拉

还有很多..

开发人员可能对大数据的处理能力感兴趣,因此它可以证明是我们查看数据的主要区别。在并行Universe中,我们还可以将大数据称为Rich-untamed-Data。我们必须驯服这些庞大的数据。利用大数据,我们可以处理已有数据的隐藏潜力。

在购物网站上的客户点击行为中可以引用最好的示例,其中他们的观看,点击和在该网站上花费的时间量告诉在线零售商采购产品并基于用户行为发送推荐。

大数据示例

大数据是一个数据集的术语,它是如此庞大或复杂,以至于传统的数据处理应用程序不足以处理它们。挑战包括分析,捕获,数据管理,搜索,共享,存储,传输,可视化,查询,更新和信息隐私。

大数据的一般示例:

社交网站facebook收集的数据。 Facebook每天收集数百TB的数据。收集的数据可能是图像,视频,帖子,更新等。数据从结构化到非结构化不等。类似,分享或反应可能是结构化数据,因为我们清楚地知道它的结构。而更新或帖子是不完全遵循结构的非结构化数据。所有这些数据一起形成BigData!

什么来自大数据?

大数据涉及不同设备和应用程序生成的数据。下面给出了大数据保护伞下的一些领域。

  • 黑匣子数据:它是直升机,飞机和喷气式飞机等的一个组成部分。它捕捉机组人员的声音,麦克风和耳机的录音以及飞机的性能信息。
  • 社交媒体数据:Facebook和Twitter等社交媒体持有全球数百万人发布的信息和观点。
  • 证券交易所数据:证券交易所数据包含有关客户制作的不同公司股票的“买入”和“卖出”决策的信息。

  • 电网数据:电网数据保存特定节点相对于基站消耗的信息。

  • 运输数据:运输数据包括车辆的型号,容量,距离和可用性。

  • 搜索引擎数据:搜索引擎从不同的数据库中检索大量数据。

  • 传感器数据:来自处理传感器的不同设备的数据,例如:气象(天气和气候)数据,地震(地震)数据,海洋(潮汐,海啸等)数据。

在此处输入图像描述

因此,大数据包括大量,高速和可扩展的各种数据。其中的数据将有三种类型。

1. Structured data : Mostly data from Relational Databases.

2. Semi Structured data : XML data, email data.

3. Unstructured data : Word, PDF, Text, Media Logs.
 

什么是大数据?

大数据,以其最基本的形式,可以被描述为由数据的不同方面衡量的总括性术语。这些不同的方面是

体积(大量数据),速度(更高的数据流速度),多样性(结构化,非结构化和半结构化数据)和准确性(根据数据做出正确的决策)。

这些指标很难被老年关系数据库所照顾。出现了对新系统的需求和大数据处理的拯救。虽然许多人对大数据的理解有不同的理解,但数据部门的行业领导者给出的大数据定义很少:

定义:

  • “大数据超出了常用硬件环境和软件工具的覆盖范围,可以在其用户数量的可容忍的时间内捕获,管理和处理它。”(Teradata Magazine文章,2011)
  • “大数据是指数据集的大小超出典型数据库软件工具捕获,存储,管理和分析的能力。”(麦肯锡全球研究院,2012)
  • “大数据是一个如此庞大和复杂的数据集合,很难使用现有的数据库管理工具进行处理。”(维基百科,2014)
  • “大数据是高容量,高速度和/或高品种的信息资产,需要新的处理形式,以实现增强的决策,洞察力恢复和流程优化”(Gartner,2012)

当数据变得“大”时?

在此处输入图像描述

                     IOPS:Input/Output Operations Per Second