bigdataAan de slag met bigdata


Opmerkingen

Deze sectie biedt een overzicht van wat bigdata is en waarom een ontwikkelaar het misschien wil gebruiken.

Big data zijn de gegevens die worden gekenmerkt door de 4 V's. Dit zijn volume, snelheid, variëteit en waarachtigheid.

  1. Volume - Wanneer de hoeveelheid gegevens enorm groot is, zoals Terabytes of Petabytes. Zoals een rapport zegt, hebben we in de afgelopen 2 of 3 jaar 90% gegevens ter wereld gegenereerd.
  2. Velocity - De snelheid waarmee gegevens in het systeem stromen. Miljoenen gebruikers die hun inhoud tegelijkertijd uploaden op sociale netwerksites, genereren bijvoorbeeld gegevens die even hoog zijn als in het bereik van Terabytes / sec.
  3. Variety - Verschillende soorten gegevens op basis van de aard ervan. Het kan gestructureerd zijn (waar de meeste oude RDBMS mee te maken hebben), semi-gestructureerd (e-mail, XML enz.) En ongestructureerd (video's, audio, sensorgegevens enz.).
  4. Waarheid - het is het middel waarmee we een zinvol inzicht krijgen in onze beschikbare gegevens. Dit kan worden beschouwd als het belangrijkste aspect van gegevens, aangezien de meeste zakelijke beslissingen afhangen van het nut van gegevens.

Het meest algemene platform dat wordt gebruikt voor het opslaan en verwerken van big data is het Hadoop Framework. Het bestaat uit 2 dingen:

  1. Hadoop Distributed File System (HDFS) - Gegevens worden opgeslagen op Hadoop Distributed File System (HDFS), wat in feite een cluster van commodity-hardware is, in tegenstelling tot de primitieve manier om op servers op te slaan. en kaders.
  2. MapReduce (MR) - Dit is het standaardverwerkingsraamwerk voor Hadoop. MapReduce (is een onderdeel van Apache Hadoop)

Met een vooruitgang in Hadoop ontstonden er nieuwe verwerkingstools in de Hadoop-gemeenschap. Enkele van de meest populaire tools / frameworks:

  1. Apache Spark

  2. Apache Storm

  3. Apache Flink

    En nog veel meer..

Weinig van de andere opslagmechanismen dan gewone HDFS:

  1. Bijenkorf
  2. HBase
  3. Cassandra

En nog veel meer..

Een ontwikkelaar is misschien geïnteresseerd in de verwerkingsmogelijkheden van big data, zodat het een groot verschil kan blijken te zijn in hoe we naar onze gegevens kijken. In een parallel universum kunnen we big data ook wel Rich-untamed-Data noemen. We moeten deze enorme data temmen. Met big data kunnen we misschien het verborgen potentieel van reeds bestaande data verwerken.

Een beste voorbeeld kan worden genoemd in het klikgedrag van de klant boven de winkelwebsites, waarbij hun weergaven, klikken en de hoeveelheid tijd die op die website wordt doorgebracht, de online retailer vertelt om producten te kopen en aanbevelingen te verzenden op basis van gebruikersgedrag.

Big Data-voorbeeld

Big data is een term voor datasets die zo groot of complex zijn dat traditionele dataverwerkingstoepassingen onvoldoende zijn om hiermee om te gaan. Uitdagingen zijn analyse, vastleggen, gegevensbeheer, zoeken, delen, opslag, overdracht, visualisatie, opvragen, bijwerken en informatieprivacy.

Een algemeen voorbeeld van big data:

Gegevens verzameld door sociale netwerksite facebook. Facebook verzamelt elke dag honderden terabytes (TB) aan gegevens. De verzamelde gegevens kunnen afbeeldingen, video's, berichten, updates, enz. Zijn. De gegevens variëren van gestructureerd tot ongestructureerd. Een like, share of reactie, misschien gestructureerde gegevens, omdat we de structuur ervan duidelijk kennen. Terwijl updates of posts ongestructureerde gegevens zijn die niet bepaald een structuur volgen. Al deze gegevens vormen samen BigData!

Wat zit er onder Big Data?

Big data betreft de gegevens die door verschillende apparaten en applicaties worden geproduceerd. Hieronder staan enkele velden die onder de paraplu van Big Data vallen.

  • Black Box-gegevens: het is een onderdeel van helikopters, vliegtuigen en jets, enz. Het vangt stemmen van de cockpitbemanning, opnames van microfoons en oortelefoons en de prestatie-informatie van het vliegtuig.
  • Sociale mediagegevens: sociale media zoals Facebook en Twitter bevatten informatie en de meningen van miljoenen mensen over de hele wereld.
  • Beursgegevens: De beursgegevens bevatten informatie over de 'koop' en 'verkoop' beslissingen die zijn genomen over een aandeel van verschillende bedrijven die door de klanten zijn genomen.

  • Power Grid Data: de power grid-gegevens bevatten informatie die wordt verbruikt door een bepaald knooppunt met betrekking tot een basisstation.

  • Transportgegevens: transportgegevens omvatten model, capaciteit, afstand en beschikbaarheid van een voertuig.

  • Zoekmachinegegevens: zoekmachines halen veel gegevens uit verschillende databases op.

  • Sensorgegevens: gegevens van verschillende apparaten die aan sensoren werken, bijvoorbeeld: meteorologische (weer- en klimaat) gegevens, seismische (aardbeving) gegevens, oceanische (getijden, Tsunami enz.) Gegevens.

voer hier de afbeeldingsbeschrijving in

Big Data omvat dus een enorm volume, hoge snelheid en een grote verscheidenheid aan gegevens. De gegevens erin zullen van drie soorten zijn.

1. Structured data : Mostly data from Relational Databases.

2. Semi Structured data : XML data, email data.

3. Unstructured data : Word, PDF, Text, Media Logs.
 

Wat is big data?

Big Data, in zijn meest basale vorm, kan worden omschreven als de overkoepelende term die wordt gemeten door verschillende aspecten van gegevens. Deze verschillende aspecten zijn

Volume (enorme hoeveelheid gegevens), snelheid (grotere datastroomsnelheden), variëteit (gestructureerde, ongestructureerde en semi-gestructureerde gegevens) en waarachtigheid (juiste beslissingen nemen op basis van gegevens).

Deze statistieken waren moeilijk te verzorgen door relationele databases op oudere leeftijd. Er ontstond een behoefte aan een nieuw systeem en Big Data-verwerking kwam te hulp. Hoewel veel mensen een ander begrip hebben van wat Big Data is, zijn hier enkele van de definities van Big Data die worden gegeven door marktleiders in de Data-sector:

Definities:

  • "Big data overschrijdt het bereik van veelgebruikte hardwareomgevingen en softwaretools om deze vast te leggen, te beheren en te verwerken in een aanvaardbare verstreken tijd voor de gebruikerspopulatie." (Artikel in Teradata Magazine, 2011)
  • "Big data verwijst naar gegevenssets waarvan de omvang groter is dan het vermogen van typische databasesoftwaretools om vast te leggen, op te slaan, te beheren en te analyseren." (Het McKinsey Global Institute, 2012)
  • "Big data is een verzameling gegevenssets die zo groot en complex zijn dat het moeilijk wordt om deze te verwerken met behulp van beschikbare databasemanagementtools." (Wikipedia, 2014)
  • "Big Data zijn high-volume, high-speed en / of high-variety informatieactiva die nieuwe vormen van verwerking vereisen om verbeterde besluitvorming, inzichtherstel en procesoptimalisatie mogelijk te maken" (Gartner, 2012)

Wanneer gegevens "Big" worden?

voer hier de afbeeldingsbeschrijving in

                     IOPS:Input/Output Operations Per Second