Big Data

Armando Mancilla Torres Tarea N: 3 Grupo: S8
Big Data
En trminos generales se puede referir a la tendencia hacia un nuevo enfoque de entendimiento y toma de decisiones, la cual es utilizada para describir enormes cantidades de datos (estructurados, no estructurados y semi-estructurados). De tal manera el concepto Big Data aplica para toda aquella informacin que no puede ser procesada o analizada utilizando procesos o herramientas tradicionales. Sin embargo, Big Data no se refiere a alguna cantidad en especifico, ya que es usualmente utilizado cuando se habla de trminos de petabytes y exabytes.
Adems Big Data es el trmino que se emplea hoy en da para describir el conjunto de procesos, tecnologas y modelos de negocia que estn basados en datos y en capturar el valor que los propios encierran.
A Bid Data le caraterizan las tres 'V':
Volumen: El volumen de los datos en los depsitos de las empresas ha pasado de ocupar megabytes y gigabytes a petabyte y exabytes. Por ejemplo, el volumen de datos procesado por corporagiones ha crecido significativamente. Google procesa 20 petabytes al da. Variedad: La variedad de datos ha explotado, pasando de ser datos almacenados y estructurados, guardados en bancos de datos empresariales, a ser desestructurados, semi-estructurados, audio, video, XL, etc. Datos en streaming, cotizaciones burstiles, medios sociales, mquina a mquina, datos de sensores, una creciente varieda de datos necesitan ser procesados y convertidos en informacin. Velocidad: La velocidad del movimiento, proceso y captura de datos dentro y fuera de la empresa ha aumentado significativamente. Los modelos basados en inteligencia de negocias generalmente suelen tardar das en procesarse, frente a las necesidades analticas casi en tiempo real de hoy en da debido al flujo de datos a alta velocidad. ebay, por ejemplo, se enfrenta al fraude a travs de PayPal analizando 5 millones de transacciones en tiempo real al da.
La mayor parte de los sectores reconocen ya que Big Data y el anlisis de datos pueden disparar la productividad, hacer que los procesos sean ms viales y mejorar las predicciones sobre el comportamiento. Los anlisis posteriores definirn la diferencia entre los perdedores y los vencedores
en el futuro. -Tim McGuire director de McKinsey
Hadoop
Hadoop es un sistema de cdigo abierto que se utiliza para almacenar, procesar y analizar grandes volmenes de datos; cientos de terabytes, petabytes o incluso ms.
Hadoop surgi como iniciativa open source (software libre) a raz de la publicacin de varios papers de Google sobre sus sistemas de archivo, su herramienta de mapas y el sistema BigTable Reduce. Como resultado naci un conjunto de soluciones en el entorno Apche: HDFS Apeche, Apache MapReduce y Apache Hbase; que se conocen como Hadoop, con herramientas como Sqoop (para importar datos estructurados en Hadoop cluster) o NoSQL (para realizar el anlisi de los datos no estructurados) entre otros.
Por qu es bueno Hadoop?
En el entorno tecnolgico en el que se mueven las organizaciones, donde los sistemas no slo son capaces de generar e ingresar datos rpidamente sobre formatos estructurados (SQL), tambin, cada vez ms, se generan datos que no son estructurados (NoSQL).
Hadoop es capaz de almacenar toda clase de datos: estructurados, no estructurados, semiestructurados; archivos de registro, imgenes, vdeo, audio, comunicacin, etc. Tambin destaca por tener una arquitectura con capacidad de asegurar una alta disponibilidad y recuperacin de los datos que se ingesta.
Caractersticas importantes de Hadoop:
Replication: La alta disponibilidad de los datos en Hadoop es posible a la replicacin de los datos en un clster Hadoop. Un bloque de archivo se replica en varios nodos de
datos en funcin del factor de replicacin del clster Hadoop, que podra ser 1, 2, 3...
Arquitectura: Hadoop se basa en una arquitectura Master/Slave con tipos de nodos: nodo mster y los nodos slave. Nodo Master: Es el encargado de almacenar el metadato asociado a sus nodos slave dentro del rack del que forma parte. El nodo mster es el responsable de mantener el estatus de sus nodos slave, estableciendo uno de ellos como nodo pasivo, que se convertir en nodo mster, si por cualquier motivo ste se quedara bloqueado. Uno de los problemas que tiene Hadoop es que a veces el nodo pasivo no est sincronizado con el nodo mster original, al asumir las funciones de ste dentro del proceso. Nodo Slave: Es el nodo encargado de almacenar la informacin que se est procesando por el nodo mster en un momento concreto. Rack: En Hadoop se denomina rack a la combinacin de nodos de datos. Un rack puede tener mximo de 40 nodos mster. Cada rack tiene un switch que le permite comunicarse con los distintos racks del ecosistema, sus nodos y procesos cliente. Proceso cliente: Un proceso cliente es un proceso que se lanza a peticin de un nodo mster, ya sea para almacenamiento de archivo nuevo o recuperacin de un archivo en el clster Hadoop. El nodo mster se comunica directamente con el proceso cliente y acta segn el tipo de peticin que este le realiza.
Datam inig
L a minera de datos consiste en la "explota cin" de datos en bruto. Su objetivo, perseguido mediante la manipulacin (semi-)automtica de los datos, es la obtencin de informacin clave para conseguir beneficios-informacin ms relevante y til que los propios datos de partida. El trmino minera podra inducir al error de restringir este objetivo a la bsqueda y extraccin de fragmentos tiles de informacin ya almacenada explcitamente. En cambio, la minera de datos se ocupa principalmente de la construccin de informacin no representada explcitamente en los datos. La minera de datos se fundamenta en la interseccin de diversas reas de estudio, entre las que cabe destacar: anlisis estadstico, bases de datos, inteligencia artificial y visualizacin grfica
Adems se define como Datamining al anlisis de grandes volmenes de datos para poder encontrar patrones no evidentes y relevantes.
Combina elementos de Bases de Datos, Estadstica e Inteligencia Artificial para, mediante diversos algoritmos, poder solucionar o comprender todo tipo de fenmenos o situaciones.
En Datamining se identifica dos grandes categoras de problemas:
Aprendizaje Supervisado: Situaciones en las cuales queremos comprender los patrones que explican una variable. En la Gestind de Personas podra ser identificar el patrn para identificar a aquellos que tienen buen desempeo. Aprendizaje No Supervisado: Situaciones en las cuales queremos encontrar los patrones de conjunto de datos. En el mbito de Gestin de Personas podra ser agrupar los empleados de una empresa en funcin de "segmentos", como lo hace el marketing, para poder ofrecer beneficios especficos a cada segmento.
El Datamining ofrece la ventaja de encontrar respuestas o explicaciones basadas en datos disponibles, sin molestar a nuestros clientes internos, y obteniendo mediante estas herramientas un anlisis que excede nuestra capacidad de observacin, o escapa a nuestros sesgos.

Big Data

Diunggah oleh

Informasi Dokumen

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Big Data

Diunggah oleh

Hak Cipta:

Format Tersedia

Armando Mancilla Torres Tarea N: 3 Grupo: S8

A Bid Data le caraterizan las tres 'V':

Armando Mancilla Torres Tarea N: 3 Grupo: S8

en el futuro. -Tim McGuire director de McKinsey

Por qu es bueno Hadoop?

Caractersticas importantes de Hadoop:

Armando Mancilla Torres Tarea N: 3 Grupo: S8

Armando Mancilla Torres Tarea N: 3 Grupo: S8

En Datamining se identifica dos grandes categoras de problemas:

Armando Mancilla Torres Tarea N: 3 Grupo: S8

Anda mungkin juga menyukai