Curso On-Line de BIG DATA. Estrategias de Negocio y Fundamentos de Data Science
Del 27 de Marzo al 14 de Mayo de 2017
Curso On-Line de BIG DATA. Estrategias de Negocio y Fundamentos de Data Science
(5ª Edición)
INICIO: Del 27 de Marzo 14 de Mayo de 2017
DURACIÓN: 7 Semanas.
*Te informamos que desde el día 23 de diciembre de 2016 hasta el día 9 de enero de 2017, la actividad docente del curso se suspenderá, si bien la plataforma permanecerá abierta y accesible en todo momento.
Diploma de acreditación y documentación: Todos los alumnos asistentes tendrán un diploma acreditativo de asistencia al curso (Acreditadas 64 horas)
INTRODUCCIÓN
Resulta un hecho evidente que, en nuestros días, la mayor parte de la información que mueve el mundo desarrollado, la que se emplea para la toma de decisiones, la que permite la evolución científica, el desarrollo económico, el conocimiento de nuestra especie y de muchas otras e incluso la que determina nuestras relaciones sociales es, eminentemente, digital. Es posible que, en origen, esa información no provenga de una fuente digital, pero también es innegable que si se desea estudiar, es decir, convertir datos en información, en cualquiera de los ámbitos que se trabaje, es necesario digitalizarla y almacenarla. Después la curiosidad de cada uno hace el resto.
Debido a la gran cantidad y variabilidad de las fuentes de datos digitales (o susceptibles de serlo) de las que actualmente disponemos se presentan, de forma directamente proporcional, problemas del tipo cómo almacenar esos datos en sistemas escalables, cómo leer/escribir esos datos en un tiempo razonable (y cada vez más valioso) y cómo obtener información a partir de ellos, siendo tantos y tan dispares. Esto es, básicamente, lo que llamamos “Big Data”.
Se introduce el papel del científico de datos (“data scientist”) como perfil clave para obtener valor de los datos, fundamentalmente mediante la creación de modelos predictivos, así como alguna de las herramientas que estos profesionales utilizan. Después, se introducen los conceptos fundamentales de paralelización de la computación y los datos en nubes externas o privadas, que permite escalar el procesamiento de manera efectiva y económica. Finalmente, volvemos nuestra atención a que los resultados del procesamiento y los modelos de aprendizaje automático tienen que ser útiles para los que toman las decisiones, y para ello, la visualización es la herramientas fundamental. Se trata por ello una herramienta de visualización adaptada al entorno “Big Data” y de fácil manejo para profesionales de diferentes áreas.
La acción formativa plantea, en resumen, una visión general práctica de las herramientas de Big Data, seleccionando como ejemplos algunas de ellas que ilustran los problemas, técnicas y métodos que se utilizan en el área. Los resultados de aprendizaje permiten tener un “mapa de carreteras” para comprender los principales componentes de una solución o plataforma Big Data y para continuar la profundización con herramientas y técnicas adicionales, diferentes o más avanzadas.
EMPLEABILIDAD
No hay duda de que uno de los sectores que mejor ha sorteado la crisis económica ha sido el tecnológico. De hecho para la electrónica de consumo los últimos años han sido de abundancia y en otras áreas que no son tan visibles los derroteros tampoco han ido mal. Hay un campo concreto que ha crecido de forma significativa y sus perspectivas apuntan a incrementos aún más pronunciados. Implica todo lo que tiene que ver con el procesamiento, la gestión y el análisis de datos. Por este motivo se espera que el perfil de profesional del Big Data se convierta en uno de los más demandados.
El crecimiento general de la industria tecnológica empuja inevitablemente el sector del Big Data. Los dispositivos móviles generan toneladas de información constantemente y a esta se sumará la que producirá Internet de las cosas y la domótica. Se trata de miles de millones de terminales equipados con sensores para recoger información y conectados a la Red, de manera que puedan enviarla. Detrás habrá fabricantes de hardware, desarrolladores de plataformas, desarrolladores de aplicaciones y otras empresas que recibirán una gran cantidad de datos.
El Big Data nació porque se cree firmemente que toda esta información esconde un valor decisivo. Un negocio puede extraer conclusiones claves analizando los datos que recibe de sus clientes, lo mismo que las empresas de servicios con sus usuarios. El Bureau of Labor Statistics (BLS) de Estados Unidos prevé que entre 2010 y 2020 los empleos relacionados con la tecnología crezcan un 22%. A buen seguro una parte importante de estos puestos irán a parar a manos de los llamados ‘data scientists’.
OBJETIVOS
El objetivo general del modulo es exponer al alumno el escenario actual en cuanto a los elementos principales de una solución Big Data se refiere. Se tocarán concretamente el business case de Big Data, el concepto de modelo predictivo como resultado del aprendizaje automático, algunas de las principales técnicas de paralelización de datos y computación y el uso básico de herramientas de visualización.
Objetivos específicos
• Comprender el business case de Big Data y saber entender los problemas que soluciona.
• Entender el papel del data scientist y saber realizar modelos predictivos básicos con una herramienta de data science.
• Conocer las técnicas de paralelización de datos asociadas al ecosistema Hadoop.
• Entender las diferencias entre tipos de bases de datos NoSQL y conocer alguna de ellas.
• Saber aplicar conceptos de visualización de datos a una herramienta concreta.
COMPETENCIAS
• Saber definir Big Data y diferenciar los diferentes aspectos que recoge el concepto.
• Conocer y saber explicar casos en los que Big Data soluciona un problema de negocio o crea una nueva oportunidad en diferentes sectores.
• Entender el papel del data scientist y saber explicar la relación de su labor con los procesos de minería de datos, el aprendizaje automático y el concepto de modelo predictivo.
• Saber utilizar de manera básica una herramienta de data science para procesar datos.
• Saber aplicar de manera sencilla algunos algoritmos de aprendizaje automático, supervisados y no supervisados, con una herramienta de data science.
• Adquirir los conceptos básicos de procesamiento paralelo en arquitecturas Hadoop.
Dirigido a:
Personal de formación técnica del ámbito de los sistemas de la información (Ingenieros en Telecomunicaciones, Ingenieros en Informática, Matemáticos, Estadísticos,…) que desempeñen labores de técnicas, de gestión o Dirección.
REQUISITOS
Se requieren conocimientos básicos de algún lenguaje de programación, nociones de estadística básica y una comprensión básica de los elementos de los sistemas operativos y las redes basadas en TCP/IP. Si bien el curso es introductorio, estos conocimientos previos son necesarios para poder comprender el papel de las herramientas y técnicas que se verán en la formación.
La semana de preparación (SEMANA 0) está pensada para habituarse a la plataforma virtual, instalar el software necesario y realizar de manera autónoma ejercicios básicos de preparación. Los alumnos deben contar con un portátil capaz de ejecutar máquinas virtuales con el software gratuito VirtualBox de Oracle. Se proporcionarán máquinas virtuales para realizar los ejemplos prácticos de las unidades 2 y 3.
Se requiere la instalación del siguiente Software:
• http://continuum.io/downloads
• https://www.virtualbox.org/
METODOLOGÍA
Se trata de un curso on-line.
Es un curso, en el que, mediante una dinámica de asesoramiento continuo, se forma una comunidad de aprendizaje e intercambio de conocimiento y se vive la experiencia de un proceso docente de alta calidad.
Aprender haciendo: Se sitúa al participante ante casos, situaciones y toma de decisiones que se encontrarán en el qué hacer se su vida profesional, proponiendo la realización de actividades cercanas y prácticas para maximizar la transferencia, aplicabilidad y significación del aprendizaje
La práctica como punto de partida: El aprendizaje se plantea mediante la realización de actividades reales por parte de los alumnos y, a partir de ellas, se induce a la construcción de conocimiento en común de los principios teóricos y detección de buenas prácticas. Contenidos de consulta y material de apoyo están disponibles para cada unidad didáctica.
Los errores y la reflexión sobre los mismos: Los participantes se ven obligados a descubrir los conocimientos a partir de la práctica. Desde el primer momento se les permite experimentar y cometer errores en un entorno simulado y aprender de los demás, extrayendo conclusiones útiles.
Un aprendizaje basado en la proactividad: Para conseguir que el aprendizaje realmente se produzca, el alumno deberá ser proactivo, es decir que se procurará activamente que se anticipe, consulte, pregunte y demande mayor conocimiento e información en función de las necesidades que el crear su empresa le presente.
El curso se impartirá mediante la plataforma on-line del Colegio Oficial de Ingenieros de Telecomunicación por lo que los alumnos deberán disponer de una conexión a Internet con disponibilidad para descargar la documentación de cada módulo, participar en los debates, contestar a las pruebas que se realicen y realizar los casos prácticos en grupo.
Además de los docentes existirá un dinamizador que seguirá la actividad de cada alumno en la plataforma asegurando su rendimiento.
NOTA IMPORTANTE
Para seguir este curso, no es necesario respetar un horario concreto, es decir, no es necesario respetar las mismas franjas horarias para trabajar, sino por el contrario, disponer de los ratos libres o más desocupados para realizar el curso. Habrá días que podrá conectarse a unas horas, y otros días a otras. Habrá días en los que le dedique al curso más tiempo, y otros que apenas entre 5 minutos. Aunque no es necesario u obligatorio entrar a la plataforma todos los días, sí es recomendable, ya que el nivel de actividad que se suele generar en los cursos (propiciado por los propios alumnos además de por los docentes y el dinamizador) establece una dinámica natural de ritmo que es asumido sin problema por cada participante.
PROFESORADO
D. Carlos Moure García
Experto en transformación digital, innovación y nuevos modelos de negocio con más de 12 años de experiencia en el ámbito digital. Early adopter / digital immigrant. Emprendedor.
Experto en formación, definición de programas y competencias en el ámbito digital en diferentes escuelas de negocio. Fundamentalmente en proyectos ejecutivos y de alta dirección
Tutor y Mentor de startups digitales en diferentes aceleradoras y escuelas de negocio
D. Miguel-Angel Sicilia
Catedrático de Lenguajes y Sistemas Informáticos en la Universidad de Alcalá y co-fundador y socio de Jaratech Social Technologies. Antes de incorporarse a la Universidad, desarrolló su trabajo como arquitecto software para el comercio electrónico, y participó en el diseño de soluciones de Inteligencia Artificial en iSOCO, empresa spinoff del IIA del CSIC. Miguel-Angel ha desarrollado su investigación en diferentes aplicaciones de semántica computacional y aprendizaje automático.
D. Alberto Oikawa Lucas
Director de tecnologías de la información en empresas de distintos sectores.
Es Ingeniero Técnico en Informática de Gestión. MCSA – Administrador de sistemas Microsoft especialista en seguridad. Su experiencia profesional está ligada a la Consultoría de Sistemas (Migración, administración y mantenimiento de servidores RED HAT, PCs, TPVs. Técnico instalaciones). Alberto ha sido Director del Departamento TI del Centro de Laboratorios y Servicios Industriales de Madrid; así como profesor colaborador en distintos programas de formación relacionados con el mundo de las tecnologías de la información.
D. Carlos García
Socio director de StrategyBigData. Profesional con 15 años de experiencia en el campo de las telecomunicaciones, 10 de ellos en I+D dentro de los Bell labs software development center. Experto en gestión y dirección de proyectos y programas internacionales. Informático, Cuenta entre su formación MBA por ICADE, IDD ALU, Stretch international managerial SDA Boconni, Executive leadership & Development Harvard Business School’s ManageMentor.
PROGRAMA
Unidad Didáctica 1: Estrategia de Negocio Big Data
1. Rol del Bigdata dentro de la transformación digital:
• Definición
• Estado actual
• El digital Journey de las organizaciones
2. Desafíos y barreras de adopción
• Skills
• Silos de información
• Valor de negocip
• Legal y regulatorio
• Tecnología
3. Estrategia BigData en diferentes sectores de actividad
• Banca
• Seguros
• Retail
• Telco
• Utilities
Unidad Didáctica 2: Introducción a data science, el aprendizaje automático y los modelos predictivos
1. Conceptos generales
• El proceso de la minería de datos.
• Concepto de aprendizaje automático.
• Un modelo predictivo básico. Funciones de regresión.
• Aprendizaje supervisado y no supervisado.
2. Caso de aprendizaje supervisado
• Clasificación. Ejemplos de algoritmos de clasificación.
• Entrenamiento y evaluación de modelos.
3. Caso de aprendizaje no supervisado
• Agrupamiento. Ejemplos de algoritmos.
• Evaluación de los resultados del clustering
Unidad Didáctica 3: Paralelización de datos y almacenamiento escalable.
1. Concepto, fuentes y tipología de BigData.
2. Fuentes de datos, volúmenes y variabilidad.
3. Tipos de datos, cómo estructurarlos.
4. Bases de datos no convencionales/NoSQL I, distribución horizontal.
• Sesión audiovisual introductoria, presentación de la sesión.
• Lectura de documentación
Historia de las BBDD, del caos al orden y vuelta al caos.
Arquitectura de las BBDD, evolución de las capacidades y nuevos retos.
Categorías/tipos de BBSS NoSQL, adaptación a las necesidades.
Ventajas e inconvenientes de las BBDD no estructuradas vs. estructuradas.
Ejemplos de uso.
BBDD relacionales con comportamientos NoSQL.
• Test de evaluación.
5. Mongo
• Sesión audiovisual introductoria, presentación de la sesión.
• Lectura de documentación
MongoDB
• Ejercicios.
• Planteamiento trabajo Individual (voluntario).
6. Marcos de programación para procesamiento de datos paralelos. MapReduce
• Sesión audiovisual introductoria, presentación de la sesión.
• Lectura de documentación.
Hadoop.
Ecosistema e historia.
HDFS.
Historia, conceptos básicos del procesamiento en paralelo y casos de uso (page rank, genética, …)
MapReduce.
• Ejercicios.
Unidad Didáctica 4: Introducción a la visualización de datos
1. Conceptos de visualización
• Motivación de las visualizaciones
• Claves a identificar en el proceso de visualización
• Propiedades de visualización y principales gráficos
• Optimización
2. Uso de la herramienta Tableau
• Tipos de gráficos en Tableau (Barras, líneas, Tarta, scatter plot, Mapas)
• Cálculos rápidos de tabla
• Parámetros
• Campos calculados
• Visualizaciones dinámicas
• Cuadros de Mandos
• Historias
• Publicación
UD 5: Caso final integrado
PRECIO DEL CURSO COLEGIADOS: 292,55 €, MÁS IVA (21%) (Precio SIN IVA sólo aplicable para Colegiados residentes en Canarias, Ceuta y Melilla).
PRECIO DEL CURSO NO COLEGIADOS: 385,55€, MÁS IVA (21%) (Precio SIN IVA sólo aplicable para residentes en Canarias, Ceuta y Melilla).
INSCRIPCIONES
Se establecerán las siguientes pautas en la adjudicación de plazas, con el siguiente orden:
1.Se dará prioridad en la inscripción al curso a los Colegiados.
2.Se dará prioridad al orden de llegada de los formularios web de inscripción.
3.No se entenderá como formalizada ninguna inscripción de la que no se reciba justificante de pago hasta CINCO días antes de comienzo del curso (IBAN ES67 0030-1026-03-0002407271 del SANTANDER), indicando COIT como beneficiario, nombre y apellidos del interesado y curso o cursos a los que corresponde la transferencia.
4.En el caso en el cual, por aplicación de esta norma haya que excluir a alguno de los inscritos que hayan pagado, se les informará de dicha circunstancia y se les devolverá el importe del curso.
5.Tendrán prioridad para inscripción en el mismo si se repite y resulta de su conveniencia.
6.Las inscripciones se deberán formular, a más tardar, SIETE días antes de la fecha del curso, mediante la cumplimentación del formulario de inscripción adjunto hasta un total por curso de 25 plazas.
7.El número máximo de alumnos del curso es de 25. La celebración del curso está condicionada a la inscripción de, al menos, 20 alumnos.
8.En el caso de que algún inscrito no asista al curso y no cancele su inscripción, al menos CINCO días antes de la fecha del curso, salvo casos de fuerza mayor, no se le devolverá la cuota de inscripción abonada.
9.Se estudiará, en función del número de interesados, la posibilidad de repetir esta jornada.
IMPORTANTE: Una vez llegado al número mínimo de alumnos establecido para poder realizar el curso, se confirmará la plaza por correo electrónico. Posteriormente tendrás que enviarnos el comprobante de pago a la siguiente dirección de mail: formacion@coit.es o en el nº de fax 91 447 23 18, indicando en la cabecera del mismo: «a la atención del Sr. Javier Moreno». Una vez recibido el comprobante de pago recibirás un correo electrónico confirmándote que definitivamente te incluímos en el curso, cuando se haya alcanzado el número mínimo de alumnos establecido. Si tienes alguna duda en relación al procedimiento de inscripción, ponte en contacto con el Sr. Javier Moreno en el mail formacion@coit.es o en el teléfono 91 4479730.