Jump to ratings and reviews
Rate this book

Analítica de dados com Hadoop: Uma introdução para cientistas de dados

Rate this book
Pronto para usar técnicas estatísticas e de aprendizado de máquina (machine learning) em grandes conjuntos de dados? Este guia prático mostra por que o ecossistema do Hadoop é perfeito para essa tarefa. Em vez de ter como foco a implantação, as operações ou o desenvolvimento de softwares geralmente associados à computação distribuída, você se concentrará nas análises particulares que poderá fazer, nas técnicas de armazém de dados (data warehousing) oferecidas pelo Hadoop e em fluxos de trabalho de alta ordem que esse framework é capaz de gerar. Os cientistas e os analistas de dados aprenderão a usar diversas técnicas que variam da escrita de aplicações MapReduce e Spark com Python ao uso de modelagem avançada e gerenciamento de dados com Spark MLlib, Hive e HBase. Você também conhecerá os processos analíticos e os sistemas de dados disponíveis para desenvolver e conferir eficácia aos produtos de dados capazes de lidar com – e que, na verdade, exigem – quantidades enormes de dados. •Entenda os conceitos principais do Hadoop e do processamento em cluster. •Utilize padrões de projeto e algoritmos analíticos paralelos para criar jobs de análise de dados distribuídos. •Adquira conhecimentos sobre gerenciamento de dados, mineração e armazém de dados em um contexto distribuído usando Apache Hive e HBase. •Utilize Sqoop e Apache Flume para entrada de dados a partir de bancos de dados relacionais. •Programe aplicações Hadoop e Spark complexas com Apache Pig e Spark DataFrames. •Utilize técnicas de aprendizado de máquina, como classificação, clustering e filtragem colaborativa, com a MLib do Spark.

373 pages, Kindle Edition

Published May 22, 2019

6 people want to read

About the author

Benjamin Bengfort

6 books8 followers
Benjamin Bengfort is an experienced data scientist and Python developer who has worked in military, industry, and academia for the past 8 years. He is currently pursuing his PhD in Computer Science at the University of Maryland, College Park, doing research in Metacognition and Natural Language Processing. He holds a Master's degree in Computer Science from North Dakota State University, where he taught undergraduate Computer Science courses. He is also an adjunct faculty member at Georgetown University, where he teaches Data Science and Analytics. Benjamin has been involved in two data science start-ups in the DC region: leveraging large-scale machine learning and Big Data techniques across a variety of applications. He has a deep appreciation for the combination of models and data for entrepreneurial effect, and he is currently building one of these start-ups into a more mature organization.

Ratings & Reviews

What do you think?
Rate this book

Friends & Following

Create a free account to discover what your friends think of this book!

Community Reviews

5 stars
0 (0%)
4 stars
0 (0%)
3 stars
0 (0%)
2 stars
0 (0%)
1 star
0 (0%)
No one has reviewed this book yet.

Can't find what you're looking for?

Get help and learn more about the design.