Curso Hadoop

Curso Hadoop

  • 162 Alunos matriculados
  • 008 Horas de duração
  • 24 Aulas
  • 1 Módulos
  • Certificado de conclusão
ASSINE JÁ

Obtenha acesso a este e outros cursos

https://www.linkedin.com/in/mpitanga/
Marcos Pitanga

O Que É O Hadoop?

Ao aprender sobre o Big Data, mais cedo ou mais tarde, você encontrará essa palavra estranha: Hadoop - mas o que exatamente é isso?

Simplificando, o Hadoop pode ser pensado como um conjunto de programas e procedimentos de código aberto (o que significa que eles são livres para qualquer pessoa usar ou modificar, com algumas exceções) que qualquer pessoa pode usar como a "espinha dorsal" de suas operações de big data.

Vou tentar simplificar as coisas, pois conheço muitas pessoas que lêem isso não são engenheiros de software, por isso espero não simplificar demais nada - pense nisso como um breve guia para alguém que quer saber um pouco mais sobre as porcas e parafusos que tornam possível a análise de big data.

Os 4 módulos do Hadoop

O Hadoop é composto de "módulos", cada um dos quais executa uma tarefa específica essencial para um sistema de computador projetado para análise de big data.

1. Sistema de Arquivos Distribuídos

Os dois mais importantes são o Sistema de arquivos distribuídos, que permite que os dados sejam armazenados em um formato facilmente acessível, em um grande número de dispositivos de armazenamento vinculados, e o MapReduce - que fornece as ferramentas básicas para bisbilhotar os dados.

(Um "sistema de arquivos" é o método usado por um computador para armazenar dados, para que possam ser encontrados e usados. Normalmente, isso é determinado pelo sistema operacional do computador, no entanto, um sistema Hadoop usa seu próprio sistema de arquivos "acima" do sistema de arquivos do computador host - o que significa que ele pode ser acessado usando qualquer computador executando qualquer sistema operacional suportado).

2. MapReduce

O MapReduce é nomeado após as duas operações básicas que este módulo realiza - lendo dados do banco de dados, colocando-os em um formato adequado para análise (mapa) e executando operações matemáticas, ou seja, contando o número de homens com mais de 30 anos em um banco de dados de clientes (reduza )

3. Hadoop Comum

O outro módulo é o Hadoop Common, que fornece as ferramentas (em Java) necessárias para os sistemas de computador do usuário (Windows, Unix ou o que for) para ler os dados armazenados no sistema de arquivos Hadoop.

4. FIO

O módulo final é YARN, que gerencia os recursos dos sistemas que armazenam os dados e executam a análise.

Vários outros procedimentos, bibliotecas ou recursos passaram a ser considerados parte da "estrutura" do Hadoop nos últimos anos, mas o Hadoop Distributed File System, o Hadoop MapReduce, o Hadoop Common e o Hadoop YARN são os quatro principais.

Como o Hadoop surgiu

O desenvolvimento do Hadoop começou quando os engenheiros de software de visão de futuro perceberam que estava rapidamente se tornando útil para qualquer pessoa poder armazenar e analisar conjuntos de dados muito maiores do que praticamente podem ser armazenados e acessados em um dispositivo de armazenamento físico (como um disco rígido).

Isso ocorre em parte porque, à medida que os dispositivos de armazenamento físico aumentam, leva mais tempo para o componente que lê os dados do disco (que em um disco rígido seria o "cabeçalho") para mover para um segmento especificado. Em vez disso, muitos dispositivos menores trabalhando em paralelo são mais eficientes que um grande.

Foi lançado em 2005 pela Apache Software Foundation, uma organização sem fins lucrativos que produz software de código aberto que alimenta grande parte da Internet nos bastidores. E se você está se perguntando de onde o nome estranho veio, era o nome dado a um elefante de brinquedo pertencente ao filho de um dos criadores originais!

O uso do Hadoop

A natureza flexível de um sistema Hadoop significa que as empresas podem adicionar ou modificar seus sistemas de dados conforme suas necessidades mudam, usando peças baratas e prontamente disponíveis de qualquer fornecedor de TI.

Hoje, é o sistema mais amplamente usado para fornecer armazenamento e processamento de dados em hardware de "commodity" - sistemas de prateleira relativamente baratos, conectados entre si, em oposição a sistemas personalizados e caros, feitos sob medida para o trabalho em questão. De fato, alega-se que mais da metade das empresas da Fortune 500 fazem uso dela.

Praticamente todos os grandes nomes on-line o usam e, como qualquer pessoa é livre para alterá-lo para seus próprios propósitos, as modificações feitas no software por engenheiros especialistas, por exemplo, Amazon e Google, são retornadas à comunidade de desenvolvimento, onde eles são frequentemente usados para melhorar o produto "oficial". Essa forma de desenvolvimento colaborativo entre usuários voluntários e comerciais é uma característica essencial do software de código aberto.

Em seu estado "bruto" - usando os módulos básicos fornecidos aqui http://hadoop.apache.org/ pela Apache, pode ser muito complexo, mesmo para profissionais de TI - e é por isso que várias versões comerciais foram desenvolvidas, como o Cloudera, que simplifique a tarefa de instalar e executar um sistema Hadoop, além de oferecer serviços de treinamento e suporte.

Então, em poucas palavras (bastante grande), é o Hadoop. Graças à natureza flexível do sistema, as empresas podem expandir e ajustar suas operações de análise de dados à medida que seus negócios se expandem. E o apoio e o entusiasmo da comunidade de código aberto por trás dela levaram a grandes avanços no sentido de tornar a análise de big data mais acessível para todos.

  • Iniciantes em Tecnologia
  • Tecnicos em Tecnologia da Informação
  • Analista de Suporte
  • Analista de Rede
  • Administradores de Rede
  • Coordenadores de TI
  • Supervisores de TI
  • Gerentes de TI
Marcos Pitanga
"https://www.linkedin.com/in/mpitanga/"

   


Nenhuma descrição cadastrada.

Conteúdo Programático

  • 1. Lição 001 - Aula Inaugural
  • 2. Lição 002 - Conceitos iniciais de Big Data e Hadoop
  • 3. Lição 003 - Ecossistema Hadoop
  • 4. Lição 004 - Entendendo o HDFS
  • 5. Lição 005 - Entendendo o MapReduce
  • 6. Lição 006 - Entendendo o YARN
  • 7. Lição 007 - Instalação do CentOS 7
  • 8. Lição 008 - Configurações iniciais
  • 9. Lição 009 - Instalando o Hadoop
  • 10. Lição 010 - Instalando o Flume
  • 11. Lição 011 - Instalando e testando o PIG
  • 12. Lição 012 - Instalando e testando o Hive
  • 13. Lição 013 - Instalando e Configurando o MAHOUT
  • 14. Lição 014 - Instalando o Zookeeper
  • 15. Lição 015 - Preparando o servidor de Infra
  • 16. Lição 016 - Configurando DNS e NIS
  • 17. Lição 017 - Preparando a imagem dos nodos do cluster
  • 18. Lição 018 - Configurando o lado cliente no servidor master
  • 19. Lição 019 - Configurando os servidores slaves
  • 20. Lição 020 - Instalando o Ambari Server
  • 21. Lição 021 - Configurando o Java no Cluster Hadoop
  • 22. Lição 022 - Configurando e Testando cluster de hadoop
  • 23. Lição 023 - Configurando o Pig no Cluster Hadoop
  • 24. Lição 024 - Configurando o Mahout para execução
Voltar ao topo