Pular para o conteúdo principal
InícioPythonRaspagem da Web em Python

Raspagem da Web em Python

Aprenda a recuperar e analisar informações da internet usando a biblioteca scrapy do Python.

Comece O Curso Gratuitamente
4 horas17 vídeos56 exercícios
78.014 aprendizesTrophyDeclaração de Realização

Crie sua conta gratuita

GoogleLinkedInFacebook

ou

Ao continuar, você aceita nossos Termos de Uso, nossa Política de Privacidade e que seus dados são armazenados nos EUA.
GroupTreinar 2 ou mais pessoas?Experimente o DataCamp For Business

Amado por alunos de milhares de empresas


Descrição do Curso

A capacidade de criar ferramentas capazes de recuperar e analisar informações armazenadas na Internet foi e continua sendo valiosa em muitas áreas da ciência de dados. Neste curso, você aprenderá a navegar e analisar o código html e a criar ferramentas para rastrear sites automaticamente. Embora nossa raspagem seja conduzida usando a versátil biblioteca Python scrapy, muitas das técnicas que você aprenderá neste curso também podem ser aplicadas a outras bibliotecas Python populares, incluindo BeautifulSoup e Selenium. Após a conclusão deste curso, você terá um modelo mental sólido da estrutura html, será capaz de criar ferramentas para analisar o código html e acessar as informações desejadas, além de criar um scrapy spiders simples para rastrear a Web em escala.
Para Empresas

GroupTreinar 2 ou mais pessoas?

Obtenha acesso à biblioteca completa do DataCamp, com relatórios, atribuições, projetos e muito mais centralizados
Experimente O DataCamp for BusinessPara uma solução sob medida , agende uma demonstração.

Nas seguintes faixas

Desenvolvedor Python

Ir para a trilha
  1. 1

    Introdução a HTML

    Gratuito

    Aprenda a estrutura do site HTML. Começaremos explicando por que a raspagem da Web pode ser um acréscimo valioso à sua caixa de ferramentas de ciência de dados e, em seguida, nos aprofundaremos em alguns princípios básicos do HTML. Encerramos o capítulo com uma breve introdução sobre a notação XPath, que é usada para navegar pelos elementos do código HTML.

    Reproduzir Capítulo Agora
    Visão geral do Web Scraping
    50 xp
    A coleta de dados da Web não é um absurdo!
    50 xp
    Linguagem de marcação de hipertexto
    50 xp
    HTML navegação com muitas palavras
    50 xp
    Da árvore para HTML
    100 xp
    Atributos
    50 xp
    Mantenha a classe
    100 xp
    Encontrando href
    50 xp
    Curso intensivo em XPath
    50 xp
    Onde estou?
    100 xp
    Chegou a hora de você fazer o P
    100 xp
    Uma extensão elegante
    100 xp
  2. 3

    CSS Localizadores, encadeamento e respostas

    Aprenda a sintaxe do CSS Locator e comece a brincar com a ideia de encadear CSS Locators com XPath. Também apresentamos os objetos Response, que se comportam como seletores, mas nos dão ferramentas adicionais para mobilizar nossos esforços de raspagem em vários sites.

    Reproduzir Capítulo Agora
  3. 4

    Aranhas

    Aprenda a criar rastreadores da Web com o scrapy. Esses spiders de scrapy rastrearão a Web por meio de várias páginas, seguindo os links para raspar cada uma dessas páginas automaticamente, de acordo com os procedimentos que aprendemos nos capítulos anteriores.

    Reproduzir Capítulo Agora
Para Empresas

GroupTreinar 2 ou mais pessoas?

Obtenha acesso à biblioteca completa do DataCamp, com relatórios, atribuições, projetos e muito mais centralizados

Nas seguintes faixas

Desenvolvedor Python

Ir para a trilha

conjuntos de dados

DataCamp webpage HTML

colaboradores

Collaborator's avatar
David Campos
Collaborator's avatar
Mari Nazary
Collaborator's avatar
Shon Inouye

pré-requisitos

Intermediate Python
Thomas Laetsch HeadshotThomas Laetsch

Data Scientist at New York University

Ver Mais

O que os outros alunos têm a dizer?

Junte-se a mais de 14 milhões de alunos e comece Raspagem da Web em Python hoje mesmo!

Crie sua conta gratuita

GoogleLinkedInFacebook

ou

Ao continuar, você aceita nossos Termos de Uso, nossa Política de Privacidade e que seus dados são armazenados nos EUA.