Arquivo da tag: Web Scraping

Web Scraping, WhatsApp, CAPTCHA e Ética

Web Scraping, e reduto da extração de dados na internet. Essa prática é tão antiga que data dos bots dos robôs de busca que já a aplicavam mesmo antes de muitos de vocês leitores terem nascido.

Sim, meu caro padawan, se você achava que estava inovando escrevendo um script em Python ou VBA para extrair dados de uma página web, pense de novo! Há uma quantidade insana de bots e spiders fazendo isso desde os tempos remotos da World Wide Web.

Pra variar, a tecnologia não perdoou e tornou cada vez mais fácil fazer esse tipo de extração de dados, mesmo para profissionais cuja rotina nada tem de relacionada com programação. Nisso entra o VBA, provavelmente a opção de automação de mais fácil alcance e didática presente no mercado.

Até aqui, tudo bem, o web scraping está aí, é fácil de fazer, ferramentas tem aos montes, sites-alvo mais ainda. Mas (sempre tem um mas) enquanto muitos passam tempo tentando descobrir o como, poucos se perguntam se realmente deveriam estar fazendo isso. 

Web Scraping e Ética?

Para o quê e quando fazer web scraping é uma pergunta que, para ser respondida, deveria sempre ter um contexto ético. Não vou entrar no mérito filosófico da questão, já que em tempos atuais o que mais tem é filósofo discutindo ética na internet. Vou basear a crença deste texto na seguinte definição:

Ética: tudo aquilo que você faz mesmo quando ninguém está olhando.

Ou seja, quando você faz web scraping de um website, você deveria sim se perguntar se você deveria estar fazendo-o. Um site quando é publicado tem a intenção primária de fornecer conteúdo legível para humanos. Quando um script entra em jogo, isso cai por terra. Ao invés de um ser humano limitado a um certo número de cliques e com uma capacidade regular de ler e interpretar textos, um bot consegue repetir a operação de clicar, baixar e salvar diversas páginas numa fração desse tempo.

Dentre vários problemas que isso pode causar, posso pensar em:

  1. O site não foi feito para aguentar tal carga de acessos
  2. Os termos e condições não permite a cópia dos dados
  3. E mais importante, o autor do site tem o direito exigir interação humana no site

Sim, Termos e Condições, aquela coisa que, assim como contratos, pouquíssimos lêem.

Termos de Condições

Vou ser claro, não sou advogado, mas já tive a oportunidade de conversar muito com vários para ter uma noção honesta do que pode acontecer se você não andar na linha. Posto isto, vamos em frente.

Quando um site exibe um texto detalhando Termos e Condições, as chances de haver uma séria limitação de acesso ao uso seu conteúdo é quase certa. 

Essas limitações atingem principalmente robôs, que nada mais são que aplicativos criados para acessar o conteúdo de um website. Sabe aquele script em VBA que você criou para extrair dados de uma página web? Pois é, ele entra nessa categoria.

No geral, não é preciso se preocupar na maior parte dos casos já que o problema está em como você usa a informação e não como ela é extraída. Mas (outro mas aqui), toda vez que você pensar em fazer qualquer tipo de extração automatizada, você deveria ler os Termos e Condições.

E sim, você deveria estar se perguntando se alguma vez você já fez isso.

Por que isso é tão importante? Porque ter acesso a um dado é diferente do uso que se faz dele, e isso comumente está claro nos Termos e Condições, que normalmente detalha não só as regras e limitações como as penalidades aplicadas.

Quando você deveria fazer web scraping

Existe um cenário ideal para quando você deveria fazer web scraping sem se preocupar muito. A maneira mais fácil de identificar tal cenário é quando você já está fazendo alguma operação manual, como por exemplo extrair dados de venda para construir um relatório específico que não está disponível num sistema interno da empresa. Ao invés de copiar e colar uma centena de dados, o que não só levaria um tempo considerável como também estaria sujeito a erros, você pode automatizar isso.

Esta é uma situação perfeita para aplicar web scraping. Os dados são da empresa, serão utilizados pela empresa e o usuário que precisa deles não tem acesso a eles de outra forma que não pelo próprio.

Qualquer coisa que vá além disso (resumindo, tudo o que não é seu) cai no filtro dos Termos e Condições.

Quando você NÃO deveria fazer web scraping

Existem diversos sinais que deixarão claro que um web scraping não é bem vindo. Não vou entrar em detalhes sobre robots.txt e outras minúscias. Isto é algo que ficará para um curso de Web Scraping que lançarei num futuro próximo.

Então, quando não é aconselhável fazer web scraping? Os exemplos abaixo são os mais comuns:

  • O site expõe um CAPTCHA
  • O site protege a informação através de login e senha
  • O site ou o detentor dele expõe formas mais adequadas de extrair a informação, como através de web services (SOAP/REST)
  • O site bloqueia seu acesso caso ele for muito frequente
  • O site não permite extração de dados de forma automatizada (Termos e Condições, lembra?)

Vale a pena detalhar um pouco mais o primeiro item citado.

CAPTCHA

Isso mesmo, aquela coisa horrorosa que temos que decifrar
Isso mesmo, aquela coisa horrorosa que temos que decifrar

O CAPTCHA é um Teste de Turing aplicado em uma página web. Para leigos, é basicamente uma maneira moderna de impedir que uma máquina se passe por um ser humano real. A razão para isso é simples: sites são conteúdos visuais, feitos para humanos consumirem. Se uma máquina/robô/script vem atazanar aquele lindo website que você construiu com tanto esforço e paga com o suor do seu trabalho para ficar hospedado, você vai querer saber o que está acontecendo.

Para evitar que seu conteúdo seja lido ao léu por robôs que querem mais é tirar proveito de informação alheia, a internet bolou formas de bloquear o acesso, sendo a mais conhecida e utilizada o CAPTCHA.

Como mencionado acima, seu script VBA entra na categoria de robôs da internet, por isso, o CAPTCHA está lá para atrapalhar a vida dele.

Por isso, toda vez que você der de cara um com desses ao escrever seu lindo web scrapper, saiba existe um motivo muito bom para ele estar lá.

E o WhatsApp?

O WhatsApp entra de vítima nessa história por alguns motivos específicos:

  • Há uma versão web/desktop que pode ser usada
  • Como todo site/app, ele também funciona sob determinados termos de condições, algo que já discutimos aqui
  • O WhatsApp é de longe o aplicativo de mensagens mais utilizado no Brasil, o que o torna alvo de todo tipo de ação que foca em atingir massas (leia-se spam)
  • O WhatsApp é do Facebook, uma gigante da indústria da internet com muito $$$ para gastar e ela não poupará em revidar se um mau uso for feito do seu aplicativo, já que este pode ser usado de graça

Recentemente a publicação deste texto, o jornal The Economic Times publicou uma matéria detalhando que o WhatsApp vai processar qualquer um que fizer uso do aplicativo para envio de mensagens em massa. Link aqui (em inglês): https://economictimes.indiatimes.com/tech/internet/whatsapp-will-take-you-to-court-if-you-send-bulk-messages-misuse-app/articleshow/69783647.cms?from=mdr

Ou seja querido scripteiro, se você estiver fazendo uso do WhatsApp desktop para fazer envio de mensagens em massa, você está infringindo o regulamento do aplicativo e sujeito a penalização.

Se você se perguntava porque até agora eu não tinha publicado um tutorial de Selenium e WhatsApp, bem, aí está sua resposta.