Arquivo da categoria: Tecnologia

Comentários e avaliações sobre o que acontece no mundo da tecnologia atualmente e antigamente, dependendo de quando acessar este blog….

Web Scraping, WhatsApp, CAPTCHA e Ética

Web Scraping, e reduto da extração de dados na internet. Essa prática é tão antiga que data dos bots dos robôs de busca que já a aplicavam mesmo antes de muitos de vocês leitores terem nascido.

Sim, meu caro padawan, se você achava que estava inovando escrevendo um script em Python ou VBA para extrair dados de uma página web, pense de novo! Há uma quantidade insana de bots e spiders fazendo isso desde os tempos remotos da World Wide Web.

Pra variar, a tecnologia não perdoou e tornou cada vez mais fácil fazer esse tipo de extração de dados, mesmo para profissionais cuja rotina nada tem de relacionada com programação. Nisso entra o VBA, provavelmente a opção de automação de mais fácil alcance e didática presente no mercado.

Até aqui, tudo bem, o web scraping está aí, é fácil de fazer, ferramentas tem aos montes, sites-alvo mais ainda. Mas (sempre tem um mas) enquanto muitos passam tempo tentando descobrir o como, poucos se perguntam se realmente deveriam estar fazendo isso. 

Web Scraping e Ética?

Para o quê e quando fazer web scraping é uma pergunta que, para ser respondida, deveria sempre ter um contexto ético. Não vou entrar no mérito filosófico da questão, já que em tempos atuais o que mais tem é filósofo discutindo ética na internet. Vou basear a crença deste texto na seguinte definição:

Ética: tudo aquilo que você faz mesmo quando ninguém está olhando.

Ou seja, quando você faz web scraping de um website, você deveria sim se perguntar se você deveria estar fazendo-o. Um site quando é publicado tem a intenção primária de fornecer conteúdo legível para humanos. Quando um script entra em jogo, isso cai por terra. Ao invés de um ser humano limitado a um certo número de cliques e com uma capacidade regular de ler e interpretar textos, um bot consegue repetir a operação de clicar, baixar e salvar diversas páginas numa fração desse tempo.

Dentre vários problemas que isso pode causar, posso pensar em:

  1. O site não foi feito para aguentar tal carga de acessos
  2. Os termos e condições não permite a cópia dos dados
  3. E mais importante, o autor do site tem o direito exigir interação humana no site

Sim, Termos e Condições, aquela coisa que, assim como contratos, pouquíssimos lêem.

Termos de Condições

Vou ser claro, não sou advogado, mas já tive a oportunidade de conversar muito com vários para ter uma noção honesta do que pode acontecer se você não andar na linha. Posto isto, vamos em frente.

Quando um site exibe um texto detalhando Termos e Condições, as chances de haver uma séria limitação de acesso ao uso seu conteúdo é quase certa. 

Essas limitações atingem principalmente robôs, que nada mais são que aplicativos criados para acessar o conteúdo de um website. Sabe aquele script em VBA que você criou para extrair dados de uma página web? Pois é, ele entra nessa categoria.

No geral, não é preciso se preocupar na maior parte dos casos já que o problema está em como você usa a informação e não como ela é extraída. Mas (outro mas aqui), toda vez que você pensar em fazer qualquer tipo de extração automatizada, você deveria ler os Termos e Condições.

E sim, você deveria estar se perguntando se alguma vez você já fez isso.

Por que isso é tão importante? Porque ter acesso a um dado é diferente do uso que se faz dele, e isso comumente está claro nos Termos e Condições, que normalmente detalha não só as regras e limitações como as penalidades aplicadas.

Quando você deveria fazer web scraping

Existe um cenário ideal para quando você deveria fazer web scraping sem se preocupar muito. A maneira mais fácil de identificar tal cenário é quando você já está fazendo alguma operação manual, como por exemplo extrair dados de venda para construir um relatório específico que não está disponível num sistema interno da empresa. Ao invés de copiar e colar uma centena de dados, o que não só levaria um tempo considerável como também estaria sujeito a erros, você pode automatizar isso.

Esta é uma situação perfeita para aplicar web scraping. Os dados são da empresa, serão utilizados pela empresa e o usuário que precisa deles não tem acesso a eles de outra forma que não pelo próprio.

Qualquer coisa que vá além disso (resumindo, tudo o que não é seu) cai no filtro dos Termos e Condições.

Quando você NÃO deveria fazer web scraping

Existem diversos sinais que deixarão claro que um web scraping não é bem vindo. Não vou entrar em detalhes sobre robots.txt e outras minúscias. Isto é algo que ficará para um curso de Web Scraping que lançarei num futuro próximo.

Então, quando não é aconselhável fazer web scraping? Os exemplos abaixo são os mais comuns:

  • O site expõe um CAPTCHA
  • O site protege a informação através de login e senha
  • O site ou o detentor dele expõe formas mais adequadas de extrair a informação, como através de web services (SOAP/REST)
  • O site bloqueia seu acesso caso ele for muito frequente
  • O site não permite extração de dados de forma automatizada (Termos e Condições, lembra?)

Vale a pena detalhar um pouco mais o primeiro item citado.

CAPTCHA

Isso mesmo, aquela coisa horrorosa que temos que decifrar
Isso mesmo, aquela coisa horrorosa que temos que decifrar

O CAPTCHA é um Teste de Turing aplicado em uma página web. Para leigos, é basicamente uma maneira moderna de impedir que uma máquina se passe por um ser humano real. A razão para isso é simples: sites são conteúdos visuais, feitos para humanos consumirem. Se uma máquina/robô/script vem atazanar aquele lindo website que você construiu com tanto esforço e paga com o suor do seu trabalho para ficar hospedado, você vai querer saber o que está acontecendo.

Para evitar que seu conteúdo seja lido ao léu por robôs que querem mais é tirar proveito de informação alheia, a internet bolou formas de bloquear o acesso, sendo a mais conhecida e utilizada o CAPTCHA.

Como mencionado acima, seu script VBA entra na categoria de robôs da internet, por isso, o CAPTCHA está lá para atrapalhar a vida dele.

Por isso, toda vez que você der de cara um com desses ao escrever seu lindo web scrapper, saiba existe um motivo muito bom para ele estar lá.

E o WhatsApp?

O WhatsApp entra de vítima nessa história por alguns motivos específicos:

  • Há uma versão web/desktop que pode ser usada
  • Como todo site/app, ele também funciona sob determinados termos de condições, algo que já discutimos aqui
  • O WhatsApp é de longe o aplicativo de mensagens mais utilizado no Brasil, o que o torna alvo de todo tipo de ação que foca em atingir massas (leia-se spam)
  • O WhatsApp é do Facebook, uma gigante da indústria da internet com muito $$$ para gastar e ela não poupará em revidar se um mau uso for feito do seu aplicativo, já que este pode ser usado de graça

Recentemente a publicação deste texto, o jornal The Economic Times publicou uma matéria detalhando que o WhatsApp vai processar qualquer um que fizer uso do aplicativo para envio de mensagens em massa. Link aqui (em inglês): https://economictimes.indiatimes.com/tech/internet/whatsapp-will-take-you-to-court-if-you-send-bulk-messages-misuse-app/articleshow/69783647.cms?from=mdr

Ou seja querido scripteiro, se você estiver fazendo uso do WhatsApp desktop para fazer envio de mensagens em massa, você está infringindo o regulamento do aplicativo e sujeito a penalização.

Se você se perguntava porque até agora eu não tinha publicado um tutorial de Selenium e WhatsApp, bem, aí está sua resposta.

Você sabe o que é Power BI? Nem eu…

Faz tempo que não escrevo um artigo de opinião. Já era hora de desenferrujar e nada melhor do que polemizar para tal.

Não custa ressaltar que o que escreverei aqui é apenas MINHA OPINIÃO e não necessariamente reflete a verdade ou o que a comunidade pensa. E, por mais que o Power BI esteja mencionado no título, eu não falarei dele.

Sabendo disso, vamos em frente.

A bola da vez?

O assunto da vez, pelo menos no que tange o espectro de curiosos e interessados do Excel, é o Power BI e com ele, os Dashboards.

Não vou entrar no mérito do segundo por ele ser mais abrangente. Isso tem mais ou menos uns 2 a 3 anos da data deste post. Só se fala nele, só se dá curso sobre ele, masterclass, livros, etc. Isso é bom, aquece o mercado, alimenta famílias, engrandece o currículo.

MAS (em caixa alta mesmo) , se você sofre um mínimo do complexo de vira-lata, o que é o meu caso, provavelmente se sentiu “atrasado” em saber que nada sabia sobre o assunto. Como tudo curioso frustrado, fui lá tentar saber o que era. Para minha surpresa, o que encontrei foi isso…

O Power BI não é para mim, e talvez não seja para você

O subtítulo acima foi feito para incomodar, principalmente aos adoradores no Power BI. Entendo, mas há algo que precisa ficar claro aqui.

O Excel é um software com uma quantidade insana de funcionalidades. Nem mesmo os mais experientes conseguiriam enumerar todas, e eles admitem isso (vou deixar para você o trabalho de pesquisar isso. Minha dica é gastar um tempo no Quora vendo respostas dos MVPs).

Diante disso, toda vez que algum recurso revolucinário vem à tona, a primeira coisa que me vem a cabeça é ceticismo, e isso eu aprendi com o João Benito Savastano. Depois de quase 20 anos conhecendo e trabalhando com a ferramenta, achar que falta algo é “meio que” trair a confiança dela.

Não me leve a mal, eu gosto de novidades, tanto que faço questão de sempre ter a última versão do Office instalada no meu Windows. Mas, para ser sincero, depois do SOMASES, CONCAT e UNIRTEXTO, pouca coisa fez diferença para mim, e o Power BI é uma delas. Não é porque o Power BI é ruim. Os colegas da comunidade estão fazendo trabalhos Excelentes divulgando a ferramenta, escrevendo artigos, ministrando cursos e escrevendo livros.

Só que, bem, o Power BI não é para mim, e por alguns motivos simples:

  • ele não tornará meu trabalho melhor
  • ele não tornará meu trabalho mais rápido
  • meus projetos não se beneficiarão dele
  • meus clientes não se beneficiarão dele
  • eu gosto de Dashboards, mas nem meus clientes e nem eu precisamos deles

Isso é mais do que suficiente para eu não me preocupar com ele por enquanto, ou pelo menos até ele ser necessário para mim.

Coitado do Power BI

Aqui, um mea culpa. Eu basicamente massacrei o Power BI sem mesmo tê-lo conhecido. A verdade é que ele acabou sendo o bode expiatório de um problema maior que tentei elaborar acima.

Por isso, para qualquer outro recurso maluco que você acha que deveria conhecer, mas não conhece, pense que, se você é capaz de fazer seu trabalho com produtividade com os recursos que você já sabe, isso é tudo o que você precisa e você pode tranquilamente viver sem nada saber da “nova funcionalidade no pedaço”.

Conhecer coisas novas é tarefa obrigatória de todo profissional da atualidade, mas, com o tempo escasso e o mercado exigente, ser seletivo no que você vai utilizar é o melhor caminho a seguir.

Desculpe Power BI. Quem sabe no futuro…

Excel – Cenários no Excel são bem mais legais do que parecem

Cenários no Excel são SIM bem mais legais do que parecem e é isso que vou mostrar (ou pelo menos tentar) neste vídeo.

Acesse também

BLOG ► https://www.tomasvasquez.com.br/blog/
FÓRUM ► https://www.tomasvasquez.com.br/forum/
CURSO ONLINE DE C# ► https://www.tomasvasquez.com.br/cursocsharp

Aqui também!

FACEBOOK ► https://www.facebook.com/tomasvaquezsites
TWITTER ► https://twitter.com/tomamais
GOOGLE+ ► https://plus.google.com/+TomasvasquezBr/

Roteiro, apresentação, edição, etc, etc ► eu mesmo 🙂

Excel – SOMASE (Só some se eu quiser!)

Eu ia publicar outro vídeo, que acabou gerando este. Espero mesmo que seja de muita utilidade para você que assiste pequenino canal.

Acesse também

BLOG ► https://www.tomasvasquez.com.br/blog/
FÓRUM ► https://www.tomasvasquez.com.br/forum/
CURSO ONLINE DE C# ► https://www.tomasvasquez.com.br/cursocsharp

Aqui também!

FACEBOOK ► https://www.facebook.com/tomasvaquezsites
TWITTER ► https://twitter.com/tomamais
GOOGLE+ ► https://plus.google.com/+TomasvasquezBr/

Roteiro, apresentação, edição, etc, etc ► eu mesmo 🙂