Entendendo "Big Data"

 


Ouça o artigo:

 Vamos abordar um pouco sobre o surgimento de Big Data e como ela se comporta hoje em dia. Assuntos técnicos também serão abordados caso precise, mas garanto que vão ser de fácil entendimento.

Início

O conceito de Big Data não surgiu da noite para o dia, mas sim evoluiu ao longo do tempo à medida que a capacidade de armazenamento de dados e as informações foram se desenvolvendo. Na década de 1960, com o advento dos computadores, a capacidade de armazenar e processar dados começou a crescer - claro que em épocas anteriores eram usados cartões perfurados para manter os dados. Mesmo na década de 1960 e com os computadores evoluindo, os dados armazenados ainda eram muito pequenos, as fitas magnéticas e discos de armazenamento eram muito limitados. O processamento de dados era feito por computadores próprios para isso, os famosos mainframes - que até nos dias de hoje ainda são bem usados. Muitos deles eram grandes, caros e limitados a uma pequena parte de empresas. Foi nesta mesma época que começaram a surgir os primeiros bancos de dados para gerenciar informações.

Nos anos de 1980 e 1990, houve um grande salto com a popularização dos computadores pessoais e o avanço da tecnologia de rede, e a quantidade de dados começou a aumentar consideravelmente. Os primeiros bancos de dados começaram a se popularizar também, e a IBM e a Oracle já começaram a dominar esta área.

O verdadeiro ponto de partida foi nos anos 1990, com a ascensão da internet e a digitalização da informação. A conectividade global resultou em um grande aumento no processamento de dados gerados. As empresas começaram a ver o valor e o potencial nos dados e necessitavam de ferramentas mais avançadas para suas análises. Os bancos de dados foram evoluindo por causa dessas necessidades constantes. Isso foi um fator importante para o surgimento de vários outros bancos de dados, e principalmente a popularização do modelo de bancos de dados não relacional como os NoSQL, que foram projetados para lidar com dados não estruturados e semiestruturados.

Mas qual é a diferença entre dados estruturados e não estruturados? Vou explicar de forma bem simples. Os bancos de dados relacionais, também chamados de SQL, são bancos de dados estruturados, organizados em linhas e colunas. Eles organizam os dados separadamente, e cada dado pode ser categorizado, separado por formatos, etc. A consulta fica muito mais fácil. Os bancos de dados não relacionais, ou NoSQL, não são estruturados. Eles não utilizam o modelo de tabela para separar os dados e, em geral, não separam os dados. Eles também podem armazenar grandes quantidades de dados, tendo alta velocidade de processamento e podendo armazenar vários formatos de dados todos juntos.

Já no início dos anos 2000, o termo "Big Data" começou a ganhar popularidade. As empresas estavam gerando quantidades enormes de dados a partir de várias fontes, como transações comerciais, mídias sociais, sensores e muito mais. O Google foi pioneiro no desenvolvimento de tecnologias de Big Data, como o Google File System (GFS) e o MapReduce - que hoje em dia são muito usados em seus produtos - e influenciou diretamente o desenvolvimento do Hadoop. O GFS foi projetado para suportar aplicações que necessitavam de grande capacidade de armazenamento e acesso rápido aos dados. O MapReduce, por sua vez, é um modelo de programação que permite o processamento paralelo de grandes volumes de dados em um cluster de computadores. Para a maioria que usa "Big Data", o Hadoop está lá no meio de outros serviços. O Hadoop, que é um software open-source desenvolvido pela Apache Software Foundation, é um dos mais populares softwares para "Big Data". Ele permite o processamento distribuído de grandes conjuntos de dados em clusters de computadores (computação em paralelo) usando modelos de computação simples, o que facilita e agiliza muito a implementação de Big Data.

Na década de 2010, o Big Data se tornou um componente muito importante para muitas empresas. A quantidade de dados gerados continuou a crescer, impulsionada pelo aumento de vários dispositivos, principalmente os smartphones, mídias sociais e outros serviços. Além do Hadoop, surgiram outras tecnologias para compor mais esse processamento de dados, como o Apache Spark e o Apache Flink, ambos oferecendo um processamento de dados em tempo real muito mais rápido - já que os dados estavam crescendo cada vez mais e muitas empresas estavam com necessidade de softwares com poder de processamento muito mais rápido.

Essa década foi marcada pelo surgimento de vários conceitos relacionados a Big Data, entre eles o Data Lake e o Data Warehouse, que também ganharam popularidade. O Data Lake consiste em um armazenamento de dados de forma bruta que depois podem ser estruturados, semiestruturados ou não estruturados conforme a necessidade. Ou seja, você pode projetá-lo e separá-lo, e caso precise organizá-lo de acordo com sua necessidade. E o Data Warehouse, que é fundamental para suportar relatórios empresariais, análises de dados e processos de tomada de decisão. Ambos os sistemas são para grandes volumes de processamento de dados.

Finalmente, chegamos na década de 2020, e o Big Data ficou mais integrado com a tecnologia de Inteligência Artificial (IA) e Machine Learning (ML). Essa combinação permite que as empresas e organizações possam automatizar, organizar, analisar e processar dados de forma muito mais fácil e rápida, fornecendo informações que podem ser úteis em determinadas situações. É muito mais rápido com IA e ML analisar o gosto dos usuários e oferecer um produto do que fazer isso manualmente.

Para facilitar e oferecer esses serviços a qualquer empresa que necessite, surgiram os serviços de cloud computing, ou em nuvem. A Amazon Web Services (AWS) foi uma das primeiras a oferecer serviços de Big Data sem precisar comprar equipamentos. Você entra no site deles, escolhe um serviço, utiliza conforme suas necessidades e, caso não queira mais, cancela de maneira rápida. Existem mais de 200 serviços em nuvem dentro da AWS e muitos deles podem complementar sua necessidade em Big Data. Vendo essas soluções que a Amazon criou, outras empresas começaram a oferecer serviços semelhantes, como o Microsoft Azure, Google Cloud Platform (GCP) e outras. Muitas delas oferecendo serviços semelhantes ao da AWS, às vezes mais baratos ou com melhores funcionalidades.

Privacidade

Toda essa coleta e armazenamento de dados levantaram sérias preocupações sobre privacidade e segurança. Quanto as empresas de Big Data coletam e armazenam dessas informações sobre o usuário? E como esses dados são utilizados? São perguntas cujas respostas não são fáceis de obter. Hoje em dia, os dados e sua coleta são muito importantes para várias tomadas de decisões. Empresas de Big Data podem coletar enormes quantidades de dados de várias fontes, como seu navegador, interações em mídias sociais, dados de dispositivos móveis, histórico de compras etc. É uma grande variedade de dados que elas podem armazenar e manter em seus servidores para serem utilizados. E esses dados, quando analisados, podem revelar padrões, tendências do usuário, do mercado e de muitas outras coisas. Quantas vezes já te ofereceram um produto na internet que você nem queria, mas ficou interessado em comprar? E muitas das empresas, mesmo com o histórico deletado de serviços online, podem ainda armazenar os dados em seus servidores. Várias regulamentações foram criadas globalmente, como a GDPR (Regulamento Geral de Proteção de Dados) na Europa e a LGPD (Lei Geral de Proteção de Dados) no Brasil. Ambas são uma maneira de tentar garantir proteção e segurança dos dados que são coletados e armazenados, mas podem não ser suficientes para garantir os direitos à privacidade.

Conclusão

A Big Data está cada dia mais evoluindo com o avanço da tecnologia, e a coleta massiva de dados não vai parar, e sua integração será cada vez mais presente em vários serviços. Levanto a questão para sempre ficarmos atentos e observar como os dados são utilizados, e quando eles ocorrem vazamentos na internet.

 

0 comments:

Postar um comentário