O que é Big Data? Como ele pode auxiliar nas análises sobre SARS-CoV-19?

O monitoramento de epidemias

A pandemia do Covid-19 já infectou mais de 13 milhões de pessoas ao redor do mundo, ocasionando milhares de mortes. Em outros períodos da humanidade, já aconteceram eventos semelhantes [1]:

  1. A peste bubônica, que matou entre 75 e 200 milhões de pessoas na Europa durante o século 14, uma redução de quase 25% da população.
  2. Os primeiros relatos históricos da varíola foram do Egito antigo, há cerca de 3 mil anos. Relatos mostram que o faraó egípcio Ramsés II, a rainha Maria II da Inglaterra e o rei Luís XV da França foram contaminados. Em 1980, teve sua erradicação devido a vacinação em massa.
  3. A cólera teve sua primeira aparição em 1817, matando centenas de milhares de pessoas. Desde então, ocorrem ciclos epidêmicos esporádicos, sendo ainda uma pandemia. Em 2019, o Iêmen teve mais de 40 mil mortes por cólera.
  4. A gripe espanhola surgiu em 1918 e estima-se que entre 40 e 50 milhões de pessoas tenham morrido devido a ela ao redor do planeta, tendo infectado mais de um quarto da população mundial.
  5. O H1N1 foi a primeira pandemia do século 21, no ano de 2009. Matou cerca de 16 mil pessoas pelo mundo e, no Brasil, teve o primeiro caso foi confirmado em maio deste ano. Foram infectadas até o fim de junho 627 pessoas, de acordo com o Ministério da Saúde.

Ao contrário do Covid-19, nenhuma das outras epidemias apresentou um monitoramento tão preciso e eficiente por meio de bancos de dados. Mesmo o H1N1,  ainda nesse século, não teve tanta repercussão quanto a pandemia atual do Sars-Cov-19. O estudo analítico dessas doenças e outras tornou possível desenvolver modelos matemáticos que descrevem a propagação de doenças infecciosas. O primeiro registro de um estudo de modelagem é datado de 1760, com o trabalho de Daniel Bernoulli sobre a varíola. Esse e os modelos que vieram depois têm como objetivo analisar e modelar o comportamento e a evolução de determinada doença em uma população ao longo do tempo. Assim, é possível auxiliar no controle da propagação da doença, de modo a evitar o avanço de epidemias, assim como prever ações de vacinação e suas consequências. Em suma, pode-se usar dados para ajudar na tomada de decisões.

Porém, com o desenvolvimento tecnológico estes modelos clássicos têm previsões simplificadas, já que não consideram uma mudança comportamental da população [2]. Uma vez que o comportamento dos indivíduos pode alterar de modo drástico o curso da disseminação de uma epidemia, o modelo considera a resposta da população sobre a doença, e deste modo as medidas preventivas podem ser alteradas conforme os novos dados [3].

A fim de lidar com esse imenso volume de dados sendo alimentado continuamente, é necessário então um tratamento inovador, que leve em conta não apenas seu volume, mas também sua variedade e complexidade. Para isso, propomos o uso de Big Data, que permite aumentar bastante o alcance das pesquisas e análises.

O Big Data na atualidade

Na era da informação, a coleta de uma enorme quantidades de dados é fundamental para a tomada de decisão. Essa necessidade nos remete ao que chamamos de  Big Data, que seria, simplificadamente, um  grande conjunto de dados que podem ser estruturados ou não-estruturados. Por dados não-estruturados, entende-se que não são estruturados, ou seja, não estão organizados em uma estrutura, como um banco de dados ou uma tabela com linhas e colunas.  O Big Data possui também  alta variedade e requer grande velocidade de processamento; assim,  manipular os referidos dados usando ferramentas e técnicas tradicionais é cada vez mais difícil e lento.

Os responsáveis pelas tomadas de decisão precisam ser capazes de obter informações valiosas com dados tão variados e que mudam rapidamente, desde transações diárias até interações com clientes e dados de redes sociais. No entanto, o aumento exponencial do volume, da variedade e a atualização rápida desses dados exige um novo tipo de análise, além de diferentes métodos de armazenamento.  É necessário, então, reestruturarmos a análise de dados de modo a otimizar todas as etapas, desde a sua escolha e coleta até seu processamento e as decisões finais extraídas de modo a facilitar a compreensão e a importância destes, usando-os para tomada de decisões.

A análise desses dados precisa extrair padrões, correlações e informações úteis [4] por meio do aperfeiçoamento dos algoritmos. É fundamental detectar relações importantes entre as variáveis ​​armazenadas. Isto significa que aprender com os dados anteriores apresenta agora uma vantagem competitiva [5]. Juntamente com alguns dos métodos avançados de análise de dados mais comuns, como regras de associação, clustering, árvores de classificação e decisão e regressão, algumas análises adicionais se tornaram comuns no Big Data.

No entanto, um contra exemplo é a análise de mídia social, que pode ser usada na extração de informações e previsões [6]. A análise de mídia social é baseada no desenvolvimento e avaliação de estruturas e ferramentas de informática, a fim de coletar, monitorar, resumir, analisar e visualizar dados da respectiva mídia. Além disso, a análise de mídia social facilita o entendimento das reações e conversas entre indivíduos nas comunidades online, de modo a extrair padrões e informações úteis de suas interações. É ainda possível extrair informações sobre o que é compartilhado [7]. Por outro lado, é possível estudar ainda as relações entre entidades sociais (por exemplo pessoas ou países), por meio da chamada Social Network Analysis (SNA), que organiza as relações das entidades sociais em uma rede, revelando seus padrões e as possíveis implicações de tais relações [8]. O  SNA difere da análise de mídia social, uma vez que captura as relações e os padrões sociais entre as redes de pessoas. Por sua vez, a análise de mídia social visa investigar o que os usuários de mídia social estão dizendo/fazendo de modo a descobrir padrões úteis, informações sobre os usuários.

Como exemplo, a Figura 1 representa uma análise de mídias sociais realizada com redes de amigos no Facebook e disponível aqui.

2.1.png

Figura 1 – Análise de redes de amigos do Facebook

Outro exemplo de análise envolvendo entidades sociais é representado na Figura 2, que representa uma rede de países parceiros associados ao Brasil na produção científica sobre células-tronco (para mais detalhes, ver Produção científica brasileira em células-tronco nos anos 2000 a 2013: características e colaboração internacional) [9]. Uma vez que a centralidade está no Brasil, os outros países os circundam.

2.2.png

 

Figure 2 – Rede de colaboração internacional na produção científica brasileira sobre células-tronco (2000-2013)

Nessa figura, os 56 países estão representados na rede e suas conexões foram definidas com o uso do algoritmo Force Atlas do Gephi. O tamanho e a posição dos círculos revelam a centralidade dos principais países

Finalmente, temos a Advanced Data Visualization (ADV), que consiste em apresentar informações complexas de um modo visual para que as pessoas possam consumi-las efetivamente. A visualização permite ir além dos gráficos estáticos para criar visualizações de dados multifacetadas e explorar todas as dimensões, como mostrado na Figura 3, retirado deste site.

2.3.png

 

Figura 3 – Exemplo de Advanced Data Visualization

Mais recentemente, a ascensão do Big Data e a crescente conscientização pública de seu poder tornaram este o momento para a visualização de dados de forma mais atenta. A melhoria da coleta, preparo e análise visual de dados é um desafio importante que precisa ser enfrentado, para que os responsáveis pela tomada de decisões possam analisar adequadamente os dados de maneira a guiar ações concretas [10].

As análises de visualização associam-se às habilidades de percepção e raciocínio humanas, permitindo analisar melhor os dados tanto de modo geral quanto de modo mais detalhado. Devido ao tamanho e à complexidade do Big Data, faz-se necessária uma representação visual intuitiva, interativa e simplificada de modo a auxiliar o trabalho do analista.

Uma aplicação mais recente do Big Data é no monitoramento da avalanche de dados gerados sobre o Covid-19, o que exigiu um tratamento mais específico dos dados. Isso surgiu da necessidade de lidar não apenas com as tabelas (dados estruturados), mas com a grande quantidade de texto (por exemplo, notícias) sobre o assunto no interesse de guiar decisões no combate à pandemia.

O monitoramento do Covid-19 utilizando Big Data

Desde o início da pandemia as medidas não farmacológicas adotadas no combate ao Sars-cov-19, como a quarentena, distanciamento social, isolamento e lockdown, fazem parte do conjunto de elementos associados ao comportamento da população. No Brasil, estudos já concluíram que tais medidas são benéficas e seus efeitos positivos podem ser percebidos em até 14 dias após sua aplicação [11].

Devemos ainda considerar as variáveis que os dados clínicos podem apresentar ao considerarmos qualidade e consistência, por exemplo, casos de pacientes falso-positivos. A fim de aumentar a sofisticação do mapeamento da propagação do vírus, o Big Data pode ser usado na verificação da conformidade dos dados e na correlação com os dados comportamentais, que podem ser computados e analisados com facilidade,. Exemplos de análises que podem ser feitas a partir de Big Data:

  1. Análise descritiva: utiliza-se metodologias e tecnologias para descrever a situação atual e passada dos fenômenos; aqui os dados são representados de maneira sintética e gráfica;
  2. Análise Preditiva: ocorre por meio de análises estatísticas de dados que ajudam a entender o que pode acontecer no futuro;
  3. Análise Prescritiva: baseia-se nos dados da análise preditiva, podendo identificar soluções estratégicas e operacionais eficazes; a exemplo, quarentena e sua flexibilização;
  4. Análise Automatizada: implementam-se as ações da análise preditiva de forma autônoma e automatizada de acordo com o resultado das demais análises realizadas.

Portanto, a evolução da modelagem matemática epidemiológica utiliza as análises de Big Data para aprimorar os modelos matemáticos clássicos baseados em diferenciais compartimentados, uma vez que os maior desafio desses modelos é precisamente estimar os parâmetros epidemiológicos relacionados ao comportamento social. Essa etapa é, sem dúvida, uma das mais relevantes, pois pequenas variações nesses parâmetros representam um grande impacto nos resultados finais. Ressaltamos que, independente do método de estimação utilizado, um bom resultado só pode ser obtido se houver uma quantidade adequada  de dados de qualidade acerca da população e do comportamento da doença nos indivíduos, tanto em particular quanto na população como um todo.

As análises e os resultados aqui apresentados foram desenvolvidos de acordo com as referências bibliográficas para cálculo de estimativas relacionadas ao contágio do SARS-CoV-2. Uma vez que este é um vírus novo, sobre o qual o mundo ainda está aprendendo e estudando junto às suas consequências (os sintomas do Covid-19), suas características são  são bastante peculiares. A partir dessas estimativas, pode-se calcular a quantidade de pessoas com probabilidade de ocupar leitos hospitalares e a quantidade de pessoas que podem ser infectadas em casa, visto que os indivíduos estão agindo como veículo de transmissão do vírus para suas residências.

Para lidar com esse desafio, contamos com a disponibilidade de dados globais em tempo real. Portanto, não precisamos nos limitar a usar apenas uma modelagem simples de dados, e sim partir para a próxima etapa da análise de dados, o Big Data, exploração de grandes volumes de informação provenientes de redes sociais ou dados disponibilizados digitalmente por órgãos públicos para obter conclusões que não seriam obtidas de outras formas. Com isso, pode-se auxiliar ainda mais a medicina no estabelecimento de padrões de comportamento da sociedade para antecipar às próximos “ondas” da COVID-19, auxiliando na tomada de decisões.

 

Referências

  1. W. Hamer, The Milroy lectures on epidemic disease in England: the evidence of variability and of persistency of type, Bedford Press, 1906.
  2. Wang, Z., Andrews, M. A., Wu, Z. X., Wang, L., & Bauch, C.T. (2015). Coupled disease–behavior dynamics on complex networks: A review. Physics of Life Reviews. 15:.1-29, December. Disponível em: <https://doi.org/10.1016/j.plrev.2015.07.006> acesso em: 20/05/20.
  3. Funk, S., Salathé, M., & Jansen V. A. A. (2010). Modelling the influence of human behaviour on the spread of infectious diseases: a review, J. R. Soc. Interface, 7: 1247-1256).
  4. EMC: Data Science and Big Data Analytics. In: EMC Education Services, pp. 1–508 (2012);
  5. Song, Z., Kusiak, A.: Optimizing Product Configurations with a Data Mining Approach. International Journal of Production Research 47(7), 1733–1751 (2009);
  6. Asur, S., Huberman, B.A.: Predicting the Future with Social Media. In: ACM International Conference on Web Intelligence and Intelligent Agent Technology, vol. 1, pp. 492–499 (2010);
  7. Cebr: Data equity, Unlocking the value of big data. in: SAS Reports, pp. 1–44 (2012);
  8. Van der Valk, T., Gijsbers, G.: The Use of Social Network Analysis in Innovation Studies: Mapping Actors and Technologies. Innovation: Management, Policy & Practice 12(1), 5–17 (2010);
  9. Santin, D. M., Nunez, Z. A. G., de Moura, A. M. M. Produção científica brasileira em células-tronco nos anos 2000 a 2013: características e colaboração internacional. Rev Eletron de Comun Inf Inov Saúd (RECIIS), pp. 1-16 (2015)
  10. Manyika, J., Chui, M., Brown, B., Bughin, J., Dobbs, R., Roxburgh, C., Byers, A.H.: Big Data: The Next Frontier for Innovation, Competition, and Productivity. In: McKinsey Global Institute Reports, pp. 1–156 (2011);
  11. Agência Brasil. (2020a). Estudo indica eficácia do isolamento social contra o novo coronavírus. [internet]. Disponível em: Acesso em: 01/06/20.

 

Autores: Ana Carolina, Jéssica Assunção e Rodrigo Araújo e Castro 

Deixe um comentário

Artigos Relacionados