"Se a gente quer fazer comparações, os dados precisam ter a mesma base"

foto mostra coletiva de imprensa com os ministros marcos pontes, de ciência e tecnologia, e henrique mandetta, da saúde. eles estão sentados em uma mesa e mandetta está falando
Novos dados sobre a evolução da pandemia do coronavírus são divulgados todos os dias no país

Novidades sobre a pandemia do coronavírus surgem a todo momento. Todos os dias, novos dados a respeito do número de casos confirmados da Covid-19 e de mortes causadas pela doença são divulgados no Brasil e em outros países. Analisar os dados, estabelecer comparações e tirar conclusões sobre a situação da pandemia no país parece ser inevitável, mas se não houver uma unidade entre as diferentes fontes de dados ou clareza na forma com que eles são organizados e divulgados, o resultado pode ser a ideia de um cenário mais otimista ou pessimista do que realmente é, além de prejudicar o planejamento e execução de políticas de saúde pública.

A conclusão é de professores da Unicamp que trabalham com ciência de dados e análises de informações numéricas em diferentes áreas de pesquisa e estão aproveitando a oportunidade surgida com o cenário inédito provocado pela pandemia para refletirem sobre as formas com que os dados sobre o vírus e a doença têm sido coletados e disponibilizados para pesquisadores e imprensa. Eles também propõem soluções que reduzam os efeitos de análises e comparações que possam causar mais prejuízos do que o próprio contexto já provoca. 

"As pessoas olham para resultado, mas não questionam de onde ele vem"

Acostumado a trabalhar com dados obtidos por diversas fontes na área da neurociência, Rickson Mesquita, professor do Instituto de Física Gleb Wataghin (IFGW) sabe que as primeiras informações necessárias para que boas análises sejam feitas é justamente sobre como esses dados foram obtidos, quais métodos foram utilizados, qual área ou período de tempo eles dizem respeito. Ou seja, não basta ler os dados, é preciso conhecer o caminho e as condições que os tornaram informações relevantes. 

É justamente essa consciência que fez com que o professor parasse para refletir sobre como isso tem sido feito com os dados divulgados sobre o coronavírus, principalmente em relação ao número de casos confirmados da Covid-19 no Brasil e no mundo. Em um texto publicado em seu perfil na plataforma Medium, ele argumenta que as comparações feitas entre os números de casos confirmados no Brasil e a situação de outro países requer cuidado e pode ser algo improdutivo. Isso porque a forma com que a doença vem sendo diagnosticada e notificada varia entre cada país, o que pode gerar falsas simetrias. "Não faz muito sentido analisar números de casos se eles estão sendo reportados de diferentes formas, isso gera ainda mais incertezas para as pessoas. Quando as pessoas tentam comparar os dados de diferentes países, aí a confusão fica ainda maior", analisa Rickson. 

Na visão do professor, o número de mortes causadas pela Covid-19 seria um parâmetro que oferece menos riscos a divergências, já que são eventos consumados. A partir disso, ele propõe outras formas de comparação entre a situação dos países, como o número de mortes total e a evolução das mortes dia após dia, o que permite verificar como a pandemia se comporta pelo mundo. Rickson também critica outras comparações e relativizações, como a de justificar uma suposta situação mais positiva no Brasil por conta da grande extensão territorial do país. Segundo ele informa no texto, a mensagem que deveria ser extraída de dados que mostram ainda um número baixo de contaminação em uma grande população é a de que há a possibilidade de muitas pessoas ainda contraírem o coronavírus e, por isso, os cuidados devem ser mantidos. 

montagem mostra dois gráficos, um com a evolução no número de mortes por dia pelo coronavírus e outro com o número de mortes totais
Gráficos baseados em dados do Centro Europeu para o Controle de Doenças mostram a evolução no número de mortes por dia nos países e o número total de mortes registrado

Rickson analisa que é importante que as pessoas conheçam a fonte dos dados fornecidos por órgãos oficiais de saúde e também pelos meios de comunicação. De acordo com ele, este é um cenário em que a disseminação de informações ocorre de forma rápida e por qualquer pessoa e, por isso, requer responsabilidade e consciência dos efeitos na vida das pessoas. "As pessoas precisam de informações para se tornarem conscientes do que está acontecendo, mas as informações devem ser precisas. As redes sociais acabam dando amplitude para qualquer análise entre uma população onde a matemática pode ser uma grande dificuldade, então quando as pessoas veem um número, elas tendem a aceitar sem questionar. Isso pode ser um problema", adverte o professor. 

Solução: criar a própria base de dados

Trabalhar com dados também faz parte do cotidiano de Paula Dornhofer Costa, professora da Faculdade de Engenhara Elétrica e Computação (FEEC) da Unicamp. Ela integra um projeto de pesquisa que cruza dados de saúde a variáveis do clima, identificando como as condições de temperatura, umidade e eventos climáticos podem influenciar na saúde das pessoas. Fazem parte dele a professora Eliana Cotta de Faria, da Faculdade de Ciências Médicas (FCM), e Ana Maria Heuminski de Ávila, pesquisadora do Centro de Pesquisas Meteorológicas e Climáticas Aplicadas à Agricultura (Cepagri). 

Assim como ocorreu com outros pesquisadores de diversas áreas, a pandemia do coronavírus chamou a atenção dela e seus orientandos , que passaram a reunir os dados fornecidos pelo Ministério da Saúde no formato CSV, "Comma-Separated Values", no qual as informações numéricas são disponibilizadas em planilhas e separadas por vírgulas. Neste formato, é possível fazer o processamento por softwares específicos, o que facilita o trabalho de analisar e tirar conclusões. 

Porém, ela conta que o sinal de alerta surgiu quando, no dia 18 de março, os dados pararam de ser disponibilizados pelo Ministério nesse formato com a justificativa de que o sistema de divulgação seria aperfeiçoado. "Houve esse apagão de dados, a gente não conseguiu ter acesso às planilhas, e o Ministério da Saúde começou a divulgar diariamente os casos confirmados nos estados por meio de boletins em que a informação vem no corpo do texto, o que não é o ideal para quem quer fazer o processamento de forma automática", relata a professora. Atualmente, o Ministério voltou a disponibilizar em seu site os dados nacionais e dos estados no formato CSV, mas a preocupação em ficar novamente sem o acesso fez com que a equipe se mobilizasse.

Impossibilitados de coletar os dados em uma única fonte, o grupo começou a buscar pelas informações de cada estado. A conclusão foi de que existe uma grande discrepância na forma com que cada unidade da federação coleta e divulga seus dados. Por ser um tipo de doença de notificação compulsória, todos os casos confirmados chegam ao Ministério da Saúde. Porém, a grande preocupação é o atraso com que esses dados podem chegar devido a essas diferenças, o que pode prejudicar a adoção de medidas necessárias. "Alguns estados divulgam as informações apenas pelo Twitter, outros divulgam boletins epidemiológicos em arquivo PDF, que é difícil de ler pela máquina. Outros ainda são divulgados apenas pelo portal G1, nós não conseguimos nem chegar na informação fornecida diretamente pela secretaria de saúde do estado", explica Paula. 

foto mostra mão com luvas segurando caixas de testes utilizados para detectar a Covid 19
Segundo Paula, discrepância nos dados pode atrasar adoção de medidas como a testagem da população

A saída encontrada foi não só para o trabalho do grupo, mas também pensando em facilitar o trabalho de outros pesquisadores, foi criar uma nova base de dados unificada. Nela, a equipe disponibiliza dados atualizados todos os dias que mostram não apenas os números de casos confirmados da Covid-19 no país e entre os estados, mas também a série história de cada local. Paula comenta que, a partir disso, eles já conseguem observar aspectos relevantes sobre a evolução da pandemia entre os estados, como uma similaridade entre os números registrados no Ceará e no Distrito Federal. 

A base de dados pode ser acessada por este link e seus arquivos estão disponíveis a todos os interessados. Com a experiência, a professora destaca que a pandemia é uma oportunidade de chamar a atenção das autoridades de saúde também para a importância da otimização e clareza dos dados que são divulgados sobre a doença. "Os nossos processos de reportagem de informação são muito ruins, o Brasil não tem um grande sistema unificado que permite que a informação flua rapidamente dos municípios para os estados e para o país como um todo. Isso é bastante ruim para a tomada de decisões rápidas, como é a necessidade em uma pandemia dessas", analisa Paula. 

Imagem de capa

montagem com fotos mostra cena de uma coletiva de imprensa onde estão os ministros de ciência e tecnologia, marcos pontes, e saúde, henrique mandetta, e ao lado uma mão mexendo em caixas de testes para a covid 19 clique enter para acessar
Pesquisadores da Unicamp comentam forma com que dados sobre o coronavírus são divulgados e analisados