Peer review: benefícios, vieses e alternativas

Fotos
Edição de imagem

Como garantir a qualidade e integridade da pesquisa científica? Como selecionar os melhores projetos de pesquisa para financiamento e os melhores artigos para publicação?" Um dos mecanismos historicamente construídos na ciência para responder a tais perguntas são os processos de avaliação por pares (ou peer review, em inglês), objeto do projeto Pesquisa da pesquisa e da inovação: indicadores, métodos e evidências de impactos, financiado pela Fundação de Amparo à Pesquisa do Estado de São Paulo (Fapesp).Tais procedimentos são amplamente utilizados por revistas científicas, agências de fomento e demais instâncias de seleção e decisão nas universidades e instituições de pesquisa. No entanto, pode-se dizer que o peer review apresenta diversos tipos de vieses, bem como atua na delimitação (e, portanto, em mecanismos de inclusão e exclusão) de áreas e subáreas do conhecimento e comunidades de pesquisa, influenciando status e reconhecimento de pesquisadores. [1]

No caso de revistas acadêmicas, normalmente a avaliação mobiliza os autores do artigo, o editor da revista e os avaliadores, especialistas ou capazes tecnicamente de julgar o trabalho submetido. A avaliação pode ser duplo-cega, ou seja, nem avaliadores e nem autores conhecem a identidade um dos outros; cega, situação na qual o avaliador conhece os autores; e aberta, quando as identidades de autor e revisor são conhecidas. Cada mecanismo possui seus defensores e críticos: uma avaliação duplo-cega pode evitar desvios de julgamento com base na identidade do autor, já as avaliações abertas podem evitar críticas nesse sentido, visto que as identidades são postas a público. Nas agências de fomento, a depender do programa, a identidade do responsável pela submissão do projeto é frequentemente revelada, visto que alguns critérios de seleção se relacionam com a trajetória e currículo dos pesquisadores. Nesse contexto, a avaliação também costuma perpassar mais de uma instância de decisão (por exemplo, comitês científicos) e conta com avaliadores ad hoc, além dos gestores da própria agência.

Algumas críticas à ideia e à prática de avaliação por pares têm vindo à tona, ligadas à sua inconsistência, principalmente pela frequente diferença de pareceres diante do mesmo artigo ou projeto, bem como aos vieses associados a este processo de seleção. Destacam-se aqui os vieses relacionados às características do autor, principalmente relacionados a desigualdades de gênero, nacionalidade, afiliação, linguagem e prestígio do autor. Além disso, os vieses também podem se relacionar com o perfil dos próprios revisores, dada as diferenças culturais, de rigor, grau de expertise e especialização em determinado tópico, dentre outros.

Por fim, também há os vieses relacionados ao próprio conteúdo do artigo ou do projeto posto à prova. Em alguns casos, há a tendência em avaliar mais positivamente trabalhos que confirmem as hipóteses iniciais do estudo; bem como rejeitar pesquisas interdisciplinares e projetos mais arriscados ou ousados, que fogem a tradições ou ao mainstream de abordagens, temas e métodos, evidenciando relativo conservadorismo de avaliadores nesses aspectos. Nesse sentido, a avaliação por pares também pode gerar certa aversão ao risco. No caso das agências de fomento, a complexidade do processo decisório e avaliativo também acarreta outra possibilidade de viés, relacionado à própria decisão dos gestores das agências, que pode seguir ou não o que foi recomendado pelos especialistas. [2]

Outra crítica recorrente refere-se ao trabalho do parecerista, geralmente acionado pelas agências de fomento e pelas revistas de forma não remunerada, muitas vezes sem um treinamento ou orientações adequadas.

É possível afirmar que o debate sobre o uso da avaliação pelos pares nas agências de fomento e seus vieses acompanha a própria trajetória de institucionalização desta prática. Neste sentido, ao mesmo tempo em que a avaliação pelos pares cristaliza a autonomia da ciência, se colocando como a melhor forma disponível para decidir o que financiar e o que não financiar, ela não garante que as melhores decisões sejam tomadas. Como colocam Mitroff e Chubin (1979) em uma discussão pioneira sobre o assunto, "(...) o processo pode ser usado para justificar qualquer decisão" (p. 201). [3]

Os autores revisam dois estudos da década de 1970 sobre o uso de avaliação pelos pares na National Science Foundation (NSF) norte-americana, que foram realizados a partir da percepção dos avaliadores e de pesquisadores que submeteram propostas para a agência. Mais do que discutir os vieses que tais estudos apontaram em relação ao processo de avaliação pelos pares, os autores discutem os vieses dos próprios estudos que, por sua vez, podem ajudar a explicar ou mesmo determinar os resultados mais ou menos favoráveis em relação ao peer review. Concluem, desta forma, que os dados disponíveis naquele determinado momento histórico eram inconclusivos para resolver o debate.

De lá para cá, muito se escreveu e se investigou sobre avaliação pelos pares em agências de fomento. Vejamos alguns exemplos.

Marsh, Jayasinghe & Bond (2008) [4] observam vieses na avaliação da qualidade de propostas de pesquisa do Australian Research Council. Os autores encontraram uma correlação de 0,44 na avaliação de dois assessores independentes para uma mesma proposta, havendo ainda diferenças entre as áreas do conhecimento, já que a correlação foi maior nas ciências duras quando comparadas às ciências humanas e sociais aplicadas.

Wittman et al. (2019) [5], por sua vez, encontraram um viés de gênero ao analisarem as solicitações do Canadian Institute of Health Research. Os currículos das mulheres foram sistematicamente mais mal avaliados na revisão por pares do que os currículos dos homens, embora não tenha havido diferenças significativas na avaliação das propostas. Bornmann & Daniel (2005) [6], além do viés de gênero, identificaram viés de afiliação quando observados os pedidos de concessão de bolsas de doutorado em biomedicina na Boehringer Ingelheim Fonds. Adicionalmente, Ginther et al. (2011) [7] trouxeram evidências de que os candidatos negros são menos propensos do que os brancos a receberem financiamento de pesquisa de um programa específico do National Institutes of Health (NIH).

Além das características dos autores, também o perfil dos pareceristas parece interferir nas decisões. Uma análise de projetos de pesquisa na área de endocrinologia da US Medical School (Boudreau et al., 2016) [8] mostrou que os revisores deram sistematicamente notas mais baixas para propostas de pesquisa mais próximas à sua área de interesse. Ou seja, quanto menor a distância intelectual entre avaliadores e avaliados, mais rigorosa tende a ser a avaliação. Na mesma linha de discussão, Seeber et al. (2021) [9] analisa a contribuição da experiência prévia dos pareceristas na avaliação como forma de ampliar a confiabilidade e convergência de suas decisões.

Boudreau et al. (2016) também encontraram alguma aversão ao risco nas propostas avaliadas, indicando que o próprio conteúdo destas propostas leva a vieses na avaliação. Essa mesma discussão é trazida por Veugelers, Wang and Stephan (2021) [10] ao identificarem que pesquisadores com histórico de pesquisa de risco têm menos probabilidade de serem selecionados para a obtenção de financiamento, principalmente quando no início de carreira.

Por fim, é possível somar aos vieses relacionados à avaliação da qualidade do trabalho, às características dos autores e dos revisores e ao conteúdo do trabalho, aqueles relacionados ao poder discricionário das agências de fomento. Aqui, além da recomendação do avaliador, coloca-se em jogo a decisão da agência e, portanto, a forma de consideração desta recomendação, uma vez que está a cargo da agência segui-la ou não. Ginther & Heggeness (2020) [11] apresentam essa discussão observando recomendações e aceites de candidatos ao programa de pós-doutorado do NIH, evidenciando o potencial da avaliação pelos pares para identificar os pesquisadores mais promissores quando em comparação às decisões realizadas pelo pessoal técnico da agência de fomento.

Na tentativa de enfrentar tais vieses, visando a uma ciência mais íntegra, inclusiva e transparente, várias alternativas ao peer review têm surgido, bem como outros modelos para avaliar manuscritos, projetos, programas, políticas públicas, indivíduos e instituições (Bendiscioli, 2019) [12]. Uma sistematização de 50 variações no modelo de peer review pode ser encontrada no estudo de Recio-Saucedo et al. (2022) [13]. São alternativas desenvolvidas na expectativa de abordar problemas e preocupações específicas na publicação científica e na decisão para a atribuição de recursos de pesquisa.

Os autores, a partir de revisões bibliográficas e consultas ad hoc, identificaram evidências de intervenções bem-sucedidas no processo de revisão por pares e na tomada de decisões em diversos contextos, a partir de experiências de organizações dos Estados Unidos, Europa, Canadá, Ásia e Oceania. Das intervenções em caráter piloto ou simuladas por pesquisadores, boa parte visava a melhorar a identificação dos revisores, a seleção e a correspondência das propostas com os avaliadores. Para tanto, agências de fomento implementaram iniciativas como (i) a criação de uma ferramenta web que automatizou parcialmente o processo de seleção de revisores com base em dados bibliométricos para determinar sua competência, atividade científica e área de expertise; (ii) o uso de indicadores de produtividade científica como um elemento adicional no processo de seleção; (ii) a realização de treinamento de revisores em critérios de avaliação; e (iv) o envolvimento do próprio candidato como avaliador de propostas de indivíduos que concorrem ao mesmo fomento.

Das intervenções de longo prazo, que resultaram em recomendações ou mudanças na prática de financiamento e/ou no ecossistema de pesquisa mais amplo, destaca-se a realização virtual de painéis de especialistas. As teleconferências, apesar de não terem diminuído de modo significativo o tempo de discussão, resultaram em pareceres com qualidade comparável ao modelo tradicional de reunião (presencial), evidenciando alto nível de confiabilidade, além de diminuição de custos.

Outras variações do modelo tradicional de peer review se dão sobre o quesito anonimato, brevemente discutido anteriormente, na busca por melhorar a confiabilidade da revisão por pares, alcançar maior consenso e diversidade na seleção das propostas. Nesse sentido, as agências podem valer-se de cinco alternativas: (i) single-blind, em que o revisor se mantém anônimo, mas o candidato é identificável; (ii) double-blind, em que ambos (revisor e candidato) são mantidos em anonimato; (iii) triple-blind, quando candidatos, revisores e comitê editorial/científico não são identificados; (iii) blind review, quando o revisor é identificado e (iv) open review, sistema de revisão aberta, em que a identidade dos autores e revisores é pública.

A Fundação Volkswagen (Alemanha), por exemplo, tem utilizado a revisão por pares duplo-cega para avaliar as propostas submetidas à linha de fomento “Experiment!” [14], que apoia pesquisadores em ciência e engenharia no desenvolvimento de pesquisas com alto grau de novidade e risco, tendo o pressuposto de que este modelo evitará os vieses relativos às características do avaliado, priorizando a qualidade da ideia e não a reputação do candidato (Horbach & Halffman, 2018) [15].

Outras intervenções buscam aprimorar as métricas e indicadores de avaliação para aumentar a capacidade da pesquisa financiada de oferecer benefícios científicos, econômicos e sociais. Destas, vale destacar a experiência da NSF dos Estados Unidos e do Wellcome Trust (fundação que financia pesquisa biomédica no Reino Unido), em que ambas as organizações associaram o uso de métricas tradicionais e bem estabelecidas de desempenho e impacto da pesquisa (como o índice de citações e o fator de impacto do periódico) com métricas alternativas (altmetrics), capazes de fornecer aos tomadores de decisão um cenário mais preciso sobre a atividade e o impacto da produção científica (Recio-Saucedo et al., 2022; Pierro, 2016). [16]

A prática está alinhada às recomendações presentes na Declaração de São Francisco sobre Avaliação da Pesquisa (DORA) [17] e parece ter surtido efeito nas agências de fomento, que têm adotado métricas mais amplas para avaliar o desempenho de pesquisadores (Marques, 2021) [18]. Na realidade, a maioria das agências aplica dois ou mais critérios para avaliar as propostas de pesquisa e/ou implementam distintos critérios dependendo do escopo do programa (Shailes, 2017) [19]. Este é o caso do Australian Research Council (ARC) que, em programas de fomento a jovens pesquisadores, utiliza como principais critérios a "qualidade e inovação do projeto", enquanto em linhas de fomento relacionadas à colaboração universidade-indústria-governo, a ênfase é colocada no compromisso das organizações parceiras e na importância e inovação do projeto, sendo os critérios dos pesquisadores avaliados com menor peso.

Intervenções mais radicais propõem outros modelos em complementação ao peer review, baseados principalmente na distribuição aleatória dos recursos para pesquisa. Fundações privadas e agências públicas de apoio à pesquisa de países como Nova Zelândia, Áustria, Alemanha, Suíça e Dinamarca já adotam esse tipo de sistema para selecionar projetos em determinadas modalidades de financiamento (Fapesp, 2022; [20] Adam, 2019) [21].

O que podemos concluir é que, em diferentes países, agências, programas e áreas do conhecimento, acumulam-se evidências de vieses na avaliação pelos pares, assim como de benefícios de novas práticas de uso do peer-review. No entanto, na ausência de uma revisão sistemática sobre o assunto (lacuna que, em breve, pretendemos contribuir para diminuir), não são possíveis generalizações, mas apenas a compreensão destes desvios e soluções no contexto de cada experiência e cada momento histórico. Com mais de quatro décadas de intervalo entre o trabalho de Mitroff e Chubin (1979), seguimos ainda na inconclusividade do debate, que oscila entre a convicção de que a avaliação pelos pares é uma das melhores alternativas, senão a melhor, para apoiar a priorização de investimentos em pesquisas, e também convicção de que esta prática não é isenta de inúmeros vieses que podem e devem ser discutidos.

*Evandro Coggo Cristofoletti é pesquisador do Departamento de Política Científica e Tecnológica (DPCT) da Unicamp

**Ana Carolina Spatti é pós-doutoranda na Faculdade de Ciências Aplicadas (FCA) da Unicamp

***Adriana Bin é docente da Faculdade de Ciências Aplicadas (FCA) da Unicamp

 

Esse texto é um artigo de opinião e não reflete, necessariamente, a opinião da Unicamp.

 

Referências

[1] Zuckerman, H., & Merton, R. K. (1971). Patterns of evaluation in science: Institutionalisation, structure and functions of the referee system. Minerva, 66-100.

[2] Bornmann, L. (2011). Scientific peer review. Annual review of information science and technology, 45(1), 197-245. Tennant, J. P., & Ross-Hellauer, T. (2020). The limitations to our understanding of peer review. Research integrity and peer review, 5(1), 1-14.

[3] Mitroff, I.I., & Chubin, D.E. (1979). Peer review at the NSF: A dialectical policy analysis. Social Studies of Science, 9(2), 199-232.

[4] Marsh, H.W., Jayasinghe, U.W., & Bond, N.W. (2008). Improving the peer-review process for grant applications: reliability, validity, bias, and generalizability. American psychologist, 63(3), 160.

[5] Wittman, H. O., Hendricks, M., Straus, S., & Tannenbaum, C. (2019). Are gender gaps due to evaluations of the applicant or the science? A natural experiment at a national funding agency. The Lancet, 393(10171), 531-540.

[6] Bornmann, L., Daniel, H.D. (2005). Selection of research fellowship recipients by committee peer review. Reliability, fairness and predictive validity of Board of Trustees' decisions. Scientometrics, 63(2), 297-320.

[7] Ginther, D.K., Schaffer, W.T., Schnell, J., Masimore, B., Liu, F., Haak, L.L., & Kington, R. (2011). Race, ethnicity, and NIH research awards. Science, 333(6045), 1015-1019.

[8] Boudreau K.J., Guinan, E.C., Lakhani, K.R., Riedl, C. (2016) Looking Across and Looking Beyond the Knowledge Frontier: Intellectual Distance, Novelty, and Resource Allocation in Science. Manage Sci., 62(10):2765-2783.

[9] Seeber, M., Vlegels, J., Reimink, E., Marušić, A., Pina, D. G. (2021). Does reviewing experience reduce disagreement in proposals evaluation? Insights from Marie Skłodowska-Curie and COST Actions. Research Evaluation, 30(3), 349-360.

[10] Veugelers, R., Stephan, P., Wang, J. (2021). Excess Risk-Aversion at ERC. Working Paper, KULeuven.

[11] Ginther, D.K., Heggeness, M.L. (2020). Administrative discretion in scientific funding: Evidence from a prestigious postdoctoral training program. Research policy, 49(4), 103953.

[12] Bendiscioli, S. (2019). The troubles with peer review for allocating research funding: Funders need to experiment with versions of peer review and decision‐making. EMBO reports, 20(12), e49472.

[13] Recio-Saucedo, A., Crane, K., Meadmore, K. et al. (2022). What works for peer review and decision-making in research funding: a realist synthesis. Research Integrity and Peer Review, 7(1).

[14] https://www.volkswagenstiftung.de/en/funding/our-funding-portfolio-at-a-glance/experiment

[15] Horbach, S.P., & Halffman, W. (2018). The changing forms and expectations of peer review. Research integrity and peer review, 3(1), 1-15.

[16] Pierro, B. (2016). Impacto além da academia. Revista FAPESP, disponível em: https://revistapesquisa.fapesp.br/impacto-alem-da-academia/. Acessado em outubro de 2022.

[17] phttps://sfdora.org

[18] Marques, F. (2021). Novas réguas para medir a qualidade. Revista FAPESP, disponível em: https://revistapesquisa.fapesp.br/novas-reguas-para-medir-a-qualidade/. Acessado em outubro de 2022.

[19] Shailes, S. (2017). Peer Review: To fund or not to fund? eLife 6:e32015.

[20] FAPESP. (2022). Modelo busca dar mais segurança à seleção de projetos por sorteio. Revista FAPESP, disponível em: https://revistapesquisa.fapesp.br/modelo-busca-dar-mais-seguranca-a-selecao-de-projetos-por-sorteio/. Acessado em outubro de 2022.

[21] Adam, D. (2019). Science funders gamble on grant lotteries. Nature, 575(7784), 574-575.

twitter_icofacebook_ico