O valor do valor-p!

Qualquer um que já tenha trabalhado com pesquisa quantitativa e, especialmente, com pesquisa experimental (ou pelo menos tenha feito um curso geral de estatística) já se deparou com o tal “valor-p”. Normalmente, ele é apresentado como a medida do que os estatísticos denominam “significância estatística” e é empregado dentro do que se convencionou denominar “Testes de Significância de Hipótese de Nulidade”.

Apesar de extremante disseminados, a ideia de “valor-p” e o próprio conceito de “significância estatística” são muito mal compreendidos pelos não estatísticos. De fato, acredito que poucas pessoas fora do campo conseguiriam (de cabeça) definir o que é um valor-p e muito menos explicar, em poucas palavras, o conceito de significância estatística. Eu não sou diferente [1]. Por favor, não entenda isso do jeito errado. O valor-p não é um conceito ambíguo ou mesmo vago. Ele tem uma definição bem precisa, na verdade. O problema é que essa definição não é só bastante críptica, como  parece violar algumas de nossas intuições. Creio, inclusive, que venham daí boa parte dos problemas com essa medida e com o conceito associado de significância estatística.

O que ocorre é que existe um conflito entre a maneira como a principal abordagem à estatística (‘frequencista’ ou frequencialista) encara o processo de inferência e a forma intuitiva que nós, seres humanos, quase sempre recaímos ao pensar e conversar sobre o assunto, ou seja, sobre como tirar conclusões a partir da análise de nossos dados e dos testes estatísticos que realizamos neles.

Mas, afinal de contas, o que é o valor-p?

Acredito que a forma mais simples de explicar o que é o valor-p, sem incorrer em muitos erros, seria simplesmente dizer que ele é uma medida da incerteza associada ao processo de inferência. Mas isso não nos diz muito, não é? Porém, ao avançarmos um pouco mais nas definições já surgem as primeiras complicações. A primeira tentação é pensar que os valores-p nos dão um indicativo da probabilidade de nossos resultados. Embora não haja de fato como negar que isso é parcialmente verdade, o problema é exatamente compreender que tipo de probabilidade é essa. A segunda tentação é avançar por essa linha de raciocínio e afirmar que os valores-p nos dariam a probabilidade de estarmos errados ou de que a hipótese em questão seja verdadeira. Não, ele não nos diz nada disso, pelo menos não diretamente. O mais importante é compreender que o valor-p não é uma probabilidade simples de um evento em particular. Ele é uma probabilidade cumulativa, mas não apenas isso. Calcular um valor-p depende de assumirmos de antemão que uma dada hipótese é verdadeira. Portanto, o valor-p é uma probabilidade cumulativa condicional. A terceira tentação é assumir, ingenuamente, que a hipótese em questão (sob a presunção da qual o valor-p é calculado) seja a hipótese substantiva. Raramente esse é o caso, se é que é alguma vez. Esse é outro grande problema: A hipótese que é realmente testada e que precisa ser assumida previamente apara calcular-se o tal valor não é geralmente a hipótese de maior interessante.

Agora podemos dar uma definição mais direta do que é o valor-p, como a disponível no artigo de Dennis Robert no site Medium:

O valor p é a probabilidade de se obter um resultado pelo menos tão extremo quanto o resultado atual obtido quando a hipótese de nulidade for verdadeira.

Observe que o primeiro ponto que chama a atenção é fato de que a probabilidade em questão não referir-se só aos valores obtidos em um estudo, mas a ele e a outros eventuais valores hipotéticos. O segundo e talvez mais importante é que o valor-p diz respeito somente a hipótese de nulidade. Como Dennis Robert explica em seu artigo para o Medium:

O valor-p não indica nada sobre o resultado do teste ser verdadeiro (ou falso). A existência de valor-p é válida apenas sob a suposição de que a hipótese de nulidade é verdadeira e todas as suas definições e interpretações só podem ser definidas dentro dessa suposição. […]

Prob (observação dos dados | hipótese) NÃO é igual a Prob (hipótese | observação dos dados).

De acordo com o David Colquhoun, um eminente especialista em bioestatística, confundir essas duas probabilidades bastante diferentes é a principal  razão que levaria os valores-p a serem tão frequentemente mal interpretados. Esse erro (ou falácia) é conhecido como “erro da condicional transposta”. Como ele explica:

Mesmo fontes bastante respeitáveis dirão que o valor-p é a probabilidade de que suas observações ocorreram por acaso. E isso está totalmente errado.

Mas vamos tentar compreende melhor essa questão.

Normalmente, o que a maioria dos pesquisadores gostariam de saber é a probabilidade da hipótese de interesse partindo do fato que obtivemos certos dados, o que poderia ser representados como Prob (hipótese | observação dos dados) e não Prob (observação dos dados | hipótese), nem mesmo a Prob (observação dos dados | hipótese de nulidade) ou muito mesmo ainda a Prob (observação dos dados ≥ aos efetivamente observados| hipótese de nulidade), que é o que de fato o valor-p fornece.

Isto é, para calcular o valor-p é preciso primeiro postular que a hipótese de nulidade é verdadeira e tudo decorre daí. Mas veja que o valor-p, nem ao menos, nos dá a probabilidade da hipótese de nulidade Prob (hipótese de nulidade) e nem ao menos a Prob (hipótese de nulidade | observação de dados).

Adaptado de User:Repapetilto @ Wikipedia & User:Chen-Pan Liao @ Wikipedia https://commons.wikimedia.org/wiki/File:P-value_in_statistical_significance_testing.svg#file

Tudo isso nos leva a outra questão:

Afinal, o que é a Hipótese de Nulidade?

A ‘Hipótese de Nulidade’ é simplesmente a hipótese a ser nulificada – isto é, a hipótese que buscamos rejeitar. Normalmente, embora esse não tenha que ser sempre o caso, ela é uma ‘Hipótese Nula’, ou seja, uma hipótese de ‘não diferenças’ ou de ‘não efeito’. Alguns manuais e livros de divulgação enquadram esse tipo de abordagem como uma aplicação da ideia Popperiana de falsificação de hipóteses. Todavia, não é preciso conhecer muito a obra de Popper para perceber que o tipo de hipótese audaciosa que o filósofo Austríaco tinha em mente a ser falsificada em nada se assemelha a maioria das hipóteses de nulidade, especialmente as ‘nulas’.

Para compreender melhor o uso desses testes, precisamos voltar um pouco na história. O cálculo do valor-p foi originalmente proposto pelo eminente estatístico Ronald A. Fisher. Para ele, pelo menos inicialmente, o valor-p servia apenas para ajudá-lo a decidir informalmente se valeria a pena investigar mais pormenorizadamente um conjunto de dados através de outros experimentos, sendo

Ronald A. Fisher

o ponto de corte, uma escolha conveniente do pesquisador, mas totalmente arbitrária. Mais tarde, o valor-p passou a funcionar como uma medida da força da evidência contra a hipótese de nulidade [2]m, mas jamais foi um critério para se concluir pela realidade de efeito ou fenômeno. Outro ponto importante é que, além desse caráter arbitrário, todo esse edifício inferencial depende de ter sido escolhida a hipótese de nulidade mais adequada [3] e de todo cuidado em termos do processo de amostragem e experimentação, essencial para termos confiança em qualquer conclusão.

Jerzy Neyman

Mais tarde, dois outros estatísticos, Jerzy Neyman e Egon Pearson, resolveram dar sua própria contribuição aos métodos de inferência estatística e ofereceram um conjunto de procedimentos para que os pesquisadores a longo prazo (e não em casos individuais) pudessem garantir que seus resultados mantivessem os chamados erros do tipo I’ (‘falsos positivos’) e os ‘erros do tipo II’ (‘falsos negativos’) sob controle. Esse tipo de salvaguarda é importante porque normalmente em qualquer pesquisa queremos evitar não somente obtermos um resultado ‘falso positivo’ (isto é, não queremos obter um resultado positivo quando não há nenhum efeito ou diferença subjacente real), como também não queremos obter um resultado ‘falso negativo’ (isto é, não queremos obter um resultado negativo quando de fato há um efeito ou diferença subjacente real). Como normalmente nossa capacidade de detectar efeitos de certos tamanhos tem relação com o tamanho da amostra, eles propuseram um compromisso entre os dois tipos de erro.

Egon Pearson

O procedimento Neyman-Pearson envolve diferenciar duas hipóteses, a chamada hipótese principal(geralmente chamada de HM ou H0) [2] e a ‘hipótese alternativa’ (às vezes Ha, H1 ou H’). Como explica Jose D. Perezgonzalez, a hipótese alternativa mais simples representaria uma outra população que estaria localizada (estatisticamente falando) ao lado da população da hipótese principal em um mesmo continuum de valores, diferindo-se da primeira população em algum nível que seria equivalente ao ‘tamanho do efeito’.

A partir daí os pesquisadores especificam um valor chamado α (geralmente algo como 5% ou 1%, que deverá ser contrastado ao valor-p) e um valor β (normalmente entre 10% e 20%, relacionado a chamada ‘potência estatística’) de modo a manter os dois erros (tipo I e tipo II) sob controle ao longo de muitos estudos, de preferência em testes padronizados. Diferentemente de Fisher, além de levar em conta uma hipótese alternativa na construção do teste de modo explícito, Neyman e Pearson trazem para frente do processo de planejamento dos estudos, esse novo conceito, a potência estatística, que é a capacidade de detecção de efeitos de certos tamanhos dado um tamanho de amostra.

A potência estatística depende do tipo de teste selecionado, do tamanho do efeito esperado (quanto maior o efeito maior a potência), bem como dos valores α  (quanto menor o α menor a potência) e β (menores valores de β aumentam a potência) [3]. Uma vez definidos todos esses valores, o que se faz é calcular o valor-p e, caso ele seja igual ou menor ao α (isto é, caso ele esteja dentro área crítica de rejeição), considera-se apropriado rejeitar a HM e, por conseguinte, aceitar a Ha.

É importante compreender que, enquanto a abordagem de Fisher é a posteriori e mais relaxada (focada nos dados presentes), a estratégia de Neyman e Pearson é a priori e, além de mais criteriosa, tem o objetivo de controlar os erros do tipo I e II a longo prazo, sendo orientada a procedimentos e testes repetidos várias vezes e não aos dados particulares de cada experimento. Alguns autores sugerem que o modelo de Fisher seria mais adequado para estudos exploratórios e o de Neyman e Pearson para estudos de validação com objetivos bem específicos (e de preferência com replicatas exatas) ou mais provavelmente para o controle de qualidade em ambientes industriais. Mas é bom lembrar que em todos os casos, para as conclusões e decisões serem válidas, sempre é pressuposto o emprego de técnicas de amostragem (ou alocação de intervenções) aleatória corretas, além da presença de todas as salvaguardas experimentais, o que, infelizmente, muitas vezes não acontece na prática.

Logo acima, podemos observar (na figura retirada e adaptada de Cyril Pernet), uma ilustração da diferença entre os procedimentos de Fisher e Neyman-Pearson. Segundo a descrição dos autores, a figura foi preparada com o software G-power para um teste t unilateral para uma amostra de 32 indivíduos, um tamanho de efeito de 0,45 e taxas de erro α de 5%β de 20%.

Note que no procedimento de Fisher, apenas a hipótese de nulidade é apresentada e o valor-p  observado (aqui p = 0,05) é comparado a um nível de significância arbitrário, caso menor ou igual a este valor pode-se usá-lo como evidência contra H0. Já no procedimento de Neyman-Pearson, as hipóteses de nulidade e alternativa são especificadas de maneira explícita juntamente com um nível de aceitação de modo a priori. Se o valor estatístico observado estiver dentro da região crítica, rejeita-se H0 e não se leva em conta o valor-p específico.

O que observamos hoje em dia na prática científica mais corriqueira é uma mistura entre a estratégia de Fisher e o procedimento de Neyman e Pearson. Nessa estranha amálgama, os resultados do teste estatístico são empregados como indicativo de que um experimento ou estudo específico estaria ou não correto e o valor-p é tido como uma medida de quão estatisticamente significativos os resultados seriam e, portanto, do quão mais confiáveis seria essa conclusão. Esse tipo de utilização já seria bastante problemática, mas talvez menos lesivas, caso outras medidas fossem tomadas – como caso estimativas dos tamanhos dos efeitos fossem informadas e sempre fosse enfatizado a necessidade de realizar estudos de replicação independentes e com cálculo prévio da potência estatística. Porém, muitas vezes, esse tipo de abordagem é empregada como critério para se determinar se um estudo deveria ser encaminhado ou não para a publicação ou, pior, editores e revisores de periódicos científico podem utilizá-lo para decidir se aceitam ou não um artigo para ser publicado, criando toda a sorte de vieses e maus hábitos entre pesquisadores, revisores e editores de revistas científicas.

Vamos tentar compreender toda essa história um pouco melhor com um exemplo. Suponha que tivéssemos um conjunto de dados relativos a um teste de um fármaco qualquer. Por exemplo, imagine que uma equipe de pesquisadores clínicos realizou um experimento bem controlado com cem indivíduos que tinham todos uma determinada condição clínica (pressão alta, por exemplo), dividindo-os em dois grupos de cinquenta indivíduos cada.

Em cinquenta desses indivíduos, (o primeiro grupo) foi administrado um fármaco que, em testes preliminares (in vitro, em células de cultura, in vivo, em animais de laboratório e, em alguns estudos não controlados em seres humanos), haviam produzido resultados animadores. Nos cinquenta indivíduos restantes foi administrado um placebo – isto é, a essas pessoas foi dado uma substância virtualmente idêntica a administrada no outro grupo (mesma via de administração, mesmos excipientes, mesmo veículo, mesma aparência etc), com a única diferença sendo o fato de que nesta preparação não havia a substância ativa, que é exatamente o que os cientistas acreditam fazer efeito.

O primeiro grupo normalmente é chamado de ‘grupo tratamento’ ou ‘grupo de tratamento’ e o outro, contr ao qual o tratamento (ou intervenção) é comparado, chamam ‘grupo controle’. Neste  exemplo específico, temos um ‘grupo controle placebo’. Para garantir a extrapolabilidade e consistência dos resultados, os pesquisadores também aleatorizaram (ou ‘casualizaramou ‘randomizaram’) o processo de alocação do tratamento e do placebo – ou seja, os cientistas escolhem ao acaso que individuo tomará o placebo e qual receberá o tratamento (ou intervenção) sendo investigado. Procede-se desta forma para evitar que alguma forma de viés ou tendenciosidade interfira no processo, como, por exemplo, a possibilidade de a maioria dos sujeitos experimentais com o melhor prognóstico ou com sintomas mais graves serem alocados em sua maioria em um grupo e não no outro. Muitas vezes, além da alocação aleatória, ‘pareiam-se os sujeitos experimentais’. Essa é uma forma de os pesquisadores certificarem-se que existam indivíduos com as mesmas características nos dois grupos (idade, peso, sexo, status de fumante etc) de modo que sempre um do par receba o tratamento e outro receba o placebo. Desta maneira, procura-se garantir que quaisquer diferenças entre os dois grupos, caso sejam encontradas, possam muito mais plausivelmente serem atribuídas ao tratamento (ou ausência dele) e não há outra fonte de erro sistemático.

Em testes clínicos geralmente busca-se (pelo menos sempre que possível) ‘mascarar’ ou ‘cegar’ os sujeitos experimentais e pesquisadores ao que está sendo administrado e medido. O que se pretende com esses procedimentos é que (por exemplo, ao aplicar o tratamento ou placebo e medir as alterações de pressão), como os pacientes e pesquisadores não saberiam que indivíduo recebeu o quê), não haveria qualquer tentação consciente ou inconsciente de um pesquisador medir de novo ou dar mais ou menos atenção a um  paciente ou, um paciente ficar mais ou menos angustiado e obcecado com algum sintoma ou sinal, influenciando na sua medida. Caso essas possibilidades não fossem controladas teríamos mais uma fonte de erro no processo e isso tornaria nossas conclusões ainda mais incertas. Esse procedimento é chamado de ‘protocolo duplo-cego’.

Na pesquisa clínica, o ‘padrão ouro’ são os ‘Ensaios clínicos aleatorizados duplo-cegos com grupo placebo’. Eles sintetizam a ideia de um teste experimental justo. Entretanto, tão importante como o protocolo em si é o seu planejamento prévio e os cuidados tomados com sua condução em cada uma de suas várias etapas, como durante a escolha do método de aleatorização e a execução de procedimentos como o ‘cegamento’ de sujeitos experimentais e pesquisadores ou medidas das variáveis.

Todos esses procedimentos são implementados para garantir minimamente a legitimidade das conclusões e são complementares aos procedimentos estatísticos per se que visam controlar os chamados ‘erros aleatórios’, que resultam do fato de nenhum dois grupos (em relação um ao outro)  ou amostras (em relação a uma população) serem perfeitamente iguais.

Agora voltemos ao valor-p. Ao analisar um experimento como o sugerido nos parágrafos anteriores, o que normalmente se deseja saber é se os dados obtidos sustentam a hipótese de que o fármaco é eficaz para a condição estudada. Em termos probabilísticos, isso seria a grosso modo equivalente a querer saber qual a probabilidade de que a Hipótese do Fármaco Funcionar (HFF) dado as eventuais diferenças encontradas entre os dois grupos (Dados) seja verdadeira. Perceba que temos aqui também uma probabilidade condicional que pode ser representada como indicado abaixo:

Pr (HFF| Dados Observados)

Mas como já vimos, o que o valor-p indicaria seria algo bem diferente – leia-se, a probabilidade de obtermos aquela diferença (ou diferenças ainda mais extremas. Lembre-se, o valor-p é uma probabilidade cumulativa e que se refere a alguns resultados hipotéticos) caso a hipótese de nulidade fosse verdadeira. Veja que, além de não testarmos HFF e sim H0, caso a hipótese de nulidade fosse que a pressão arterial entre os dois grupos não deveria ser substancialmente diferente, poderíamos ter um resultado, mas caso a hipótese de nulidade fosse que a diferença entre os dois grupos não deveria passar de um dado valor para mais, poderíamos ter outra probabilidade.

Desta maneira, a rejeição ou não de H0 (ou HM) e a conclusão de que esse resultado de alguma forma sustenta a hipótese alternativa (que, neste caso, esperaríamos ser HFF) não pode ser considerada uma inferência direta deste processo. Mesmo na abordagem Neyman-Pearson, na qual uma hipótese alternativa é explicitada, sua aceitação, ao rejeita-se a HM, é convencional e depende de outras questões.

Sendo assim, a conclusão final de que a tal diferença seria devida a uma causa específica (como ação do fármaco testado, por exemplo) não é produto exclusivo do teste estatístico, mas sim de um conjunto de outros fatores e considerações internas com  de outros fatores externos. Entre os fatores internos estão os demais controles presentes no estudo, a maneira como o estudo foi conduzido, a confiabilidade dos procedimentos de aleatorização, cegamento etc. Já entre os fatores externos estão a própria plausibilidade inicial dessa hipótese de efeito, por exemplo, oriunda de evidências prévias encontradas em outros tipos de estudos (com estudos in vitro e in vivo em animais), bem como de conhecimentos teóricos específicos mais fundamentais (como os advindos da química orgânica, bioquímica, biofísica, fisiologia, farmacologia etc), além da existência de eventuais estudos independentes (de preferência bem planejados e bem conduzidos) que reproduzam estes resultados [3].

Os valores-p também não nos dizem nada sobre a relevância ou importância destes resultados, ou seja, sobre a chamada ‘significância científica’. Existem métricas para isso, como o ‘tamanho do efeito’ (ou medidas como o ‘número de pacientes a tratar’, no caso da pesquisa clínica) que podem ser expressas em porcentagens ou desvios padrões, por exemplo, mas, muitas vezes, a tal ‘significância científica’ tem que ser aferida caso a caso a partir de um exame mais minucioso das evidências e de múltiplas considerações. Um dos problemas em concentrarmo-nos somente nos valores-p é que quanto maior a amostra utilizada, em tese, menores são as diferenças que podem ser identificadas como estatisticamente significativas e, como raramente duas amostras serão idênticas ao idealmente esperado, pelo menos para estudos únicos, a significância estatística pode acabar perdendo qualquer significado real [4]. Parte da crise de reprodutibilidade e replicabilidade decorre dos efeitos do excesso de confiança nos valores-p e na ideia de significância estatística.

Em um comentário na revista Nature de 2019 Valentin Amrhein, Sander Greenland e Blake McShane afirmam:

Infelizmente, a falsa crença de que cruzar o limiar da significância estatística é suficiente para mostrar que um resultado é “real” levou cientistas e editores de periódicos a privilegiar esses resultados, distorcendo assim a literatura. As estimativas estatisticamente significativas são enviesadas para cima em magnitude e potencialmente em um grande grau, enquanto as estimativas estatisticamente não significativas são enviesadas para baixo em magnitude. Consequentemente, qualquer discussão que enfoque as estimativas escolhidas por sua significância será enviesada. Além disso, o foco rígido na significância estatística incentiva os pesquisadores a escolher dados e métodos que gerem significância estatística para algum resultado desejado (ou simplesmente publicável), ou que gerem não significância estatística para um resultado indesejado, como potenciais efeitos colaterais de drogas – invalidando assim as conclusões.

Como ficamos então? Desmistificar o conceito de significância estatística (ou mesmo o abolirmos completamente como alguns cientistas tem cada mais mais sugerido, inclusive os autores da citação acima), além de explicar com mais precisão o que são os valores-p (e, especialmente, o que eles não são e o que medem de verdade) são medidas essenciais. Porém, é preciso mais. É fundamental também enfatizar a importância do planejamento prévio dos estudos (especialmente o cálculo prévio de potência estatística para decidir de modo informado o tamanho da amostra), bem como estimular os cientistas a informarem os tamanhos do efeitos e, sempre que possível, utilizarem intervalos de confiança, além de deixar bem claro se seus estudos são exploratórios iniciais ou estudos já de validação de estudos preliminares anteriores.

Existem também muitos procedimentos alternativos que prescindem de (ou corrigem para) o uso do valor-p, tanto dentro da própria abordagem frequencialista como os que abraçam a abordagem Bayesiana (“Ciência e inferência. Parte III: O bom e velho reverendo”). O problema é que todas essas alternativas são bem mais complicadas e, apesar de estratégias de implementação mais simples estarem sendo desenvolvidas, ainda assim, todas demandam uma substancial mudança de cultura acadêmica.

Várias dessas mudanças envolvem alterações na formação dos pesquisidores. Por exemplo, é preciso melhorar o treinamento de alunos de graduação e pós em estatística, delineamento de pesquisa e análise de dados. É preciso que os cursos sejam não só ampliados como modificados. Também é muito importante que os próprios departamentos das universidades e institutos de pesquisa façam sua parte. Uma das recomendações é que essas instituições contratem especialistas em estatística para revisar propostas e estudos, de preferência antes de sua execução, de modo darem o devido suporte aos pesquisadores já estabelecidos e treinamento e aconselhamento aos em formação.

Por fim, também se fazem necessárias mudanças nas próprias políticas editoriais e de revisão por pares das revistas científicas. Seria muito bom se as revistas fornecessem aos revisores não-estatísticos diretrizes mais rígidas e detalhadas (elaboradas por especialistas em estatística) de como proceder para avaliar a seção de métodos dos artigos, sendo revisados, destinada a análise estatística e planejamento do estudo. Além disso, seria muito importante que as editoras mantivessem um corpo habilitado de revisores ou editores especializados em estatística, delineamento de pesquisa e análise de dados. Este corpo deveria ser acionado (pelo menos) toda vez que novas abordagens, métodos ou testes estatísticos diferentes dos convencionalmente empregados fossem utilizados ou quando resultados muito impressionares aparecessem e que os revisores de conteúdos tradicionais não se sentissem habilitados a analisá-los. Esses mesmos profissionais de estatística, de tempos em tempos, também poderiam escolher alguns artigos de maneira aleatória que estivessem passando pelo processo de revisão para refazerem alguns dos cálculos e testes estatísticos para confirmar que os resultados foram adequadamente tratados, o que poderia servir como filtro extra para os erros que costumam ocorrer. Como tudo isso custa dinheiro, leva tempo e, potencialmente, diminui o número de trabalhos publicados (indo na contramão das tendências da pesquisa científica moderna), essas ações ainda demorarão muito tempo a serem incorporadas a prática acadêmico-científica. Mas as propostas e a consciência de sua necessidade já estão por aí.

Nas minhas próximas postagens voltarei ao tema, concentrando-me em uma alternativa ao uso de valores-p e do conceito de significância estatística proposta pelo bioestatístico David Colquhoun, o ‘Risco de Falso Positivo’. Essa medida se propõe a indicar com que frequência que alguém estará errado caso obtenha um resultado positivo em um estudo específico e assuma que ele é um efeito real e não meramente um produto do acaso. Esse tipo de medida é exatamente aquilo que muitas pessoas acreditam ser dado pelo valor-p , mas que, como já vimos, não é o caso.


1 – Embora eu não seja e nunca tenha sido um especialista em pesquisa experimental e muito menos um estatístico, desde a pós-graduação tenho um enorme interesse por essas duas áreas. Nas últimas três décadas, mesmo depois que me afastei do meio acadêmico, fiz disciplinas, recebi treinamento e adquiri alguma experiência com esses assuntos. Porém, nada disso me impede de vacilar e, eventualmente, cometer erros ao descrever o que diabos seria o tal ‘valor-p’ e o que é a famigerada ‘significância estatística’. Esse e outros posts são também uma forma de corrigir esta minha deficiência. Essa nem é a primeira vez que toco nesse tema (“Cuidado com os valores-p”, “Ciência e inferência. Parte I: A dúvida de Hume e a solução de Popper.”, “Ciência e inferência. Parte II: Popper e a tese do holismo.”, “Ciência e inferência. Parte III: O bom e velho reverendo”, “Ciência e Inferência Parte IV: Probabilidades e probabilidades”). Infelizmente, a maioria das figuras dos artigos da série “Ciência e Inferência” não estão mais disponíveis pois estavam linkadas ao site do Bule Voador. O texto ainda pode ser acessado aqui no blog nos links acima, e muitas das explicações e considerações podem ser compreendidas com um pouco mais de esforço sem as figuras, mas, claro, as postagens acabaram por serem comprometidas. Essa é outra razão por que pretendo voltar a esses temas e expandi-los em novas postagens nos próximos meses.

2 – Na realidade, embora a H0 de Fisher e a HM (ou H0) de Neyman-Pearson tenham semelhanças superficiais, elas não são idênticas. Enquanto a versão de Neyman-Pearson (HM) deve ser considerada desde o início, ainda na fase de planejamento dos estudos, a H0 de Fisher raramente é explicitada nesta fase. Além disso, a HM é projetada para incorporar qualquer valor abaixo do tamanho do efeito mínimo esperado, o que não ocorre na abordagem de Fisher; além de ser apenas uma de duas explicações concorrentes para os resultados da pesquisa [Veja o artigo de Jose D. Perezgonzalez referido na seção para saber mais.]

3 – Esta é outra questão importante que já levantei em outras postagens mais antigas. A escolha do Alfa (o ponto de corte) e mesmo do tamanho de efeito suposto devem, sim, serem ajustados, levando-se em conta a plausibilidade da hipótese e as evidências prévias sobre o tópico investigado. Alegações extraordinárias demandam um ônus muito maior do que alegações mais triviais e apoiadas por outras evidências não controversas. Porém, em contrapartida, resultados negativos (ou seja, não ‘estatisticamente significantes’) devem, sim, serem considerados resultados dignos de interesse científico e, portanto, passíveis de publicação em um periódico acadêmico, especialmente caso contrariem as expectativas e tenham sido obtidos em estudos cuja amostra foi bem dimensionada e tenha sido todo bem executado.  Esses são fatores muito mais apropriados para decidir se um artigo deveria ser ou não publicado. A originalidade do tema, a qualidade metodológica e da execução do trabalho, além de própria relevância científica são critérios muito melhores do que se os testes estatísticos indicaram um resultado significativo ou não. Além disso, volto a dizer, é tremendamente importante deixar claras as diferenças entre estudos preliminares (exploratórios) e estudos de validação, muitos dois quais deveriam ser inclusive pré-registrados com intuito de replicações futuras e para que possam ser incorporados em revisões sistemáticas e meta-análises de maneira apropriada. Por fim, é essencial incentivar replicações independentes de estudos maiores ou cujo resultados são muito controversos e deveria haver um incentivo por parte das revistas em realizá-los.

4 – Mesmo no caso de resultados negativos (isto é, aqueles cujas diferenças observadas entre grupos seriam ‘não estatisticamente significantes’), a possibilidade de falsos negativos também coloca os pesquisadores em risco de deixarem de fazer descobertas importantes, pois pode levá-los a ignorar resultados que apoiariam a existência de diferenças reais. O que acontece é que muitas vezes, mesmo um resultado não significativo, pode, ajudar a aumentar a confiança dos pesquisadores na existência de um efeito real, especialmente caso o tamanho dos efeitos e a direção dos mesmos sejam consistentes e replicáveis entre vários estudos. Ferramentas como as meta-análises podem ao permitir a agregação de vários pequenos estudos individuais auxiliar os pesquisadores a decidir se valeria ou não a pena insistir em uma hipótese em particular, indicando que talvez valesse a pena tentar testá-la em um estudo futuro mais amplo e mais bem controlado, planejado especificamente para esse fim.


Aconselho alguns vídeos do canal StatQuest with Josh Starmer nos quais conceitos como valor-p, testes estatísticos de hipóteses e potência estatística são explicados de maneira clara e lúdica:






Para saber mais:

 

Posted in Análise de Dados, Análise Quantitativa, Ciência, Estatística, Filosofia da ciência | Leave a comment

Será que descobriram um Megalodonte insone nas profundezas das fossas Marianas?

Entre os ‘novos mitos’ que circulam pela internet, talvez, o mais pernicioso e resistente seja o envolvendo a suposta persistência do Megalodonte nos dias de hoje. Caso você seja uma das poucas pessoas que lê esse blog, já deve ter encontrado alguma das minhas postagens sobre o assunto (“Agora é a vez do Megalodon”, “Tubarões, submarinos e o poço sem fundo da vergonha que viraram os canais discovery.”) que só perdem para as postagens sobre as ‘sereias’ dos canais Discovery ( “De novo a história das sereias*”, “Sobre sereias, goblins de metal e jogos de Pimball/RPG: As muitas vidas do ‘Dr Paul Robertson’”, “Lá vamos nós de novo: As incansáveis sereias que não morrem jamais”, “E eu vos apresento: o ‘Bloop’ (Verdadeiro e o Falso)*).  Normalmente, toda vez que os programas de TV são reexibidos ou por qualquer outro motivo tornem-se virais na internet de novo, recebo um perceptível aumento das visitas e até dos comentários neste blog.

Desta última vez, nem houve qualquer nova exibição de algum desses programas ou de nenhum outro parecido, apenas dei de cara acidentalmente de novo com ‘notícias’ (nem tão novas assim, é verdade) sobre supostos avistamentos de criaturas fantásticas. Preciso admitir, isso sempre me instiga. Mesmo já havendo outros desmentidos e esclarecimentos de boa qualidade sobre a questão, me sinto compelido a reunir algumas dessas fontes dispersas e oferecer minha própria perspectiva sobre o assunto. O fato de muitas dessas fontes serem em Inglês serve como um estimulo adicional para fazer esse trabalho, claro. Mas por que afinal essas ‘notícias’, ‘programas’ e ‘postagens’ parecem (pelo menos para os mais leigos) tão convincentes?

Consigo pensar em algumas razões para explicar essa situação. A mais óbvia entre elas seria o fato de o Megalodonte ser uma criatura gigantesca que realmente vagou pelos oceanos de nosso planeta até 2,6 ou 3,6  milhões de anos atrás. A outra razão é que o Megalodonte, caso ainda estivesse por aí, por ser um ‘criptídeo’ marinho, teria ao seu dispor a vastidão não explorada dos oceanos, na cabeça de muitos, quem sabe, esgueirando-se por vales e cânions subaquáticos e, a partir daí, lançando-se em explorações furtivas em águas mais superficiais de tempos em tempos. Assim, a vastidão dos mares acaba servindo como uma desculpa para desconsiderar a falta de evidências concretas de que tal criatura perdure em nossos dias, além de ser utilizada como razão para que algumas pessoas ignorem os argumentos científicos que fizeram com que os cientistas concluíssem que esse animal está completa extinto. Claro, isso tende a funcionar principalmente com os leigos que não compreendem as questões ecológicas, etológicas, anatômicas e fisiológicas que levaram os cientistas a estarem tão seguros desta conclusão.

Então, pelo menos a um olhar mais ingênuo, o fato de o Megalodonte ter sido um animal real marinho, conferiria a este mito um ar de falsa razoabilidade, auxiliando a na defesa da ideia de que ele ainda poderia estar por aí. De modo complementar, dentro dessa perspectiva, qualquer indício de avistamento de alguma criatura estranha (por mais tênue e facilmente explicável que seja) serve para alimentar as expectativas de que essa fantástica criatura ainda espreite os abismos oceânicos. Nessas horas o popular adágio de que saberíamos mais sobre o espaço sideral (ou a lua) do que sobre os oceanos (ou a ideia que só teríamos apenas mapeado 5% dos oceanos) vem a mente e é geralmente utilizado como parte de um apelo a ignorância – uma conhecida forma de argumentação falaciosa. Desta maneira, somam-se à falta de informação geral, especialmente a ausência de conhecimento da ciência básica envolvida na questão, a desconfiança que muitas pessoas tem em relação a comunidade científica, além da própria credulidade e fascinação que as pessoas em geral têm com relação a mitos e lendas.diver-encounters-megalodon-illustration-207021510

Em minhas andanças pela internet me deparo frequentemente com canais do youtube e páginas que promovem listas de curiosidades ou propõem-se a divulgar mistérios assustadores. Nesses canais e sites a ideia de que um Megalodonte teria sido avistado nas profundezas dos oceanos parece nunca deixar de estar em voga. Inclusive, uma crença bem disseminada é que imagens dessa criatura teriam sido registradas por um veículo submersível operado remotamente (ROV).

Alguns desses posts e vídeos vão ainda mais longe e afirmam que essas imagens teriam sido feitas nas fossas Marianas (a região que mantém o recorde de ser o ponto mais profundo dos Oceanos, chegando a mais de 10 km) e que o tal ‘monstro marinho’ teria mais de 15 metros de comprimento [Veja aqui para uma dessas ‘notícias’ e aqui e aqui para dois artigos que desmentem tal afirmação], colocando- suas dimensões próximas as das estimativas mais realistas do comprimento máximo dos Megalodontes, que habitaram os Oceanos em tempos remotos.

Como já deve estar claro para quem já leu alguns dos meus textos sobre assuntos correlatos, o problema é que nada disso é verdade. Apesar de as imagens serem reais e impressionantes (especialmente para alguém que, como eu, gasta horas e horas procurando vídeos de animais das profundezas), a criatura claramente não é um Megalodonte [1] e nem ao menos parece com um [2]. O animal em questão muito provavelmente também não tem mais de 15 metros de comprimento e, para fechar com chave de ouro, o vídeo nem ao menos é de um evento que ocorreu nas fossas Marianas. Mas vamos por partes.

Comecemos pelo tamanho alegado do animal. A sugestão de que a criatura registrada no filmagem teria mais de quinze metros pode ser facilmente explicada como produto da referência utilizada: uma gaiola com iscas de cerca de um metro de comprimento, que alguém deve ter achado que era uma gaiola para mergulho com tubarões e, por causa disso, suposto que teria cerca de três metros de lado. A confusão entre ‘pés’ e ‘metros’ também pode ter propiciado essa interpretação (‘três pés’ em vez de ‘três metros’). Informações mais confiáveis sugerem uma estimativa (ainda bem rudimentar e possivelmente exagerada) bem mais realista: O tubarão em questão teria cerca de sete metros de comprimento. Talvez até um pouco mais [veja aqui].

Não me entendam mal. Um tubarão de sete metros é uma visão impressionante, mas não é algo absurdo que violaria nossas expectativas ou forçaria uma revisão da biologia marinha moderna, muito menos algo que nos faria conjecturar seriamente que uma criatura como o Megalodonte, apesar de todas as evidências científicas disponíveis, não teria sido completamente extinta cerca de três milhões de anos atrás.

Para começar é bom deixar claro que existem pelo menos duas espécies de tubarões que excedem bastante essas dimensões (o tubarão-peregrino e o tubarão-baleia), além de várias outras espécies que os cientistas acreditam poder chegar a dimensões similares a da estimativa mais realista para a criatura do vídeo, apesar de os maiores animais dessas espécies já capturados (e/ou oficialmente medidos de maneira aceita pela comunidade científica) tendem a ser substancialmente menores, como é o caso dos tubarões brancos e tubarões tigre, apenas para dar alguns exemplos [Veja esse recurso dessa página da NatGeo].

Agora vamos nos concentrar na criatura em si. Está bastante claro que o que estamos observando no vídeo não é um Megalodonte, mas sim algum tipo de tubarão-sonolento, muito provavelmente um “tubarão-sonolento do Pacífico”, que é um parente próximo do famoso “tubarão-da-Groenlândia”. Esses tubarões squaliformes do gênero Somniousus podem atingir grandes dimensões. Acredita-se inclusive que cresçam a vida toda e possivelmente estão entre os vertebrados mais longevos que temos notícias, podendo exceder os 500 anos de idade, pelo menos de acordo com algumas estimativas feitas por pesquisadores.

Os maiores animais já capturados desse grupo têm algo em torno de 4,5 metros, mas existem relatos de exemplares (documentados em artigos técnicos, inclusive) de animais ainda maiores, cujas medidas podem passar dos cinco metros e, na verdade, chegar até seis metros de comprimento. Mas não é só isso. Existem vários outros vídeos de encontros com tubarões deste mesmo tipo – e de outras espécies de tubarões de águas profundas, como os tubarões-albafar – cujas estimativas do tamanho total desses animais feitas por especialistas indicam que alguns desses exemplares poderiam ultrapassar os seis ou sete metros de comprimento total. Na realidade, no caso dos tubarões-sonolentos, algumas estimativas postulam oito metros como o tamanho máximo que animais desta espécie poderiam alcançar, apesar de provavelmente esta sugestões provavelmente serem um tanto exageradas [3].

Nada disso é segredo. De fato, existem fontes de boa qualidade disponíveis pela internet, apesar de poder ser um pouco complicado separar o joio do trigo, principalmente, caso não se tenha qualquer familiaridade com biologia ou com as ciências naturais de maneira mais geral. Lembro que, quando eu ainda era bem garoto, costumava encontrar em livros estimativas bem maiores para tubarões e outras criaturas marinhas,  muitas delas vindas de relatos de pescadores ou especulações feitas a partir de encontros de embarcações com esses animais, às vezes, sem que os exemplares jamais tenham sido retirados da água. Em tempos mais modernos, a dificuldade de corroborar algumas dessas estimativas mais antigas e de encontrar animais com dimensões comparáveis, deu lugar a um maior ceticismo e cuidado com essas sugestões.

Infelizmente, para piorar as coisas, algumas fontes atuais mais populares misturam estimativas de tamanho máximo, estimativas de tamanho médio e dimensões baseadas em relatos dos maiores espécimens daquelas espécies que já teriam sido capturados e medidos de modo mais rigoroso, sendo essas dimensões as mais aceitas entre os especialistas. Para complicar ainda mais as coisas, existem vídeos e reportagens espalhadas pela internet nas quais pessoas filmaram tubarões-brancos e alegaram que esses exemplares teriam mais de nove metros de comprimento, mas não oferecem nada nesses vídeos que permitisse corroborar tais estimativas. Sendo assim, mesmo que essas dimensões não sejam impossíveis para estes animais, elas não passam de palpites não verificáveis, muito mais facilmente explicados pela nossa péssima habilidade de avaliar com exatidão tamanhos de objetos sob a água e de nossa propensão por exagerar [4]. Por causa disso, normalmente, essas estimativas são consideradas como pouquíssimo  confiáveis pelos cientistas.

Porém, talvez, o fato mais frustrante seja que, em alguns desses sites e canais do youtube que promovem esses mitos, os responsáveis pelos veiculação desses vídeos e relatos até reconhecem as críticas e correções oferecidas pelos especialistas, porém, simplesmente as descartam, argumentando da forma mais ridícula possível. Por exemplo, em alguns destes sites e vídeos de listas de avistamentos é dito que os tubarões-sonolentos teriam no máximo 5 ou 6 metros e por isso aquelas imagens não poderiam ser desses animais.  O problema é que esse ‘argumento’, além de obviamente falso (como uma rápida pesquisa em fontes de divulgação científica e em artigos técnicos pode deixar claro. Veja aqui, aqui e aqui), é ridículo, pois não é por causa da estimativa de tamanho que os biólogos marinhos afirmam que o animal no vídeo é um ‘Tubarão-Sonolento do Pacífico’. Não, os especialistas afirmam que é esse o caso porque a criatura em questão tem todo o jeito de um tubarão desse tipo. Os representantes do gênero Somniosus são animais com aparência bem característica, como pode ser visto pela figura abaixo [Veja também esse outro vídeo aqui].

O formato da cabeça, a distância entre a ponta do focinho e as aletas (‘nadadeiras’) dorsais e a própria cauda são todos detalhes muito característicos deste grupo em particular. Isso sem falar no padrão de movimentação e no próprio habitat desses tubarões, nenhum dos quais, aliás, encaixa-se com o que os paleobiólogos concluíram ser o exibido pelos Megalodontes ou o de qualquer um de seus parentes mais próximos modernos, os tubarões da ordem Lamniforme, especialmente os da família Lamnidae.

Caso você seja alguém que se impressionou muito com o vídeo e ainda não esteja inteiramente convencido de que não é um Megalodonte, dê uma olhada em uma das reconstruções mais recentes de um Megalodonte, como a exibida logo abaixo, publicada em um artigo da revista Science Reports, em 2020.

Mais abaixo podemos ver outra bela imagem que pode ser utilizada como referência. Ela foi criada por Rhys Meyerkort e está disponível aqui. Desta vez temos um exemplar de tubarão-branco que supostamente mediria sete metros de comprimento. Apesar de a comunidade científica já ter postulado que essas duas espécies eram ainda mais próximas e portanto parecidas (sendo membros do mesmo gênero, inclusive) do que os cientistas têm defendido mais recentemente, ainda assim, não existem dúvidas de que são animais da mesma ordem e que compartilham muitas semelhanças, como as duas imagens nos permitem perceber.

Aliás, no site Deviantart existe um ótimo artigo sobre as dimensões, medidas e estimativas de tamanho de grandes tubarões-brancos (“Maximum size of the white shark“). Resumidamente, o exame da imensa maioria das alegações que parecem ser boas demais para serem verdadeiras sugere que esse seja exatamente o caso, ou seja, são alegações realmente extraordinárias demais e, em sua maioria, nada confiáveis. Reexames das fotos, dentes, mandíbulas e de outros resquícios dos espécimens em questão e comparações entre diversos relatos de observadores distintos põem em dúvida a confiabilidade dessas alegações.

Isso tudo indica que quase todas as estimativas de animais maiores que seis metros e meio de comprimento seriam simplesmente frutos de erros grosseiros, erros tipográficos dos relatórios ou reportagens originais ou exageros intencionais. Claro, isso não exclui completamente a possibilidade de que existam indivíduos gigantescos com mais de 8 metros, embora ponha em dúvida seriamente tais relatos. Contudo, a existência de exemplares com um pouco mais de sete metros parece ser relativamente plausível, ainda que indivíduos assim (provavelmente fêmeas) devam ser bastante incomuns; resta saber se por limitações intrínsecas a biologia desta espécie ou se, mais tristemente, porque a pesca excessiva tenha praticamente dizimado os maiores indivíduos e tornado quase impossível que indivíduos excepcionais atinjam esse tamanho, o que poderia levar mais de 70 ou 80 anos. 

Voltando ao tubarão-sonolento, dê uma boa olhada na ilustração abaixo, criada por  DenistheTyrant [publicada em

O exame das evidências não deixa dúvidas, a criatura mostrada no vídeo é um tubarão-sonolento, bastante grande, mas ainda dentro do estimado por pesquisadores da área.

Outro fator muito importante e que, creio eu, deva ser ressaltado é que no vídeo parte do problema parece ser criado por perspectiva forçada, além de um enquadramento que dificulta qualquer estimativa, principalmente, se não soubermos exatamente o tamanho da gaiola utilizada como referência  para a comparação com o animal.

No entanto, existe uma questão que ainda me incomoda muita. Mesmo que aceitássemos que os cientistas tivessem estabelecido que tais animais não ultrapassariam os cinco ou mesmo seis metros de comprimento, isso ainda não explica porque os responsáveis pelos canais que veiculam esse vídeo preferem acreditar que o que foi filmado tenha sido de fato um Megalodonte – apesar de todas as diferenças morfológicas em relação às reconstruções do animal extinto e das incríveis semelhanças inegáveis da criatura do vídeo com um tipo de tubarão conhecido que habita as mesmas regiões – e não, simplesmente, concluir que os cientistas haviam apenas enganado-se ao estimarem o tamanho máximo alcançável por Somniosídeos ou que as estimativas do comprimento do animal filmado estivessem, simplesmente, erradas (seja a de mais de quinze metros ou mesmo a de mais de sete metros), que seria sem dúvida a conclusão mais razoável. Me parece existir uma intenção prévia de não aceitar explicações mais racionais, apenas as mais sensacionalistas.

Temos, por fim, a ideia de que a filmagem teria sido realizada nas fossas Marianas, uma região do oceano envolta em mistérios. Porém, no vídeo original, em Japonês, datado de 2003 (embora outras fontes sugerem que o evento teria sido filmado em 1989), além serem fornecidas uma estimativa mais plausível de tamanho (os tais cerca de sete metros de comprimento), está escrito que as imagens foram obtidas no Japão – ainda que coloque a baia de Tóquio como localização e não a baía de Suruga, que parece ser a região correta.

Na realidade, a ideia toda de que as fossas Marianas poderiam servir de refúgio para uma animal como o Megalodonte – que poderia se esgueirar pelo leitos dos mares e evitar a detecção, escondendo-se nas regiões mais profundas dos Oceanos – também não se sustenta. Mais de 150 anos de coletas de animais marinhos indicam fortemente que mais de 70% das profundezas não é um habitada por peixes condrictios, especialmente elasmobrânquios. Tubarões, Raias e Quimeras raramente foram encontrados a mais de 2500 metros  e não parecem existir a muito mais de 3000 metros de profundidade, o que é atribuído a uma série de fatores fisiológicos, anatômicos e ecológicos que impediriam esses animais existissem de maneira efetiva nas regiões submarinas mais profundas. Veja a citação abaixo:

A abundância e a diversidade de tubarões e raias de profundidade costumam atingir o pico em profundidades intermediárias (400-800 metros) e pesquisas recentes mostraram que parece haver um limite para a profundidade em que os tubarões de águas profundas e seus parentes conseguiriam viver. Mais de três quilômetros abaixo da superfície do oceano – ou nas profundezas abissais, como essas regiões são conhecidas – os oceanos são quase totalmente desprovidos de condrictios e existem três hipóteses prevalentes para explicar por que isso aconteceria. Uma delas postula que a limitação no suprimento alimentar disponível além dos 3.000 metros tornaria impossível para tubarões, raias e quimeras produzir, em seus fígados, óleo suficiente para manter sua flutuabilidade. Desta maneira, em profundidades maiores que 3.000 metros de profundidade, esses animais teriam que nadar continuamente apenas para não afundar. Outra hipótese sugere que, uma vez que os recursos alimentares são tão limitados em grandes profundidades nos oceanos, os predadores no topo da cadeia alimentar seriam incapazes de encontrar comida suficiente neste habitat e, essencialmente, morreriam de fome caso ali habitassem. Por último, todos os condrictios dependem de um composto vital em seus corpos – N-óxido de trimetilamina (TMAO) – que auxilia na manutenção do equilíbrio osmótico e protegem as proteínas dos efeitos destrutivos da pressão extrema; seriam, portanto, restrições moleculares associadas a este composto que podem estar impondo esse limite de profundidade (Grubbs e Cotton em ‘Sharks of the twilight zone’).

Sendo assim, mesmo que certos grandes tubarões consigam atingir profundidades maiores, não parece ser possível que esses animais (principalmente os de maiores dimensões e, especialmente, os com maiores demandas metabólicas, como os Lamniformes, como os Tubarões-brancos ou Megalodontes) poderiam sobreviver nessas regiões por tempo suficiente, evitando sua detecção por toda nossa história.

Não há muito mais o que dizer. Insistir que o animal mostrado no vídeo é um Megalodonte é forçar demais a barra.  Para tanto, alguém teria que postular que, além dessas criaturas terem evitado a captura e/ou detecção (em toda a história humana, ou que tenhamos perdido os registros desses encontros, até o fatídico dia que essa filmagem foi feita), os Megalodontes teriam não só modificado completamente seu habitat, mas também seu modo de vida (habitat, estratégias reprodutivas, presas etc) tendo que ter sofrido extensiva evolução morfológica que, após poucos milhões de anos, os teriam transformado em uma cópia idêntica de um outro tipo de tubarão que ainda existe por aí. Esse seria um caso incrível de mimetismo (e não simples convergência) em vertebrados, até onde sei, sem precedentes. Não, não vejo como alguém possa defender tal crença frente ao exame de alternativas muito mais simples e muito melhor consubstanciadas [5]. O animal em questão é um tubarão sonolento e mesmo a estimativa que sustenta que o animal mediria mais de sete metros pode ser simplesmente um exagero, mas mesmo que não o seja (e o animal tenha de verdade esse tamanho todo), esse fato nem seria, por si só, tão surpreendente assim.

Sempre fui um entusiasta da exploração submarina e essa paixão foi um dos motivos que me levou às ciências biológicas. Também sempre tive um fascínio por histórias de monstros marinhos e de outras criaturas fantásticas, mas prefiro as maravilhas descobertas por cientistas de verdade e exploradores sérios do que me perder nas fantasias que muita gente parece preferir, enveredando pela busca quimérica de criaturas lendárias e seres inverossímeis. Dito isso, mesmo assim acredito que investigar lendas e mitos (e os relatos modernos ou históricos que estão por trás deles) tenha sim seu papel dentro das ciências modernas. Pretendo discutir esse tópico em uma futura postagem. Existem áreas que normalmente são restritas a abordagens sensacionalistas e pseudocientíficas que poderiam muito bem serem resgatadas (ou pelo menos muito metodologicamente aprimoradas), ganhando rigor, sistematicidade e comedimento. O problema é a aceitação acrítica de testemunhos suspeitos, relatos anedóticos e interpretações desinformadas, principalmente frente às evidências científicas e aos argumentos técnicos fornecidos por especialistas – muitos dos quais até gostariam estar errados e, talvez, ficassem extasiados ao descobrir que existisse mais por trás desses relatos mais fantásticos do que normalmente costumam pensar. Infelizmente, as evidências estão muito longe de nos permitir esse tipo de conclusão.


1 – Não sou sistemata ou taxonomista, mas simplesmente ao meramente vasculhar a literatura da área, me pareceu ainda existir um debate sobre a qual gênero o Megalodonte pertenceria. O único consenso parece ser mesmo em relação ao ‘epíteto especifico’: “megalodon”. Ai de quem tentar questioná-lo. [Só para não deixá-los no ar, ‘Epiteto especifico’ é como os taxonomistas chamam a palavra que é combinada juntamente com o ‘epíteto genérico’, quem vem primeiro, para formar os nomes de especies dentro da nomenclatura binomial Lineana.] Nomes como Megaselachus megalodon, Carcharodon megalodon e Carcharocles megalodon podem ser encontrados em diferentes trabalhos escritos ao longo dos últimos quase 200 anos, desde a primeira descrição dos dentes desse animal. Até bem pouco tempo atrás Carcharocles megalodon parecia ser o nome de consenso, mas mais recentemente Otodus megalodon (como as publicações escritas nesses últimos anos têm adotado) parece ser o nome mais disseminado. Nesta postagem vou simplesmente aceitar essa designação como a correta e no texto principal apenas me refiro ao animal extinto como ‘Megalodonte’.

2 – Estou me referindo às reconstruções feitas com base no trabalho de paleontólogos por paleoartistas, tendo como ponto de partida os dentes, prováveis habitats e parentes vivos da ordem Lamniforme, a qual pertencem tubarões como o Tubarão-branco, Tubarão-salmão e o Tubarão-mako. Aqui, mais uma vez, chamo a atenção para como as características dos membros desse grupo, ao qual pertence o Megalodonte, são diferentes das dos Squaliformes, principalmente, os Somniosídeos.

3 – Outra espécie de águas profundas que parece crescer bem mais do que os zoólogos imaginavam é o tubarão-duende (Mitsukurina owstoni), já que um espécimen desse elasmobrânquio foi capturado por pescadores comerciais no golfo do México entre 900 e 1.200 metros de profundidade, após o animal ficar preso no aparato de pesca. O indivíduo em questão era uma fêmea cuja estimativa de comprimento (empregando-se, segundo o artigo,  análise de regressão) ficou em algo entre 540 e 617 cm de comprimento total, provavelmente sendo o maior exemplar já coletado desta espécie. Trago essa informação apenas para ilustrar como alguns desses tubarões de águas profundas podem ser realmente enormes, mesmo que parecessem pequenos frente aos extintos Megalodontes.

4 – Alguns estudos têm sido conduzidos sobre a confiabilidade das estimativas dos tamanhos de tubarões brancos a partir da superfície, de pessoas em barcos que levam pessoas para mergulharem com esses tubarões em gaiolas de observação. Os resultados de um deles, que listo na seção ‘Para saber mais’, deixam claro que a experiência prévia medindo os animais é o indicador mais confiável de exatidão das estimativas, com os cientistas em média cometendo os menores erros, seguidos das tripulações desses barcos (mesmo apesar dessas pessoas avistarem muito mais tubarões que os próprios cientistas, que os medem) e, por fim, dos passageiros, que tendem a cometer os maiores erros. Estudos parecidos com observadores casuais, que seriam muito necessários para termos uma ideia melhor dos erros envolvidos nessas estimativas, infelizmente, parecem não estar disponíveis, talvez, simplesmente, porque seriam muito mais difíceis de serem conduzidos.  Talvez o melhor que possamos esperar seja conseguir realizar estudos utilizando vídeos de exemplares de grandes animais marinhos quando fora do barco, mas que tenham sido medidos de modo rigoroso em outra situação. Mostraríamos os vídeos a leigos, coletaríamos suas estimativas e as compararíamos com as medidas reais.  O ideal é que esses vídeos fossem padronizados e filmados com esse intuito, oferecendo algumas referências úteis, do mesmo tipo que um observador casual teria em um barco, por exemplo. 

5 – Alguns dias após ter escrito esse parágrafo, acabei encontrando um artigo da revista Popular Science (“Could an ancient megashark still lurk in the deep seas?”) no qual o autor levanta esta hipótese. Ele parece fazer isso em um tom especulativo e, talvez, até irônico (como eu mesmo fiz) e não parece ter explorado essa ideia para defender a possibilidade de que o vídeo que menciono nesta postagem seria realmente o de um Megalodonte, mas completamente diferente de um Megalodonte. O intuito, creio eu, é muito mais deixar claro que um animal como o Megalodonte teria que mudar muito, mas muito mesmo, para sobreviver em tais condições, mas não que tal hipótese tornaria razoável concluir que qualquer imagem de um animal indistinguível de um tubarão-sonolento de grandes proporções justificasse a conclusão de que o animal seria na realidade um Megalodonte (insone, bem disfarçadinho, fingindo ser um Somniousideo só para ninguém perturbá-lo). Não há, entretanto, menção no artigo das dificuldades e ineditismo de tal rapidíssima hipotética evolução convergente, o que seria bem importante para deixar clara o teor altamente forçado e especulativo dessa conjectura. O ponto mais importante, creio eu, é que essa especulação não é um argumento razoável frente a simples constatação de que aquele animal é claramente um tubarão-sonolento. No Livro ‘Criptozoologicon (Volume I)‘, os autores enveredam por um exercício semelhante de especulação em relação a vários ‘criptídeos’ famosos, mas fazem isso muito mais como uma brincadeira do que qualquer outra coisa. Eles primeiramente descrevem a lenda e as supostas evidências e testemunhos que dariam apoio a estas crenças; passam então a discutir as evidências e argumentos que indicam que a criatura em questão não deve existir e apresentam sugestões que explicariam muito melhor os supostos avistamentos e a própria criação desses mitos. Para finalizar, eles entram em um modo superespeculativo e começam a sugerir novas identidades e hipotéticos caminhos evolutivos para estes supostos seres, com base em uma interpretação mais rígida das descrições dos encontros, supostas fotos e ilustrações da criatura hipotética, mas levando a sério os argumentos técnicos que descartam os candidatos mais tradicionais, normalmente preferidos pelos criptozoólogos. Os autores inserem-se e celebram a melhor tradição da chamada ‘zoologia especulativa’.


Para saber mais:

  • Blackoctober, R. Could an ancient megashark still lurk in the deep seas? Popular Science.  October 15, 2020. Retrieved February 02, 2021.

  • Boessenecker R.W., Ehret D.J., Long D.J., Churchill M., Martin E., Boessenecker SJ.  The Early Pliocene extinction of the mega-toothed shark Otodus megalodon: a view from the eastern North Pacific. 2019. PeerJ 7:e6088 https://doi.org/10.7717/peerj.6088

  • Borowiec, B.G. Why don’t sharks go deep? Oceanbites. June 29, 2016. Retrieved February 02, 2021.

  • Cooper, J.A.., Pimiento, C., Ferrón, H.G. et al. Body dimensions of the extinct giant shark Otodus megalodon: a 2D reconstruction. Sci Rep 10, 14596, 2020. https://doi.org/10.1038/s41598-020-71387-y

  • Curtis T.H., McCandless C.T., Carlson J.K., Skomal G.B., Kohler NE, et al. Seasonal Distribution and Historic Trends in Abundance of White Sharks, Carcharodon carcharias, in the Western North Atlantic Ocean. PLoS ONE 9(6): e99240. 2014 doi:10.1371/journal.pone.0099240.

  • Davis, J. Megalodon: the truth about the largest shark that ever lived Natural History Museum. 2021. Retrieved February 02, 2021.

  • Díaz de Astarloa, J.M.., Figueroa, D.E., Lucífora, L. et al. New records of the pacific sleeper shark, Somniosus pacificus (chondrichthyes: Squalidae), from the southwest atlantic. Ichthyological Research 46, 303–308 1999. https://doi.org/10.1007/BF02678517

  • Glenn R. P., G. W. and Havard, R “First record of the goblin shark Mitsukurina owstoni, jordan (family MITSUKURINIDAE) in the gulf of mexico,” Southeastern Naturalist 1(2), 189-192, 1 June 2002. https://doi.org/10.1656/1528-7092(2002)001%5B0189:FROTGS%5D2.0.CO;2

  • Grubbs, D. and Cotton, C. Sharks of the twilight zone Save Our Seas Magazine. December 2015 Retrieved February 02, 2021.

  • May C., Meyer L., Whitmarsh S. and Huveneers, C. Eyes on the size: accuracy of visual length estimates of white sharks, Carcharodon carcharias R. Soc. open sci.6190456. May 2019 http://doi.org/10.1098/rsos.190456

  • Pimiento C., Balk M.A.. Body-size trends of the extinct giant shark Carcharocles megalodon: a deep-time perspective on marine apex predators. Paleobiology. 2015;41(3):479-490. doi:10.1017/pab.2015.16

  • Pimiento C., Clements C.F.. When did Carcharocles megalodon become extinct? A new analysis of the fossil record. PLoS One. 2014 Oct 22;9(10):e111086. doi: 10.1371/journal.pone.0111086.

  • Meyerkort, R. (Paleonerd01). Maximum size of the white shark  DeviantArt. Feb 16, 2020 Retrieved February 04, 2021.
  • Shimada, K. The size of the megatooth shark, Otodus megalodon (Lamniformes: Otodontidae), revisited, Historical Biology, 2019 DOI: 10.1080/08912963.2019.1666840.

  • Wei-Haas, M. Megalodon is definitely extinct—and great white sharks may be to blame. February 14, 2019. Retrieved February 02, 2021.

 

Posted in Ciência, esquisitices, Pseudociências | Tagged , , , , , , , , | 1 Comment

O quão confiáveis são os métodos forenses?

Se você é fã de seriados, como ‘CSI’ ou ‘NCIS’, nos quais agentes da polícia (ou das forças armadas) alternam-se entre algemas e revolveres e jalecos e microscópios, talvez, você tenha adquirido uma visão um tanto distorcida da investigação forense. Isso, por si só, não seria tão problemático se essa visão distorcida não se refletisse sobre os juízes, promotores e júris, enviesando sua percepção das limitações das técnicas e métodos forenses e contribuindo para a perpetuação de injustiças e da ignorância científica.

Segue um episódio do Last Week with John Oliver onde os problemas das ciências forenses e de vários de seus métodos são discutidos.

Esse tipo de fenômeno, em que os resultados (mesmo de ciência especulativa e até de má qualidade) são aceitos, sem muitos questionamentos, quando, convenientemente, vão ao encontro de nossos preconceitos, está tanto na gênese do cientificismo como das pseudociências.

As ciências estão entre as empreitadas intelectuais humanas mais impressionantes. Sem dúvida são admiráveis e socialmente indispensáveis, mas, ainda assim, são atividades levadas à cabo por seres humanos e, portanto, falíveis e sempre incompletas. Em seu melhor, as ciências personificam algumas das maiores virtudes epistêmicas, sociais e éticas que os seres humanos possuem. Nessas circunstâncias, elas mostram como a organização comunitária e a aplicação de uma gama enorme de princípios, métodos, protocolos, ferramentas, instrumentos, heurísticas podem produzir conhecimento genuíno confiável e imprescindível para nossa sociedade. Porém, como empreitadas sociais é preciso que tenhamos consciência de suas limitações, especialmente caso queiramos aprimorá-las, mantendo uma postura crítica, colaborativa e intelectualmente honesta. Os cientistas e as pesquisas por eles conduzidas dependem do financiamento do resto da sociedade e os indivíduos que estão por trás dessas pesquisas sofrem constantemente toda sorte de pressões, que vão desde de as advindas de seus pares como aquelas de outras partes interessadas da sociedade, que controlam seu financiamento, progressão de carreira etc. Reconhecer as limitações de cada abordagem, procedimento ou disciplina científica em particular é essencial e, de fato, é a única forma de garantir a integridade científica. Portanto, é preciso que nos mantenhamos sempre vigilantes e muito bem informados*.

É por causa disso que é preciso que os métodos utilizados na investigação criminal sejam rigorosamente validados e que suas limitações e incertezas (uma vez que os tais métodos sejam considerados realmente consistentes e úteis por meio de uma avaliação independente) sejam sempre apresentadas e explicadas aos júris, promotores, advogados de defesa e juízes. É também essencial que os investigadores mantenham-se independentes da promotoria, evitando a contaminação de interesses e o viés de confirmação. Além disso, provavelmente, seria importante a adoção de protocolos duplo-cegos e outras salvaguardas para garantir que o processo seja realmente isento e justo.


* Cabe aqui uma ressalva. Reconhecer as limitações das ciências e sua natureza eminentemente social não é o mesmo que reduzi-la a uma simples moda ou mero jogo de poder e retórica, como querem alguns. Na realidade, esse reconhecimento é de fato uma forma de compreender a importância de manter uma atitude crítica e ativa em relação a produção de conhecimento pelos seres humanos e, desta maneira, estar preparado para avaliar como vários  fatores podem afetar esse processo, de modo a aprimorá-lo; buscando as possíveis fontes de erro, distorção, viés e tendenciosidade visando reconhecê-las e eliminá-las ou, pelo menos, reduzi-las. Essa ressalva é importante porque, infelizmente, muitas vezes bradar as limitações da investigação científica é apenas uma de forma de evitar o seu escrutínio e, portanto, em vez de promover a crítica e a investigação honesta, pode servir apenas para obscurecê-la e blindar certas alegações questionáveis e práticas dúbias da devida atenção crítica e investigação pormenorizada.


Para saber mais sobre o assunto e sobre as limitações e incertezas associadas a vários dos métodos forenses:

Inoccentproject


Sobre ciência:

  • Chalmers, Alan F. What Is This Thing Called Science? 4th Edition Hackett Publishing Company September, 2013. 304 pp.

  • Haack, Susan Defending Science – Within Reason: Between Scientism and Cynicism Prometheus Books, 2007. 411 pp.

Posted in Uncategorized | Leave a comment

Medindo a qualidade científica?

Segue uma apresentação do farmacologista e bioestatístico britânico David Colquhoun, que escreve no blog DC’s Improbable Science sobre pseudociência, medicina alternativa, pesquisa clínica e biomédica etc. Nela, o cientista discute os problemas da utilização de métricas de qualidade baseadas na contagem de citações, como os índices de impacto e o fator H, muito em voga na avaliação da qualidade de revistas acadêmicas e pesquisadores. Infelizmente, de acordo com Colquhoun, essas diferentes ‘métricas’ não medem o que se supõe que deveriam medir. Segundo ele, não haveria, por exemplo, nem ao menos correlação entre o impacto do periódico e o número de citações de artigos publicados neles.

O problema é que muitas instituições não só definem o financiamento à pesquisa, mas também as próprias carreiras dos pesquisadores e professores, quase que exclusivamente com base em métricas desse tipo – muitas vezes acolhidas e utilizadas por administradores sem conhecimento técnico das disciplinas e das áreas de pesquisa avaliadas. Lembrando que esses indicadores nem ao menos medem a qualidade dos trabalhos propriamente ditos, já que eles não levam em conta a adequação e o rigor dos métodos empregados, nem a clareza da pergunta que está sendo investigada, ou a exatidão e precisão com que o estudo foi conduzido; também não medindo sua relevância científica ou a inventividade e criatividade envolvida em sua promoção. Pior, tais métricas não respeitam as diferenças de tempo e recursos para o amadurecimento de ideias, protocolos, abordagens etc, que, obviamente, podem variar muito de área para área e de problema para problema.

Esse tipo de ênfase exagerada em indicadores de produtividade e ‘qualidade’ (a maioria deles muito duvidosos) pode ser um dos fatores que está ajudando a criar (ou pelo menos a manter) a cultura de publicações apressadas e de baixa qualidade, já que, muitas vezes, são utilizados métodos inadequados, amostragens pequenas demais e protocolos e testes estatísticos definidos a posteriori, nos quais a coleta de dados é  feita de maneira descuidada, o que pode, por sua vez, ajudar a piorar a crise de replicabilidade que muitas áreas da pesquisa científica têm vivenciado.

Posted in Uncategorized | Leave a comment

Vampirologia

Palestra de Debora Hyde sobre os relatos históricos sobre vampiros e o tipo de possíveis causas e situações – como doenças, anomalias do sono, práticas culturais, desconhecimento sobre os processos naturais de decomposição, mecanismos psicológicos etc – que levaram a essa crença e deram origem a estes relatos. Hyde é editora-chefe da revista The [UK] Skeptic e tem investigado há mais de 20 anos alegações de atividades paranormais, mitos, lendas, folclore e superstições. 

Para pessoas, como eu, que interessam-se pelo tema, uma ótima sugestão é o livro de Mark Collins Jenkins, “Vampire Forensics”.

——————

Para saber mais:

Posted in Uncategorized | Leave a comment

A motosserra de Ockham e as experiências-de-quase-morte

O neurocientista britânico Jason Braithwaite é um dos pesquisadores envolvidos com o estudo de experiências subjetivas comumente associadas a fenômenos paranormais ou mesmo tidas como sobrenaturais. A diferença é que ele junto com vários outros neurocientistas e cientistas cognitivos (como Chris French, Richard Wiseman, Olaf Blanke etc) – procura compreender tais braithwaite-jasonexperiências dentro de uma perspectiva científica convencional e filosoficamente naturalista.

Em 2008 ele havia escrito um ótimo artigo  (‘Towards a Cognitive Neuroscience of the Dying Brain‘) sobre as ‘experiências-de-quase-morte’ (cuja sigla em inglês é NDE) e as ‘experiências-fora-do-corpo’ (OBE) que são, algumas vezes, relatadas por pessoas que sofreram paradas cardíacas e estiveram perto de morrer, mas não só. Nesse artigo, Braithwaite explica o que sabemos sobre o assunto e explicita as limitações da perspectiva não-naturalista, algumas vezes, chamadas de ‘sobrevivencialista’.

As pessoas que advogam a hipótese sobrevivencialista – e que, portanto, adotam uma perspectiva sobrenaturalista para a consciência – defendem que tais fenômenos mostrariam que a consciência pode subsistir quando o cérebro não está ativo e, portanto, segundo eles, provariam a existência de algo como a alma, ou seja, eles propõem que tais experiências seriam evidências que a consciência/mente não é um entidade ou propriedade cujas causas são físicas. Essa visão vai contra a perspectiva científica moderna, ou seja, a de que a consciência e tudo que associamos a ela (nosso senso de identidade pessoal e corporal, nossas memórias, emoções, personalidade etc) é uma propriedade emergente de atividade dinâmica integrada de redes de neurônios ativos em nossos cérebros e que sem isso ela não pode existir.

Porém, como Braithwaite salienta, existe toda sorte de problemas com a visão sobrenaturalista e boa parte das conclusões de seus defensores baseiam-se em um abandono prematuro das explicações naturalistas (inclusive a partir de críticas errôneas sobre a hipótese da desinibição cortical) e com base na distorção das evidencias que sustentam a visão científica mais disseminada. No artigo, publicado na revista The Skeptic, o pesquisador britânico aponta erros fundamentais que os defensores da hipótese sobrevivencialista cometem reiteradamente, a começar por sua interpretação do que ocorre durante as paradas cardiorrespiratórias e, principalmente, sobre o que EEGs (eletroencefalogramas) e monitores de consciência, ligados a pacientes em UTIs ou centros JonesCoverSmallcirúrgicos, realmente mostram.

Agora, em um novo artigo também publicado na revista The Skeptic, Braithwaite e Hayley Dewe (aluna de doutorado de Braithwaite, que investiga os correlatos neurocognitivos de experiências alucinatórias envolvendo o corpo, como as OBEs) continuam a pontuar os dewe-hayley2014problemas com a interpretação das evidencias clínicas e instrumentais, frequentemente, empregadas pelos sobrevivencialistas para endossar sua posição.

A ideia geral apresentada por Dewe e Braithwaite é que, além de anedotas eventuais, não existem boas evidencias de que quaisquer NDEs e OBEs se deem exatamente quando o cérebro não estaria funcionando. Como os relatos são feitos depois que os pacientes já se recuperaram e podem falar, não há como estabelecer que tais experiências se deram durante a parada cardiorrespiratória e nem quando o EEG estava isoelétrico. Pior do que isso. Mesmo os EEGs isoelétricos – as famosas ‘flat lines‘ – não mostram que o cérebro está completamente sem atividade elétrica. Os registros isoelétricos mostram apenas que o cérebro encontra-se sem atividade coerente nas regiões mais externas do córtex. Então, embora um EEG isoelétrico persistente e que não se altera com estimulação dolorosa em indivíduos que não respiram sozinhos possa indicar a morte cerebral, um registro isoelétrico temporário não é prova de um cérebro morto.

De fato, existem algumas evidencias que atividade elétrica cortical coerente mais profunda e mesmo não-cortical aconteça quando EEGs isoelétricos são registrados. Na realidade, temos alguns indícios que alguns desses tipos de atividade podem estar relacionadas com experiência consciente anômala e até formação de memória. Porém, mesmo que esse não seja o caso, boa parte das evidencias nos levam a crer que as experiências subjetivas (e, portanto, as memórias destes eventos são formadas) acontecem ou logo antes ou logo depois do período de EEG isoelétrico, como os estudos com o modelo de síncope deixam claro, uma vez que são nesses períodos que as experiências alucinatórias tendem a ocorrer; a despeito das tentativas dos sobrevivencialistas de desqualificarem tal modelo comparativo, deixando de lado as várias similaridades com as NDEs.

Evidências recentes obtidas a partir de estudos em roedores e com pacientes em UTIs também sustentam que, logo após a parada cardíaca, existe um surto de atividade elétrica cerebral coerente que é muito parecida a normalmente atribuída a consciência visual em indivíduos acordados. Então, embora ainda restem muitas questões em aberto e não estejamos perto de uma explicação realmente robusta de como o cérebro ativo produz nossas experiências subjetivas conscientes normais ou anômalas, as evidencias não sustentam a visão sobrevivencialista/sobrenaturalista. Para saber mais sobre o assunto veja as postagens: ‘Ateísmo, Naturalismo e Sobrenaturalismo, ‘Não adianta espernear, não existe uma neurociência não-materialista.‘, ‘Religião, espiritualismo e ciência: Uma relação complicada‘, ‘A Neurologia das Experiências de Quase Morte‘,’ Os últimos suspiros elétricos de um cérebro moribundo.‘, Alucinações vestíbulo-motoras e experiência-fora-do-corpo, Paralisia do sono: Uma perspectiva neurocientífica).

——————————

Referências:

Posted in Uncategorized | Leave a comment

Por que é tão difícil reproduzir certos estudos?

Embora exista um certo consenso indicando que a falha da maioria das tentativas de replicar resultados de estudos experimentais possa ser atribuída a vários problemas metodológicos (incluindo aí o baixo poder estatístico, ênfase na publicação apenas de resultados positivos e surpreendentes etc), essa não parece ser a história toda. Nem toda falha de replicação é igual a outra. Muitos trabalhos em áreas como a psicologia social podem ser bastante sensíveis ao contexto particular no qual foram realizados. Portanto, estudos que falham em replicar os resultados de outros estudos podem, simplesmente, serem devidos ao fato de coisas diferentes estarem sendo testadas nos dois estudos.

Bavel e seu grupo realizaram um estudo envolvendo as  tentativas de replicação conduzidas pelo ‘Reproducibility Project’; um grande consórcio que teve por objetivo reproduzir 100 grandes estudos de psicologia social, mas que consegui replicar os resultado de apenas 39% deles. A equipe de Bavel pediu que indivíduos, que não sabiam o resultado das tentativas de replicação, classificassem esses estudos, a partir de seus abstracts, em relação a sensibilidade ao contexto sociocultural de cada estudo. Mesmo depois que os autores ajustaram estatisticamente os dados para compensar para outros fatores (poder estatístico, tamanho do efeito etc), ainda assim, eles observaram que havia uma associação entre a chance de replicação dos estudos e sua sensibilidade ao contexto. Isso quer dizer que estudos classificados como mais sensíveis ao contexto normalmente são aqueles cujos resultados originais não foram reproduzidos nos estudos do reproducibility project. Portanto, nem toda falha de replicação de um estudo é equivalente.

A solução para isso, segundo o próprio Bavel, é, além de corrigir os problemas metodológicos mais óbvios já mencionados, mais diálogo e colaboração entre os autores dos estudos originais e aqueles interessados em reproduzi-los. Compartilhar os detalhes sobre o contexto que cercou o estudo e discutir como re-delineá-los – para que possam compensar eventuais mudanças no contexto sociocultural de cada época e lugar – pode ser essencial. Neste caso, mesmo se os resultados continuarem negativos, eles serão muito mais informativos.


Referências:

  1. van Bavel, Jay  ‘Why Do So Many Studies Fail to Replicate?’ Gray Matter/New Yor Times May 27, 2016.
  2. van Bavel JJ, Mende-Siedlecki P, Brady WJ, Reinero DA. Contextual sensitivity in scientific reproducibility. Proc Natl Acad Sci U S A. 2016 May 23. pii: 201521897. doi: 10.1073/pnas.1521897113
  3. Aarts, Alexander A et al. “Reproducibility Project: Psychology.” Open Science Framework, 28 Apr. 2016. Web.
Posted in Uncategorized | Leave a comment

Estudos científicos e a cobertura da mídia

No vídeo compartilhado neste post, o excelente John Oliver (do ‘Last Week Tonight with John Oliver‘, da HBO) discute a maneira como a mídia reporta os ‘estudos científicos’. Qualquer cientista ou mesmo qualquer um que tenha uma formação científica e/ou trabalhe com divulgação científica sabe do que Oliver está falando.

Costumeiramente, vemos um espetáculo que vai desde a simples cobertura superficial e sensacionalista de certos estudos até a completa adulteração de resultados e das conclusões dos estudos científicos que estão sendo divulgados nas reportagens. Não há qualquer espaço para a cautela que deve caracterizar a pesquisa científica e que, por conseguinte, também deveria refletir-se em sua cobertura. Um dos problemas, para começar, é que muitos estudos apresentados pela grande mídia sofrem de sérias limitações metodológicas, são cercados de incertezas e a sua própria publicação pode não ser representativa, tanto por causa de fatores como o viés de publicação (a tendência de autores e periódicos darem preferência a resultados com achados positivos, ou seja, onde a hipótese de nulidade tenha sido rejeitada) como pelo simples fato de muitos estudos terem baixa qualidade metodológica, o que os faz nem ao menos merecerem tanto alarde e ganharem notoriedade. Essas questões normalmente são deixadas de lado pelo jornalistas e qualquer, eventual ,nuance contida nestes estudos acaba sendo completamente obscurecida, distorcendo nossa percepção do conhecimento científico.

De modo geral, não parece existir muita preocupação em contextualizar os resultados de novos estudos. Nem em termos de sua relevância social (e, eventual, aplicabilidade prática, o que seria de se esperar em algo feito pela imprensa ao abordar um tema técnico para um público mais geral e leigo), nem em termos do resto da literatura científica sobre o tema em questão. Estudos científicos não existem em um limbo. É só através da apreciação e avaliação crítica  de toda a literatura disponível é que podemos tirar quaisquer conclusões mais sólidas, isto é, quando podemos. Essa parte importante da pesquisa científica é perdida completamente na cobertura de ciência, pelo menos naquela tipicamente feita pela grande mídia.

Grande parte disso é realmente culpa dos veículos de comunicação e dos jornalistas que  trabalham neles – muitos dos quais não têm formação, tempo e nem interesse em uma cobertura mais acurada, precisa e realmente crítica. O que, por sinal, é bem diferente do negacionismo e da propagação de teorias conspiratórias, algo que muitos veículos de imprensa não têm qualquer pudor em fazer. Porém, não podemos nos esquecer que muita distorção e vários exageros que vemos por aí originam-se nas próprias universidades, centros e institutos de pesquisa, principalmente, através de releases de imprensa.

Os próprios cientistas infelizmente podem contribuir com este estado de coisas, principalmente, quando inflam a relevância de suas conclusões, simplificam demais seus resultados e minimizam as limitações dos métodos empregados por eles ao relatarem seus trabalhos aos jornalistas e profissionais de relações públicas. Algumas vezes esses releases são feitos antes de os resultados terem sido devidamente publicados em periódicos especializados revisado por pares. Muitas vezes esse tipo de coisa não acontece por má fé, mas porque a posição do pesquisador na instituição  e o financiamento de seu trabalho podem depender muito de sua notoriedade e projeção. Sem falar que, muitas vezes, os cientistas têm realmente dificuldades de explicar uma realidade complexa e cheia de incerteza aos jornalistas, sem que isso pareça chato ou irrelevante.

Essa  forma descuidada e sensacionalista de apresentar resultados científicos (e os próprios cientistas) à sociedade acaba gerando uma percepção enganosa do que é a pesquisa científica e de como a comunidade científica se organiza para levá-la a cabo. Embora a ciência seja realmente muito mais bagunçada do que muitos de nós gostamos de admitir, esse tipo de cobertura pode dar uma impressão muito pior do que ela realmente. Na maioria das matérias, os meios de comunicação não costumam enfatizar a necessidade da constante vigilância e a postura crítica que os próprios cientistas adotam em relação aos novos estudos. Também raramente é explicado que existem estudos (e argumentos) de diferentes qualidades e que não é o simples fato de algo ter sido dito por um cientistas que o torna correto. É por isso que os estudos científicos devem ser apreciados e analisados de maneira cuidadosa e de maneira comparativa aos demais estudos realizados sobre o assunto, além de serem sempre avaliados tendo em vista princípios científicos mais bem estabelecidos. Quando os meios de comunicação não chamam a atenção do publico à importância da avaliação coletiva e temporalmente estendida, realizada pela comunidade científica e tão importante às ciências, a mídia contribui para dar a impressão que os cientistas estão sempre contradizendo uns aos outros.

Esse tipo de cobertura é um prato cheio para os negacionistas e pseudocientistas de plantão.  Infelizmente, para a população geral, por causa desse e de outros fatores, esses picaretas são indistinguíveis de suas contrapartidas sérias, os reais cientistas. Pior ainda: A forma como a mídia divulga os resultados de estudos científicos também contribui para o clima geral de pressão sobre os cientistas. Como o financiamento de boa parte da pesquisa é público, ele também depende da percepção pública e, portanto, da cobertura da mídia. Isso pode provocar distorções na distribuição desse financiamento e tornar os cientistas ainda mais ávidos por chegar a novas descobertas. Desta maneira, são exigidos resultados sempre novos, inusitados e impactantes, Do tipo que podem facilmente virarem manchetes, fechando o circulo vicioso e colocando os cientistas em uma posição ainda mais complicada. Nesses casos pode parecer uma saída mais fácil para muitos pesquisadores apressar a publicação de resultados ainda incipientes, usar amostras menores do que o que se realmente deveria ser usado, escolher desfechos menos importantes, mas mais rápidos e fáceis de medir; ‘escolher seletivamente’ os dados mais convenientes, apenas para conseguir certos resultados, ou seja, ‘pescar’, ‘bisbilhotar’ ou ‘dragar’ os dados, ‘hackeam-os’ em busca de valores-p significativos (‘cherry-picking’, ‘data fishing’, ‘data snooping’, ‘data dredging’ e ‘p-hacking’).

Tudo isso, infelizmente, acaba subvertendo a essência do processo de investigação científica, diminuindo a qualidade da ciência praticada e, assim, minando a confiabilidade nas conclusões que podemos chegar através deste processo.

—————————–

Posted in Uncategorized | Leave a comment

A história de uma péssima alternativa

Segue um pequeno vídeo muito revelador. Ele conta um pouco da hype envolvendo a ‘medicina alternativa e complementar‘ que ocorreu nos anos 90. Esta mesma euforia levou ao estrelato gente como Deepak Chopra e outros gurus pseudocientíficos. Nesta atmosfera, a grande cobertura da mídia dedicada a este tópico em conjunto com o lobbie político acabou permitindo a criação do NCCAM, um centro de pesquisa ligado ao National Institute of Health, nos EUA, mesmo contrariando as recomendações da comunidade científica, que via (e vê) boa parte desta indústria como puro e simples charlatanismo. Isso fez com que o estudo destas terapias alternativas começasse a receber verbas federais, mesmo  estas práticas não sendo nada plausíveis e muito menos seu estudo prioritário.

O subsequente fracasso dos estudos em validar essas abordagens (utilizando-se de métodos de pesquisa e estratégias cientificas mais rigorosas) só piorou a situação. Além disso, o simples fato de um centro de pesquisas, com verbas do governo dos EUA, ter sido criado foi suficiente para a dar a falsa sensação de que tais abordagens fossem realmente respaldadas cientificamente, mesmo isso não sendo, nem de perto, verdade.  Para saber um pouco mais sobre o assunto dê uma olhada no meu outro post “Alternativas ao que, exatamente?“.

Talvez a parte mais assustadora do documentário seja assistir ao senador Tom Harkin – após os vários e sistemáticos fracassos dos estudos clínicos patrocinados pelo centro fornecerem evidências positivas – jogando a culpa na condução dos estudos pelo próprio instituto, simplesmente, porque, segundo ele, ao invés de testar criticamente as terapias, o NCCAM* deveria ‘validá-las’ (ou seja, aprová-las, confirmando o que eles já ‘sabiam’) porque era isso que a população (e ele, claro) gostariam. O nível de desconexão com a realidade e de wishfull thinking é simplesmente assustador. Harkin coloca o carro na frente dos bois, estando completamente alheio ao principal objetivo de efetuarmos este tipo de avaliações científicas  – exatamente, descobrir se as práticas, terapias e abordagens em questão funcionam ou não, fazendo isso através de estudos bem delineados e cuidadosamente conduzidos, de maneira rigorosa e justa.

————————————

*Aliás, este é um dos méritos do NCCAM. Apesar de sua criação ter acontecido por pressões lobísticas desavergonhadas – e até contra o consenso da época da comunidade científica, sem esquecer as tentativas de cercear e até minar as atividades de pesquisadores mais sérios que lá trabalhavam -, mesmo assim, o centro financiou muitos trabalhos clínicos de alta qualidade que, sem surpresa, confirmaram as expectativas originais, já que haviam evidências mais rigorosas que deixavam claro que algumas das terapias não funcionavam e muitas outras eram tão implausíveis (violando princípios científicos muito bem estabelecidos) que não mereceriam nem o gasto com testes mais rigorosos.

———————-

Referências:

  • Bausell RB. Snake Oil Science: The Truth About Complementary and Alternative Medicine. 1st ed. Oxford University Press; 2007.
  • Goldacre, B. Ciência Picareta Civilização Brasileira 1a ed, 2013. 378 p;
  • Singh S, Ernst E. Trick or treatment? : Alternative medicine on trial. Bantam Press; 2008.
Posted in Uncategorized | Leave a comment

Por que deveríamos confiar nos cientistas?

A questão que dá título a este post (e ao vídeo embebido nele) é extremamente importante em nossa sociedade. Para respondê-la, porém, precisamos voltar a nos debruçarmos sobre a velha questão de o que torna as ciências distintas de outras atividades humanas; principalmente daquelas atividades intelectuais (ou práticas) que aspirem serem fontes de conhecimento confiável. Já discuti este tema em outras postagens deste blog (veja por exemplo:  ‘Método Científico?‘, ‘A ciência como um jogo de pinball‘, ‘Filosofia das pseudociências’) e agora, mais uma vez, volto a ele através. Desta vez a partir da TED talk proferida pela geóloga por formação e historiadora da ciência, por carreira acadêmica, Naomi Oreskes.

Nos últimos anos a historiadora tem investigado o consenso científico sobre o aquecimento global e a recepção deste consenso por parte do público leigo, em geral, mas também ela vem analisando a natureza da oposição a este consenso por parte dos autointitulados ‘céticos do aquecimento global‘, mas melhor descritos como ‘negacionistas‘, grupos de indivíduos que questionam e atacam as conclusões do IPCC (o painel intergovernamental de cientistas organizado pela ONU) sobre o assunto. Em vários artigos e em um livro, Oreskes mostrou como os grupos negacionistas, financiados por grandes grupos de Lobby comercial cheios de interesses escusos, organizaram-se para questionar os modelos, descobertas e conclusões da comunidade científica. Eles agem de uma maneira muito semelhante a feita, anteriormente, por outros lobbies, como o da indústria do Tabaco, inclusive com o financiamento de intelectuais e cientistas específicos para tentar ‘legitimar’ seus ataques, a imensa maioria dos quais não têm qualquer substância e, em alguns casos, são claramente desonestos. Tudo isso é discutido no seu livro de Oreskes, escrito em colaboração com  Erik Conway, ‘Merchants of Doubt‘.

Porém, isso ainda não responde à questão principal: Por que deveríamos confiar nos cientistas? Essa resposta é importante porque não podemos esperar que a maioria das pessoas (como fizeram Oreskes e Conway em seu livro e em seus artigos) examine a literatura 9781596916104_000científica da área em profundidade, ou entreviste muitos dos pesquisadores responsáveis pelos estudos para conhecer suas opiniões em detalhe e seus argumentos e, principalmente, identifique, corrija e desminta as diversas objeções e afirmações errôneas feitas pelos negacionistas. Afinal de contas, a maioria de nós não é especialista em qualquer (que dirá nas várias) das disciplinas científicas (geofísica, glaciologia, química atmosférica, climatologia, modelagem e simulação computacional etc) de cujas investigações dependem a conclusão sobre a realidade do aquecimento global antropogênico. De uma maneira ou de outra, temos que confiar nos especialistas, mas para isso, primeiro de tudo, precisamos ser capazes de distinguir os verdadeiros especialistas dos pseudo-especialistas, ou seja, os negacionistas de plantão.

Em sua palestra, Oreskes aborda este tema de maneira mais geral. Como outros historiadores e filósofos das ciências, Oreskes é bastante crítica à visão recebida (e semi-oficial) que justifica a confiabilidade das conclusões das ciências a partir da (suposta) adesão por parte de todos (ou a imensa maioria) os cientistas ao ‘método científico‘. Esse método é, normalmente, equiparado às abordagens hipotético-dedutivas (ou nomológico-dedutivas) para as ciências, que, como já discuti em outras ocasiões, captura apenas parte da história todo do que caracteriza a investigação científica. Esta abordagem porém deixa de lado várias sutilezas e muitos fatores importantes que são partes integrante da pesquisa científica, não sendo crítico o suficiente com relação as próprias limitações destas abordagens [veja por exemplo ‘A Ciência do Erro e o Erro na Ciência, Ciência e inferência. Parte I: A dúvida de Hume e a solução de Popper’, ‘Ciência e inferência. Parte II: Popper e a tese do holismo’, ‘Ciência e inferência. Parte III: O bom e velho reverendo’ e ‘Ciência e Inferência Parte IV: Probabilidades e probabilidades’].

Nessa apresentação a historiadora destaca a importância da forma como a comunidade científica organiza-se, especialmente aquilo que o sociólogo Robert Merton chamou de ‘ceticismo organizado‘ (ou daquilo que Karl Popper chamava de ‘cooperação amigavelmente hostil’, ou ‘rivalidade amistosa’, como prefiro) – ou seja, o fato dos pesquisadores membros da comunidade de pesquisa colaborarem entre si mantendo uma atitude crítica principalmente com relação a novas ideias e dados, o que demanda que os seus proponentes forneçam evidências rigorosas e argumentos bem estruturados que, por sua vez, serão examinados de maneira crítica, a procura de erros, problemas, fontes de viés, e cujas conclusões serão contrastadas com o esperado por outras hipóteses, modelos, teorias ou possibilidades alternativas. Assim, seria nesta postura crítica coletiva que encontraríamos as melhores razões para confiarmos nos cientistas e, mesmo para reconhecê-los, já que esta confiança demanda que as comunidades de pesquisadores estejam organizadas de uma maneira que esta atitude crítica, metódica e sistemática seja fomentada e implementada.

Portanto, ao confiarmos nas conclusões da comunidade científica realmente dependemos de um reconhecimento tácito da sua autoridade. Esse reconhecimento, entretanto, é motivado pelo histórico de sucessos da área em questão e a aceitação não é nem acrítica (já que sempre que possível devemos tentar seguir os argumentos e evidências. Daí a importância dos esforços de educação e divulgação científica*), como também não depende da subserviência a autoridades individuais. Desta forma, a confiança depositada nas conclusões das ciências depende de uma autoridade coletiva e distribuída que foi ganhou à duras penas, tendo sido historicamente estabelecida. Contudo, mesmo assim, tal autoridade está sempre sujeita a revisão e sob o constante escrutínio crítico dos membros desta comunidade e de quem mais quiser inteira-se de seus procedimentos, métodos, valores epistêmicos e objetivos.  Essa confiança, portanto, permeia nossa sociedade, advindo inclusive de nossa dependência (e aceitação tácita por parte de seus membros) dos vários produtos das ciências, particularmente, aqueles relacionados à tecnologia.

——————-

* Volto a lembrar e a insistir que, mesmo não havendo algo como o ‘método científico‘ (em sentido estrito), ainda assim, existem uma série de métodos, normas, critérios e características gerais que permitem que nós diferenciemos, na imensa maioria dos casos, tanto as ciências das pseudociências, como a boa da má ciência e que nos permitem mesmo termos uma ideia das reais disputas científicas, ou seja, quando seria mais apropriado suspender o juízo, não aquelas ‘pseudodisputas‘ manufaturadas pelos descontentes com as (supostas) implicações sociais, religioso-ideológicas e éticas de algumas das conclusões sobre a história do universo, do nosso planeta e da vida mais bem estabelecidas pela comunidade científica, com as fomentadas pelos diversos negacionistas.

————————————–

Referências:

  • Oreskes N. Beyond the ivory tower. The scientific consensus on climate change. Science. 2004 Dec 3;306(5702):1686. Erratum in: Science. 2005 Jan 21;307(5708):355. PubMed PMID: 15576594. [Veja também o excelente post da página Skeptical Science sobre as críticas feitas a este artigo em ‘ What does Naomi Oreskes’ study on consensus show?‘]
  • Oreskes, Naomi, 2007, “The scientific consensus on climate change: How do we know we’re not wrong?” Climate Change: What It Means for Us, Our Children, and Our Grandchildren, edited by Joseph F. C. DiMento and Pamela Doughman, MIT Press, pp. 65-99. [Download file]
Posted in Ciência, Filosofia, Filosofia da ciência, História | Leave a comment