Hoy traemos en nuestra
sección de Respuestas y Adaptaciones biofisiológicas al esfuerzo una columna de
opinión de Paul van Helden, sobre las hipótesis basadas en datos. Volvemos en
nuestro blog con la temática que trata la Biología Celular y molecular.
Las hipótesis basadas en datos
[Respuestas y adaptaciones biofisiológicas al esfuerzo]
A
continuación se muestra la traducción del artículo Data-driven hypotheses de Paul
van Helden publicado en EMBO Reports (2013).
Los
científicos pueden ser críticos apasionados con los diferentes
enfoques de un determinado problema. A lo largo de los años, me he encontrado frecuentemente
cruzando espadas con epidemiólogos con los que somos buenos amigos “fuera de la
cancha”.
Hasta
cierto punto, esta diferencia de enfoque me parece basarse en la logística de
recolección o generación de datos, y el análisis de los mismos. El enfoque
epidemiológico es a menudo increíblemente laborioso respecto a la
recopilación de los datos -considere el enfoque de la entrevista y estudios
dietéticos que requieren que los sujetos recuerden las comidas consumidas- y,
por lo tanto, precisa una cuidadosa reflexión y planificación para lograr un resultado
significativo con recursos limitados.
Por
el contrario, muchas áreas de la biología molecular generan fácilmente
y rápidamente una enorme cantidad de datos, y por lo tanto se prestan a una
manera diferente de pensar y un debate acalorado sobre la “manera correcta de
hacer ciencia”.
Tales
argumentos son fútiles en el mejor de los casos y posiblemente dañando a la
ciencia en el peor de los casos. Que se considera como el enfoque correcto
podría ser, en parte, debido a limitaciones en la generación de datos, pero
podría no ser necesario o correcto en el futuro, como ha demostrado la historia
de la ciencia.
El método
científico aceptado consiste en formular una hipótesis y luego
probar mediante la experimentación que, al menos en teoría, intenta refutar la
hipótesis.
Los
experimentos generan datos que pueden ser analizados por varios medios para
probar la hipótesis. Este es un enfoque común en estudios epidemiológicos, por
ejemplo, para identificar un factor de riesgo de una determinada enfermedad.
Este enfoque requiere que se proponga un factor de riesgo para la afección o
enfermedad: consumo de alcoholismo o deficiencia dietética, y luego recopila
datos relacionados con ese factor.
Por
supuesto, los estudios
de riesgo social o factores nutricionales a menudo recopilan
simultáneamente datos para probar múltiples parámetros. El principal riesgo de
tales estudios, en mi opinión, es que el investigador primero debe predecir o
adivine el factor de riesgo y luego recopile los datos correspondientes.
El
trabajo anterior podría haber sugerido o incluso identificado un factor de
riesgo en un estudio separado. Sin embargo, sugiero que tal enfoque puede ser fundamentalmente
deficiente, como el investigador aborda el estudio con sus propias
limitaciones en el conocimiento y sesgo experiencial, simplemente
eligiendo un posible factor de riesgo de, quizás, cientos de posibilidades. Hay
una buena posibilidad de que el factor de riesgo será confirmado como tal y
dará lugar a una publicación, como resultado del sesgo en publicar estudios
positivos y, en particular, estudios que verifican hallazgos previos.
Por
el contrario, la nueva tecnología "ómica" nos permite generar
cantidades masivas de datos rápidamente y, por lo tanto, nos
permiten adoptar un enfoque mucho menos sesgado para abordar un problema dado. Ya
hay sobre un millón de conjuntos de datos transcriptómicos disponibles, o
polimorfismo de un solo chip nucleótido (SNP) que pueden analizar un millón de SNP
cada uno. Uno podría usarlas fácilmente para investigar un gran número de
individuos, generando mil millones de piezas separadas de información por cada
1.000 personas, sin prejuicios o ideas preconcebidas.
Equipado
con conjuntos de datos tan grandes, podemos realizar minería de datos de manera
objetiva. Para algunos puristas, este enfoque sobre la adquisición de datos es
anatema, ya que no
es 'impulsado por hipótesis'. Sin embargo, presiento que lo es. En
este caso, la hipótesis original es amplia o genérica: generamos datos,
evaluamos y probablemente encuentre algo útil para dilucidar nuestro problema
de investigación. La amplia hipótesis establecida que usamos los resultados
para generar modelos que identifiquen diferencias, por ejemplo entre sujetos
experimentales y controles, sin especificar cuáles son esas diferencias y sin
recoger datos específicos y conjuntos de datos limitados.
El “persistente
viejo estilo” podría
encontrar este enfoque inaceptable; sin embargo, podría ser la mejor
manera de evitar parcialidad. Al contrario de lo que algunos me han sugerido,
este enfoque no es simplemente jugar con datos para generar una hipótesis, que violaría
el principio de que no se debe buscar una hipótesis primaria en los resultados.
La hipótesis es que se diseñará un algoritmo y encontrar un patrón, que permita
distinguir entre casos y controles.
Con
este enfoque, el
examen de grandes conjuntos de datos podría generar información útil
y pistas específicas para estudios posteriores y validación Estos estudios de
seguimiento se pueden regir por el enfoque tradicional impulsado por la
hipótesis: el 'biomarcador X' es un factor de riesgo para 'condición Y'. Tal
combinación de recopilación de datos y enfoques basados en hipótesis podría ser
la única manera de entender enfermedades complejas, incluso enfermedades
infecciosas, en que el patógeno invasor podría ser necesario para la
enfermedad, pero en sí mismo es inadecuado como único factor de riesgo.
Por
supuesto, si examinamos grandes conjuntos de datos para encontrar patrones
interesantes o biomarcadores que podría correlacionarse con una condición dada,
probablemente identificaremos falsos positivos en una tasa de al menos 1:20,
simplemente por casualidad.
Esta
es la razón por la cual los estudios de replicación que utilizan
conjuntos de muestras independientes son importantes. Mientras contamos con los
controles adecuados y utilizamos estadística de manera apropiada, este enfoque
de la ciencia debería producir nuevos resultados maravillosos y aumentar
masivamente nuestro conocimiento del mundo, en lugar de simplemente probar refutando
nociones que ya sospechamos.
Imagen. Las hipótesis de datos permiten acceder a nuevos conocimientos.
Bibliografía:
- Baker M (2012) Nature 487: 282–283.
- EMBO reports (2013) 14, 104; published online 21 December 2012; doi:10.1038/embor.2012.207.
Puedes volver a la sección de Biología Celular y molecualar correspondiente a la asignatura de Respuestas y adaptaciones biofisiológicas al esfuerzo en el siguiente enlace:
0 comentarios:
Publicar un comentario