Bioinformática ¿una ciencia sin científicos?
Biological computing science, a
science without scientifists?
Roderic Guigó Serra
El Proyecto Genoma Humano ha
catalizado una presencia sin precedentes de la investigación en biología en los
medios de comunicación. Este impacto mediático no es gratuito. El conocimiento
de la secuencia de nucleótidos del genoma humano y de la secuencia de
aminoácidos de las proteínas codificadas en ese genoma tendrá, se dice, un
impacto extraordinario en la medicina, la agricultura y en muchos procesos
industriales. Tendrá, en consecuencia, repercursiones económicas, sociales y
quizás, incluso, políticas. En definitiva afectará profundamente nuestras vidas
y es lógico que despierte nuestro interés.
The Human Genome Project has
promoted an unprecedented presence of information on biological research in the
media. This is not a gratuitous impact. It is widely believed that the accrued
knowledge on human genome nucleotide sequences and on amino acid sequences of
proteins codified by our genome will have an exceptional impact on medical
sciences, agricultural sciences and many industrial processes. That is, it will
cause financial, social and perhaps even political repercussions. In other
words, it will deeply affect our lives, and thus is worthy of our interest.
Al margen de esa novedad mediática, la
biología está sufriendo también una radical transformación en el modo en que su
práctica, como disciplina científica, se lleva a cabo. La biología, una ciencia
tradicionalmente de la observación y la descripción, se está convirtiendo en
una ciencia caracterizada por la generación de cantidades ingentes de
información. La invención y el desarrollo de tecnologías diversas –alrededor de
las cuales se articula esta disciplina científica que hemos dado en llamar genómica–
son los responsables. No se trata sólo de la automatización y robotización de
los métodos de secuenciación del DNA, que permiten la obtención de la secuencia
completa de los genomas de los organismos vivos o la secuencia parcial de
aquellos de entre los genes codificados en este genoma, que se expresan en una
determinada estirpe celular, y cuyos resultados son estos días tan evidentes,
sino también de la invención de las matrices de DNA (DNA arrays). Estas
matrices permiten, en particular, monitorizar la expresión simultánea de miles
de genes en condiciones distintas; el aumento de la precisión de las técnicas
de geles bidimensionales y de espectroscopia de masas, que permiten la
caracterización global de las proteínas en que estos genes son traducidos; las
técnicas, como la de «dos híbridos» en levadura, que permiten inferir
globalmente las interacciones entre estas proteínas, la complejidad de estas
interacciones la que sustenta los procesos de la vida, y la automatización y
robotización de las técnicas de rayos X y de resonancia magnética nuclear, que
están acelerando sustancialmente el descubrimiento de las estructuras
tridimensionales de un gran número de estas proteínas.
Con la genómica, se ha producido un cambio de
énfasis en el objeto de estudio de la biología molecular y celular: del estudio
de los genes y de las proteínas individuales pasamos al estudio de la acción
sinérgica de decenas de miles de esos genes y proteínas en la célula viva. El
resultado inmediato de la aplicación de las técnicas genómicas es la obtención,
casi automática, de cantidades inmensas de datos, de una magnitud insólita en
la historia de la biología. En este sentido, con la genómica, la biología se ha
convertido en una ciencia de la información, tanto en la obtención de los datos
genómicos primarios, como en su almacenamiento, análisis e integración; la
informática desempeña, en consecuencia, un papel crucial; y una nueva
disciplina científica, la bioinformática, en la intersección entre biología y
computación ha emergido recientemente para hacer frente a las especificidades
que el tratamiento de estos datos comporta.
La magnitud de la información que genera la
investigación genómica es tal que, probablemente, supera la magnitud de la
información que genera la investigación en otras disciplinas científicas. No en
vano, la vida es la forma más compleja de organización de la materia que
conocemos. En estos momentos, los ordenadores no clasificados para uso civil
más potentes del mundo (en Celera y en Oak Ridge National Laboratory, por
ejemplo, con una capacidad de cálculo cercana a los 2 Teraflops, billones de
operaciones por segundo) se encuentran ya dedicados a la investigación
biológica, concretamente a la obtención y al análisis de las secuencias de
nucleótidos de los genomas conocidos; IBM, por su parte, anuncia en un plazo de
cinco años un ordenador 500 veces más potente que Deep Blue, el
ordenador que en mayo de 1997 derrotó a Kasparov, y acabó así con la hegemonía
humana en el ajedrez. Su nombre, Blue Gene, su objetivo, deducir tras un
año de cálculo, la conformación tridimensional de una pequeña proteína (de
entre las decenas de miles codificadas en nuestro genoma) a partir de su
secuencia de aminoácidos.1 Pero nos encontramos sólo en los inicios
(balbuceantes) de la era genómica.
Tras el genoma de la especie humana seguirá,
por un lado, el genoma de otras especies –y será posible entonces conocer, en
particular, aquellos genes responsables de la especificidad humana, de nuestra
peculiar manera de «ser en el mundo» y, por otro, el genoma de los individuos,
y entonces será posible, en particular, cuantificar la aportación genética a
nuestra individualidad; y podremos, por fin, abordar de forma más desapasionada
la vieja polémica que enfrenta herencia y ambiente para explicarnos como
personas.
Ley de Moore e información genómica
En cualquier caso, el volumen de datos
generados por estos proyectos será inconensurable con el volumen de datos que
generan los proyectos genómicos hoy en día, y que ya nos parece difícilmente
tratable. Pero no se trata sólo de la información de secuencia, cada
experimento con matrices de DNA genera alrededeor de unos de 60 Megabytes de
información. Cientos, miles quizá, de dichos experimentos están siendo
realizados estos días; centenares de miles, millones de ellos (cuando el
diagnóstico molecular se generalice) se llevarán a cabo en un futuro no muy
lejano.
El volumen de información que genera la
investigación genómica crece y continuará creciendo a una velocidad vertiginosa.
De hecho, lo hace a una velocidad más elevada de lo que predice la famosa ley
de Moore, de acuerdo con la cual, la capacidad de los ordenadores se duplica
cada 18 meses, una tendencia que se inició a finales de los años cincuenta y
que dura hasta nuestros días. Parece ser que muy pocas actividades humanas
crecen a un ritmo superior; la investigación genómica constituye una excepción:
el lapso de tiempo necesario para que se duplique el volumen de secuencias de
nucleótidos almacenadas en las bases de datos públicas (GenBank/EMBL/DDBJ) por
ejemplo, es ya inferior a un año: en marzo de 1999, estas bases de datos
contenían 2300 millones de nucleótidos, en marzo del 2000, 6100 millones, y el
ritmo de crecimiento sólo hace que acelerarse.2 Este hecho tiene
implicaciones trascendentales: la información genómica crece a una velocidad
muy superior a la que crecen (es más, a la que pueden crecer) los recursos
necesarios para analizarla. Y no se trata sólo, ni quizá principalmente, de
recursos computacionales. Se trata, sobre todo, de recursos humanos. Dicho de
otra forma, la mayor limitación para convertir la avalancha de datos genómicos
en conocimiento relevante sobre los procesos de la vida no reside, hoy en día,
en la capacidad insuficiente de los ordenadores, sino en la escasez de
científicos y técnicos formados en la utilización y el desarrollo de
herramientas computacionales para el análisis de esos datos genómicos. Una
escasez que sólo ha hecho que acentuarse en los últimos cinco años y para la
que no se vislumbra una solución a corto plazo. Sólo hace falta hojear las
páginas de anuncios de trabajo en Science o Nature para darse
cuenta de la presencia creciente de anuncios en bioinformática o biología
computacional, tanto en el sector público como privado.
Ante tal situación, uno de los retos de la
bioinformática es el desarrollo de métodos que permitan integrar los datos
genómicos –de secuencia, de expresión, de estructura, de interacciones, etc.–
para explicar el comportamiento global de la célula viva, minimizando la
intervención humana. Dicha integración, sin embargo, no puede producirse sin
tener en cuenta el conocimiento acumulado durante decenas de años, producto de
la investigación de miles de científicos, y que se encuentra recogido en
millones de comunicaciones científicas. En este sentido, se está ya
investigando en el desarrollo de métodos para correlacionar automáticamente
datos genómicos con la información recogida en artículos científicos archivados
en bases de datos como Medline.3 El objetivo, hasta cierto punto, es
producir conocimiento científico autónomo. Asistimos, pues en la
bioinformática, a los primeros intentos de autonomizar parte de la
investigación científica del ser humano. Para algunos la perspectiva puede ser
inquietante, pero es posible que la investigación científica, como ha ocurrido
ya con el ajedrez, deje de ser una prerrogativa humana.
Para finalizar, querría enfatizar que con la
genómica la importancia de la computación en la biología no proviene sólo del
hecho del enorme volumen y la complejidad de los datos que las tecnologías
desarrolladas alrededor de esta disciplina generan y que hacen imprescindible
la utilización del ordenador, como ocurre hoy en día con tantas disciplinas
científicas. Con la genómica, la relación entre biología y computación no se
fundamenta sólo en la «cantidad» de los datos, sino que se establece de manera
más íntima y radicalmente distinta, a partir de la naturaleza de la información
genómica primaria: la secuencia de nucleótidos del DNA y la secuencia de
aminoácidos de las proteínas. La peculiar naturaleza de esta información
(secuencias de símbolos) la hace particularmente apropiada al análisis
computacional. El hecho de que las secuencias sean portadoras de una gran
cantidad de información, en particular la que se deriva del hecho de que
secuencias similares exhiben usualmente una función y una historia similares,
hace este análisis excepcionalmente relevante. En este sentido, cabe destacar
que una de las técnicas más fructíferas utilizadas en los laboratorios de
biología molecular durante la década de los noventa es la técnica puramente
computacional. Dicha técnica consiste en comparar la secuencia de un nuevo gen
con la secuencia de los genes ya conocidos depositados en las bases de datos,
con el objetivo de inferir la funcionalidad del nuevo gen a partir de la
funcionalidad de los genes conocidos con los que el nuevo gen exhibe
similaridad en su secuencia. El artículo en el que se describe el programa
informático subyacente a esta técnica se ha convertido en el artículo más
citado en biología durante la década de los noventa.4 En genómica,
los ordenadores, pues, no sirven sólo para modelizar la realidad, sino también
para observarla, analizarla e interpretarla. Es decir, a diferencia de la
modelización matemática tradicional en biología, la realidad ha de ser a menudo
(extraordinariamente) simplificada para construir modelos simbólicos
susceptibles de ser tratados matemática y computacionalmente. En genómica, la
realidad es intrínsecamente simbólica y el ordenador es el instrumento mediante
el cual la realidad es observada sin intermediación. Es por ello que en
genómica, la computación no es sólo una herramienta para resolver determinados
problemas, sino que muchos problemas no pueden ni tan sólo ser planteados sino
es en términos computacionales. En definitiva, con la genómica culmina el
proceso de reconocimiento de que la vida tiene a escala molecular un carácter
esencialmente simbólico (proceso iniciado, en cierto modo, por Schroedinger,
quien años antes del descubrimiento de la estructura molecular del DNA por
Watson y Crick, aventuró que el DNA debería ser un cristal aperiódico
constituido por la sucesión de un número pequeño de elementos isoméricos, la
secuencia precisa de los cuales, y no tanto sus características fisicoquímicas,
es la responsable de su funcionalidad). Ahora sabemos que a escala molecular
los procesos de la vida son computaciones, en un sentido casi paradigmático, de
esa secuencia. Es por ello que, en palabras de John Maddox, antiguo editor de
la revista Nature, «biología y computación, ya interdependientes, van a
permanecer inextricablemente unidas».
Bibliografía
(1)
http://www.no.ibm.com/nyheter/des99/bluegene.html
(2) http://www.ebi.ac.uk (European
Bioinformatics Institute)
(3) C. Blaschke, M.A. Andrade, C. Ouzonis and
A. Valencia (1999)
Automatic extraction of biological
information from scientific text: protein-protein interactions.
"Proceedings of the Seventh International Conference on Intelligent
Systems for Molecular Biology", T. Lengauer, R. Schneider, P. Bork, D.
Brutlag, J. Glasgow, H-W. Mewes and R. Zimmer. pp 60-67.
(4)
S. F. Altschul, W. Gish, W. Miller, E. W.
Myers and D. Lipman (1990) Basic Local Alignment Search Tool. "Journal of
Molecular Biology" 215:403--410.
Roderic Guigó Serra
Doctor en biología por la Universidad de
Barcelona (UB). En el Departamento de Estadística de esta universidad trabajó
en el desarrollo de modelos matemáticos y computacionales en genética de
poblaciones y ecología evolutiva. Desde 1989 hasta 1991 trabajó en el Molecular
Biology Computer Research Resource en el Dana Farber Cancer Institute de la
Universidad de Harvard. En 1991, trabajó en el BioMolecular Engineering
Research Center en la Universidad de Boston. Durante estos años su investigación
se centró en el campo del análisis de secuencias. En 1992 se trasladó a Los
Alamos National Laboratory; estudió básicamente los problemas relacionados con el análisis de los genomas. Desde
1994 es investigador en el Instituto Municipal de Investigación Médica (IMIM),
de Barcelona. Desde 1994 hasta 1999 fue profesor asociado en la UB. Desde 1999
es profesor asociado en la Universitat Pompeu Fabra. Cuenta con numerosos
trabajos publicados en revistas de ámbito internacional.