No se puede tratar la historia de la bioinformática sin tocar inicialmente la historia de la biología. En realidad son los biólogos y los bioquímicos quienes hacen su primer acercamiento a la tecnología computacional en busca de nuevas herramientas para su trabajo diario.
Desde los siglos XVIII y XIX, los biólogos se enfrentaron a problemas relacionados con el procesamiento masivo de la información. Darwin, por ejemplo en su viaje en el Beagle, recolectó y procesó manualmente multitud de datos sobre las especies. En aquellos tiempos, los taxonomistas catalogaron más de 50.000 plantas.
El desarrollo de la genética con la formulación de las Leyes de Mendel hace más de 100 años y el descubrimiento de la estructura del ADN en 1953, abrieron las puertas de la investigación que desembocó en el proyecto "Genoma humano" en el año 1990. Desde los años 60, el crecimiento en el número de secuencias conocidas de aminoácidos de las proteínas impulsó la aplicación pionera de las computadoras en biología molecular.
El desarrollo de la genética como una disciplina científica, basada en claros principios como las Leyes de Mendel y el descubrimiento de la estructura del ADN condujo a nuevas investigaciones que crearon un volumen enorme de información que era necesario guardar y analizar. Así, al principio de los años 60, el número creciente de secuencias de aminoácidos era uno de los factores principales que contribuyó al desarrollo de la biología computacional.
La cantidad de datos que debían analizarse y la mejora del rendimiento, y los precios más asequibles de las computadoras, hicieron posible su introducción en los ambientes biológicos y académicos.
La tecnología proporciona las herramientas prácticas para que los científicos puedan explorar las proteínas y el ADN. Estas son moléculas grandes que consisten de un encadenamiento de residuos más pequeños llamados aminoácidos y nucleótidos respectivamente. Son bloques del edificio de la naturaleza, pero estos bloques no se utilizan exactamente como los ladrillos, la función de la molécula final depende fuertemente del orden de estos bloques. La estructura (tridimensional) 3D de una proteína depende de la secuencia individual de estos residuos numerados. El orden de aminoácidos de una proteína específica se deriva del ADN correspondiente. Este pedazo de ADN consiste en una secuencia ordenada de nucleótidos.
Paralelamente, una perspectiva científica surge en los años sesenta, con la idea de que la genética podría estudiarse considerando la codificación, almacenamiento y el flujo de información entre las moléculas. Esta perspectiva queda en el origen de la disciplina conocida como biología computacional. Según este punto de vista, las proteínas llevarían información codificada en las sucesiones lineales de aminoácidos. Algunos acercamientos pioneros trataban de unir la teoría de información, teorías matemáticas y genéticas durante los años cuarenta en torno a los enfoques de la cibernética. Por ejemplo, Claude Shannon, el padre de la teoría de información desarrolló una metáfora algebraica para modelar el código genético.
Durante los últimos 20 años, se ha determinado que muchas proteínas de diverso origen pero con una función similar, también tienen secuencias similares de aminoácidos. Así, existen las secuencias correspondientes del DNA que son similares aunque la proteína bajo análisis aparezca en diversas especies como ratones y seres humanos.
La idea de considerar a las proteínas como moléculas portadoras de información se basa en tres aspectos. Primero, el código genético muestra cómo una sucesión de nucleótidos puede transformarse en una sucesión de aminoácidos. Segundo, la información molecular en una sucesión de aminoácidos determina la estructura espacial tridimensional de las proteínas. Tercero, la información en el ADN también determina la función de las proteínas. En 1965, Zuckerland y Pauling sugirieron que las proteínas y los ácidos nucleicos también portan información evolutiva que puede ayudar a responder algunas cuestiones científicas clásicas en biología.
En esta década también, aparecieron los primeros signos de una convergencia entre la biología, bioquímica, ingeniería e informática que conduciría después al nacimiento de la Bioinformática. No obstante, el uso de las computadoras para la investigación biológica durante estos años no se reconocía como un elemento importante para la investigación en el laboratorio. El campo de la bioinformática se necesitaba un liderazgo y una financiación, similar al que comenzaba a gestarse al mismo tiempo por los profesionales de la informática médica. Después, algunos investigadores mostraron que las computadoras podían acelerar dramáticamente la secuenciación y la determinación de estructuras de la proteína. Los métodos informatizados para la secuenciación del ADN empezaron a aparecer y los primeros bancos de datos de secuencias de proteína se hicieron presentes. También, se emplearon técnicas computacionales para predecir la estructura secundaria del ARN.
Con un acercamiento diferente, basado en inteligencia artificial, el Premio Nóbel Lederberg y otros pioneros de esta área como Feigenbaum y Buchanan, desarrollaron los primeros sistemas expertos.
Hacia finales de los años 80, comenzó a emplearse el término bioinformática, aunque algunos pioneros habían aplicado las computadoras con éxito a los problemas de la biología molecular, incluso una década antes de que fuera posible la secuenciación del ADN. Entre estas aplicaciones, Margaret Dayhoff desarrolló los primeros programas para determinar la secuencia de aminoácidos de una proteína en 1965 y preparó el primer banco de datos de secuencias de proteínas que luego evolucionó para convertirse en PIR (Protein Information Resource) en 1983. Los programas de comparación de secuencias y de análisis filogenético fueron algunos de los primeros avances en este campo alrededor de los años 60.
Incluso, el análisis estructural de las macromoléculas se inició por esos años, aunque limitado por las capacidades de la informática disponible en ese momento. A comienzos de los años 70, esos métodos se aplicaron al procesamiento de información sobre ácidos nucleicos. Entonces, se diseñaron programas para comparar secuencias. FASTA se desarrolló en 1985 aunque Genbank, el banco de datos de secuencias de ADN central se crea en 1980 y SwissProt, su homólogo para las proteínas empezó su actividad en 1987.
Hacia finales de los años 80, se desarrollaron programas bioinformáticos en los centros académicos que rápidamente se convirtieron en productos comerciales, y se comenzaron a distribuir como paquetes integrados de herramientas para la administración de datos en el campo de la biología molecular. Las mejoras en los sistemas computacionales permitieron el avance de las técnicas de aprendizaje automático con clara aplicabilidad en bioinformática. Se aplicaron redes de neuronas artificiales, modelos de Markov ocultos o métodos de clustering para analizar los conjuntos de datos no caracterizados.
Otro hito importante fue el desarrollo del WWW, como un medio universal para acceder a bases de datos biológicas y programas bioinformáticos. Esto permitió el desarrollo de muchas bases en las que los investigadores pueden encontrar la información que requiere su trabajo experimental. El WWW también es la infraestructura que soporta al intercambio activo de información entre investigadores.
A finales de los años 90, la demanda de especialistas en bioinformática era notable; sin embargo, sólo un pequeño grupo de universidades ofrecía programas educativos en este tema.
Hoy, algunos de los problemas más importantes de la biología moderna y la genómica son imposibles de resolver sin el poder del cálculo de las computadoras. Los programas de búsqueda y anotación de genes fueron muy importantes para el completamiento del proyecto "Genoma humano". El número de estructuras de proteína resueltas se dobla cada dos años. Las técnicas como la comparación de pares de secuencias biológicas, alineación múltiple, análisis filogenético o búsquedas por similitud en bases de datos por medio del web, facilitan el trabajo de los biólogos ocupados en tareas de identificación de genes o en la predicción de su estructura y función. La bioinformática suscita una atención creciente durante los últimos años, directamente unida al avance del mencionado proyecto.