Para entender algunas de las licencias y la realidad que subyacen en bibliotecas digitales y lo que será la web semántica, debemos empezar entendiendo los formatos más habituales por los que el texto ha pasado por nuestros ordenadores. Esto es lo que se tratará en esta sección.
~1) //txt//: Todos los procesadores de texto lo entienden y ocupa poco, pero esta bastante limitado en cuanto a lo que se puede mostrar, de hecho no se puede hacer ni una pobre cursiva. No separa lo que es presentacion de contenido, pero es que no hay nada que presentar :D
~1) //html//: Todos los navegadores lo entienden, lo cual quiere decir que ademas se puede navegar mediante el, lo cual permite leer de una manera mas cercana a como se piensa, mediante un monton de enlaces (asociaciones). El problema de este formato es que tambien esta bastante limitadito. Por ejemplo, queremos tener en nuestro documento una ecuacion matematica pues no nos queda mas remedio que meter una imagen, lo cual ya no mola porque nuestra pagina ya va a tardar en cargar, entonces en nuestra ecuacion nos damos cuenta de que en vez de un 2 queremos meter un 3, pues entonces tienes que modificar la imagen lo cual es un engorro, pero si tuvieras que modificar 20 imagenes ya seria algo realmente terrible. Y todo porque html no es una ecuacion. Este ejemplo es extrapolable a muchos mas casos pero creo que este es bastante ilustrativo, ya que todos hemos tenido que manejar las matematicas en nuestros estudios y muchos seguimos haciendolo.
Este lenguaje (si es que puede llamarse asi) hacer un intento realmente popular de separar lo que es presentacion de contenido, ya que por un lado nuestrofichero.html al abrirlo con un editor de textos lo vemos con sus etiquetitas, nosotros se las colocamos debidamente a nuestros contenidos y luego si pasamos hojas de estilo y demas ... bueno se separa bastante lo que hay de lo que se muestra.
Pero en la practica a nadie le importa si hemos etiquetado correctamente el contenido o si deberiamos haber utilizado una hoja de estilo, tan solo importa como lo vea mi navegador y los navegadores comerciales interpretan las hojas de estilo y las etiquetas a su manera ?resultado? La gente coge el Word o el FrontPage? y genera sus paginas en plis plas, pero mediante un seudo-html que solo entiende bien el Explorer de Microsoft, en fin el html pierde su universalidad de esta manera tan tonta.
~1) //tex//: latex es un lenguaje de marca (como html) donde se generan ficheros de extensión .tex lleva utilizándose mucho tiempo en entornos académicos. Este lenguaje tiene una expresividad brutal, separa perfectamente lo que es la presentación del contenido y no tendremos ningún problema para incluir ecuaciones matemáticas. Además siempre podremos pasarlo de manera automática a otros formatos más sencillos como txt o html, o a otros orientados a la visualización y que ocupan muy poco como pdf, gv, dvi, ps, etc. Un gran editor para este lenguaje de marca es Emacs y como editor visual Lyx.
~1) //xml//: Es un metalenguaje, un lenguaje para escribir lenguajes. Hablamos mas en profundidad mas adelante, por ahora, solo decir que que un documento escrito en un lenguaje xml puede pasarse a todos los formatos que hemos descrito en latex y ademas a bases de datos debido al hecho de que todas las etiquetas en xml, se cierran. Ademas, es facil hacer un nuevo lenguaje xml basta con escribir una dtd que es un fichero donde definimos que etiquetas tendra nuestro lenguaje y una xsl para ver como se transformaran las etiquetas y si los entusiastas del xml tienen razon algun dia todos los navegadores podran procesar estas etiquetas y estas transformaciones, pues parece que tiene bastante futuro. El lenguaje xml que por ahora se esta usando para documentar es docbook que, en cuanto a posibilidades es bastante similar a latex.
~1) //doc//: Los famosos .doc que tantas pasiones levantan en Internet y su omnipresente word. Muchas personas se preguntan que porque los usuarios de esos sistemas que llaman libres los .doc tienen tanta mania a este formato el caso es que los .doc tienen un formato compilado para que solo lo puedas abrir con el Word y para que las versiones antiguas de ese procesador no entiendan el formato de lasnuevas (obligandote a comprarte un nuevo programa cada 2 o 3 anos). Pero es que en los sistemas libres no existe Word y por tanto, no hay forma de abrirlo debido a su compilacion que por decirlo de alguna manera es un codigo secreto que solo Microsoft conoce. Es cierto que hay programas como Abiword, u OpenOffice? que haciendo ingenieria inversa logran visualizar un buen numero de archivos .doc, pero por desgracia no funcionan perfectamente.
Este formato se ha popularizado tanto debido a que permitia hacer bastantes cosas con muy pocos conocimientos, a pesar de que a medio plazo tiene efectos realmente malos para cualquier usuario, como por ejemplo la facilidad para transmitir virus.
~1) //rtf//: Este es un formato tambien de Microsoft, pero esta escrito mediante un lenguaje de marcas, marcas que podemos distinguir claramente si abrimos un documento .rtf con editores sencillos tales como el edit de DOS, el bloc de notas de Windows, el vi, el emacs, etc. Por ser un lenguaje de marcas ha permitido que puedan surjir editores libres que editen sin problemas estos archivos. Aunque Microsoft ha cuidado que no se pueda hacer tanto como a los .doc (no conozco bien las limitaciones si alguien las conoce ya sabe que esto se puede modificar libremente ;-).