Читать книгу Los inicios de la automatización de bibliotecas en México - Juan Voutssás Márquez - Страница 14
5.- Los inicios de la automatización de bibliotecas en los sesenta
Оглавление[…]cualquier concepto de biblioteca que comience con libros en estanterías seguramente será un problema.
Joseph Licklider, Libraries of the Future.
Los dos grandes problemas mencionados—producción de tarjetas y documentación científica masiva— eran ya tan significativos para los sistemas bibliotecarios de cierto tamaño en la segunda mitad del siglo XX, que en 1963 la Biblioteca del Congreso de Estados Unidos, la National Science Foundation y el Council on Library Resources (CLR) organizaron una conferencia expresamente para tratar los temas emergentes de la eventual automatización de bibliotecas: “Libraries and Automation”. Las memorias de este evento son sin duda el documento más representativo de los problemas, las discusiones, los debates y las expectativas de principios de los sesenta acerca del posible uso de la tecnología de las computadoras en las bibliotecas de acuerdo al estado del arte de la época (Conference on Libraries and Automation 1964).
La lectura de ese documento muestra elementos por demás ilustrativos: en una de sus ponencias, todavía se pondera si el desarrollo futuro de la microfilmación superaría al desarrollo futuro del almacenamiento magnético. Tómese en cuenta que en ese entonces, los microformatos ya estaban muy desarrollados, y una sencilla microficha de 4 × 6 pulgadas cuyo costo de producción era menos de un dólar podía contener el equivalente de hasta 1.8 Megabytes; su lector costaba unos cuatrocientos dólares. Una cinta magnética de una capacidad equivalente costaba treinta dólares —su unidad lectora costaba casi diez mil dólares— y un disco duro de esa capacidad costaba quince mil dólares. Muchos bibliotecarios pensaban todavía que el futuro del almacenamiento masivo estaba en los microformatos, no en el almacenamiento magnético (Conference on Libraries and automation 1964, 67-70).
En otra ponencia de este evento, se trata el polémico tema de las impresoras de computadora de la época que, siendo muy rápidas, solo imprimían en mayúsculas. Además, esas impresoras solo tenían un tipo de letra, no tenían cursivas ni negritas, y usaban únicamente tinta negra (Conference on Libraries and Automation 1964, 54). Esto no era una simple deficiencia técnica, había razones de fondo atrás de ello.
Desde un inicio, las computadoras electrónicas se basaron en el código binario. Por su misma naturaleza electrónica, los números se debían representar en su interior con pulsos eléctricos. Si se hubiese usado el sistema decimal para construirlas, hubiese sido necesario integrar internamente nueve generadores de pulsos diferentes; digamos, un milivoltio para representar el número “1”, dos milivoltios para el número “2”, y así hasta nueve milivoltios para el número “9”. Evidentemente, la ausencia de corriente, cero milivoltios, representaría al número “0”. Todo esto hubiese resultado muy complicado de construir. Para simplificar las máquinas, se decidió que los números podían ser representados internamente con el código binario, ya que éste solo requiere de dos números, unos y ceros, “hay corriente” o “no hay corriente”. Por esta razón, estos “unos” y “ceros” se denominaron “bit”, abreviatura de “binary digit” o “dígito binario”. Un solo generador de voltaje en el interior de la computadora bastaba para representar todos los números, en lugar de nueve, lo cual simplificó enormemente su construcción.
Poco después, cuando hubo que representar letras y caracteres de puntuación, se decidió crear códigos de representación basados también en el sistema binario; ello mantendría simples las máquinas en su interior con un único generador de pulsos eléctricos. Surgieron así los primeros códigos alfanuméricos. Originalmente se usó uno muy sencillo, el 12-Hollerith, proveniente de las primitivas máquinas de ese inventor. Poco después se introdujo el código Binary Coded Decimal Interchange Code (BCDIC) o Código de Intercambio Decimal Codificado en Binario, el cual unía seis bits; esto es, seis unos o ceros, para formar una sola unidad. A este conjunto considerado como una sola entidad, se le denominó “byte” o carácter. Una cierta combinación arbitraria de unos y ceros representaría cierta letra o carácter; había una combinación diferente para cada una hasta cubrir todas las letras del alfabeto. En un conjunto de seis bits, se pueden tener 2**6 combinaciones diferentes de ellos; esto es 2 × 2 × 2 × 2 × 2 × 2 = 64 combinaciones, lo cual implica que este código podía representar 64 caracteres diferentes. El alfabeto inglés tiene 26 letras; sumándole los diez dígitos decimales más los diez signos de puntuación básicos incluyendo el carácter “espacio”, se ocupan 48 combinaciones diferentes. A éstos hay que agregar algunos adicionales llamados “caracteres de control” como el carriage return o enter y el line feed o avance de línea, representados también por una combinación de bits; en total, cerca de 56 representaciones de las 64 posibles. Bajo ese concepto, las letras mayúsculas estaban ahí, pero representar también minúsculas hubiese requerido otras veintiséis combinaciones distintas que, como puede observarse, no alcanzaban. Hubo otras variantes de códigos elaboradas por parte de diversos fabricantes de computadoras, pero todas bajo el mismo principio.
Las computadoras de la primera época estaban hechas para tareas que requerían una impresión alfanumérica modesta; los textos impresos solo con mayúsculas eran aceptables en un recibo o una póliza. La memoria era escasa y cara, por lo que buscaba optimizarse usando el mínimo de bits. Las impresoras de ese entonces, en consecuencia, solo imprimían esos 48 caracteres. Los demás no existían. Por esta razón, el problema de la construcción de una impresora con minúsculas no era solo de tipo técnico o mecánico. Internamente, las computadoras no podían representar las minúsculas en su código. Aparte de los bibliotecarios, a nadie le preocupaba ese detalle en las primeras décadas.
En 1963, justamente cuando se llevaba a cabo la conferencia tratada, y para comenzar a homogeneizar los diferentes códigos existentes, el Comité Americano de Estándares propuso el código American Standard Code for Information Interchange (ASCII) o Código Estándar Americano para Intercambio de Información. Originalmente fue concebido con conjuntos o bytes ampliados a siete bits en vez de los seis originales. Esto daba ya 2**7 = 128 diferentes combinaciones, lo que permitió “crear” las combinaciones para las letras minúsculas, y además se agregaron más signos de puntuación y más caracteres de control, como “principio de la transmisión”, “fin de la transmisión”, “tabulador”, “avance de hoja”, “campana” o timbre, etcétera. La propuesta original era que los diversos fabricantes de computadoras, además de su código propio, tuvieran también el ASCII en sus computadoras para poder intercambiar información entre máquinas de diversas marcas. Hasta entonces, el código usado en una marca de computadora no era legible en otra simplemente porque el código de representación de caracteres en una marca no era igual al de las otras. ASCII de siete bits se volvería estándar hasta 1967, pero todavía tardaría más de una década en popularizarse. El código ASCII-7 solucionó el problema de las minúsculas a partir de entonces, pero seguía sin contemplar los caracteres no ingleses; aún no se podían imprimir caracteres con signos diacríticos: tildes, virgulillas, diéresis, cedillas, etcétera; simplemente no podían ser impresos en las fichas porque no podían ser representados. Esto introducía serios defectos en las fichas, bibliografías, etcétera, en los demás idiomas que usando el alfabeto latino son diferentes al inglés.
En 1964, IBM introdujo en sus máquinas un código denominado Extended Binary Coded Decimal Interchange Code (EBCDIC) o Código Extendido de Intercambio Decimal Codificado en Binario. En este código el byte o carácter fue ya de 8 bits, lo que permitió 2**8 = 256 combinaciones diferentes, y por tanto se pudieron agregar todos los caracteres adicionales de estos otros idiomas: las vocales acentuadas tanto con acentos agudos como graves y circunflejos, las vocales con diéresis, la “ñ”, las cedillas, las vocales portuguesas con virgulillas ã y õ, la romana æ, las letras nórdicas Å, ÿ, ø, Ð, etcétera, tanto en mayúsculas como en minúsculas, así como los signos de puntuación “¡” y “¿”. No obstante, la mayoría de los proveedores todavía tardó algunos años en incluir estos caracteres en sus impresoras.
Al margen de los códigos que ya permitían el manejo de minúsculas y/o diacríticos, a los fabricantes no les gustaba poner esta opción en sus impresoras. A principios de los sesenta, se introdujo la impresora “de cadena”. Originalmente, este tipo de impresora se basaba en bandas elípticas —las cadenas— que contenían cinco juegos de 48 caracteres cada una, doscientos cuarenta caracteres en total. Las cadenas giraban rápidamente con engranes y pasaban frente a unos martillos, uno por cada columna de la hoja; cuando la letra a imprimir pasaba frente a un martillo en una columna dada, éste golpeaba el papel para hacer la impresión. Si hay cinco juegos de letras en una sola cadena que gira, una cierta letra llegará más pronto a la columna deseada. Ya para entonces, esto se hacía a una velocidad vertiginosa: a principios de los sesenta, la impresora IBM modelo 1403 podía imprimir 1,400 líneas por minuto; una página de 132 columnas y 66 líneas en menos de tres segundos. Cuando se introdujeron las minúsculas, las cadenas se sustituyeron por tres juegos de ochenta caracteres en cada una. Esto reducía la velocidad de la impresora casi a la mitad, lo cual no agradaba a los fabricantes, y por esta razón se mostraban reacios al cambio. Además, por ser un código desarrollado por IBM, en 1963 solo las impresoras de esa empresa poseían esta capacidad de minúsculas. Es por ello que todavía era motivo de debate y discusión en la conferencia de 1963. Los demás fabricantes tardarían mucho en aceptarlo y solo se surtía bajo pedido.
En 1970, el Comité de Directores de la División de Automatización y Ciencia de la Información (ISAD por sus siglas en inglés) de la ALA emitió una recomendación para un juego de caracteres a ser instalado por los fabricantes de impresoras en sus productos. Este conjunto de caracteres contenía las minúsculas y las letras de otros alfabetos romanos aparte del inglés, pero como no estaba coordinado con los códigos internos de representación de las computadoras de la época, nunca se volvió algo práctico (American Libraries 1970, 314).
La versión ASCII de ocho bits surgió hasta 1981 y, como EBCDIC, permitió 2**8 = 256 combinaciones; por tanto, también se pudieron agregar en ella todos los caracteres adicionales de todos los idiomas con alfabetos latinos. No obstante, los proveedores todavía tardaron algunos años en incluir estos caracteres en sus impresoras. A partir de este estándar, todavía vigente hoy en día, el byte o carácter actual mide 8 bits. ASCII-8 dio lugar posteriormente a varios estándares ISO internacionales con juegos de caracteres para varios alfabetos no latinos: griego, cirílico, katakana, etc. El latino se denominó ISO-Latin-8.
A principios de los sesenta, cuando este problema aún no tenía solución en las bibliotecas, hubo varios intentos de resolverlo con nuevos métodos automatizados diferentes a los mimeógrafos, offset, etcétera. En 1963, Paul Fasana presentó un reporte con una propuesta de un procedimiento y un equipo para producir tarjetas catalográficas en forma masiva y correcta denominado Crossfiler, el cual era un procesador electrónico de datos que no llegaba a ser propiamente un computador, pero que por medio de cinta de papel perforada y una sofisticada máquina de escribir eléctrica Friden Flexowriter modificada como impresora, podía imprimir juegos de tarjetas gracias a un programa al efecto y el uso de “caracteres especiales” separadores de campos. Esas tarjetas sí tenían minúsculas, diacríticos, etcétera. El sistema había sido desarrollado como una propuesta para la biblioteca de un laboratorio de investigación de la Fuerza Aérea de Estados Unidos en Cambridge en forma experimental, y aunque funcionaba bien, era caro y muy complicado de utilizar, por lo cual nunca se popularizó. No obstante, ilustra perfectamente los intentos de esa época para producir tarjetas catalográficas de forma alternativa ante la deficiencia de las impresoras de esa época (Fasana 1963). En esos años, hubo otros intentos al respecto aprovechando que se desarrollaron máquinas de escribir eléctricas cuyos datos podían ser alimentados por medio de cinta de papel y producir diversos documentos con buena calidad; entre ellos, tarjetas catalográficas; por ejemplo, la máquina Dura Mach.
Otro de los temas críticos vigentes a principios de los sesenta debatido en la conferencia de 1963 fue el concepto del “tamaño de registro” para las bibliotecas. En ese entonces —y en numerosos sistemas esto sigue vigente hasta la fecha—, la construcción básica de un archivo o fichero de computadora consistía en algo así como una “tabla plana” formada por columnas y renglones. Cada renglón o “registro” contiene una unidad completa de información; por ejemplo: datos de una persona, datos de un libro, etcétera. Cada columna o “campo” contiene un dato de ese registro: si es de una persona, un campo será su nombre, otro campo su dirección, otro campo su teléfono, y otros más contendrán otros datos deseados por el desarrollador: escuela, número de identificación, código postal, fecha de nacimiento, etcétera, respectivamente, un campo para cada dato. Si un registro son los datos de un libro, como por ejemplo una ficha catalográfica, un campo será su clasificación, otro campo el autor, otro campo el título, otro más para la edición, otro para la serie, y así sucesivamente, un campo para cada parte de la ficha. Ahora bien, la dinámica de los archivos de computadora y de bases de datos implica establecer previamente la longitud de cada campo, cuya suma de implica la longitud total de cada registro, la cual será fija.
Conjunto total de los 48 caracteres BCDIC de las impresoras en 1960. |
Cinta de papel perforada, años sesenta. |
Hoja estándar de computadora de los setenta en forma continua de 15 x 11 pulgadas, 66 líneas, 132 columnas. |
Resultado de un minuto de impresión en la impresora IBM 1403, de 1400 líneas por minuto. 1960. © International Business Machine Corp. Imagen por cortesía de International Business Machines Corp. |
Máquina electromecánica “Crossfiller” para producir trajetas catalográficas. Nótese la cinta de papel que alimenta los datos a la máquina de escribir modificada. Ca. 1963. Dominio Público. |
Máquina de escribir Flexowriter eléctrica alimentada por cinta de papel (a la izquierda). Imprimía hasta 100 palabras por minuto, en mayúsculas y minúsculas. 1960 |
Máquina de escribir eléctrica “Dura Mach 10”, cuyos datos eran alimentados por una cinta de papel. Estas máquinas se usaron como impresoras de tarjetas catalográficas de calidad en los 60. |
Volviendo a un ejemplo de una persona, se puede especificar previamente que el campo “nombre” ocupa treinta caracteres, el campo “dirección” cuarenta caracteres, el campo “teléfono” ocupa diez caracteres, el campo “identificación” ocupa seis caracteres; el campo “código postal” ocupa cinco caracteres. En total, cada registro o renglón de este ejemplo ocuparía siempre, indefectiblemente, 91 caracteres, la suma de las longitudes de todos sus campos. Los caracteres no usados se quedan en blanco y son ociosos; si los datos para un campo son más largos, deben truncarse; solo cabe en él el máximo preestablecido. La computadora sabe así exactamente en cuál carácter comienza un cierto campo dentro de un registro: en el ejemplo anterior el nombre comenzará en el carácter número 1 del registro, la dirección comenzará en el carácter 31, el teléfono comenzará siempre en el carácter 71, y así sucesivamente. Una vez predefinido, un campo se encuentra siempre en la misma posición dentro de cada registro.
El problema surgió al intentar capturar fichas catalográficas en una estructura de este tipo: ¿Cuánto debe dársele de ancho de campo a un autor? Recordemos que, catalográficamente hablando, hay autores tan cortos como “Chan, Min” o “Platón” y otros tan largos como “Organización de las Naciones Unidas. Organización para la Alimentación y la Agricultura (FAO). Comisión de Recursos Genéticos para la Alimentación y la Agricultura”. Igualmente largo puede ser el nombre de una institución que organiza una conferencia o simposio. ¿Cuál es entonces una longitud adecuada a preestablecer para el campo “autor”?: ¿cien, ciento cincuenta, doscientos caracteres? ¿Cuánto es una longitud adecuada para el campo “título”? En este aspecto, también los hay desde los muy cortos, como She (Ella), de Rider Haggard, hasta otros tan largos como “Western Central Atlantic Fishery Commission: Report of the fifth session of the Scientific Advisory Group, Puerto Morelos, Mexico, 28-29 October 2011 = Rapport de la cinquième session du Groupe Scientifique Consultatif, Puerto Morelos, Mexique, 28-29 october 2011 = Informe de la quinta sesión del Grupo Asesor Científico, Puerto Morelos, México, 28-29 de octubre de 2011”. ¿La longitud de este campo debiese por tanto ser preestablecida en trescientos, cuatrocientos caracteres? Lo mismo hay que hacer para el pie de imprenta, y para la edición, que no siempre es solo un número; a veces, puede llegar a decir: “cuarta edición, ampliamente corregida y aumentada, y profusamente ilustrada”; para la serie, el ISBN, los encabezamientos de materia, los asientos secundarios, etcétera. Si se considera que además algunos campos pueden repetirse: materias, coautores, etcétera, la ficha puede hacerse sumamente larga. Si se preestablecen anchos de campo holgados, donde quepan hasta los descriptores más largos, la suma de los campos de una sola ficha catalográfica —que en su extensión normal ocuparía unos 300 caracteres— podría llegar a medir fácilmente dos mil caracteres en un registro de longitud fija. Esto implica que cada ficha capturada ocupará un registro o renglón de esa dimensión, donde además la mayor parte de ese espacio quedará en blanco y por tanto desperdiciado. Si se determinan campos más angostos, digamos cincuenta caracteres para los más largos, se reducirá enormemente el tamaño del registro pero implicará que todos los campos que excedan esa dimensión quedarán truncados, algo inaceptable desde el punto de vista catalográfico.