Description (en)
All we know about predicting our digital future is based on our past, a review of which reveals a remarkable truth dating from the beginning of the digital era: plain text is a versatile and lossless format that is just as readable with today's computers as it was 30 years ago. Compared to the fonts, colors, point sizes, and graphics available in contemporary formats, plain text may look dull and dry, but in fact this "desiccated data" successfully represents all the protocols that built the Internet.
Moreover, it is hard to imagine its not being nominated as the most likely current format to be readable 30 years from now. A proposed strategy for preserving today's web formats is to go ahead and save the original format, but also to automatically derive and save various "desiccated" versions that, while failing to capture all the original format's richness, nonetheless capture its essential nutrient value. In the case of a document, saving a plain text format version alongside the original would provide a fall back in case the original format failed. One never knows if there will ever be money enough to touch a preserved object again, let alone migrate its format. The effort and storage for a derived plain text version is often needed anyway to support search indexing.
Generalizing, the lesson appears to be that the simpler technological intermediation required to render the digital object for the user, the easier it is to reproduce that intermediation, hence to carry forward the object. Along these lines, the image format analog of plain text file might be a basic raster file, in which the array of pixels (picture elements) could be seen to mimic ancient weaving technology. It may be that adding the complication of a simple run-length encoding compression would be worth the space savings. A strategy for deriving and saving raster images of original documents rendered with today's software has two advantages: we will never have better rendering tools for today's formats than today (with all the features and error-compensation that make malformed format instances -- very common -- renderable) and it provides an additional fall back in case the original and the plain text fail. This is something we can do for preservation today that we may never have the money or the knowledge to do in the future.
Description (de)
Unser heutiges Wissen über die digitale Zukunft basiert auf der Vergangenheit; betrachtet man diese Vergangenheit, so enthüllt sich eine bemerkenswerte Wahrheit, die bis in die Anfänge des digitalen Zeitalters zurückreicht: einfacher Text ("plain text") ist ein vielseitiges und verlustfreies Format, das mit heutigen Computern noch genauso lesbar ist wie es vor 30 Jahren war. Im Vergleich zu den Zeichensätzen, Farben, Schriftgrößen und Grafiken, die in den heutigen Formaten zur Verfügung stehen, mag reiner Text langweilig und trocken wirken, tatsächlich stellen diese "desiccated data" erfolgreich alle Protokolle dar, die das Internet aufbauen.
Darüber hinaus ist es schwer vorstellbar, dass dieses Format nicht auch dasjenige ist, das am ehesten in 30 Jahren noch lesbar sein wird. Eine mögliche Maßnahme für die Erhaltung der heutigen Internetformate ist, die Originalformate zu archivieren aber gleichzeitig automatisch "desiccated" Versionen zu erzeugen und zu speichern, die zwar nicht die Fülle des Originalformats, wohl aber seinen essentiellen Nährwert erfassen können. Im Falle eines Dokuments würde die parallele Speicherung eines "plain text" Formats neben dem Originalformat eine Sicherung bieten, falls das Originalformat nicht mehr lesbar ist. Niemand weiß heutzutage, ob jemals genug Geld zur Verfügung stehen wird, um die einmal archivierten Objekte je wieder anzufassen oder sie gar in ein neues Format zu migrieren. Der Aufwand für die Erstellung und der Speicherplatz für die "plain text" Version wird oft sowieso benötigt, um den Aufbau eines Suchindex zu unterstützen.
Im allgemeinen scheint die Lehre zu sein, dass, je einfacher die benötigte technologische Vermittlung zur Präsentation eines digitalen Objektes für die NutzerInnen ist, desto einfacher ist es, diese Vermittlung zu reproduzieren und damit das Objekt nutzbar zu halten. Dieser Argumentation folgend, könnte das Bildformat, analog zu dem einfachen Text, eine Rasterdatei sein, in der die Anordnung der Pixel (Bildelemente) alte Webtechniken imitiert.
Möglicherweise würde sich der Aufwand lohnen, dadurch Platz zu sparen, indem eine einfache Komprimierung durch Kodierung gleicher Werte durchgeführt wird. Eine Strategie zur Erzeugung und Speicherung von Rasterbildern aus den Bildern, die mit der heutigen Software aus den Originaldokumenten dargestellt werden, bietet zwei Vorteile: Wir werden nie bessere Darstellungswerkzeuge für die heutigen Formate besitzen (mit all den Einstellungen und Fehlerkorrekturen, die die Darstellung fehlerhafter Objekte, wie sie häufig vorkommen, ermöglichen) und es bietet eine zusätzliche Sicherung, falls das Original und die "plain text" Version nicht mehr darstellbar sind. Dies sind Maßnahmen für die digitale Langzeitarchivierung, die wir heute durchführen können, für die wir in der Zukunft jedoch vielleicht nie das Geld oder das Wissen haben werden.