Wie viel sind eigentlich 20 Petabyte?

Wir freuen uns besonders, heute einen Gastbeitrag von Prof. Christian Bauckhage (Fraunhofer IAIS) bei uns veröffentlichen zu dürfen!
Grundsätzlich sind wir immer an Beiträgen von Gastautoren interessiert, die unseren Blog bereichern. Sollten Sie Lust haben, bei uns mit zu schreiben, können Sie sich gerne jederzeit an uns wenden.


Wie viel sind eigentlich 20 Petabye?

In Bezug auf die technischen Voraussetzungen zur Verarbeitung der riesigen Datenmengen, die im Internet verfügbar sind, ist Google zurzeit sicherlich das Maß aller Dinge. Zwar hält sich der Konzern eher bedeckt, wenn es um technische Interna geht, dennoch weiß man, dass Google täglich mindestens 20 Petabyte verarbeitet[1]

Was ist ein Petabyte?

Das Byte ist die grundlegende Maßeinheit für Datenmengen. In der üblichen ASCII Kodierung braucht man ein Byte, um ein alphanumerisches Zeichen (einen Buchstaben, eine Ziffer oder ein Satzzeichen) zu  speichern. Zum Beispiel entspricht eine SMS mit 160 Zeichen in dieser Terminologie einer Datenmenge von 160 Byte. Datenmengen, die sich bequem in einzelnen Bytes messen lassen, gelten nach heutigen Standards als klein. Es ist daher nicht verwunderlich, dass es weitere Maßeinheiten gibt, um größere Datenmenge zu messen: 1000 Byte heißen ein Kilobyte, 1000 Kilobyte heißen ein Megabyte, 1000 Megabyte heißen ein Gigabyte und 1000 Gigabyte heißen ein Terabyte (Anmerkung der Redaktion: Diese Rechnungen basieren auf dem Dezimalpräfix). Diese Begriffe sind uns geläufig; wir kennen sie von unseren heimischen PCs oder Laptops, deren Arbeitsspeicher sich mittlerweile in Gigabyte bemisst, und deren Festplatten oft eine Kapazität von einigen Terabyte haben.

Berechnung auf Basis des Dezimalpräfixes

Das Ende der Skala ist damit aber noch nicht erreicht: 1000 Terabyte werden ein Petabyte genannt, 1000 Petabyte sind ein Exabyte und 1000 Exabyte heißen ein Zettabyte. Zwar geht es uns in diesem Essay in erster Linie um den Begriff des Petabytes, dennoch lohnt es sich hier anzumerken, dass die Menschheit gerade in Begriff ist, in das Zettabyte Zeitalter einzutreten. Es gibt Schätzungen, wonach die Gesamtmenge der im Internetverfügbaren Information in diesem Jahr (2010) erstmals die Grenze von einem Zettabyte überschreiten wird[2]

Wie können wir uns 20 PB veranschaulichen?

Wenn Google pro Tag also 20 Petabyte verarbeitet, entspricht dies einer Menge von 20×10^15 = 20.000.000.000.000.000 oder 20 Billiarden Zeichen. Bei so vielen Nullen wird uns zu Recht schwindelig und wir fragen uns, wie wir uns solche Zahlen vorstellen können. Ein beliebter Trick besteht darin, eine “greifbare” Entsprechung für solche Informationsmengen zu finden, etwa indem man ausrechnet, wie viele Din A4 Seiten oder wie viele Ausgaben des Telefonbuchs von Berlin man mit 20 Petabyte füllen könnte. Um es kurz zu machen, mit derartigen Metaphern wäre uns hier auch nicht wirklich geholfen, denn die Zahl der Nullen würde sich dabei nur unwesentlich verringern. Im Folgenden betrachten wir daher ein größeres Telefonbuch sowie ein etwas moderneres Speichermedium als Papier, um 20 Billiarden Zeichen “begreifbar” zu machen. Laut CIA factbook[3] gibt es in Deutschland etwa 51.500.000 Festnetzanschlüsse. Wenn wir annehmen, dass ein Telefonbucheintrag world-factbook/(Name und Telefonnummer) im Schnitt 18 Zeichen lang ist, finden wir, dass das Telefonbuch von ganz Deutschland51.500.000 _ 18 B = 927.000.000 B = 927 MB _ 1 GB groß ist.

Das erscheint in der Tat als eine gute Schätzung, denn die Deutsche Telekom vertreibt das deutsche Telefonbuch auf einer handelsüblichen CD. Nun kann man zwar kein ganzes Gigabyte auf einer CD speichern und die Telekom wird sicher Kompressionstechniken verwenden, um das Telefonbuch auf der CD unterzubringen, aber wir nehmen der Einfachheit halber an, eine CD entspräche einer Speicherkapazität von einem Gigabyte. Dann ergibt sich, dass20 PB = 20.000 TB = 20.000.000 GB _ 20.000.000 CDs, und wir erkennen, dass Google am Tag eine Datenmenge verarbeitet, die auf 20 Millionen CDs gespeichert werden müsste. Zwar sind uns Millionen schon geläufiger als Billiarden, trotzdem liegt auch diese Zahl noch jenseits unserer Alltagserfahrung. Da CDs aber “greifbar” sind, lässt sich unser Beispiel noch weiterführen. Wenn wir annehmen, dass eine CD Hülle ungefähr die Ausmaße10 cm_10 cm_0.5 cm hat, können wir 20 Petabyte in Längen und Volumina “umrechnen”. Würden wir 20.000.000 CDs aufeinanderstapeln, ergäbe sich ein Turm der Höhe10.000.000 cm = 100 km was etwa der Entfernung zwischen Köln und Dortmund entspricht! Das Volumen von 20.000.000 CDs hingegen entspricht “nur” 1.000Kubikmetern. Das erscheint uns schon eher als eine alltägliche Größe. Dieser Eindruck mag allerdings täuschen. Zum Beispiel ließen sich derart viele CDs nicht in einer 80 m2 Wohnung mit 3 m Deckenhöhelagern! In der Tat bräuchten wir mehr als vier solcher Wohnungen, um 20 Millionen CDs unterzubringen, denn1.000 m3 > 4 _ (80 m2 _ 3 m) = 960 m3.Da CDs sicher nicht mehr die allerneueste Speichertechnologiedarstellen, fragen wir zum Abschluss noch, was wäre wenn wir 20Petabyte auf USB Stücks von je 4 Gigabyte speichern wollten? Nun, dazu bräuchten wir immer noch 5.000.000 Stück! Nach diesen Beispielen ist es nicht mehr überraschend, dass Google zur Verarbeitung all seiner Datenbestände weltweit riesige Serverfarmen mit jeweils mehreren tausend Computern unterhält. Wiegesagt, in Bezug auf die Infrastruktur zur Verarbeitung moderner Datenmengen ist der kalifornische Konzern zurzeit wohl das Maß aller Dinge.


[1] J. Dean and S. Ghemawat. MapReduce: Simplified Data Processing on Large Clusters. Comm. of the ACM, 51(1):107–

113, 2008

[2] D. Reinsel et al. IDC Whitepaper: TheExpanding Digital Universe. Technical report, IDC, 2007

[3] https://www.cia.gov/library/publications/the world-factbook/

Von | 2010-07-29T11:50:43+00:00 29. Juli 2010|Kategorien: Allgemein|Tags: , , , , , , , , , , |

Über den Autor:

3 Kommentare

  1. sabinehaas 29. Juli 2010 um 12:18 Uhr

    Dieser Artikel macht eigentlich recht deutlich, das zwar alles drin ist im Netz, aber es nicht leicht ist, es da heraus zu bekommen. Die alte These “Forschung im Internet ist billig und schnell” ist inzwischen längst überholt. Bei der Komplexität der Anforderungen und der Flut der Informationen ist es längst nicht mehr trivial, das Netz auf Erkenntnisse hin zu durchforsten. Und es ist auch nicht trivial, zu Ableitungen zu kommen, die nicht fürchterlich selbstverständlich sind.

    Derzeit wollen alle auf den virtuellen Plattformen Geld verdienen, die meisten ohne finanzielles Risiko. Das wird nicht so bleiben können. Möchte man ernsthaft Erfolge im Internet generieren, dann wird man sich mit dem Verhalten und der Struktur der User auseinandersetzen müssen. – Und zwar in Form von ernster Marktforschung.

  2. Bracht 2. August 2010 um 9:29 Uhr

    Prof. Dr. Gisela Schmalz hat zum Thema Internetwirtschaft auch ein interessantes Buch geschrieben – “No Economy – Wie der Gratiswahn das Internet ruiniert”. Das Nutzerverhalten ist hauptsächlich auf Gratis, Kostenlos, Freeware und ähnliche Begriffe geprägt. Imho verhält es sich so, dass dringend mehr investiert werden muss um diesen riesigen Datenstrom in geregelte Bahnen zu lenken, denn ich wette mein gesamtes Hab und Gut, dass mindestens 20% Redundanz in diesen 20 Petabyte vorhanden sind.
    Langer Komment – komprimierter Sinn: 20 Petabyte ist zuviel, mit der Hälfte und mehr wirtschaftlicher Linie wäre die Nutzungseffektivität deutlich erhöht.

  3. […] Nicht einmal Google schafft es, das Netz lückenlos zu durchsuchen. Die Datenmenge ist einfach zu groß. Daher müssen Sie als Kunden zum einen transparente Information darüber haben, wo gesucht wird, […]

Hinterlassen Sie einen Kommentar