Dateiformate, Schnittstellen, Speichermedien & Distributionswege

Jahr	Datenmenge	Kontext
100.000 v. u. Z.	0	Erste Menschen, nur Sprache
3.000 v. u. Z.	~wenige KB	Keilschrift, Hieroglyphen
1450	~wenige GB	Gutenberg, Buchdruck
1986	2,6 EB	99% analog (Bücher, Vinyl, VHS)
2007	295 EB	94% digital
~2025	~175–181 ZB	Prognose (IDC DataSphere Forecast, 2021)

Jahr	Analog	Digital	Digital-Anteil
1986	2,6 EB	0,02 EB	1%
2002	—	—	50% (Wendepunkt)
2007	18 EB	277 EB	94%

Medium	Kosten/TB	Lebensdauer	Energiebedarf
SSD	~50 €	5–10 Jahre	Dauerstrom
HDD	~15 €	3–5 Jahre aktiv	Dauerstrom
LTO-9	~5 €	30+ Jahre	Nur beim Zugriff

Bandbreite	MB/s	1 GB Film
16 Mbit/s (ADSL)	2 MB/s	~8 Min
50 Mbit/s (ADSL)	6,25 MB/s	~2,7 Min
150 Mbit/s (ADSL)	18,75 MB/s	~54 Sek
1 Gbit/s (Glasfaser)	125 MB/s	~8 Sek

Bandbreite	Download	Upload
16 Mbit/s DSL	16 Mbit/s	1 Mbit/s
50 Mbit/s DSL	50 Mbit/s	10 Mbit/s
150 Mbit/s DSL	150 Mbit/s	40 Mbit/s
Glasfaser (FTTH)	1 Gbit/s	1 Gbit/s

Bittiefe	Stufen	Dynamikumfang
8 Bit	256	~48 dB
16 Bit (CD)	65.536	~96 dB
24 Bit (Studio)	16.777.216	~144 dB

Inhalt	Unkomprimiert
1 Song (4 Min)	~42 MB
1 Album (60 Min)	~635 MB
10.000 Songs	~420 GB

	Apollo (1969)	Artemis II (2026)
Bandbreite	~50 kbit/s	260 Mbit/s
Video	SW, ~320 Zeilen	HD live, 4K gespeichert
Codec	analog	H.265 (HEVC)

Medium	Unkomprimiert	Komprimiert	Faktor
1 Song (4 Min)	~42 MB	~4 MB (MP3 128)	~10×
1 Foto (12 MP)	~36 MB	~3 MB (JPEG)	~12×
1 Min 4K-Video	~45 GB	~375 MB (H.264)	~120×

	Verlustfrei (Lossless)	Verlustbehaftet (Lossy)
Prinzip	Redundanz entfernen	Irrelevanz entfernen
Reversibel	Ja	Nein (Information unwiederbringlich verloren)
Reduktion	30–50%	80–99%
Formate	ZIP, PNG, FLAC, GIF, ...	JPEG, MP3, H.264/H.265, ...

Zeichen	Byte
`Hello·`	6 × 1 = 6 Byte (ASCII)
`🌸`	4 Byte (Emoji)
`·`	1 Byte
`こんにちは`	5 × 3 = 15 Byte (Hiragana)
`·(Kon-ni-chi-wa)`	16 Byte (ASCII)

Kontext	Beispiel
CSS-Farben	`#FF5733`
MAC-Adressen	`00:1A:2B:3C:4D:5E`
Fehlercodes	`0x80070005`
Speicheradressen	`0xA04F20`
Unicode	`U+00E4` (ä)
Datei-Signaturen	`89 50 4E 47` (PNG)

Einheit (Bit)	Einheit (Byte)
1 Kbit = 1.000 Bit	1 KB = 1.000 Byte = 8.000 Bit
1 Mbit = 1.000.000 Bit	1 MB = 1.000.000 Byte = 8 Mbit
1 Gbit = 1 Mrd. Bit	1 GB = 1 Mrd. Byte = 8 Gbit

Binär	Hex	Dez	ASCII
`1000 1001`	`89`	137	✗ (> 127)
`0101 0000`	`50`	80	P
`0100 1110`	`4E`	78	N
`0100 0111`	`47`	71	G

Format	Magic Number (Hex)	Lesbar?
PNG	`89 50 4E 47`	✗ P N G
JPEG	`FF D8 FF`	✗ ✗ ✗
PDF	`25 50 44 46`	% P D F ✓
ZIP	`50 4B 03 04`	P K ✗ ✗

Einheit	Bytes	Potenz	Beispiel
Byte	1	10⁰	Farbwert eines Pixels
Kilobyte (KB)	1.000	10³	Kleiner Programmcode
Megabyte (MB)	1 Million	10⁶	Textdokument
Gigabyte (GB)	1 Milliarde	10⁹	Kinofilm in FullHD
Terabyte (TB)	1 Billion	10¹²	~12h Video in 4K
Petabyte (PB)	1 Billiarde	10¹⁵	Netflix-Gesamtarchiv
Exabyte (EB)	1 Trillion	10¹⁸	Alle E-Mails weltweit/Tag
Zettabyte (ZB)	1 Trilliarde	10²¹	Globale Datenmenge 2025

Bereich	AI-Anteil
Neue Webseiten	~74% enthalten AI-Content
Web-Text gesamt	~30–40% AI-generiert
Neue Artikel	~52% von AI geschrieben
Social-Media-Bilder	~71% AI-generiert

Medium	Typische Auflösung	Dynamik
Vinyl (audiophil)	~20–20.000 Hz	~70 dB
Tonband (Studio)	~30–15.000 Hz	~55 dB
35mm Film	~4K-äquivalent	~13 Blendenstufen

Vorteile	Nachteile
Kein Abspielgerät nötig (Buch, Foto)	Qualitätsverlust bei jeder Kopie
Haptisches Erlebnis	Physischer Verschleiß
Unabhängig von Strom/Internet	Begrenzte Haltbarkeit
Keine Formatkonvertierung	Platzbedarf bei Lagerung
Eindeutiges Original	Aufwendige Durchsuchbarkeit

Aspekt	Analog	Digital
Kopiervorgang	Physikalischer Prozess	Bit-Kopie
Qualität pro Generation	Verschlechtert	Identisch
Fehlerkorrektur	Unmöglich	Möglich (ECC, RAID)
Formatmigration	Verlust	Verlustfrei möglich

Szenario	Empfehlung	Grund
Betriebssystem	NVMe SSD	Geschwindigkeit
Videoarchiv	HDD	Kapazität/Preis
Langzeitarchiv	LTO + M-DISC	Lebensdauer
Austausch	USB/SD	Portabilität

Inhalt	Größe	Problem (1990er)
1 Song (4 Min)	~42 MB	Ausreichend Speicher
1 Album (60 Min)	~635 MB	Gesamte Festplatte

Bittiefe	Stufen	Dynamikumfang
8 Bit	256	~48 dB
16 Bit (CD)	65.536	~96 dB
24 Bit (Studio)	16.777.216	~144 dB

Dimension	Was bedeutet es?	CD-Qualität
Abtastrate (Sample Rate)	Messungen pro Sekunde (horizontal)	44.100 Hz
Bittiefe (Bit Depth)	Genauigkeit pro Messung (vertikal)	16 Bit

Parameter	Reduzieren →	Konsequenz
Abtastrate	Weniger Messpunkte/Sek	Max. Frequenz sinkt
Bittiefe	Weniger Lautstärkestufen	Mehr Rauschen
Kanäle	Mono statt Stereo	Kein Raumklang

Methode	Reduzieren →	Konsequenz
Psychoakustik	Unhörbare Frequenzen	Kaum wahrnehmbar

Bitrate	Qualität	Kompression
128 kbps	Hörbar schlechter	~11x
192 kbps	Akzeptabel	~7x
256 kbps	Gut	~5,5x
320 kbps	"CD-Qualität"	~4,4x

- Exponentielles Wachstum: Verdopplung alle ~2 Jahre - 1986: Letzte Ära mit analoger Dominanz - 2002: Wendepunkt — erstmals mehr digital als analog (Hilbert & López, Science 332, 2011) - 2007: 94% digital (ebd.) - ~175–181 ZB für 2025: IDC-Prognose von 2021, keine gemessene Zahl

KLAUSURRELEVANT: - Wendepunkt 2002 - Speichereinheiten (KB→MB→GB→TB→PB→EB→ZB) - Magnetband als Archivmedium QUELLE: Hilbert & López (2011): "The World's Technological Capacity to Store, Communicate, and Compute Information", Science 332(6025), 60–65. DOI: 10.1126/science.1200970 METHODIK: 60 analoge + digitale Technologien untersucht (1986–2007) ANALOG damals: Bücher, Zeitungen, Vinyl, VHS, Filmrollen, Fotos DIGITAL damals: Festplatten, CDs, DVDs, frühe Flash-Speicher LTO-9 (2021): 18 TB pro Band, ~5€/TB für Cold Storage SSD: ~50€/TB, HDD: ~15€/TB, LTO: ~5€/TB

- Quelle: IDC Global DataSphere Forecast 2021–2025 — Prognose, keine gemessene Zahl - Tatsächlich gemessen 2024: ~149 ZB (IDC) - IoT-Geräte allein: prognostiziert ~73 ZB in 2025 (IDC) - Prognose 2028: ~394 ZB (IDC)

- "Ein Dateiformate sticht hier heraus ... .txt" - Hilbert & López (Science 332, 2011): 60 Technologien untersucht, 1986–2007 - Wendepunkt 2002: erstmals mehr digital als analog gespeichert - 2007: 94% aller gespeicherten Information bereits digital - IDC DataSphere Forecast (2021): Prognose ~181 ZB produziert/repliziert für 2025

- Hilbert & López (Science 332, 2011): 60 Technologien untersucht, 1986–2007 - Wendepunkt 2002: erstmals mehr digital als analog gespeichert - 2007: 94% aller gespeicherten Information bereits digital - IDC DataSphere Forecast (2021): Prognose ~181 ZB produziert/repliziert für 2025

- Internetanbieter werben in Mbit/s, Dateien werden in MByte angegeben - Formel: Mbit/s ÷ 8 = MB/s - 100 Mbit/s verfügbar für >93% der deutschen Haushalte (Bundesnetzagentur, Breitbandatlas, Stand Ende 2023) - Gigabitversorgung (alle Technologien) Ende 2024: ~78% der Haushalte (Bundesnetzagentur, Dez. 2024)

250 Megabit/s / 8 Bit * 60 = 31,25 MB/s * 60 = 1875 MB/Minute = ~ 2GB pro Minute

- ADSL (Asymmetric Digital Subscriber Line, ITU = International Telecommunication Union, Norm G.992.1, 1999): Upload bewusst begrenzt — Annahme war, Nutzende konsumieren mehr als sie produzieren - FTTH = Fiber To The Home (Glasfaser bis in die Wohnung) - Glasfaser (FTTH) symmetrisch: Upload = Download - FTTH-Verfügbarkeit Deutschland Ende 2024: ~40% der Haushalte (Bundesnetzagentur, Breitbandatlas) - EU-Schnitt FTTH 2024: ~56% (FTTH Council Europe)

- Schall = Druckschwankungen in Luft, kein Lufttransport sondern Druckvariation - Kontinuierlich = unendlich viele Zwischenwerte, keine Stufen - Vinyl hat keine Abtastrate — analoge Speicherung kennt keine Diskretisierung - Rillengeometrie: die Tiefe und Kurve der Rille entspricht direkt der Amplitude der Schallwelle

- Nyquist-Shannon-Abtasttheorem (1928/1949): Harry Nyquist (Bell Labs), Claude Shannon (Bell Labs) - 44.100 Hz: Kompromiss aus Nyquist-Limit + Kompatibilität mit Videoequipment der frühen 1980er (NTSC = National Television System Committee / PAL = Phase Alternating Line — die damaligen Fernsehstandards in USA bzw. Europa) - Hz = Hertz: Einheit für Frequenz, benannt nach Heinrich Hertz (1857–1894), 1 Hz = 1 Schwingung pro Sekunde

- Dynamikumfang Formel: ~6 dB pro Bit - 16 Bit reicht für menschliches Hören unter realen Bedingungen (~80–90 dB) - 24 Bit im Studio: mehr Headroom für Bearbeitung, kein perzipieller Mehrwert für Endnutzende (Meyer & Moran, JAES 2007) - dB = Dezibel: logarithmische Einheit für Lautstärke

- DAC = Digital-Analog-Converter (Deutsch: Digital-Analog-Wandler) - Jedes Abspielgerät enthält einen DAC: Smartphone, Laptop, HiFi-Verstärker - Die Rekonstruktion ist keine identische Kopie der Originalwelle — Nyquist-Theorem definiert die theoretische Grenze - Hochwertige DACs sind ein eigenes Produktsegment (HiFi, Profi-Audio)

BEGRIFFE: - 44.100 Messungen/Sekunde = Abtastrate (Sample Rate): Wie oft pro Sekunde wird die Schallwelle gemessen/abgetastet. Einheit: Hz (Hertz). 44.100 Hz = 44,1 kHz. - 16 Bit pro Messung = Bittiefe (Bit Depth): Wie fein wird jede einzelne Messung aufgelöst. 16 Bit = 2¹⁶ = 65.536 mögliche Lautstärkestufen. - 2 Kanäle (Stereo): Links und rechts getrennt gespeichert. Mono = 1 Kanal, Stereo = 2 Kanäle. RECHNUNG: 44.100 × 16 × 2 = 1.411.200 Bit/Sekunde = 176.400 Byte/Sekunde ≈ 10,3 MB/Minute - CD (1982, Sony/Philips): erstes massenmarktfähiges digitales Distributionsmedium für unkomprimiertes PCM-Audio - PCM (Pulse-Code Modulation) existierte bereits vorher: NHK (Nippon Hōsō Kyōkai = japanische öffentlich-rechtliche Rundfunkanstalt)-Forschung ab 1960er, digitale Studiogeräte ab 1970er - Die CD war nicht das erste digitale Audio — aber das erste das in KonsumentInnen-Hand landete

_class: erklaerung # CD-Audio – Vertiefung Die CD (1982) war nicht das erste digitale Audiomedium — PCM-Aufnahmen existierten seit den späten 1960ern in Tonstudios (u.a. NHK, Nippon Columbia). Die CD war das erste **massenmarktfähige** digitale Distributionsmedium für unkomprimiertes Audio in KonsumentInnen-Hand. **Warum 44.100 Hz?** Kombination aus Nyquist-Limit (2× 20 kHz = 40 kHz Minimum) und Kompatibilität mit Videobandgeräten, die in frühen digitalen Tonstudios als Speichermedium genutzt wurden. NTSC: 3 Samples × 245 Zeilen × 60 Felder = 44.100. PAL: 3 Samples × 294 Zeilen × 50 Felder = 44.100. **Warum 16 Bit?** 96 dB Dynamikumfang übersteigt den des menschlichen Gehörs unter realen Hörbedingungen (~80–90 dB). Kompromiss zwischen Qualität und Speicherbedarf auf der physischen Disc. ---

- Ein Album hätte eine komplette Festplatte gefüllt - 56k-Modem: theoretisch 56 kbit/s = 7 KB/s → 42 MB Song = ~100 Minuten Download - Erstes kommerziell erhältliches 1-GB-Laufwerk: IBM 3380 (1980), Größe eines Kühlschranks, ~$40.000 - Consumer-Festplatten 1990: Seagate ST-251 (40 MB), ~$200

- Netflix, YouTube, Streaming — nichts davon wäre ohne Kompression möglich - Blu-ray (2006): max. 50 GB Kapazität — reicht nicht einmal für 2 Minuten unkomprimiertes 4K - Tatsächliche 4K-Blu-ray nutzt H.265 (HEVC): ~75–100 Mbit/s → ~2h Film passt auf eine Disc

- Übertragung per Infrarot-Laser: O2O (Orion Artemis II Optical Communications) - MAScOT-Terminal: entwickelt von MIT Lincoln Lab - 32 Kameras an Bord (Nikon D5/Z9, GoPros, Redwire 4K-Festkameras) - ZCube-Encoder kodiert H.265 an Bord - Bandbreite geteilt mit Telemetrie und Voice — live daher "nur" HD, 4K kommt auf CompactFlash-Karten nach Splashdown - Latenz Mond ↔ Erde: ~1,3 Sekunden (384.400 km) - Apollo: S-Band Radio, Artemis II: Infrarot-Laser

- Diese Faktoren sind keine Ausnahmen, sondern die Norm - Ohne Kompression: kein Streaming, keine Smartphones, keine sozialen Medien - Die Frage ist nicht ob, sondern wie komprimiert wird

Was ist überhaupt KOMPRESSION? - Luftdruck in Auto/Fahrradreifen - LNG Flüssiggas - Tripsdrill, Disneyland - Oper/Theater/Telenovela - Cola Sirup für den Sodastream

- Run-Length Encoding (RLE): einfachste Form der verlustfreien Kompression - Prinzip: Muster erkennen, kompakter darstellen - Gut bei strukturierten Daten (Text, einfache Grafiken) - Schlecht bei "chaotischen" Daten (Fotos, Audio) — dort kaum Wiederholungen

- Zentrale Idee hinter MP3, JPEG, H.264 - Nicht die Daten selbst reduzieren — das wäre bloßer Qualitätsverlust - Sondern gezielt das entfernen, was Menschen nicht wahrnehmen - Psychoakustik (Audio) / Psychovisualität (Bild) als wissenschaftliche Grundlage

REDUNDANZ: Wiederholende Muster kompakter darstellen (z.B. "AAAA" → "4×A") IRRELEVANZ: Für Menschen nicht wahrnehmbar (Psychoakustik, Psychovisuell) KLAUSURRELEVANT: - Verlustfrei = Original 1:1 wiederherstellbar - Verlustbehaftet = Information geht verloren, aber kaum wahrnehmbar - Redundanz vs. Irrelevanz ist der Kernunterschied

--- _class: erklaerung # Kompression – Vertiefung Claude Shannon definierte 1948 die **Entropie** als theoretische Untergrenze der Kompression. Ein Text mit gleichmäßiger Zeichenverteilung hat hohe Entropie (schwer komprimierbar); repetitive Texte haben niedrige Entropie. **Verlustfreie Kompression** erreicht diese Grenze durch: - **Statistische Kodierung:** Huffman, Arithmetic Coding - **Wörterbuch-Methoden:** LZ77, LZ78, DEFLATE (ZIP, PNG, TAR) - Originalzustand ist exakt rekonstruierbar **Verlustbehaftete Kompression** unterschreitet die Grenze, indem sie menschliche Wahrnehmungsgrenzen ausnutzt: | Sinneskanal | Psychophysisches Modell | Ausnutzung | |-------------|------------------------|------------| | Gehör | Maskierungseffekte, Hörschwelle | MP3: Töne unter Maskierungsschwelle weglassen | | Sehen | Farbauflösung, Kontrastempfindlichkeit | JPEG: Chroma-Subsampling, hohe Frequenzen verwerfen | **Shannon-Limit:** Verlustfreie Kompression ist durch Entropie begrenzt; Verlustbehaftete Kompression kann beliebig weit gehen — auf Kosten der Qualität. ABKÜRZUNGEN: - LZ77 = Lempel-Ziv 1977 — Sliding-Window: sucht Wiederholungen in einem Fenster der letzten Bytes, ersetzt durch Rückverweise (Offset + Länge) - LZ78 = Lempel-Ziv 1978 — baut explizites Wörterbuch auf: neue Muster bekommen Index, Wiederholungen werden durch Index ersetzt - DEFLATE = Kombination LZ77 + Huffman-Coding; verwendet in ZIP, PNG, gzip - TAR = Tape ARchive — kein Kompressionsformat, sondern Archivformat. Kompression durch Kombination: .tar.gz (gzip), .tar.bz2 (bzip2), .tar.xz (LZMA) - ZIP = Archivformat mit eingebauter DEFLATE-Kompression (Phil Katz, 1989) - PNG = Portable Network Graphics — nutzt DEFLATE für verlustfreie Bildkompression STATISTISCHE KODIERUNG: - Huffman-Coding: Häufige Zeichen → kurze Bitfolgen, seltene Zeichen → lange Bitfolgen - Arithmetic Coding: Kodiert gesamte Nachricht als einzelne Zahl zwischen 0 und 1. Effizienter als Huffman, rechenintensiver ENTROPIE (Shannon, 1948): - Maß für den Informationsgehalt: Wie "überraschend" ist jedes Zeichen? - Hohe Entropie = schwer komprimierbar (verschlüsselte Daten, Rauschen) - Niedrige Entropie = gut komprimierbar ("AAAAAAA", natürliche Sprache) - Theoretisches Minimum: kein Algorithmus kann unter die Entropie-Grenze kommen PRAXISBEISPIEL: - ZIP einer .txt-Datei: ~60–70% kleiner (Text hat niedrige Entropie) - ZIP einer .jpg-Datei: kaum kleiner (JPEG hat Entropie schon ausgereizt)

Bit = Binary Digit Demonstration: Glühbirne AN/AUS = 1 Bit

- BIT = Binary Digit (Binärziffer) — Begriff geprägt von John W. Tukey, 1947; popularisiert durch Claude Shannon, 1948 - Shannon begründete die Informationstheorie (Bell Labs) - Warum binär? Elektronische Schaltungen haben physikalisch stabile 2 Zustände: Strom/kein Strom - Transistoren in modernen CPUs: Apple M4 ~28 Milliarden Transistoren, schalten Milliarden Mal pro Sekunde

BYTE = Wortspiel aus "Bit" + "Bite" (Bissen) — ein "Bissen" Information Begriff geprägt von Werner Buchholz (IBM), 1956, während der Entwicklung des IBM 7030 Stretch Schreibweise mit "y" statt "i": bewusste Änderung zur Vermeidung von Verwechslung mit "Bit"

binary 00101010 = decimal 42 Rätsel: "Wenn sich das Wachstum einer Seerose auf einem Teich jeden Tag verdoppelt · und nach *zehn Tagen* der ganze Teich bedeckt ist, wann ist er zur Hälfte zugewachsen?"

- 1964: IBM System/360 setzte den 8-Bit-Byte-Standard — vorher: 6-Bit und 7-Bit-Systeme im Einsatz - ASCII (1963) brauchte 7 Bit für 128 Zeichen - 8 Bit = praktisch für Hardware (Zweierpotenz: 2³ = 8) - 8 Bit = 2 Hexadezimalziffern (elegante Darstellung) - Kleinste adressierbare Einheit im Speicher: Prozessor kann nicht einzelne Bits direkt ansprechen, immer Bytes 1 Bit = 2 Zustände 2 Bit = 4 Zustände 3 Bit = 8 Zustände 4 Bit = 16 Zustände 5 Bit = 32 Zustände 6 Bit = 64 Zustände 7 Bit = 128 Zustände 8 Bit = 256 Zustände

256 Graustufen: 0 = Schwarz, 255 = Weiß

Zoom auf die 16 hellsten Abstufungen (240–255) Jede Stufe = 1/255 ≈ 0,4% Helligkeitsunterschied Decimal + Hex labels zeigen: jede Stufe ist ein eigener Byte-Wert

- 256 = die "magische Zahl" bei 8 Bit - Für Farbbilder: 3 Bytes pro Pixel (R, G, B) - Jeder Kanal 0–255 → 256³ = 16.777.216 Farben ("True Color") - Das menschliche Auge kann ca. 10 Millionen Farben unterscheiden (Schnapf et al., J. Neuroscience 1987) - 24 Bit reicht für fotorealistische Bilder

Welche Farben für ein volles Spektrum bieten sich nach unserer gelernten Sparsamkeit hier am besten an? 1. CMYK (Cyan, Magenta, Yellow, Key/Black) 2. RGB (Red, Green, Blue)

RGB = Additive Farbmischung (Bildschirme) Sog. RGB Tuple (geordnete endliche Liste)

- sRGB = Standard RGB (IEC = International Electrotechnical Commission, Norm 61966-2-1, 1999) - CMYK = Cyan, Magenta, Yellow, Key (Black) — subtraktive Farbmischung (Druck) - Hex-Notation: FF = 255 in Dezimal - CSS-Farben nutzen Hex: #FF0000 = Rot

- ASCII (1963): 7 Bit = 128 Zeichen (nur Englisch) - ISO-8859-1 (Latin-1, 1987): 8 Bit = 256 Zeichen (Westeuropa) - Chaos der 1980/90er: Verschiedene inkompatible Standards für verschiedene Sprachen - Windows-1252 vs. ISO-8859-1: ähnlich, aber nicht identisch — Ursache unzähliger Encoding-Bugs

- Unicode Consortium: Non-Profit, gegründet 1991 - Unicode 16.0 (2024): 154.998 Zeichen - UTF-8 = Unicode Transformation Format, 8-bit (Ken Thompson & Rob Pike, 1992) - Die ersten 128 Zeichen in UTF-8 sind exakt ASCII — Grund warum ASCII nie verschwinden wird - UTF-8 ist seit 2008 das häufigste Encoding im Web (W3Techs)

- ASCII (Hello, Klammern) = 1 Byte pro Zeichen - Emoji 🌸 (Cherry Blossom U+1F338) = 4 Bytes - Hiragana こんにちは = 3 Byte pro Zeichen (U+3040–309F) - は wird hier "wa" ausgesprochen (Partikel), nicht "ha"

Kernidee: jedes Byte lässt sich sauber in zwei 4-Bit-Hälften (Nibbles) zerlegen. Jede Hälfte hat 2⁴ = 16 Zustände – und genau 16 Symbole hat Hex (0-F). Deshalb passt Hex perfekt: 1 Nibble = 1 Hex-Ziffer, 1 Byte = 2 Hex-Ziffern. Keine krumme Umrechnung.

Warum gerade 8 Bit? - CPU adressiert byteweise — kleinste adressierbare Einheit - Halbe Byte (z.B. 0x0000.5) existieren nicht - Speichercontroller, Bus, CPU-Register alle auf 8-Bit-Häppchen ausgelegt - Einzelne Bit lesen: erst Byte holen, dann mit Bitmaske isolieren (byte & 0b1000_0000) - Hardware-Geschichte: IBM System/360 (1964) setzte 8-Bit-Standard, 7-Bit-ASCII + 1 Paritätsbit

- Dezimalsystem passt unelegant ins binäre System: 0–15 (1111) braucht 1–2 Dezimalziffern, immer 1 Hex-Ziffer - Hexadezimal (16 = 2⁴) passt perfekt: 4 Bits = 1 Hex-Ziffer, 8 Bits = 2 Hex-Ziffern - "Nibble" = 4 Bits = halbes Byte (Wortspiel: nibble = knabbern, byte = beißen) - ASCII geht nur bis 127 — Werte 128–255 sind nicht im ASCII-Raum

Hex ↔ Dezimal Lookup-Tabelle: 0–F = 0–15 A=10, B=11, C=12, D=13, E=14, F=15

1 Byte = 8 Bit = 2 Hex-Ziffern = 1 ASCII-Zeichen - Dieselbe Datei, drei Schreibweisen - Jeder Rahmen = ein Byte - Byte ändern sich nicht, nur unsere Anzeige - ↵ (0x0A) = nicht druckbar → Hex-Editoren zeigen . als Platzhalter

Dieselben 8 Byte (PNG-Dateianfang: 89 50 4E 47 0D 0A 1A 0A) — drei Perspektiven: 1. Bitstream — was wirklich gespeichert wird (unleserlich) 2. Hex — gruppiert in 8-Bit-Häppchen (kompakt) 3. Bedeutung — was die Byte signalisieren: - 89: Magic Byte (>127 → "ich bin Binärdatei") - 50 4E 47: P N G (ASCII-Format-Kürzel) - 0D 0A 1A 0A: CR LF EOF LF (erkennt kaputte Übertragung)

Präfixe: - 0x = "das ist Hexadezimal" (C, JavaScript, Python) - U+ = Unicode-Codepoint (Standard für Zeichenkodierung) - # = CSS-Konvention für Farben ABKÜRZUNGEN: - MAC = Media Access Control (eindeutige Hardware-Adresse einer Netzwerkkarte) - Unicode = universeller Zeichensatz für alle Schriftsysteme Speicheradressen erklärt: - 64-Bit-System → Adresse hat 64 Bit = 16 Hex-Ziffern - Beispiel vollständig: 0x0000000000A04F20 (führende Nullen weggelassen) - "0x" = Präfix, sagt nur "jetzt kommt Hex" Fehlercodes: Windows zeigt diese bei Bluescreens

Bits = kleines b, Bytes = großes B Internetanbieter: Mbit/s (klingt größer!) 100 Mbit/s ÷ 8 = 12,5 MB/s Marketing - 100 klingt besser als 12,5

WARUM 7 BIT STATT 8? - 1963: Fernschreiber (Teletype) arbeiteten mit 7-Bit-Codes - Das 8. Bit diente der Paritätsprüfung (Fehlererkennung bei Übertragung) - Speicher war kostspielig: jedes eingesparte Bit zählte - 128 Zeichen galten als ausreichend für den englischsprachigen Raum KULTURHISTORISCHER KONTEXT: - "American Standard Code for Information Interchange" (1963) - Entwickelt für US-amerikanische Bedürfnisse - Keine Unterstützung für: Umlaute (ä, ö, ü), ß, diakritische Zeichen (é, ñ, ç) - Nicht-lateinische Schriftsysteme nicht berücksichtigt - Führte zu zahlreichen inkompatiblen Erweiterungen (ISO-8859-1, Windows-1252, etc.) WARUM NOCH HEUTE RELEVANT? - UTF-8 vollständig ASCII-kompatibel (Zeichen 0–127 identisch) - Internetprotokolle basieren auf ASCII: HTTP-Header, SMTP, URLs - Programmiersprachen: Schlüsselwörter und Syntax sind ASCII - Ein 60 Jahre alter Standard, der durch Kompatibilitätszwänge fortbesteht HISTORISCHE RANDNOTIZ: - Das @-Zeichen wurde nachträglich aufgenommen - Heute unverzichtbar für E-Mail-Adressen weltweit

US-ASCII (1967) Code Chart - 7 Bit = 128 Zeichen - Erste 32: Steuerzeichen (nicht druckbar) - Zeichen 32–126: Druckbar (Buchstaben, Ziffern, Satzzeichen) - Keine Umlaute, kein ñ, kein é

- Hex = 2 Ziffern = 1 Byte = 8 Bit - 89 hex = 8×16 + 9 = 137 dezimal - ASCII geht nur bis 127 — 137 ist nicht druckbar - 50, 4E, 47 = P, N, G in ASCII

- Erste Bytes: 89 50 4E 47 = PNG-Signatur - 89: non-printable character (außerhalb ASCII) - 50: P - 4E: N - 47: G - IHDR = Image Header (Breite, Höhe, Farbtiefe) - Tool: HxD (Windows), Hex Fiend (Mac), xxd (Linux)

- PNG nutzt absichtlich 89 (= 137 dezimal): markiert Datei eindeutig als Binär, nicht Text - Erkennt kaputte Übertragungen (alte Systeme schnitten Bit 7 ab) - "PK" bei ZIP = Phil Katz (Erfinder von PKZip, 1989) - DOCX, XLSX, PPTX, ODT = alles ZIP-Archive mit XML-Inhalt - Dateien OHNE Magic Number: TXT, HTML, CSS, JSON, XML — reiner Text, kein binäres Format - Sicherheit: virus.exe → bild.jpg umbenennen täuscht nur Menschen; "file" (Linux) liest Magic Number

- SI-Präfixe (Dezimal): 1 KB = 1.000 Bytes - Binär (IEC): 1 KiB = 1.024 Bytes (Kibibyte) - Windows zeigt oft binär, sagt aber "KB" — Verwirrung! - 1 TB Festplatte = ~931 GiB nutzbar Eselsbrücke: "Kilo Mega Giga Tera Peta Exa Zetta Yotta" → "Komm Mit Großem Tee, Peter Exte Zettelt Yachten"

Quelle: Floridi, L.: The Fourth Revolution

- Quellen: Ahrefs 2025, arXiv, Europol-Report - "Synthetic Media" = AI-generiert oder -manipuliert - Schwer zu messen, da Menschen + AI zusammenarbeiten - Model Collapse: AI trainiert auf AI-Output → Qualitätsverlust (Shumailov et al., Nature 2024)

GENERATIONSVERLUST: - Kassette → Kassette: jede Kopie schlechter - VHS → VHS: Rauschen nimmt zu - Schallplatte: Jedes Abspielen = minimaler Verschleiß Digitale Kopie = bit-identisch mit Original (kein Unterschied)

- Analog: Kopie war immer erkennbar schlechter - Digital: Kopie = Original (bit-identisch) - Gerade die Perfektion wurde zum "Problem" der Musikindustrie

CD-QUALITÄT: - 44.100 Hz = Sample Rate (Abtastrate): 44.100 Messungen pro Sekunde - 16 Bit = Bit Depth: 65.536 mögliche Lautstärkestufen, ~96 dB Dynamikumfang - 2 Kanäle = Stereo (links + rechts) RECHNUNG: 44.100 × 16 × 2 = 1.411.200 Bit/Sekunde = 176.400 Byte/Sekunde ≈ 172 KB/s ≈ 10,3 MB/Minute - Consumer-Festplatten 1990: 40–500 MB - 56k-Modem: 7 KB/s → 42 MB Song ≈ 100 Minuten Download

"Wenn CDs eine Sample Rate von 44kHz haben, was fällt dann hier auf?" Fangfrage: "Wie hoch ist die Sample Rate von Vinyls?" -> Vinyl has no sample rate. It's analog!

- Nyquist-Shannon-Abtasttheorem: Harry Nyquist (1928), Claude Shannon (1949) - Vinyl: Rille = physische Kopie der Welle, "unendliche Auflösung" in der Theorie - Vinyl praktisch begrenzt durch: Rauschen, Kratzer, Nadelmasse, Rillengeometrie - Warum genau 44.100 Hz: Nyquist + Kompatibilität mit PAL/NTSC-Videogeräten der frühen 1980er

- Dynamikumfang Formel: ~6 dB pro Bit - 16 Bit reicht für menschliches Hören unter realen Bedingungen - 24 Bit im Studio: mehr Headroom für Bearbeitung, kein perzipieller Mehrwert für Endnutzende (Meyer & Moran, JAES 2007)

- Horizontal (Abtastrate): welche Frequenzen erfassbar sind - Vertikal (Bittiefe): Dynamikumfang (leise bis laut)

- Container-Parameter bestimmen das "Raster" - Reduzierung = harter Schnitt auf technischer Ebene - Abtastrate 22 kHz → alles über 11 kHz physisch unmöglich zu speichern

- Der Container (44.1 kHz, 16 Bit, Stereo) kann gleich bleiben - Inhalt wird "ausgedünnt" — nur was hörbar ist, bleibt - MASKIERUNG: - Frequenzmaskierung: Lauter Ton bei 1 kHz überdeckt leise Töne bei 1.1 kHz - Zeitliche Maskierung: Kurz vor/nach lautem Ton hören wir leise Töne nicht (~200ms) - Absolute Hörschwelle: sehr leise Töne generell unhörbar

- MPEG = Moving Picture Experts Group - Layer III = Dritte Verfeinerungsstufe - Forschung dauerte 10 Jahre - Patent lief 2017 aus

- Fraunhofer IIS Erlangen - Forschung dauerte über 10 Jahre - Perfektionist: Jeder Hörtest musste bestehen

- A cappella = einfacher zu analysieren (nur Stimme) - Hohe Frequenzen = Herausforderung für Kompression - Brandenburg hörte den Song über 10.000 Mal

1. FFT (Fast Fourier Transform): Wandelt Schallwellen in Frequenzen um — wie ein Prisma Licht in Farben zerlegt 2. Psychoakustisches Modell: Maskierungseffekte, hohe/tiefe Frequenzen werden schlechter wahrgenommen 3. Quantisierung: Unwichtige Frequenzen "grob" gespeichert, wichtige bleiben genau — hier passiert der Datenverlust 4. Huffman-Coding: Häufige Muster = kurze Codes, seltene = lange Codes — finaler verlustfreier Boost

- kbps = Kilobit pro Sekunde - 128 kbps = Standard Napster-Ära - 320 kbps = Maximum für MP3 - Diminishing Returns ab 256 kbps

- Fraunhofer verklagte Winamp und andere Tools - Millionen nutzten unlizenzierte Software - 2017: Fraunhofer selbst erklärte MP3 für "veraltet" (AAC besser)

- P2P = Peer-to-Peer - RIAA verklagte Napster, Schließung 2001 - LimeWire, Kazaa, BitTorrent folgten

- RIAA = Recording Industry Association of America - iPod (2001): "1.000 songs in your pocket" - iTunes Store (2003): Legale Alternative - Spotify (2008): Streaming-Ära beginnt

- Walkman (1979): Kassetten - Discman (1984): CDs - iPod (2001): MP3s - Spotify (2008): Streaming - Loudness War: Alles wird lauter gemastert, Dynamik geht verloren - Vinyl-Revival: 2020er Gegenbewegung — RIAA 2023: Vinyl-Umsatz übersteigt erstmals seit 1987 CD-Umsatz

- Audacity: FOSS Audio-Editor (audacityteam.org) - Export: Datei → Exportieren → MP3 → Bitrate wählen - Spektrogramm-Ansicht: Auf Track-Name klicken → "Spektrogramm" - Hohe Frequenzen (oben im Bild) verschwinden bei niedriger Bitrate - Alternative: Spek (spek.cc) — reiner Spektrogramm-Viewer

- hex1: Plaintext (keine Magic Number) - hex2: PNG (89 50 4E 47) - hex3: JPEG (FF D8 FF) - hex4: DOCX (50 4B 03 04 — ZIP-Container) - hex5: ZIP (50 4B 03 04) - Gruppenarbeit: 3-4 Personen - Ziel: Hex-Dump lesen lernen, Dateiformate verstehen

Dateiformate, Schnittstellen, Speichermedien & Distributionswege

Teil 1: Einführung

Grundlagen, Text & Audio

Was sind Daten?

Datenwachstum der Menschheit

Der digitale Wendepunkt

Digitaler Wendepunkt – Vertiefung

181 Zettabyte – Was bedeutet das?

Was sind (digitale) Daten?

Was sind (digitale) Daten?

Bandbreite: Was bedeuten 150 Mbps?

Bandbreite: Was bedeuten 150 Mbps?

Bandbreite: Was bedeuten 150 Mbps?

Wie viele Megabyte können bei einer Bandbreite von 250 Mbit/s pro Minute heruntergeladen werden?

Upload: Der stille Flaschenhals

Analog vs. Digital

Schall ist eine Druckwelle

Schall ist eine Druckwelle

Abtastung (Sampling)

Das digitale Ergebnis

Zurück zu Analog

Zurück zu Analog

Das Problem der Datengröße

Das Problem der Datengröße

oder knappen Speichers

Ein konkretes Beispiel

Ein konkretes Beispiel

Ein konkretes Beispiel

Ein konkretes Beispiel

Ein konkretes Beispiel

Ein konkretes Beispiel

Das Problem skaliert

Video eskaliert

Artemis II orbitiert

Kompressionsraten in der Praxis

Zwei Arten der Datenkompression

Zwei Arten von Datenkompressionsalgorithmen

Verlustfreie Kompression (Lossless)

Verlustfreie Kompression (Lossless)

Verlustfreie Kompression (Lossless)

Verlustbehaftete Kompression (Lossy)

Verlustbehaftete Kompression (Lossy)

Verlustfrei vs. Verlustbehaftet

Die Grundbausteine

Bits, Bytes und ihre Darstellung

Das bit

Kleinste logische Informationseinheit

Das Byte

Die kleinste adressierbare Informationseinheit

Das Byte

Die kleinste adressierbare Informationseinheit

8 bit = 1 Byte

Das Byte

Die kleinste adressierbare Informationseinheit

8 bit = 1 Byte

Das Byte

Die kleinste adressierbare Informationseinheit

8 bit = 1 Byte

Was kann man mit 256 Zuständen machen?

Farben: RGB-Modell

Das Problem: Sprachen

Unicode: Ein Standard für alle

Beispiel: Byte zählen

Hexadezimal

Die Sprache der Datei-Analyse

Hexadezimal: Lesbarkeit

Wo begegnet Ihnen Hex-Code?

Bit vs. Byte: Die Verwirrung

ASCII

One Zeichensatz to rule them all

WTF!?

What the HEX-Code

Magic Numbers

Dateneinheiten

AI-generierte Inhalte 2025

Teil 2: Die MP3-Revolution

Psychoakustik & Audio-Kompression

Analoge Medien

Distribution: physisch (Kauf, Verleih, Kopie)

Analoge Medien – Vertiefung