AWS S3: Wie günstige Festplatten ein massiv skalierbares Speichersystem antreiben

2025-09-24
AWS S3: Wie günstige Festplatten ein massiv skalierbares Speichersystem antreiben

Dieser Artikel enthüllt das erstaunliche Ausmaß und die zugrundeliegende Technologie von Amazon S3. S3 nutzt kostengünstige HDDs und überwindet die Einschränkungen langsamer zufälliger E/A durch massiven Parallelismus, Erasure Coding und intelligente Lastenausgleichstechniken (wie die „Power of Two Choices“). Dies ermöglicht Millionen von Anfragen pro Sekunde, einen extrem hohen Durchsatz und eine außergewöhnliche Verfügbarkeit. Die Datenstrategie von S3 umfasst die zufällige Datenplatzierung, kontinuierliches Rebalancing und den glättenden Effekt der Skalierung, um Hotspots zu vermeiden. Die Parallelisierung auf Benutzer-, Client- und Serverseite steigert die Leistung zusätzlich. Letztendlich hat sich S3 von einem Backup- und Bildspeicherdienst zu einem grundlegenden Bestandteil von Big-Data-Analyse- und Machine-Learning-Infrastrukturen entwickelt.

Mehr lesen
Technologie

Kafkas Entstehung: Eine Datenintegrations-Saga

2025-08-24
Kafkas Entstehung: Eine Datenintegrations-Saga

Im Jahr 2012 stand LinkedIn vor einer immensen Herausforderung bei der Datenintegration. Die bestehenden Datenpipelines waren ineffizient, nicht skalierbar und litten unter Datensilos. Um dies zu lösen, entwickelten sie Apache Kafka. Dieser Artikel taucht in die Ursprünge von Kafka ein und zeigt, dass sein Design von der Notwendigkeit nach Robustheit, Skalierbarkeit, Echtzeitfähigkeit und nahtloser Datenintegration getrieben wurde. Er untersucht, wie LinkedIn geschickt Avro-Schemata und ein Schema-Register nutzte, um Datenkonsistenz und -kompatibilität zu gewährleisten und letztendlich ein effizientes Datenmanagement zu erreichen. Der Artikel reflektiert auch über den Mangel an erstklassiger Schema-Unterstützung in Kafka und vergleicht ihn mit neueren Ansätzen wie der schema-orientierten Philosophie von Buf.

Mehr lesen
Entwicklung