AWS S3:安価なハードディスクが支える超大規模ストレージシステム

2025-09-24
AWS S3:安価なハードディスクが支える超大規模ストレージシステム

この記事では、Amazon S3の驚くべき規模とその裏にある技術を明らかにします。S3は安価なHDDを活用し、大量の並列処理、イレイジャーコーディング、そして巧妙な負荷分散技術(「2つのランダムな選択肢の力」など)によって、HDDの遅いランダムI/Oというボトルネックを克服しています。これにより、毎秒数百万件のリクエスト、超高スループット、そして比類のない可用性が実現しています。S3のデータストレージ戦略には、ランダムなデータ配置、継続的なデータ再バランス、そして規模による負荷の平準化効果が含まれており、ホットスポットを防ぎます。ユーザー、クライアント、サーバーの3つのレベルで並列化することで、パフォーマンスがさらに向上します。最終的に、S3はバックアップや画像ストレージのサービスから、ビッグデータ分析や機械学習の重要なインフラストラクチャへと進化しました。

続きを読む
テクノロジー

Kafkaの誕生:データ統合の物語

2025-08-24
Kafkaの誕生:データ統合の物語

2012年、LinkedInは巨大なデータ統合問題に直面しました。既存のデータパイプラインは非効率で、拡張性がなく、データサイロの問題を抱えていました。この問題を解決するために、Apache Kafkaが開発されました。この記事では、Kafkaの起源を探り、その設計が堅牢性、スケーラビリティ、リアルタイム性、シームレスなデータ統合の必要性から生まれたことを明らかにします。データの一貫性と互換性を確保するために、LinkedInがAvroスキーマとスキーマレジストリを巧みに活用した方法を調べます。最終的に、効率的なデータ管理を実現しました。また、Kafkaが第一級のスキーマサポートを欠いている点についても考察し、Bufなどの新しいアプローチと比較します。

続きを読む
開発 スキーマ