亚马逊S3:如何用廉价硬盘构建超大规模存储系统

2025-09-24
亚马逊S3:如何用廉价硬盘构建超大规模存储系统

本文揭秘了亚马逊S3惊人的规模和背后的技术。S3利用廉价的HDD硬盘,通过海量并行处理、擦除编码、以及巧妙的负载均衡策略(例如“两次随机选择”),解决了HDD随机I/O速度慢的瓶颈,实现了百万级请求/秒的超高吞吐量和极高的可用性。S3的数据存储策略包括随机数据放置、持续数据再平衡以及规模化带来的负载平滑效应,从而避免了热点问题。从用户、客户端和服务器三个层面实现并行化,进一步提升了性能。最终,S3不仅成为备份、图像存储的利器,也成为大数据分析和机器学习的重要基础设施。

阅读更多
科技

Kafka的诞生:一个由数据集成问题引发的传奇

2025-08-24
Kafka的诞生:一个由数据集成问题引发的传奇

2012年,LinkedIn面临着巨大的数据集成挑战。其原有的数据管道系统效率低下,难以扩展,数据孤岛严重。为了解决这个问题,LinkedIn开发了Apache Kafka。Kafka并非凭空出现,而是源于对可靠性、可扩展性、实时性以及数据集成的高度需求。文章深入探讨了Kafka的设计初衷,以及在解决LinkedIn数据难题过程中,如何巧妙地运用Avro schema和schema registry来确保数据的一致性和兼容性,最终实现高效的数据集成和管理。这篇文章也反思了Kafka缺乏一流Schema支持的遗憾,并对比了Buf等新兴方案在Schema优先的理念上所做的努力。

阅读更多
开发