Webtagr - 科技资讯摘要

亚马逊S3：如何用廉价硬盘构建超大规模存储系统

2025-09-24

本文揭秘了亚马逊S3惊人的规模和背后的技术。S3利用廉价的HDD硬盘，通过海量并行处理、擦除编码、以及巧妙的负载均衡策略（例如“两次随机选择”），解决了HDD随机I/O速度慢的瓶颈，实现了百万级请求/秒的超高吞吐量和极高的可用性。S3的数据存储策略包括随机数据放置、持续数据再平衡以及规模化带来的负载平滑效应，从而避免了热点问题。从用户、客户端和服务器三个层面实现并行化，进一步提升了性能。最终，S3不仅成为备份、图像存储的利器，也成为大数据分析和机器学习的重要基础设施。

(bigdata.2minutestreaming.com)

科技

Kafka的诞生：一个由数据集成问题引发的传奇

2025-08-24

2012年，LinkedIn面临着巨大的数据集成挑战。其原有的数据管道系统效率低下，难以扩展，数据孤岛严重。为了解决这个问题，LinkedIn开发了Apache Kafka。Kafka并非凭空出现，而是源于对可靠性、可扩展性、实时性以及数据集成的高度需求。文章深入探讨了Kafka的设计初衷，以及在解决LinkedIn数据难题过程中，如何巧妙地运用Avro schema和schema registry来确保数据的一致性和兼容性，最终实现高效的数据集成和管理。这篇文章也反思了Kafka缺乏一流Schema支持的遗憾，并对比了Buf等新兴方案在Schema优先的理念上所做的努力。

(bigdata.2minutestreaming.com)

开发