随着企业自己不断增长的系统和设备上产生越来越多的数据,消息和事件流的解决方案(特别是Apache Kafka)已经得到了广泛采用。在过去一年里,我们一直在跟踪Apache Pulsar(Pulsar)的进展。它是一个由Yahoo贡献的知名度较低但功能强大的开源解决方案。Pulsar被设计成可以智能地处理、分析和传送来自不断扩展的服务和应用里产生的数据。因此它非常适合多个先进的数据平台。Pulsar也被设计成可以减轻与复杂的分布式系统相关的运维负担。
谁对Pulsar感兴趣?Streamlio的CEO Kathik Ramasamy非常大度地分享了最近这个项目首页的访问者的地理信息数据。
在几千名访问者中,33%来自美洲,36%来自亚太地区,27%来则是来自欧洲、中东和非洲地区。
虽然到目前为止,Apache Kafka是最流行的发布/订阅模式的解决方案。但是在过去一年里,我们已经发现有多家公司在使用Pulsar。事实证明,Pulsar的一些特性是这些企业所重视的,包括:
- 多层架构:由服务层(由broker来协调消息的接收、存储、处理和传递)、存储层(用Apache BookKeeper节点持久化消息)和处理层(通过Pulsar函数和Pulsar SQL)组成。
- 高性能和可扩展性:Yahoo已经使用Pulsar多年了,每天处理两百多万个主题里超过1000亿条的消息。Pulsar可以支持超过百万的主题,同时还能保证高吞吐量和低延迟的性能。
- 很容易增加存储和服务而不必重新平衡整个集群:多层架构允许存储可以被独立地增加。同时也允许服务和存储层的扩展不需要停机。
- 支持流行的消息模式:包括发布/订阅消息和消息队列。
- 多租户:一个Pulsar集群就可以支持整个企业,允许每个团队都有单独的命名空间和容量。
- 持久性(无数据丢失):数据被复制多份并同步到磁盘。
- 跨区域复制:开箱即用地支持地理上分布的应用。Pulsar支持跨集群的数据复制的不同模式。
前一代的消息系统主要专注于移动数据,而像Pulsar这样的新框架增加了数据处理功能,这些功能对于将数据提供给分析和人工智能应用至关重要。随着互联设备的激增、5G的来临和机器学习以及人工智能越来越重要,这都要求企业构建能耐够获取、处理和传输大量数据流的基础设施。而且企业对能实时完成这些任务的需求也在增加。好消息是核心的数据管理、处理、传输和调度的关键模块也在持续被改进。自动化的技术将能持续地降低运维的负担。
相关内容:
- Jesse Anderson的《用Pulsar的功能降低运维开销》
- 《一张简单的幻灯片:谁对Spark NLP感兴趣?》
- 《就一张图表明:研究人员喜爱PyTorch和TensorFlow》
- Tyler Akidau的《Streaming 101》和《Streaming 102》
- 《Apache Kafka和对于生产级机器学习系统的四个挑战》
- Jay Kreps的《从零开始够搭建Apache Kafka》
- Karthik Ramasamy《架构设计和构建端到端的流式应用》
- 《对软件开发而言机器学习意味着什么》