大規模事件處理選擇Redis，還是Kafka？

Kafka以解決大規模數據處理問題而聞名，並被廣泛部署在許多知名公司的基礎設施中。早在2015年，LinkedIn有60個集群，總共有1100個Broker，每秒處理1300萬條信息。

但事實證明，規模並不是Kafka唯一擅長的事情。它所提倡的編程範式——分區、有序、事件處理——對于你可能面臨的許多問題都是一個很好的解決方案。例如，如果事件代表的是要被索引到搜索數據庫的行，那麽最後的修改就是最後的索引，這一點很重要，否則搜索將無限期地返回陳舊的數據。同樣，如果事件代表用戶行爲，處理第二個事件（“用戶升級賬戶”）可能依賴于第一個（“用戶創建賬戶”）。這種範式與傳統的作業隊列系統不同，在傳統的作業隊列中，事件是由許多工作者同時從隊列中彈出的，這很簡單，可擴展，但它破壞了任何排序保證。假設你想要有序的處理，但也許你不想使用Kafka，因爲它是一個難以操作或昂貴的重型系統的聲譽。

Redis現在有了5.0版本發布的“流”數據結構，與之相比如何？它是否解決了同樣的問題？

Kafka的架構

我們先來看看Kafka的基本架構。基本的數據結構是主題。它是一個按時間排序的記錄序列，只需追加。使用這種數據結構的好處在Jay Kreps的經典博文The Log中得到了很好的描述。

主題Topic被分區，以使它們能夠擴展：每個主題可以被托管在單獨的Kafka實例上。每個分區中的記錄都被分配了連續的ID，稱爲偏移量，它可以唯一地識別分區中的每個記錄。消費者按順序處理記錄，保持跟蹤其最後看到的偏移量。由于記錄被持久化在一個主題中，多個消費者可以相互獨立地處理記錄。

在實踐中，你可能會將你的處理分布在許多機器上。爲了實現這一點，Kafka提供了一個 “消費者組”的抽象，它是一組合作的進程，從一個主題消費數據。一個主題的分區被劃分給組內的成員。然後，當成員加入或離開該組時，必須重新分配分區，以便每個成員都能獲得公平的分區份額。這就是所謂的再平衡算法。

請注意，一個分區只能由消費者組的一個成員來處理。(但一個成員可能負責多個分區)這使得嚴格有序的處理得到保證。

這套工具是非常有用的。你可以通過添加更多的工作者來輕松地擴展你的處理，而Kafka則負責處理分布式協調問題。

Redis的流數據結構

Redis的“流”數據結構是如何比較的？Redis流在概念上等同于上面描述的Kafka主題的一個分區，但有一些小的區別。

它是一個持久的、有序的事件存儲（與Kafka中相同）它有一個可配置的最大長度（與Kafka中的保留期相比）。事件存儲鍵和值，就像Redis Hash（相對于Kafka中的單個鍵和值）。最主要的區別是，Redis中的消費者組與Kafka中的消費者組完全不同。

在Redis中，一個消費者組是一組全部從同一流讀取的進程。Redis確保事件只會被傳遞給組內的一個消費者。例如，在下圖中，消費者1不會處理'9'，它會跳過它，因爲消費者2已經看到它了。消費者1將得到下一個未被任何其他組成員看到的事件。

組的作用是將單個流的處理並行化。這看起來很像一個傳統的作業隊列結構。因此，它失去了作爲流處理核心的排序保證，這是很不幸的。

流處理作爲一個客戶端庫

那麽，如果Redis只提供有效的具有作業隊列語義的主題的單一分區，我們怎麽能在Redis之上建立一個流處理引擎？好吧，如果你想要Kafka的功能，你需要自己構建它們。這意味著要實現：

1. 事件分區。你需要創建N個流，並將每個流視爲一個分區。然後，在發送時，你需要決定哪個分區應該接收它，大概是基于事件的哈希值或其中的一個字段。

2. 一個工人分區分配系統。爲了擴展和支持多個工作者，你需要創建一個算法，在他們之間分配分區，確保每個工作者擁有一個相互排斥的子集，也就是相當于Kafka的“再平衡”系統。

3. 有確認的順序處理。每個工作者都需要叠代其每個分區，跟蹤其偏移量。盡管Redis消費者組有作業隊列語義，但它們在這裏可以提供幫助。訣竅是每個組使用一個消費者，然後爲每個分區創建一個組。然後每個分區將被按順序處理，你可以利用內置的消費者組狀態跟蹤。Redis不僅可以跟蹤偏移量，還可以跟蹤每個事件的確認，這是很強大的。

這是絕對的最低要求。如果你希望你的解決方案是健壯的，你可能還想考慮錯誤處理：除了崩潰你的工作者，也許你會想要一個機制，將錯誤轉發到一個 "死信 "流並繼續處理。

好消息是——如果你喜歡Python的話--已經解決了這些問題，並且在一個新發布的名爲Runnel的庫中解決了更多問題。如果你想從Redis上類似Kafka的語義中獲益，歡迎你來看看。下面是它的外觀，基本上與上面的Kafka圖之一相同。

作者通過Redis中實現的鎖來協調他們對分區的所有權。他們通過一個特殊的“控制”流相互溝通。更多信息，包括架構和再平衡算法的詳細分解，請參閱Runnel文檔。

權衡

Redis是大規模事件處理的好選擇嗎？有一個基本的權衡：因爲一切都在內存中，獲得了無與倫比的處理速度，但它不適合存儲無限制的數據量。使用Kafka，你可能願意無限期地保存你的所有事件，但使用Redis，你肯定要存儲最近的事件的固定窗口——只夠你的處理器有一個舒適的緩沖區，以防止它們變慢或崩潰。這意味著你可能還想使用一個外部的長期事件存儲，例如S3，以便能夠重放它們，這增加了你的架構的複雜性，但降低了成本。

研究這個問題的主要動機是在部署和操作Redis時涉及的易用性和低成本。這就是爲什麽它對Kafka有吸引力。它也是一套神奇的工具，經受住了時間的考驗，非常了不起。事實證明，經過努力，它也可以支持分布式流處理範式。

作者丨PetterLiu

來源丨cnblogs.com/wintersun/p/16795783.html

文采家

大規模事件處理選擇Redis，還是Kafka？

一個現代化輕量級的跨平台Redis桌面客戶端

我爲什麽使用 Linux 做開發?

強大搜索引擎背後的秘密——ElasticSearch基本概念解析

真正的 C++ 殺手不是 Rust

Windows 做NAS真有那麽好? “池”的概念要了解一下

電腦硬盤如何分區才合理?

2024年了, 如果你還需要一台電視, 那它就是這台鶴7

數據智能相依偎