سیم باز فصل اول قسمت ششم – نقش کلیدی Message Broker در معماری SIEM

سلام، من محمد قنبری هستم و شما دارید به اپیزود ششم پادکست سیم‌باز گوش می‌دید.
این پادکست برای اوناییه که دورهٔ Splunk Enterprise Security من رو گذروندن یا در مسیر یادگیریش هستن و همچنین مهندسان SIEM طراحی شده و هدفمان اینه که مفاهیم تاکتیکی، تجربه‌های واقعی، و دیدگاه‌های تحلیلی رو بیرون از فضای کلاس، با زبانی ساده‌تر ادامه بدیم.
بریم شروع کنیم.

امروز می‌خوایم درباره یکی از مهم‌ترین و شاید نادیده گرفته‌شده‌ترین اجزای یک معماری SIEM قدرتمند صحبت کنیم.

در دنیای امروز که هر ثانیه هزاران لاگ از صدها سیستم مختلف تولید می‌شه، مدیریت و پردازش این حجم از داده یک چالش واقعیه. همه ما می‌دونیم که از دست دادن حتی یک لاگ امنیتی می‌تونه به قیمت یک رخنه امنیتی فاجعه‌بار تموم بشه. حالا تصور کنید سیستمی که برای جمع‌آوری لاگ طراحی کردید، درست در اوج یک حمله سایبری به خاطر حجم بالای ترافیک از کار بیفته. این دقیقا کابوس هر کارشناس امنیته.

اینجاست که یک قهرمان بی‌سروصدا وارد صحنه می‌شه: “Message Broker” یا “کارگزار پیام”. درک نقش این کامپوننت، کلید ساخت یک معماری SIEM پایدار، قابل اعتماد و مقاوم در برابر شکست هست. امروز با هم یاد می‌گیریم که این ابزار چطور می‌تونه از فاجعه از دست رفتن لاگ‌ها جلوگیری کنه.

اما قبل از اینکه به راه حل بپردازیم، بیایید ببینیم دقیقا با چه مشکلی روبرو هستیم؟

2. تشریح چالش اصلی: چرا معماری‌های ساده شکست می‌خورند؟

2.1. مشکل Aggregator (جمع‌آورنده لاگ)

اولین نقطه شکست در معماری‌های ساده، معمولاً همون جاییه که انتظارش رو نداریم: جمع‌کننده‌های لاگ یا Aggregators. این سیستم‌ها وظیفه خطیری در دریافت، پردازش اولیه و ارسال لاگ‌ها دارند، اما به راحتی می‌تونن به پاشنه آشیل کل معماری ما تبدیل بشن.

یک جمع‌کننده مثل Splunk Heavy Forwarder، وقتی فقط وظیفه دریافت و ارسال خام لاگ‌ها رو به عهده داره، می‌تونه حجم عظیمی از داده رو مدیریت کنه. اما به محض اینکه ما شروع به اضافه کردن قوانین پردازشی سنگین مثل Parsing (تجزیه) و Enrichment (غنی‌سازی) می‌کنیم، عملکردش به شدت افت می‌کنه. برای مثال، یک Forwarder که در حالت عادی می‌تونه ۲۰ هزار رویداد در ثانیه (EPS) رو پردازش کنه، بعد از اضافه شدن این تنظیمات پیچیده، ممکنه توانش به ۵ هزار EPS یا حتی کمتر کاهش پیدا کنه. این یعنی ۷۵ درصد افت عملکرد! این افت شدید، یک گلوگاه خطرناک ایجاد می‌کنه و وقتی حجم لاگ‌ها از این آستانه فراتر بره، سیستم یا از کار می‌افته یا شروع به دور ریختن لاگ‌ها می‌کنه.

اما مشکل فقط به جمع‌کننده‌ها ختم نمی‌شود؛ لایه ذخیره‌سازی ما هم چالش‌های خاص خودش را دارد.

2.2. مشکل Storage (سیستم ذخیره‌سازی)

سیستم ذخیره‌سازی ما، مثل Splunk Indexers، یک کارگر چندوظیفه‌ایه. این سیستم باید همزمان لاگ‌های جدید رو بپذیره، اون‌ها رو ایندکس کنه تا قابل جستجو بشن و در عین حال به کوئری‌ها و جستجوهای سنگین تحلیل‌گران امنیت پاسخ بده. این مثل شعبده‌بازی با چند تا توپ به صورت همزمانه؛ اگر یکی از کارها بیش از حد سنگین بشه، تمرکز سیستم به هم می‌ریزه و ممکنه توپ‌ها (یعنی لاگ‌ها) روی زمین بیفتن.

وقتی یک تحلیل‌گر یک کوئری پیچیده و سنگین اجرا می‌کنه، منابع سیستم ذخیره‌سازی درگیر پاسخ به اون می‌شه. در این شرایط، فرآیند پذیرش لاگ‌های جدید کند یا حتی متوقف می‌شه. این کندی به سرعت به لایه قبلی، یعنی Splunk Heavy Forwarder، فشار میاره. Forwarder که جایی برای ارسال لاگ‌ها نداره، دچار فشار بیش از حد می‌شه و در نهایت، فاجعه اتفاق می‌افته: لاگ‌های حیاتی از دست می‌رن.

خب، با این دو چالش بزرگ، معماری سنتی ما شکننده به نظر می‌رسد. بیایید ببینیم یک طراحی هوشمندانه‌تر چگونه است.

3. معرفی راه حل: Message Broker چیست و چگونه کار می‌کند؟

اینجاست که Message Broker به عنوان یک “امدادگر” یا یک “بافر هوشمند” وارد معماری ما می‌شه. کارگزار پیام یک لایه میانی بین منابع تولیدکننده لاگ و سیستم‌های پردازشگر ماست. این سیستم به صورت استراتژیک قرار می‌گیره تا شوک‌ها و فشارهای ناگهانی رو جذب کنه و به کل سیستم اجازه بده با آرامش و به صورت پایدار کار کنه.

وظایف اصلی یک کارگزار پیام رو می‌شه در سه مورد کلیدی خلاصه کرد:

ایجاد بافر (Buffer): بروکر لاگ‌ها رو به صورت موقت در خودش نگه می‌داره تا زمانی که سیستم‌های پشتیبان مثل Forwarderها یا Indexerها آماده پردازش اون‌ها بشن. دیگه لازم نیست نگران باشیم که اگر سیستم مقصد کند شد، لاگ‌ها از بین برن.
مدیریت ترافیک ناگهانی (Handle Bursts): وقتی به دلیل یک رخداد امنیتی یا یک مشکل فنی، حجم لاگ‌ها به صورت ناگهانی چند برابر می‌شه، بروکر این پیک ترافیکی رو به راحتی جذب می‌کنه و به تدریج به سیستم‌های پردازشی تحویل می‌ده، بدون اینکه فشاری به اون‌ها بیاد.
امکان تعمیر و نگهداری: با وجود بروکر، شما می‌تونید با خیال راحت سیستم‌های پشتیبان مثل Indexerها یا Forwarderها رو برای آپدیت یا تعمیرات آفلاین کنید. در تمام این مدت، بروکر لاگ‌ها رو با امانت‌داری نگه می‌داره و بعد از آنلاین شدن سیستم‌ها، اون‌ها رو تحویل می‌ده، بدون اینکه حتی یک لاگ از دست بره.

اما آیا این یعنی باید همیشه و برای همه چیز از بروکر استفاده کنیم؟ پاسخ همیشه مثبت نیست.

4. یک استثنا مهم: چه زمانی به Broker نیازی نداریم؟

یک معمار خوب فقط نمی‌دونه از چه ابزاری استفاده کنه، بلکه می‌دونه چه زمانی نباید از یک ابزار استفاده کنه. اضافه کردن یک بروکر به معماری، پیچیدگی و بار مدیریتی رو افزایش می‌ده، پس باید هوشمندانه ازش استفاده کرد.

بسیاری از اپلیکیشن‌های مدرن و Agentهای جدید، قابلیت‌های بافر داخلی دارند. یعنی می‌تونن لاگ‌ها رو به صورت موقت در حافظه (memory) یا روی دیسک ذخیره کنن. اما همه این Agentها یکسان نیستند. برخی فقط آنلاین بودن مقصد را بررسی می‌کنند که کافی نیست. Agentهای واقعاً هوشمند، اطمینان حاصل می‌کنند که سیستم مقصد توانایی پذیرش حجم لاگ ارسالی را دارد و دچار کندی نشده است. فقط در این حالت است که می‌توانیم با اطمینان از بروکر صرف نظر کنیم، چون Agent خودش نقش یک شبکه ایمنی کوچک رو بازی می‌کنه.

در چنین شرایطی، ارسال لاگ از این Agentهای هوشمند به یک بروکر، در واقع اتلاف منابع و اضافه کردن یک لایه غیرضروریه. کارگزارهای پیام عمدتاً برای سیستم‌هایی طراحی شده‌اند که نمی‌توانند از دریافت موفق لاگ توسط مقصد اطمینان حاصل کنند. بهترین مثال برای این سیستم‌ها، دستگاه‌های شبکه‌ای هستند که از پروتکل Syslog استفاده می‌کنن. Syslog لاگ رو ارسال می‌کنه و براش مهم نیست که آیا مقصدی برای دریافت اون وجود داره یا نه. اینجور سیستم‌ها به شدت به یک بروکر برای جلوگیری از گم شدن لاگ نیاز دارند.

بسیار خب، حالا که می‌دانیم چه زمانی به بروکر نیاز داریم، بیایید گزینه‌های محبوب در دنیای اوپن‌سورس را بررسی کنیم.

5. بررسی گزینه‌های محبوب: Kafka در مقابل RabbitMQ

انتخاب ابزار مناسب به اندازه خود معماری اهمیت داره. دو تا از محبوب‌ترین کارگزارهای پیام در دنیای اوپن‌سورس RabbitMQ و Kafka هستن. برای درک تفاوتشون، می‌شه از استعاره “خودروی اسپرت در مقابل خودروی خانوادگی” استفاده کرد. هر دو شما رو به مقصد می‌رسونن، اما با ویژگی‌ها و هزینه‌های کاملاً متفاوت.

بیایید این دو رو با هم مقایسه کنیم:

RabbitMQ (خودروی خانوادگی):
- راه‌اندازی و نصب اون به مراتب ساده‌تره و مستندات واضح و خوبی داره.
- یک رابط مدیریت تحت وب عالی داره که مدیریت صف‌ها و پیام‌ها رو بسیار آسان می‌کنه.
- از کلاسترینگ پشتیبانی می‌کنه و برای بسیاری از سازمان‌ها یک انتخاب قابل اعتماد و کم‌دردسره.
Kafka (خودروی اسپرت):
- کافکا به مراتب پیچیده‌تره و مستنداتش هم برای تازه‌کارها می‌تونه کمی گیج‌کننده باشه.
- اما این پیچیدگی بی‌دلیل نیست. کافکا برای دستیابی به توان پردازشی فوق‌العاده بالا طراحی شده. سازمان‌های بزرگی هستن که با استفاده از کافکا ده‌ها میلیون رویداد در ثانیه و حتی بیشتر را مدیریت می‌کنن.
- کافکا تقریباً همیشه به همراه Zookeeper برای مدیریت و هماهنگی نودهای کلاستر استفاده می‌شه که این خودش یک لایه مدیریتی دیگه اضافه می‌کنه.

انتخاب ابزار یک بخش ماجراست، بخش دیگر نحوه یکپارچه‌سازی آن با ابزارهای جمع‌آوری لاگ مانند Splunk Forwarder است.

6. معماری عملی: یکپارچه‌سازی با Splunk Forwarder

اضافه کردن یک بروکر، معماری جمع‌آوری لاگ ما رو از یک مدل ساده و شکننده، به یک مدل دو مرحله‌ای هوشمند و مقاوم تبدیل می‌کنه. بیایید ببینیم این معماری در عمل چطور کار می‌کنه:

Frontend Splunk Heavy Forwarder:
1. در مرحله اول، ما مجموعه‌ای از Forwarderها رو داریم که وظیفه‌شون فقط یک چیزه: دریافت خام لاگ‌ها از منابع مختلف و ارسال سریع اون‌ها به داخل Message Broker. نکته کلیدی اینجاست که در این مرحله هیچ‌گونه Parsing یا Enrichment انجام نمی‌شه. این کار باعث می‌شه این Forwarderها با حداکثر توان (EPS) کار کنن و هیچ گلوگاهی ایجاد نشه.
Message Broker:
1. در مرکز معماری ما، بروکر قرار داره که به عنوان بافر مرکزی، تمام لاگ‌های ورودی رو دریافت و صف‌بندی می‌کنه.
Backend Splunk Heavy Forwarder:
1. در مرحله دوم، مجموعه‌ای دیگه از Forwarderها وجود دارن. این‌ها لاگ‌ها رو از بروکر فراخوانی می‌کنن، اما فقط زمانی این کار رو انجام می‌دن که برای پردازش آماده باشن. تمام کارهای سنگین مثل Parsing، غنی‌سازی و فیلترینگ در این مرحله انجام می‌شه و در نهایت، لاگ‌های پردازش‌شده و تمیز به سمت Storage (یعنی Splunk Indexers) ارسال می‌شن.

مزایای کلیدی این معماری فوق‌العاده است:

Forwarder
پشتیبان فقط زمانی که ظرفیت خالی داره، لاگ جدید از بروکر دریافت می‌کنه.
اگر سیستم Storage کند بشه یا زیر بار جستجوهای سنگین باشه، Forwarder پشتیبان به سادگی ارسال لاگ رو متوقف می‌کنه و منتظر می‌مونه تا فشار کاهش پیدا کنه. در این حالت، Forwarder لاگ‌هایی را که از بروکر دریافت کرده در حافظه خود نگه می‌دارد و منتظر می‌ماند، به جای اینکه مجبور به ارسال اجباری آن‌ها به یک سیستم کند باشد.

در نهایت، همه این بحث‌ها به یک سوال اساسی می‌رسد: آیا شما باید از بروکر استفاده کنید یا می‌توانید ریسک کنید؟

7. نتیجه‌گیری و جمع‌بندی نهایی (پایان پادکست)

در پایان این اپیزود، از خودتون سه سوال کلیدی بپرسید:

آیا در معماری SIEM خود به افزونگی (redundancy) بیشتری نیاز دارید؟
آیا نیاز دارید که بتوانید پیک‌های ناگهانی ترافیک را بدون اختلال مدیریت کنید؟
و مهم‌تر از همه، آیا به این قابلیت نیاز دارید که سیستم‌های Parsing و Storage را برای تعمیر و نگهداری، بدون از دست دادن حتی یک لاگ، آفلاین کنید؟

اگر پاسخ شما به هر یک از این سوالات “بله” است، پس قمار نکنید. همین امروز برای پیاده‌سازی یک Message Broker در معماری خود برنامه‌ریزی کنید. این کار پایداری، انعطاف‌پذیری و قابلیت اطمینان کل زیرساخت امنیتی شما را تضمین خواهد کرد.

خیلی ممنون که در این اپیزود هم با ما همراه بودید. امیدوارم این بحث براتون مفید بوده باشه. در اپیزود بعدی درباره تکنیک‌های پیشرفته غنی‌سازی لاگ صحبت خواهیم کرد. تا اون موقع، امن و پایدار بمونید. خدانگهدار.