سیم باز فصل اول قسمت هفتم -شالوده پنهان یک SIEM قدرتمند – معماری ذخیره‌سازی لاگ‌ها

سلام، من محمد قنبری هستم و شما دارید به اپیزود هفتم پادکست سیم‌باز گوش می‌دید.
این پادکست برای اوناییه که دورهٔ Splunk Enterprise Security من رو گذروندن یا در مسیر یادگیریش هستن و همچنین مهندسان SIEM طراحی شده و هدفمان اینه که مفاهیم تاکتیکی، تجربه‌های واقعی، و دیدگاه‌های تحلیلی رو بیرون از فضای کلاس، با زبانی ساده‌تر ادامه بدیم.
بریم شروع کنیم.

توی دنیای امنیت سایبری، همه ما در مورد SIEM یا سیستم‌های مدیریت اطلاعات و رخدادهای امنیتی شنیدیم. ابزارهایی که به ما در شناسایی تهدیدها کمک می‌کنند. اما امروز می‌خواهیم در مورد قهرمان گمنام این سیستم‌ها صحبت کنیم؛ بخشی که کمتر به آن توجه می‌شود اما در واقع، قلب تپنده یک SIEM مؤثر است: معماری ذخیره‌سازی لاگ‌ها. با ما همراه باشید تا ببینیم چرا ذخیره‌سازی، چیزی فراتر از انبار کردن داده‌هاست و چطور سرعت جستجو می‌تواند سرنوشت یک تحلیل امنیتی را تغییر دهد.

. ذخیره‌سازی: فراتر از انباشت ساده لاگ‌ها

در نگاه اول، شاید به نظر برسد که وظیفه اصلی بخش ذخیره‌سازی در یک SIEM، تنها نگهداری حجم عظیمی از لاگ‌هاست. اما واقعیت این است که این بخش، مسئولیت‌های استراتژیک و بسیار مهم‌تری بر عهده دارد که مستقیماً بر کارایی تحلیل‌های امنیتی بلادرنگ تأثیر می‌گذارد. هدف از جمع‌آوری لاگ‌ها، استفاده از آن‌هاست و اگر سیستم ذخیره‌سازی نتواند به سرعت اطلاعات مورد نیاز را در اختیار ما قرار دهد، تمام این لاگ‌ها عملاً بی‌فایده خواهند بود.

به طور خلاصه، یک معماری ذخیره‌سازی قدرتمند باید چهار مسئولیت کلیدی را به خوبی مدیریت کند:

ایندکس‌گذاری (Indexing): وقتی با تریلیون‌ها لاگ سروکار داریم، پیدا کردن یک رخداد خاص مانند یافتن سوزن در انبار کاه است. ایندکس‌گذاری فرآیندی است که به داده‌ها ساختار می‌دهد تا بتوان در کسری از ثانیه اطلاعات مورد نظر را پیدا کرد.
پاسخ به پرس‌وجوها (Search Queries): معماری ذخیره‌سازی باید برای پاسخگویی سریع به پرس‌وجوهای ساده و پیچیده بهینه‌سازی شده باشد. تحلیلگران امنیتی برای شکار تهدید به پاسخ‌های فوری نیاز دارند.
افزونگی (Redundancy): از دست دادن لاگ‌های امنیتی می‌تواند فاجعه‌بار باشد. یک سیستم ذخیره‌سازی خوب با ایجاد کپی‌های متعدد از داده‌ها، تضمین می‌کند که در صورت بروز هرگونه مشکل سخت‌افزاری، اطلاعات حیاتی از بین نرود.
نیازمندی‌های عملکردی (Performance Requirements): و اما مهم‌ترین و اغلب نادیده گرفته‌شده‌ترین عنصر: سرعت. سرعت، ماده اصلی و حیاتی در ذخیره‌سازی است. بدون آن، بهترین و کامل‌ترین لاگ‌ها هم به یک آرشیو مرده تبدیل می‌شوند که کسی رغبتی به استفاده از آن ندارد.

این مسئولیت‌ها در مواجهه با حجم عظیم داده‌های امروزی، به یک چالش بزرگ تبدیل می‌شوند؛ چالشی که خوشبختانه راه‌حل‌های اثبات‌شده‌ای برای آن وجود دارد.

۲. چالش “کلان‌داده” (Big Data) در دنیای لاگ‌ها

وقتی از «کلان‌داده» در حوزه امنیت صحبت می‌کنیم، منظورمان حجم سرسام‌آوری از لاگ‌هاست. سازمان‌های کوچک ممکن است روزانه با میلیون‌ها یا میلیاردها لاگ سروکار داشته باشند، اما شرکت‌های بزرگ به راحتی تریلیون‌ها لاگ را ذخیره می‌کنند و حجم داده‌هایشان به مقیاس پتابایتی (PB) می‌رسد.

اما این اعداد و ارقام نباید شما را نگران کند. عبارت “کلان‌داده” لزوماً به معنای “مشکل بزرگ” نیست. خوشبختانه، امروزه راه‌حل‌های بسیار بالغ و متنوعی برای مدیریت این حجم از داده وجود دارد. این راه‌حل‌ها از پلتفرم‌های تجاری بسیار گران‌قیمت تا ابزارهای متن‌باز قدرتمند که روی سخت‌افزارهای معمولی هم قابل پیاده‌سازی هستند، متغیرند. نکته کلیدی این است که گزینه‌های زیادی پیش روی شماست و نیازی نیست تسلیم فشار تیم‌های فروش شوید.

این موضوع ما را به یک سؤال حیاتی می‌رساند: اگر سخت‌افزار لازم برای ذخیره پتابایت‌ها داده را داریم، راز معماری برای جستجوی سریع در این حجم از اطلاعات چیست؟ پاسخ در انتخاب یک فلسفه ذخیره‌سازی نهفته است که اساساً با پایگاه‌های داده‌ای که اکثر ما با آن‌ها بزرگ شده‌ایم، متفاوت است.

۳. انتخاب ابزار مناسب: چرا پایگاه‌داده‌های سنتی برای لاگ‌ها ایده‌آل نیستند؟

پایگاه‌های داده سنتی و رابطه‌ای مانند Microsoft SQL یا MySQL برای وظایفی طراحی شده‌اند که شامل ایجاد، خواندن، به‌روزرسانی و حذف مداوم داده‌هاست. برای تضمین یکپارچگی داده‌ها در این عملیات پیچیده، این سیستم‌ها از مجموعه‌ای از قوانین به نام ACID compliant پیروی می‌کنند. فکر کنید ACID مثل یک کارمند دقیق بانک است که باید هر تراکنش را قبل از نهایی شدن، چندین بار بررسی، شمارش و بازشماری کند. این رویکرد برای داده‌های مالی عالی است، اما برای لاگ‌های امنیتی – که در واقع گزارش‌های نهایی از یک رخداد هستند – مثل این است که همان کارمند بانک را مجبور کنیم یک رسید چاپ‌شده را دوباره تأیید اعتبار کند. این یک تأخیر غیرضروری است که عملکرد را از بین می‌برد.

اینجاست که مفهوم WORM یا “Write-Once-Read-Many” (یک بار بنویس، چند بار بخوان) به عنوان یک راه‌حل بهینه مطرح می‌شود. نبوغ WORM برای ذخیره‌سازی لاگ در این است که قابلیتی را که به آن نیازی نداریم – یعنی امکان به‌روزرسانی مداوم یک رکورد – کنار می‌گذارد تا ویژگی‌هایی را که به شدت به آن‌ها نیاز داریم، تقویت کند: یعنی نوشتن فوق‌العاده سریع و ایندکس‌گذاری تقریباً بلادرنگ برای جستجو.

سیستم‌های مبتنی بر WORM:

سربار سنگین بررسی یکپارچگی داده را حذف می‌کنند.
امکان نوشتن بسیار سریع داده‌ها را فراهم می‌آورند.
ایندکس‌گذاری را به صورت تقریباً بلادرنگ (near real-time) انجام می‌دهند.
در نتیجه، جستجوی فوق‌العاده سریعی را ممکن می‌سازند.

یکی از بهترین نمونه‌های عملی که این مدل را با موفقیت پیاده‌سازی کرده، پلتفرم Splunk است.

۴. معماری Splunk: یک نمونه عملی از ذخیره‌سازی توزیع‌شده

Splunk یکی از پلتفرم‌های پیشرو در دنیای SIEM است که از مدل ذخیره‌سازی WORM برای ساخت یک معماری قدرتمند و مقیاس‌پذیر برای جستجوی بلادرنگ در مقیاس بزرگ استفاده می‌کند. راز موفقیت آن در معماری ذخیره‌سازی توزیع‌شده‌اش نهفته است.

در این معماری، داده‌ها در سرورهای مختلفی به نام ایندکسر (Indexer) ذخیره می‌شوند. برای جلوگیری از دست رفتن داده‌ها، Splunk از مفهومی به نام “ضریب تکثیر” (Replication Factor) استفاده می‌کند. این یعنی به ازای هر قطعه از داده، چندین کپی در ایندکسرهای مختلف نگهداری می‌شود تا اگر یکی از سرورها از کار افتاد، اطلاعات همچنان در دسترس باقی بماند.

اما این طراحی هوشمندانه دو مزیت کلیدی به همراه دارد:

افزونگی (Redundancy): اگر یک ایندکسر به هر دلیلی از دسترس خارج شود، سیستم به طور خودکار از کپی‌های موجود در ایندکسرهای دیگر استفاده می‌کند و کار تحلیلگران بدون وقفه ادامه می‌یابد.
افزایش سرعت جستجو (Search Speed): وقتی شما یک جستجو را اجرا می‌کنید، درخواست شما مستقیماً به سرورهای ذخیره‌سازی نمی‌رود. بلکه به یک جزء به نام Search Head ارسال می‌شود. Search Head مانند یک ژنرال عمل می‌کند که فرمان جستجو را به طور همزمان برای تمام سربازانش، یعنی ایندکسرها، صادر می‌کند. هر ایندکسر داده‌های محلی خود را جستجو کرده و نتایج را به ژنرال گزارش می‌دهد. سپس Search Head این نتایج را جمع‌آوری کرده و پاسخ نهایی و یکپارچه را در چند ثانیه به شما ارائه می‌دهد. تصور کنید از یک کتابدار بخواهید یک جمله را در یک کتابخانه عظیم پیدا کند. حالا تصور کنید از ده کتابدار بخواهید که هر کدام به طور همزمان فقط یک راهرو را بگردند و نتیجه را به شما اعلام کنند. این قدرت معماری توزیع‌شده است؛ نه فقط امنیت در تعداد، بلکه سرعت از طریق کار تیمی.

به این ترتیب، معماری توزیع‌شده Splunk به طور همزمان مشکل پایداری و سرعت را حل می‌کند. اما برای رسیدن به این سرعت، ساختار خود داده‌ها نیز اهمیت فوق‌العاده‌ای دارد.

۵. جزئیات تعیین‌کننده: اهمیت انواع فیلد (Field Types)

یکی از کارهای دقیق و شاید کمی خسته‌کننده در پیاده‌سازی SIEM، “نگاشت انواع فیلد” (Field Type Mapping) است. اما اهمیت این کار آنقدر زیاد است که می‌تواند تفاوت بین یک سیستم کارآمد و یک سیستم ناکارآمد را رقم بزند.

بیایید یک مثال ساده را بررسی کنیم: تفاوت بین "404" و 404. اولی یک رشته (String) متنی است، در حالی که دومی یک عدد (Integer) است. شاید این تفاوت کوچک به نظر برسد، اما تأثیر آن بر قابلیت‌های جستجو، گزارش‌گیری و هشداردهی عظیم است. اگر نوع فیلد به درستی تعریف شود، قابلیت‌های قدرتمندی در اختیار شما قرار می‌گیرد:

اعداد (Numeric): می‌توانید جستجوهایی بر اساس بزرگ‌تر یا کوچک‌تر بودن انجام دهید (مثلاً status_code > 499). همچنین می‌توانید محاسبات آماری مانند میانگین، جمع و انحراف معیار را روی آن‌ها اجرا کنید.
آدرس IP: با تعریف این نوع فیلد، می‌توانید بر اساس محدوده‌های شبکه جستجو کنید (مثلاً تمام ترافیک از رنج 10.0.0.0/8).
تاریخ (Date): این امکان را به شما می‌دهد که به راحتی در بازه‌های زمانی مشخص جستجو کنید.

یک نکته بسیار مهم: این سخت‌گیری در تعریف فیلدها، یک شمشیر دولبه است. از یک طرف، مانند یک دروازه‌بان کنترل کیفیت عمل می‌کند و منابع داده شما را مجبور می‌کند که داده‌ها را تمیز و سازگار ارسال کنند. از طرف دیگر، یک پیکربندی اشتباه می‌تواند باعث حذف شدن بی‌صدای لاگ‌ها (dropped logs) و از دست رفتن داده‌های امنیتی حیاتی شود. به همین دلیل است که تنظیم صحیح انواع فیلد در ابتدای کار، فقط یک «بهترین رویه» نیست؛ بلکه یک وظیفه حیاتی و ضروری است.

در نهایت، اگرچه تنظیم فیلدها کاری دقیق و زمان‌بر است، اما برای بهره‌برداری کامل از قدرت یک SIEM، امری ضروری است. و این قدرت، مستقیماً به سرعت سیستم وابسته است.

۶. سرعت پادشاه است: عملکرد ذخیره‌سازی غیرقابل مذاکره است

در دنیای تحلیل تاکتیکی امنیت، یک اصل کلیدی وجود دارد: سرعت پادشاه است. در حالت ایده‌آل، جستجوهای شما باید در کمتر از ۵ ثانیه پاسخ دهند. اگر تیم شما برای یک پرس‌وجوی ساده به طور مداوم بیش از ۳۰ ثانیه منتظر می‌ماند، شما یک مشکل عملکردی ندارید، بلکه یک مشکل بنیادین در معماری سیستم خود دارید.

در این زمینه، می‌توان از “نظریه پنجره‌های شکسته” (Broken Windows Theory) الهام گرفت. این نظریه می‌گوید که مشکلات کوچک و نادیده گرفته‌شده، به تدریج به مشکلات بزرگ و غیرقابل کنترل تبدیل می‌شوند. این اصل دقیقاً در مورد عملکرد SIEM نیز صادق است. وقتی یک جستجو دقایق طول می‌کشد، رشته افکار یک تحلیلگر از هم می‌پاشد. کنجکاوی جای خود را به ناامیدی می‌دهد. تحلیلگر شروع به پرسیدن سؤالات کمتری می‌کند. و یک تحلیلگر امنیتی که از پرسیدن سؤال «چه می‌شد اگر؟» دست بکشد، دیگر یک شکارچی تهدید نیست؛ بلکه یک تولیدکننده گزارش است. کندی SIEM شما مستقیماً کیفیت تحلیلگران انسانی شما را کاهش می‌دهد.

یک راه‌حل عملی برای مقابله با این مشکل این است که اگر عملکرد سیستم به یک چالش تبدیل شده، لاگ‌های مربوط به انطباق (Compliance) را از لاگ‌های تاکتیکی (Tactical) جدا کنید. این جداسازی می‌تواند در سطح سرورهای ذخیره‌سازی یا حتی پارتیشن‌های مختلف دیسک انجام شود. به این ترتیب، جستجوهای حیاتی و فوری روی دیسک‌های سریع‌تر انجام می‌شوند و لاگ‌های کم‌اهمیت‌تر، عملکرد کلی سیستم را تحت تأثیر قرار نمی‌دهند.

۷. جمع‌بندی نهایی

در این برنامه، ما به شالوده پنهان اما حیاتی یک SIEM قدرتمند، یعنی معماری ذخیره‌سازی، پرداختیم. اگر بخواهیم نکات کلیدی را مرور کنیم، به سه اصل اساسی می‌رسیم:

طراحی هدفمند ذخیره‌سازی: به یاد داشته باشید که ذخیره‌سازی فقط برای انباشت داده نیست. این بخش باید برای حفظ طولانی‌مدت لاگ‌ها، پاسخ سریع به جستجوها و طبقه‌بندی صحیح انواع داده‌ها طراحی شود.
معماری صحیح، کلید موفقیت: یک معماری مناسب (مانند راهکارهای مبتنی بر WORM مثل Splunk) تفاوت بین یک SIEM تاکتیکی که به شکار تهدید کمک می‌کند و یک SIEM که صرفاً برای رفع نیازهای انطباق استفاده می‌شود را مشخص می‌کند.
سرعت، محرک تحلیلگران: هرگز اهمیت سرعت را دست‌کم نگیرید. این سرعت است که یک SIEM را قابل استفاده، مؤثر و مورد علاقه تیم امنیتی شما نگه می‌دارد.

پس دفعه بعد که در مورد پیاده‌سازی یا بهینه‌سازی یک SIEM فکر می‌کنید، به یاد داشته باشید که قدرت واقعی آن در زیرساخت ذخیره‌سازی‌اش نهفته است. این شالوده پنهان، موفقیت شما در شناسایی تهدیدها را تضمین می‌کند. از اینکه در این برنامه با ما همراه بودید سپاسگزارم.