🌐 Cloudflare közzétette a 2025. december 5-i globális leállás valódi okát

Kritikus biztonsági javítás, 25 perces kiesés — és még nagyobb kérdések az internet sérülékenységéről

december 5-én reggel, 08:47 UTC-kor, a Cloudflare globális infrastruktúrájának jelentős része váratlanul hibázni kezdett. Néhány percen belül több ezer weboldal – köztük olyan nagy szolgáltatók, mint a LinkedIn, Zoom vagy a Downdetector – HTTP 500-as hibákat adott. A Cloudflare szerint ebben az időszakban az összes HTTP-forgalom mintegy 28%-a érintett volt.

A hibás konfigurációs módosítást 09:12 UTC-re visszavonták, így a kiesés mindössze 25 percig tartott — ám ez az idő is elég volt ahhoz, hogy világszinten érezhető fennakadásokat okozzon, és újra felszínre hozza a kérdést: mennyire sérülékeny a modern internet, ha egyetlen hibás konfiguráció ekkora hatást tud gyakorolni?

Cloudflare CTO-ja, Dane Knecht utólag úgy fogalmazott: a leállás „elfogadhatatlan”, különösen azért, mert alig két héttel korábban egy másik nagy incidens is történt (november 18-án).

⚠️ Mi történt valójában?

A Cloudflare hangsúlyozta: nem kibertámadás okozta az esetet.

A probléma egy belső, sürgős biztonsági változás közvetlen következménye volt, amelyet a héten nyilvánosságra hozott, súlyos React/Next.js sebezhetőség (CVE-2025-55182 – „React2Shell”) miatt vezettek be.

A React2Shell sérülékenységet már a közzététel napján aktívan ki is használták támadók, ezért a Cloudflare úgy döntött:

👉 globális védelmi módosítást vezet be azok számára, akik még nem telepítették a hivatalos foltot.

A kulcsfontosságú lépés: a HTTP request-body buffer növelése 128 KB-ról 1 MB-ra

Ez megfelel a modern React/Next.js alkalmazások alapértelmezett működésének.

A módosítás során derült ki, hogy:

a Cloudflare egyik belső WAF-tesztelő eszköze nem kompatibilis az új buffermérettel,
ezért ezt az eszközt globálisan letiltották,
de a letiltás nem fokozatosan, hanem egyszerre futott át a hálózaton.

Ez lett a kritikus pont: a régebbi „FL1” proxykód egy régi, inaktív hibát tartalmazott, amely azonnal aktiválódott, amikor a tesztelő modul leállt.

A proxyban futó Lua-kód:

feltételezte, hogy egy már nem létező mező („execute” object) rendelkezésre áll,
ez kivételt váltott ki,
ami miatt a proxy minden egyes kérésre 500-as hibát adott vissza.

A hiba villámgyorsan terjedt, hiszen a konfiguráció globálisan propagálódott.

A visszavonás után perceken belül helyreállt a működés.

🔄 A szélesebb kontextus: ismétlődő problémák?

Ez már a második jelentős Cloudflare-incidens két héten belül.

2025. november 18.

Egy hibás Bot Management konfigurációs fájl okozott többórás, globális zavart. Milliók és nagy szolgáltatók (AI-rendszerek, közösségi platformok stb.) váltak elérhetetlenné.

2025. december 5.

Egy sürgős biztonsági módosítás miatt hibás belső komponens aktiválta a rejtett bugot.

A hasonlóság a két kibillenés között:

egyetlen konfigurációs hiba → világszintű leállás,
az internet nagy része túlzottan függ néhány nagy infrastruktúraszolgáltatótól.

A szakértők szerint ez rendszerszintű sérülékenységet jelent.

🚨 Miért kockáztatta meg Cloudflare ezt a módosítást?

Az ok egyszerű és ijesztő:

👉 A React2Shell sebezhetőség kritikusan veszélyes volt.
👉 A támadók már aktívan keresik és támadják az érintett rendszereket.
👉 Több ezer ügyfél volt kiszolgáltatva az RCE-t lehetővé tevő hibának.

A Cloudflare ezért úgy ítélte meg, hogy:

„Egy 25 perces globális leállás kisebb kár, mint egy tömeges, szerveroldali feltörési hullám.”

Ez azonban ugyanakkor rávilágít arra a dilemmára, amely minden nagy szolgáltatót érint:

🔹 Mi fontosabb?

Az azonnali biztonság, vagy
a szolgáltatás megbízható stabilitása?

Mindkettő kritikus — de egymás ellen is fordulhatnak.

🛠️ Mit ígért Cloudflare javításként?

A hivatalos post-mortem szerint a következő átalakításokat vezetik be:

✔️ Biztonsági és konfigurációs frissítések fokozatos, verziózott rolloutja

Nem lehet több „globális, egyszerre érvényesülő” változtatás, amely beláthatatlan hatást okoz.

✔️ Robusztusabb „break-glass” vészhelyzeti mechanizmusok

Hogy egy modul hibája ne omlassza össze a teljes hálózatot.

✔️ „Fail-open” szemlélet kritikus komponenseknél

Ha egy WAF-komponens hibázik, inkább engedje tovább a forgalmat (biztonsági pontszám nélkül),
mintsem 500-as hibát dobjon minden kérésre.

✔️ Átláthatóbb hibakezelés és belső kódtisztítás

A régi, rejtett bugok felszámolása elsődleges prioritás lesz.

🌍 Mit jelent ez a világ számára?

A legtöbb felhasználó számára ez csupán egy rövid „500 Internal Server Error” élmény volt.

De a valós kérdés:

❗️Biztonságban van-e az internet, ha egyetlen rossz konfiguráció több ezer szolgáltatást dönt el egyszerre?

A Cloudflare, az Amazon, a Google, a Microsoft →
mind központi csomópontjai a modern digitális életnek.

Ha ők hibáznak, a fél internet meginoghat.

A történtek üzenete a vállalkozások számára:

több szolgáltató esetleges használata (multi-CDN) megfontolandó,
a szolgáltatói transzparencia és SLA-k újraértékelendők,
a „független internet” egyre kevésbé létezik.

A történtek üzenete az infrastruktúraszolgáltatóknak:

a gyors biztonsági reagálás elengedhetetlen,
de a rollout-folyamatoknak golyóállónak kell lenniük.

A végső tanulság egyértelmű:
az internet törékenyebb, mint gondolnánk.

Sió-Informatika Rendszerház