Deweloperzy sztucznej inteligencji są zdezorientowani po tym, jak awaria Google Cloud zakłóca działanie kluczowych narzędzi
Dzień, w którym Internet się zatrzymał
12 czerwca 2025 r. zaczął się jak kolejny zwykły czwartek - aż nagle przestał nim być. Programiści i firmy na całym świecie zaczęli wpatrywać się w puste ekrany i komunikaty o błędach, gdy kluczowa część podstawowych systemów Google Cloud uległa awarii. To, co zaczęło się jako słaba fala, szybko zmieniło się w pływ: platformy takie jak Spotify, Discord, Gmail, Snapchat, a nawet krytyczne narzędzia AI, takie jak Replit i LlamaIndex, zostały nagle odcięte od swoich użytkowników. Winowajca? Usługa tożsamości Google Cloud - zakulisowy element, którego większość ludzi nigdy nie zauważa - po prostu przestała rozdawać tokeny, które utrzymują cyfrowy świat w ruchu.
Jak mały trybik może zablokować całą maszynę
Łatwo jest przyjąć za pewnik zawsze dostępną wygodę nowoczesnych usług internetowych. Ale jak pokazała ta awaria, cały system opiera się na garstce niewidocznych, zazębiających się kół zębatych. Kiedy centralny system logowania Google potknął się o złe dane zasad, wszystko się zatrzymało. Inżynierowie próbujący uzyskać dostęp do swoich środowisk w chmurze zostali zablokowani. Wywołania API z aplikacji na całym świecie zwracały tajemnicze błędy lub po prostu... nic. Niektóre usługi zawiodły natychmiast, inne powoli przygasały, gdy kłopoty rozprzestrzeniały się od systemu do systemu. Uwięzione w swoich pokojach wojennych zespoły techniczne wymieniały się szubienicznym humorem - obrazami płonących pomieszczeń z podpisem “Wszystko jest w porządku” - aby złagodzić poczucie bezradności.
Historia nie była tylko techniczna. Szpitale, badacze i firmy telekomunikacyjne, które polegają na narzędziach AI Google do wszystkiego, od diagnostyki po planowanie spotkań, nagle natknęły się na ceglane ściany. A ponieważ inne usługi, takie jak Cloudflare, polegają na Google Cloud do przechowywania krytycznych danych konfiguracyjnych, ich użytkownicy - od sklepów internetowych po usługi VPN - również odczuli szczyptę. Nawet Amazon Web Services zauważył błąd, dzięki klientom kierującym ruch sieciowy przez Cloudflare. Okazało się, że drobne pęknięcia powodują duże wstrząsy wtórne.
Zbieranie kawałków - i ponowne przemyślenie planu
Do popołudnia inżynierowie Google znaleźli zepsutą linię kodu, zatrzymali kaskadę i rozpoczęli powolną pracę nad przywracaniem usług region po regionie. Większość użytkowników zauważyła, że wszystko wróciło do normy w ciągu kilku godzin, choć w niektórych miejscach problemy utrzymywały się do wieczora. Google publicznie przeprosiło klientów, przedstawiając plany testowania, lepszej obsługi błędów i większych zabezpieczeń, aby złośliwe lub po prostu błędne dane nie doprowadziły do ponownego uszkodzenia systemu.
Mimo to, epizod ten pozostawił wiele pytań - i impuls do zmian. Okazuje się, że narzędzia do identyfikacji w chmurze stanowią pojedynczy punkt awarii dla całego cyfrowego ekosystemu. W miarę jak platformy coraz ściślej się ze sobą łączą, jeden błąd na górze łańcucha może spowodować, że dziesiątki niezależnych usług pogrążą się w ciemności. Firmy zadają teraz ostrzejsze pytania: Jak możemy utrzymać działanie - przynajmniej na podstawowym poziomie - w przypadku awarii uwierzytelniania w chmurze? Jak upewnić się, że nasi dostawcy nie mają tych samych ukrytych punktów styku? Pojawiło się nowe zainteresowanie staromodnymi kopiami zapasowymi: lokalnymi pamięciami podręcznymi, chmurami hybrydowymi i planami awaryjnymi na wypadek, gdyby niewidzialne wątki sieci zostały zerwane.
Ta awaria zmusiła wszystkich - zarówno inżynierów, jak i zwykłych użytkowników - do skonfrontowania się z tym, jak wiele zaufania i ryzyka jest wbudowanych w fundamenty naszego świata opartego na sztucznej inteligencji. To przypomnienie, że nawet w erze sztucznej inteligencji i globalnych sieci, Internet nadal jest tworzony przez ludzi. A ludzie, zawsze pomysłowi, już pracują nad tym, aby przyszłe systemy były nieco mniej kruche niż dzisiejsze.
Aby przeczytać oryginalny raport i zobaczyć więcej szczegółów na temat incydentu, zapoznaj się z historią na VentureBeat: https://venturebeat.com/ai/cloud-collapse-replit-llamaindex-knocked-offline-by-google-cloud-identity-outage/.