За голяма част от света вече не съществува такова нещо като „да си офлайн“. Интернет е в основата на глобалната финансова и потребителска екосистема, позволявайки незабавна комуникация и трансакции.

Въпреки че системата е неразделна част от толкова много човешки дейности, тя е и крехка, струва милиарди долари и създава огромни неудобства, когато част от нея спре да работи.

През 2025 г. редовно имаше широко мащабни прекъсвания. Технически проблеми в основните доставчици на уеб инфраструктура доведоха до прекъсване на услугите за милиони потребители.

Едно 15-часово прекъсване в центровете за данни на Amazon.com Inc. през октомври блокира британските деца от игралната платформа Roblox, попречи на работниците да осъществяват разговори през Zoom и принуди дежурните инженери в Индия да отменят плановете си за религиозния празник Дивали.

В средата на ноември неизправност във фирмата за уеб сигурност Cloudflare Inc. свали редица сайтове, в това число ChatGPT, транспортния орган на Ню Джърси и платформата X.

Може да изглежда странно, че проблем при един доставчик може да предизвика такава каскада от поражения.

Причината се крие в начина, по който интернет се е развил от самото си създаване, и в съкращенията по отношение на разходите и ефективността, направени от компании, чиито услуги се използват от милиони потребители.

Как потребителите достъпват интернет?

Когато потребител въведе google.com в телефона или компютъра си, това задейства сложен, но светкавично бърз набор от процеси.

На всички устройства – телефони, компютри, сървъри – свързани с интернет, се разпределят идентификатори, наречени IP адреси, а те използват системата за имена на домейни (DNS), за да се локализират и да комуникират помежду си.

Междувременно, сайтове и приложения, като Google, са съставени от пакети данни, включващи текст, изображения и функционалности.

За да зареди Google, устройството на потребителя изпраща заявка за тези пакети данни чрез WiFi, мобилни данни или кабелна връзка. Заявката пътува по физическа инфраструктура, като рутери, кабели, комутатори, регионални центрове за данни и евентуално чрез подводни кабели, докато достигне правилния сървър на Google.

Този сървър, който се намира в център за данни редом със стотици хиляди други сървъри на Google, разглежда заявката и пренасочва съответните пакети данни обратно към потребителя чрез същите глобални инфраструктурни мрежи.

Прекъсвания могат да възникнат, когато нещо по тази взаимосвързана верига се обърка. Голяма част от причините, поради които прекъсванията се случват в големи мащаби сега, се дължат на възхода на облачните технологии.

Защо прекъсванията сега изглеждат толкова разрушителни?

Основна промяна в начина, по който работи интернет, се крие в това къде се съхраняват данните и инфраструктурата.

През 90-те и началото на 2000-те години всяка компания, която е имала собствен уебсайт, вероятно е разполагала със собствени сървъри в офисите или в централата си – наречени локални сървъри.

Като алтернатива, тя е наемала сървъри от друга компания, но все пак е управлявала хардуера и софтуера.

На ниво отделен потребител, всичко, свързано с компютър, е включвало и локално съхранение на информация: музика, снимки, файлове – всички те са се съхранявали на твърди дискове.

Всяко прекъсване може да се дължи на един-единствен повреден файл и макар загубата на хиляди цифрови снимки да е дразнеща, тя не би засегнала другите потребители.

Облачните изчисления станаха масови, след като Amazon, известна предимно като гигант в онлайн търговията на дребно, осъзна, че инженерите им прекарват прекомерно много време в решаване на едни и същи проблеми, свързани с компютърната инфраструктура и съхранението на данни.

Компанията изгради споделена инфраструктура, за да облекчи това бреме, след което осъзна, че концепцията може да се приложи към голяма част от интернет.      

Идеята се разпространи и сега повечето интернет потребители и бизнеси разчитат по някакъв начин на облачните изчисления. След като Amazon Web Services, Microsoft Corp. и Google, собственост на Alphabet Inc., стартираха свои собствени услуги, и трите технологични компании започнаха да доминират в сферата на облачните изчисления в световен мащаб.

На практика това означава експлоатация на милиони сървъри в центрове за данни. Те обикновено са организирани в „региони“ – отделни клъстери от сървърни ферми, които обслужват определена държава или район.

Някои региони може да обработват повече трафик, което означава, че има непропорционално въздействие, ако някой от тях се повреди. Някои компании може да имат регионални зависимости, за които не са наясно, което води до срив на услуги поради прекъсване извън техния регион.

Прекъсването на работата на AWS през октомври се дължеше на грешка, засягаща една от ключовите услуги, което причини каскадни повреди и извади от строя редица основни сайтове и услуги.

Тъй като интернет не е само пакети данни, но и голяма част от физическата инфраструктура, тези инциденти могат да произтичат от редица причини, като например софтуерна грешка, прегряване на център за данни или износен кабел. Изненадващо е, че няма сривове по-често.

Защо облачни услуги, като AWS, Microsoft Azure и Google Cloud, са толкова доминиращи?

Във Великобритания, например, AWS и облачната услуга Azure на Microsoft контролират повече от 70% от пазара на облачни изчисления. Това е резултат от предимството на ранните играчи, съществуващото присъствие в корпоративните технологии на Microsoft и чистата финансова мощ.

Но зависимостта от шепа доминиращи доставчици на облачни услуги има някои странични ефекти. Евентуално прекъсване вече може да унищожи големи части от интернет.

Тези големи компании също са критикувани за бизнес практиките си, които затрудняват новите участници на пазара и бизнеса при прехвърлянето на договорите си за облачни изчисления към други доставчици.

Тъй като технологичната инфраструктура, необходима за всяка облачна услуга, е различна, смяната на доставчиците може да бъде много скъпа за бизнеса.

Облачните инженери също често следват процеси на сертифициране за един конкретен доставчик, което допълнително увеличава разходите и затруднява диверсификацията.

Какво може да се обърка с големите облачни услуги?

Една от причините големите доставчици на облачни услуги да са толкова популярни е, че те, като цяло, са надеждни. Облачните изчисления са бързо развиващ се аспект от техния бизнес и е в техен интерес да поддържат безпроблемната работа на услугите.

Това обаче не може да обясни все по-взаимосвързания характер на технологичните услуги, особено когато шепа компании доминират различни слоеве на инфраструктурата.

CrowdStrike Holdings Inc., например, не е голяма технологична компания, но е доминираща в сферата на киберсигурността. Популярността ѝ означава, че работи на милиони системи с Microsoft Windows – често тези, които изпълняват критично важни операции в големи организации.

Когато се стигна до дефектно обновяване на софтуера чрез облачна актуализация през юли 2024 г., тя моментално предизвика „син екран на смъртта“ на милиони компютри.

Макар че в този случай нямаше проблем с облака, едновременният характер на облачните актуализации извади милиони машини наведнъж.

Какво могат да направят компаниите, за да се предпазят от риска от прекъсвания?

Най-важното нещо, което компаниите могат да направят, е да са помислили за това какво биха направили в случай на прекъсване, преди то действително да се случи.

Това може да означава да похарчат повече пари, за да си осигурят резервна услуга, ако има повреда в основния им регион, или да адаптират инфраструктурата си, така че да имат „вътрешни“ резервни сървъри за най-важните услуги.

Що се отнася до останалите от нас, няма много какво да направим по време на голям системен срив, освен да изчакаме доставчикът на облачни услуги да го поправи.

Отдръпнете се от екрана, излезте навън и се възхищавайте на сложната инфраструктура зад компютъра, която (през повечето време) поддържа безпроблемната работа на всичко.