Nguyên nhân Cloudflare gặp sự cố gián đoạn và không truy cập được

1154
12-01-2026
Nguyên nhân Cloudflare gặp sự cố gián đoạn và không truy cập được

Nhà cung cấp hạ tầng web Cloudflare đã gặp sự cố gián đoạn một vài lần trong thời gian qua, gây ảnh hưởng tạm thời đến hàng loạt dịch vụ trực tuyến - từ Spotify, ChatGPT cho đến nền tảng Truth Social của Tổng thống Donald Trump - đánh dấu một sự kiện mới nhất trong chuỗi các tình huống gián đoạn kết nối Internet quy mô lớn gần đây.

Tháng trước, một sự cố của Amazon Web Services (AWS) đã làm gián đoạn sinh hoạt hằng ngày của hàng triệu người, trong một số trường hợp thậm chí khiến họ không thể thực hiện những việc đơn giản như gọi cà phê hay quản lý các thiết bị nhà thông minh. Chỉ vài ngày sau đó, dịch vụ Azure của Microsoft cũng tiếp tục gặp sự cố ngừng hoạt động.

Theo các chuyên gia, đây là dấu hiệu của thời đại, xuất phát từ sự kết hợp của nhiều yếu tố: xã hội ngày càng phụ thuộc vào các dịch vụ số, hạ tầng điện toán đám mây then chốt bị tập trung vào tay một số ít công ty, cùng với xu hướng người dùng than phiền về các trục trặc công nghệ trên mạng xã hội.

Điều này cũng cho thấy rằng không ai — kể cả các tập đoàn công nghệ lớn — có thể miễn nhiễm trước các sự cố kỹ thuật.

“Trong những trường hợp như thế này, thực tế không quá quan trọng nhà cung cấp có vị thế vững chắc đến đâu, hay một doanh nghiệp tư nhân có tổ chức CNTT và hạ tầng phức tạp, hiện đại như thế nào,” một chuyên gia giữ vị trí phó chủ tịch khu vực phụ trách tiếp thị sản phẩm và giải pháp tại một công ty CNTT và an ninh mạng cho biết. “Những gián đoạn công nghệ như vậy là vấn đề rất, rất phổ biến.”

Chuyện gì đã xảy ra tại Cloudflare

Cloudflare cho biết sự cố ngừng hoạt động lần này xuất phát từ lỗi kỹ thuật, không phải do tấn công mạng hay hành vi độc hại, theo tuyên bố của công ty gửi tới CNN.

Theo Cloudflare, nguyên nhân của sự cố là một tệp cấu hình được sử dụng để quản lý lưu lượng truy cập có nguy cơ đe dọa.

“Tệp cấu hình này đã phình to vượt quá kích thước dự kiến về số lượng mục, từ đó kích hoạt lỗi khiến hệ thống phần mềm xử lý lưu lượng của một số dịch vụ Cloudflare bị sập,” tuyên bố cho biết.

Dane Knecht, giám đốc công nghệ (CTO) của Cloudflare, đã chia sẻ thêm chi tiết trong một bài đăng trên X vào chiều thứ Ba. Tóm lại, một thay đổi cấu hình mang tính thường lệ đã kích hoạt một lỗi khiến hệ thống bị sập, và lỗi này đã lan rộng, gây suy giảm nghiêm trọng trên toàn mạng lưới và nhiều dịch vụ khác của Cloudflare.

“Chúng tôi đã bắt tay ngay vào việc để đảm bảo sự cố này không tái diễn, nhưng tôi hiểu rằng hôm nay nó đã gây ra rất nhiều ảnh hưởng tiêu cực,” ông viết.

Sự cố gián đoạn của Amazon trước đó cũng liên quan đến một lỗi tương tự, xảy ra khi hai hệ thống tự động cố gắng cập nhật cùng một dữ liệu tại cùng một thời điểm, từ đó kích hoạt lỗi.

Theo các chuyên gia công nghệ, sự cố CNTT thực ra khá phổ biến. Cách đây 20 năm, việc các dịch vụ CNTT “ngừng hoạt động thường xuyên” là điều bình thường, theo Mike Chapple – giảng viên CNTT tại Đại học Notre Dame và cựu nhà khoa học máy tính của Cơ quan An ninh Quốc gia Mỹ (NSA).

“Không có gì lạ nếu trong một tuần làm việc lại gặp ít nhất một sự cố ngừng hoạt động của một dịch vụ CNTT nào đó,” ông nói, đồng thời lưu ý rằng ngày nay hầu như mọi người đều phụ thuộc vào cùng một số ít nhà cung cấp lớn.

Vì vậy, khi sự cố xảy ra tại các nhà cung cấp hạ tầng chủ chốt như Amazon, Microsoft hay Google – những đơn vị được xem là xương sống của Internet – thì tác động sẽ lan rộng trên quy mô rất lớn.

Theo dữ liệu do công ty mẹ của Downdetector là Ookla cung cấp cho CNN, số báo cáo sự cố do người dùng gửi lên Downdetector đã vượt quá 2,1 triệu lượt trong ngày thứ Ba. Downdetector là trang web chuyên theo dõi các vấn đề mà người dùng gặp phải với những nền tảng trực tuyến phổ biến.

Cloudflare cho biết họ xử lý trung bình khoảng 81 triệu yêu cầu HTTP mỗi giây – tức là những yêu cầu khi trình duyệt web cần dữ liệu để thực hiện một hành động, chẳng hạn như tải một trang web.

Có thật là các sự cố ngừng dịch vụ đang xảy ra nhiều hơn?

Việc ba sự cố gián đoạn trên diện rộng xảy ra trong vòng chưa đầy một tháng thực chất chỉ là sự trùng hợp ngẫu nhiên. Tuy nhiên, theo một chuyên gia trong ngành, cảm giác rằng các sự cố này đang xảy ra thường xuyên hơn là có thật, chủ yếu do quy mô và mức độ ảnh hưởng ngày càng lớn.

Số lượng sự cố ngừng dịch vụ không tăng đáng kể, nhưng số lượng website và ứng dụng phụ thuộc vào các dịch vụ nền tảng này ngày càng nhiều, khiến mỗi sự cố trở nên tàn phá hơn đối với người dùng, theo chia sẻ của một chuyên gia phụ trách mảng phân tích Internet tại Cisco ThousandEyes trong email gửi CNN.

Theo dữ liệu từ dịch vụ giám sát mạng của Cisco, đã ghi nhận 12 sự cố lớn trong năm 2025 tính đến thời điểm hiện tại, chưa bao gồm sự cố Cloudflare vào thứ Ba. Con số này được tổng hợp từ mốc thời gian công bố trên website của Cisco.

Để so sánh:

  • 23 sự cố trong năm 2024
  • 13 sự cố trong năm 2023
  • 10 sự cố trong năm 2022

Đáng chú ý, sự cố diện rộng của CrowdStrike năm 2024 đã gây gián đoạn nghiêm trọng cho doanh nghiệp, các chuyến bay và hệ thống bệnh viện trên toàn cầu.

Theo Cisco, các sự cố xảy ra trong nửa đầu năm 2025 có nhiều điểm chung đáng lưu ý. Một loạt sự cố có liên quan đến:

- Các hệ thống vô tình lan truyền lỗi kỹ thuật

- Các hệ thống trông có vẻ hoạt động bình thường nhưng thực chất đang gặp lỗi ngầm

- Những thay đổi cấu hình nhỏ nhưng gây hiệu ứng dây chuyền (cascading failures)

Mặc dù những xu hướng này không mới, Cisco cho biết họ đang chứng kiến ngày càng nhiều sự cố kiểu này với hậu quả sâu rộng hơn.

Theo CNN

SHARE