Tóm tắt điều hành
Một sự cố ngừng hoạt hoạt động nghiêm trọng tại Cloudflare vào ngày 18 tháng 11 năm 2025 đã gây ra sự gián đoạn internet trên diện rộng, ảnh hưởng đến một phần đáng kể của web, bao gồm các nền tảng công nghệ lớn và dịch vụ tiền điện tử. Sự cố này, mà công ty gọi là tồi tệ nhất kể từ năm 2019, không phải do một cuộc tấn công độc hại mà do một lỗi phân tầng bắt nguồn từ một thay đổi cơ sở dữ liệu nội bộ thông thường. Sự kiện này đã tập trung mạnh mẽ vào các rủi ro hệ thống liên quan đến việc tập trung cơ sở hạ tầng internet quan trọng vào một số ít nhà cung cấp và phơi bày sự mong manh của các hệ sinh thái phụ thuộc như AI và Web3.
Chi tiết sự kiện
Sự cố ngừng hoạt động bắt đầu vào khoảng 11:20 UTC và kéo dài gần sáu giờ, với lưu lượng truy cập cốt lõi được khôi phục trong khoảng ba giờ. Nguyên nhân sâu xa là một chuỗi sự kiện phức tạp và không lường trước được. Nó bắt đầu bằng một bản cập nhật quyền trên cụm cơ sở dữ liệu ClickHouse. Thay đổi này vô tình khiến một truy vấn cho hệ thống quản lý bot của Cloudflare trả về dữ liệu trùng lặp, điều này đến lượt nó đã làm cho tệp cấu hình quan trọng bị phình to vượt quá giới hạn 200 tính năng được mã hóa cứng trong phần mềm proxy cốt lõi.
Khi phần mềm proxy cố gắng tải tệp quá khổ này, nó đã kích hoạt một sự cố và sập, trả về lỗi HTTP 5xx cho người dùng. Lỗi ban đầu là không liên tục, vì tệp cấu hình bị lỗi được tạo lại sau mỗi năm phút, ban đầu khiến các kỹ sư nghi ngờ một cuộc tấn công DDoS phức tạp, có nhịp điệu. Khi nguyên nhân gốc rễ được xác định, một tệp cấu hình chính xác đã được triển khai trên toàn cầu và các dịch vụ dần dần được khôi phục.
Tác động thị trường
Sự gián đoạn đã có một hiệu ứng lan tỏa đáng kể trên toàn nền kinh tế kỹ thuật số. Các dịch vụ nổi tiếng bao gồm OpenAI, Spotify, X (trước đây là Twitter) và Canva đã trở nên không thể truy cập đối với nhiều người dùng. Sự cố ngừng hoạt động cũng tác động trực tiếp đến lĩnh vực tiền điện tử, với giao diện người dùng cho các giao thức tài chính phi tập trung (DeFi) lớn dựa trên Solana như Jupiter, Raydium và Meteora bị ngừng hoạt động. Sự kiện này đã chứng minh sự phụ thuộc sâu sắc của ngay cả các hệ thống phi tập trung vào cơ sở hạ tầng tập trung để truy cập hướng người dùng.
Bình luận của chuyên gia
Các nhà phân tích ngành đã nhanh chóng đánh giá những hậu quả rộng lớn hơn của sự cố. Brent Ellis, nhà phân tích chính tại Forrester Research, đã nhấn mạnh vấn đề "rủi ro tập trung", ước tính thiệt hại kinh tế trực tiếp và gián tiếp từ sự cố có thể dao động từ "250 triệu đến 300 triệu USD".
Sarah Kreps, giám đốc Viện Chính sách Công nghệ tại Đại học Cornell, đã bình luận về lỗ hổng cụ thể của ngành AI đang phát triển, lưu ý sự gián đoạn đối với OpenAI. Bà nói:
"Vấn đề này phơi bày thực tế rằng khoản đầu tư hàng tỷ, thậm chí hàng nghìn tỷ đô la vào AI chỉ đáng tin cậy như cơ sở hạ tầng bên thứ ba ít được kiểm tra nhất của nó."
Giám đốc điều hành Cloudflare Matthew Prince đã đưa ra lời xin lỗi công khai, nói rằng sự cố ngừng hoạt động là "không thể chấp nhận được" và thừa nhận tác động sâu sắc đến khách hàng và internet nói chung.
Bối cảnh rộng hơn
Sự cố ngừng hoạt động của Cloudflare đóng vai trò là một nghiên cứu điển hình quan trọng về những rủi ro cố hữu của việc tập trung cơ sở hạ tầng. Nó theo sau các sự cố gián đoạn lớn tương tự tại các nhà cung cấp dịch vụ nền tảng khác như Amazon Web Services (AWS) và Fastly trong những năm gần đây. Đối với hệ sinh thái Web3, vốn hướng tới phi tập trung hóa, sự kiện này là một lời nhắc nhở rõ ràng rằng khả năng truy cập của nó thường phụ thuộc vào cùng các điểm nghẽn tập trung như web truyền thống. Đối với ngành AI, vốn yêu cầu kết nối liên tục và đáng tin cậy để các mô hình chuyên sâu dữ liệu của nó hoạt động, sự cố ngừng hoạt động tiết lộ một lỗ hổng cơ bản có thể cản trở sự phát triển và độ tin cậy của nó. Sự cố củng cố lập luận rằng trong khi các hệ thống riêng lẻ có thể mạnh mẽ, sự phụ thuộc lẫn nhau của chúng tạo ra các rủi ro hệ thống phức tạp khó dự đoán và tốn kém khi xảy ra.