Hiểu hơn về những thiệt hại do Downtime, Outages và Failures gây ra (P1)

1578
01-06-2019
Hiểu hơn về những thiệt hại do Downtime, Outages và Failures gây ra (P1)

Khi nhắc đến các ứng dụng quan trọng hoặc chất lượng hiệu suất trung tâm dữ liệu, các doanh nghiệp luôn sẵn sàng đầu tư những khoản chi khá lớn. Thật không may, những khoản đầu tư này không bao giờ được sử dụng hợp lý và được tận dụng tối đa.

Đối mặt với downtime hệ thống

Bất chấp những nỗ lực đầu tư mạnh mẽ vào cơ sở hạ tầng, nhiều tổ chức CNTT vẫn tiếp tục phải đối mặt và xử lý các sự cố downtime của cơ sở dữ liệu, phần cứng và phần mềm kéo dài từ vài phút đến vài ngày, gây ảnh hưởng đến khả năng kinh doanh và tạo ra những tổn thất to lớn.

Downtime dự kiến

Mặc dù đã có nhiều giải pháp tiên tiến và các phát triển công nghệ, nhưng downtime vẫn là một mối đe dọa đáng sợ.

Mặt khác, IT failure đã trở thành một phần của doanh nghiệp, một phần sẽ xảy ra trong quá trình hoạt động của tổ chức.

System outage

Khi nào ngành công nghiệp nên bắt đầu đo lường tác động tài chính của việc ngừng hoạt động của thương hiệu lớn? Chẳng hạn như vụ tấn công gần đây của Facebook, vụ tấn công hàng trăm nghìn khách hàng của Ngân hàng Lloyds hay sự cố ngừng hoạt động của Jetstar dẫn đến hàng trăm chuyến bay bị trì hoãn?

Nói cách khác, tại thời điểm nào thì việc ngừng hoạt động "đủ đáng kể" để doanh nghiệp phải lưu tâm, tìm cách phòng chống và khắc phục thiệt hại?

Rõ ràng đến một lúc nào đó, việc ngừng hoạt động sẽ tạo ra một tác động không thể bỏ qua. Đó là điểm không có lợi nhuận, theo sau là ước tính tác động đến tài chính.

Downtime thay đổi đáng kể giữa các ngành công nghiệp. Quy mô kinh doanh bị ảnh hưởng rõ ràng là một yếu tố quan trọng, nhưng nó không phải là yếu tố chính duy nhất. Vai trò của hệ thống CNTT trong doanh nghiệp cũng là chìa khóa.

Hiểu hơn về những thiệt hại do Downtime, Outages và Failures gây ra (P1) - Ảnh 1.

Đặt một giá trị bằng số đằng sau IT outage  có nghĩa là xác định trước ý nghĩa của nó trên nhiều khía cạnh kinh doanh và tổ chức, để toàn bộ ngành có thể học hỏi và tối ưu hóa theo đó.

Lỗi ứng dụng quan trọng có thể dẫn đến hai loại tổn thất sau:

- Mất dịch vụ ứng dụng - tác động của downtime thay đổi tùy theo ứng dụng và doanh nghiệp.

- Mất dữ liệu - việc mất dữ liệu do ngừng hệ thống có thể có gây ảnh hưởng tới pháp lý và tài chính quan trọng.

Các trung tâm dữ liệu ngày nay không nên rơi vào trường hợp ngừng hoạt động; các ứng dụng phải luôn sẵn sàng 24/7, tính khả dụng của trung tâm dữ liệu (đối với dữ liệu quan trọng và tính sẵn sàng của ứng dụng) phải đáp ứng nhu cầu của người dùng cuối mọi lúc.

Trên thực tế, không có tổ chức nào đảm bảo được 100% uptime. Doanh nghiệp cần phải hiểu biết sâu sắc về ý nghĩa của downtime cũng như cách để giảm thiểu nó.

Cơn ác mộng hệ thống ngừng hoạt động…

Một số sự cố ngừng hoạt động trong quá khứ đã biến thành thảm họa, như sự kiện huyền thoại Virgin Blue từ năm 2010, hay vụ việc gần đây đã ảnh hưởng đến Facebook.

Tại sao? Tại vì tác động hàng loạt mà các sự cố này gây ra.

Xin nhắc lại, việc Virgin Blue ngừng hoạt động đã ngăn hành khách lên máy bay trong 11 ngày (!!) dẫn đến các tin tiêu cực trên báo chí, danh tiếng bị tổn hại và mất hàng triệu đô la.

Cụ thể hơn: Công ty quản lý đặt chỗ của Virgin Blue, Navitaire, cuối cùng đã bồi thường cho Virgin Blue hơn 20 triệu đô la.

Có rất nhiều sự cố khác thu hút sự chú ý của giới truyền thông. Như một bài báo gần đây của USA Today đã đưa tin về việc ngừng hoạt động Wells Fargo đã ngăn khách hàng truy cập vào tài khoản của họ trong nhiều giờ.

Bất kỳ ai trong ngành CNTT đều đồng ý rằng việc ngừng hoạt động sẽ gây ra những hậu quả RẤT tệ cho việc kinh doanh, tổn hại về mặt tài chính và các tài nguyên có sẵn.

Cấu hình sai là nguyên nhân lớn

IT Process Institute's Visible Ops Handbook trong quá khứ đã báo cáo rằng "80% các lần ngừng hoạt động ngoài dự kiến là do những thay đổi không được lên kế hoạch của các quản trị viên hoặc nhà phát triển.

Hiệp hội quản lý doanh nghiệp báo cáo rằng 60% lỗi khả dụng và hiệu suất là kết quả của việc cấu hình sai.

Chi phí tổn thất?

Downtime có thể khiến các công ty mất 5.600 đô la mỗi phút và lên tới 300.000 đô la mỗi giờ trong thời gian ngừng hoạt động của ứng dụng web (theo phân tích của Gartner 2014).

Chi phí trung bình mỗi giờ của thời gian ngừng hoạt động của máy chủ doanh nghiệp, trên toàn thế giới, 2017-2018:

Hiểu hơn về những thiệt hại do Downtime, Outages và Failures gây ra (P1) - Ảnh 2.

Chi phí bảo trì ứng dụng đang tăng với tỷ lệ hàng năm là 20%. Nhưng điều đó không thể giải quyết tất cả các vấn đề của doanh nghiệp. Một cuộc khảo sát trong quá khứ đã tiết lộ rằng ít nhất một phần tư thời gian ngừng hoạt động được thăm dò là do lỗi cấu hình.

Downtime hoặc outage xảy ra phổ biến như thế nào?

Downtime là một cơn ác mộng tài chính. Nhưng nếu muốn ước tính chính xác tiềm năng rủi ro của việc ngừng hoạt động đối với doanh nghiệp của mình, thì hãy tìm hiểu xem sự cố này xảy ra như thế nào?

Hiểu hơn về những thiệt hại do Downtime, Outages và Failures gây ra (P1) - Ảnh 3.

Vậy làm thế nào để tính toán rủi ro ngừng hoạt động cho doanh nghiệp?

Chi phí downtime của production và application

Sự cố ngừng hoạt động ngoài kế hoạch sẽ do đội CNTT giải quyết. Tuy nhiên những lần downtime này luôn gây ảnh hưởng đến toàn bộ tổ chức.

Một phần quan trọng của quy trình đánh giá rủi ro do ngừng hoạt động là ước tính số tiền doanh nghiệp sẽ mất mỗi giờ, mỗi phút.

Đối với các doanh nghiệp chỉ phụ thuộc vào các data center nhằm cung cấp các dịch vụ IT, dịch vụ networking cho khách hàng - chẳng hạn như nhà cung cấp dịch vụ viễn thông hoặc công ty thương mại điện tử - downtime sẽ gây nên những thiệt hại về tiền bạc nghiêm trọng, chi phí cao nhất cho một sự kiện lên tới 1 triệu đô la (nhiều hơn $ 11.000 mỗi phút) theo ước tính của các chuyên gia.

Hiểu hơn về những thiệt hại do Downtime, Outages và Failures gây ra (P1) - Ảnh 4.

Trong một cuộc khảo sát của USA Today với 200 nhà quản lý trung tâm dữ liệu, hơn 80% báo cáo rằng chi phí downtime của họ vượt quá 50.000 đô la mỗi giờ. Hơn 25% báo cáo chi phí downtime là hơn 500.000 đô la mỗi giờ.

Theo một khảo sát khác, trong khi các công ty không thể đạt downtime = 0, cứ 10 công ty thì có một công ty nói rằng khả năng sẵn có của họ phải lớn hơn 99.999%.

Hiểu hơn về những thiệt hại do Downtime, Outages và Failures gây ra (P1) - Ảnh 5.

Để có được sự hiểu biết vững chắc về ý nghĩa của production và release downtime, chúng ta hãy xem xét hậu quả của downtime được biểu hiện như thế nào.

Chi phí downtime - tính trên mỗi năm hay trên mỗi sự cố?

Một nghiên cứu năm 2017 đã tiết lộ rằng trong số 400 người ra quyết định về CNTT, 46% đã trải qua hơn 4h downtime liên quan đến CNTT trong 12 tháng; 23% nói rằng họ phải chịu các chi phí khác nhau, từ 12.000 đô la đến hơn 1 triệu đô la mỗi giờ.

Hơn 35% thừa nhận rằng họ không chắc chắn về chi phí ngừng hoạt động cho doanh nghiệp của họ.

Nếu bạn yêu cầu các hãng hàng không Delta, đã phải hủy 280 chuyến bay do ngừng hoạt động vào năm 2017, thì thiệt hại của một sự cố ngừng hoạt động có thể lên tới hơn 150 triệu đô la.

Cách đây vài năm, Dun & Bradstreet báo cáo rằng 59% công ty Fortune 500 trải qua tối thiểu 1,6 giờ ngừng hoạt động mỗi tuần.

Nếu xét một công ty Fortune 500 trung bình (hoặc một công ty sử dụng ít nhất 10.000 nhân viên) trả cho các thành viên nhóm CNTT trung bình 56 đô la mỗi giờ, thì (giả sử toàn bộ CNTT đang bận giải quyết downtime) thì chi chí trả cho nhân sự giải quyết downtime này cho một tổ chức có quy mô này sẽ đạt 896.000 đô la mỗi tuần, tương đương với hơn 46 triệu đô la mỗi năm Tất nhiên thực tế chi phí này sẽ phức tạp hơn, vì bạn cần xem xét nhiều thông số như thời gian của sự cố (giữa tuần hoặc cuối tuần? Ngày hay đêm?... Tuy nhiên, hiểu được chi phí ngừng hoạt động sẽ giúp ước tính tiềm năng rủi ro của bạn và ROI của các công cụ có thể giúp giảm thiểu ảnh hưởng của sự cố downtime.

Nguồn: tech.vccloud.vn

>> Có thể bạn quan tâm: Hiểu hơn về những thiệt hại do Downtime, Outages và Failures gây ra (P2)

SHARE