5 cách “ép cân” dữ liệu

Không chỉ giúp tiết kiệm chi phí, việc giảm dung lượng dữ liệu còn là giải pháp để giảm tải cho hạ tầng mạng và hệ thống sao lưu dữ liệu.

Với nhu cầu lưu trữ ngày càng bùng nổ, hầu hết các nhà cung cấp lưu trữ đều yêu cầu người dùng phải giảm tối đa dung lượng dữ liệu cần lưu trữ. Việc này không những giúp giảm chi phí , , điện năng tiêu thụ và không gian cho trung tâm dữ liệu mà còn giảm áp lực cho hệ thống mạng và sao lưu dữ liệu.

Nhưng làm thế nào để chọn được kỹ thuật giảm dung lượng dữ liệu tốt? Trước hết, bạn cần xác định được công ty/doanh nghiệp đang sử dụng dữ liệu như thế nào và các khoản chi phí tiết kiệm được khi sử dụng phương pháp giảm dung lượng?

Chọn được kỹ thuật giảm dung lượng dữ liệu tốt không chỉ tùy thuộc vào đặc thù công việc và loại dữ liệu cần lưu trữ. Chẳng hạn, phương pháp chống trùng lặp thường không mang lại hiệu quả đáng kể cho dữ liệu X-quang, dữ liệu thử nghiệm kỹ thuật, phim và nhạc; tuy nhiên phương pháp này có thể làm giảm đáng kể chi phí sao lưu trên các máy ảo. Sau đây là 5 kỹ thuật giảm dung lượng lưu trữ thường được sử dụng.

1. Chống trùng lặp

Chống trùng lặp là quá trình tìm kiếm và loại bỏ dữ liệu trùng nhau được lưu trữ tại nhiều không gian lưu trữ khác nhau (như đĩa cứng, bộ nhớ…), có thể giảm đến 90% dung lượng cần lưu trữ. Chẳng hạn, thông qua kỹ thuật chống trùng lặp, bạn có thể đảm bảo rằng mình chỉ lưu 1 bản sao tập tin đính kèm được gửi tới hàng trăm nhân viên. Chống trùng lặp đã trở thành một trong những yêu cầu thực tế trong việc sao lưu, lưu trữ cũng như bất kỳ hình thức lưu trữ thứ cấp nào, nơi tốc độ truy cập không quan trọng bằng yêu cầu giảm tình trạng “giẫm chân” dữ liệu.

Ví dụ, với công cụ Virtual Tape Library của hãng FalconStor, một tổ chức y tế có thể giảm đến 72 lần dung lượng lưu trữ nhờ kỹ thuật chống trùng lặp. Trong khi đó, dịch vụ lưu trữ “mây” của hãng i365 đạt được tỷ lệ từ 30:1 đến 50:1 trong việc giảm dung lượng của một khối dữ liệu hỗn hợp gồm Microsoft Exchange, SharePoint, SQL Server và các tập tin trên máy ảo VMware.

Dữ liệu có thể được loại bỏ ở cấp độ tập tin hay khối (như tập tin nén). Trong hầu hết trường hợp, việc lọc nội dung trùng lặp càng chặt chẽ sẽ càng giúp tiết kiệm chi phí và không gian lưu trữ. Tuy nhiên, khâu lọc các nội dung trùng nhau có thể cần nhiều thời gian và qua đó “kìm hãm” tốc độ truy xuất dữ liệu.

Chống trùng lặp dữ liệu có thể được xử lý trước (preprocessing/inline) hoặc sau khi dữ liệu được lưu vào nơi nhất định (postprocessing). Về cơ bản, xử lý sau là lựa chọn tốt nhất nếu bạn cần tốc độ truy xuất dữ liệu nhanh, tuy nhiên bạn cũng nên xem xét giải pháp xử lý trước nếu có đủ thời gian và cần giảm chi phí lưu trữ. Ngoài ra, kỹ thuật chống trùng lặp theo phương pháp xử lý trước có thể giảm lượng dữ liệu lưu trữ xuống tỷ lệ 20:1, tuy nhiên kỹ thuật này có thể làm ảnh hưởng đến hiệu năng và buộc người dùng phải mua nhiều máy chủ hơn. Cạnh đó, chống trùng lặp theo phương pháp xử lý sau đòi hỏi nhiều không gian lưu trữ hơn để làm bộ đệm, qua đó làm giảm dung lượng lưu trữ cho các nhu cầu sử dụng khác.

Không chỉ giúp tiết kiệm chi phí, việc giảm dung lượng dữ liệu còn là giải pháp để giảm tải cho hạ tầng mạng và hệ thống sao lưu dữ liệu.

Đối với những khách hàng có nhiều máy chủ hay nền tảng lưu trữ, việc chống trùng lặp dữ liệu có thể giúp tiết kiệm chi phí bằng cách loại bỏ các bản sao dữ liệu trên nhiều nền tảng khác nhau. Người dùng hiện nay cũng quan tâm đến tính năng chống trùng lặp dữ liệu trên hệ thống đơn lẻ để dễ dàng sử dụng hơn trên bất kỳ ứng dụng nào hay cho phép người dùng “nạp lại” dữ liệu (đưa dữ liệu về hiện trạng ban đầu) khi cần thiết và tránh hiện tượng không tương thích nhiều hệ thống. Công cụ chống trùng lặp chính (primary deduplication products) có thể thực hiện trong khâu tiền xử lý (preprocessing) cho đến một ngưỡng nhất định và sau đó chuyển sang khâu hậu xử lý (postprocessing).

Một tùy chọn khác là chống trùng lặp dựa trên chính sách (policy-based deduplication), cho phép nhà quản lý dữ liệu lưu trữ chọn các tập tin để chống trùng lặp, dựa trên kích thước của tập tin, mức độ quan trọng và một số tiêu chí khác. Việc “nạp lại” các tập tin sẽ làm giảm thời gian truy cập đi chút ít nhưng điều này vẫn tốt hơn việc thông báo cho khách hàng phải chờ 2 ngày để truy cập được tất cả tập tin. Một số giải pháp chống trùng lặp và nén tập tin có thể giúp tiết kiệm đến 50% không gian lưu trữ.

2. Nén

Nén là quá trình tìm kiếm và loại bỏ các byte dữ liệu trùng lặp. Đây có thể được xem là công nghệ giảm dung lượng dữ liệu nổi tiếng nhất. Công nghệ này làm việc tốt với cơ sở dữ liệu, e-mail và các tập tin, nhưng lại kém hiệu quả với tập tin ảnh. Tính năng nén thường đi kèm trong các hệ thống lưu trữ và bạn cũng có thể dễ dàng tìm thấy các ứng dụng hay thiết bị nén dữ liệu độc lập.

Nén dữ liệu ở chế độ thời gian thực sẽ không làm gián đoạn truy cập và giảm hiệu năng bằng cách giải nén trước khi dữ liệu này được thay đổi hay truy xuất, do đó phù hợp cho các ứng dụng trực tuyến như cơ sở dữ liệu và xử lý trên các giao dịch trực tuyến. Sức mạnh điện toán bên trong các bộ xử lý đa nhân hiện đại cũng giúp tính năng nén trên nền máy chủ trở thành một tùy chọn trong vài môi trường.

Việc nén dữ liệu thực sự mang lại nhiều lợi ích. Nén có thể làm giảm dữ liệu với tỷ lệ 6:1 hay nhiều hơn nữa đối với cơ sở dữ liệu SQL, nhưng với các máy chủ dữ liệu thì tỷ lệ nén sẽ giảm còn khoảng 2:1. Thực tế cho thấy, việc nén dữ liệu đạt hiệu quả cao nhất với sao lưu, lưu trữ thứ cấp (2 hay 3) nơi dung lượng lưu trữ có thể giảm xuống tỷ lệ 2:1 – 4:1 để các ứng dụng e-mail hay cơ sở dữ liệu trở nên năng động hơn.

Đáng chú ý, tập tin được nén bằng ứng dụng của Microsoft Office hay định dạng ảnh phổ biến như JPEG không thể giảm tiếp dung lượng bằng các kỹ thuật nén thông thường, thậm chí có trường hợp còn tăng. Phần mềm nén của Neuxpower Solutions có thể “ép” dung lượng tập tin Office và JPEG đến 95% mà không làm giảm chất lượng ảnh bằng cách loại bỏ các thông tin không cần thiết như siêu dữ liệu (metadata) hay các chi tiết không thể nhìn thấy trừ khi hình ảnh được phóng to. Trong khi đó, phần mềm Ocarina (hiện thuộc quyền sở hữu của hãng Dell) cũng cung cấp tính năng tương tự nhờ sử dụng nhiều thuật toán tối ưu đã được điều chỉnh cho nhiều loại nội dung, có khả năng kiểm tra và chọn lựa nhiều phương pháp nén để đạt hiệu quả tốt nhất.

Không chỉ giúp tiết kiệm chi phí, việc giảm dung lượng dữ liệu còn là giải pháp để giảm tải cho hạ tầng mạng và hệ thống sao lưu dữ liệu.

Kỹ thuật chống trùng lặp và nén dữ liệu tương trợ lẫn nhau. Người dùng chọn giải pháp nén khi quan tâm đến thời gian, hiệu năng và tốc độ truyền, trong khi đó phương pháp chống trùng lặp thường được sử dụng cho trường hợp có mức độ dữ liệu dư thừa cao và muốn tiết kiệm không gian lưu trữ.

3. Phân cấp theo chính sách

Phân cấp dữ liệu theo chính sách (Policy-based tiering) là quá trình di chuyển dữ liệu đến một lớp lưu trữ khác dựa trên tiêu chí như thời gian, mức độ thường xuyên truy cập hay tốc độ cần phải có. Trừ khi chính sách yêu cầu xóa toàn bộ dữ liệu không cần thiết, kỹ thuật này sẽ không làm giảm nhu cầu lưu trữ chung của bạn, tuy nhiên có thể giúp giảm chi phí bằng cách di chuyển dữ liệu sang các hệ thống lưu trữ rẻ tiền hơn và dĩ nhiên sẽ có tốc độ truy xuất chậm hơn.

Thiết bị lưu trữ HP StorageWorks X900 tích hợp chính sách quản lý và tự động di chuyển tập tin, trong khi đó phần mềm quản lý thông tin và lưu trữ hợp nhất của DataGlobal GmbH có thể giảm dung lượng cần thiết xuống mức 60% -70% cho email và khoảng 20% cho các máy chủ dữ liệu.

Các thiết bị lưu trữ có tính năng phân lớp khác có thể kể ra là Storage Center 5 của Compellent Technologies, HotZone và SafeCache của FalconStor, Policy Advisor của 3Par, FAST của EMC.

4. Lưu trữ ảo

Tương tự như máy chủ ảo hóa, lưu trữ ảo liên quan đến “trừu tượng hóa” nhiều thiết bị lưu trữ thành một khu lưu trữ duy nhất, cho phép các nhà quản trị di chuyển dữ liệu giữa các lớp khi cần thiết. Nhiều chuyên gia xem đây là một công nghệ thay vì là một công cụ thu gọn dữ liệu.

Ví dụ, hệ thống quản lý dữ liệu của Actifio sử dụng khả năng ảo hóa để loại bỏ nhu cầu của nhiều ứng dụng và nhường sự ưu tiên cho các tính năng như sao lưu và khôi phục sự cố. Với giải pháp này, các chính sách quản lý phù hợp sau đó sẽ được áp dụng cho 1 bản sao của dữ liệu, xác định nơi chúng được lưu trữ và chúng bị trùng lặp như thế nào trong suốt các quá trình trình sao lưu và sao chép dữ liệu. Actifio cho rằng, giải pháp của họ có thể giảm dung lượng xuống 75% đến 90%.

5. Cung cấp khi cần thiết

Cung cấp khi cần thiết (Thin provisioning – TP) nghĩa là thiết lập một máy chủ ứng dụng sử dụng không gian trên một ổ đĩa chỉ khi thật cần thiết. Như lưu trữ dựa trên chính sách, kỹ thuật này không cắt toàn bộ dữ liệu hiện đang được lưu rải rác nhưng sẽ hoãn việc phải mua nhiều ổ đĩa mới cho đến khi thực sự cần thiết.

Nếu nhu cầu lưu trữ tăng lên nhanh chóng, bạn phải hành động kịp thời để đảm bảo rằng bạn có đủ thiết bị lưu trữ vật lý. Có nhiều tình huống bất ngờ, do đó, tốt hơn hết, bạn cần có công cụ quản lý và đo lường nếu áp dụng phương pháp TP. Bạn cần tìm kiếm các sản phẩm xác định cả dữ liệu và các ứng dụng người dùng cần phải quan sát và theo dõi không chỉ sử dụng không gian mà còn cả các hoạt động đọc/ghi để phòng ngừa hiện tượng tắc nghẽn.

Tóm lại, trước khi chọn chiến lược giảm dung lượng dữ liệu, bạn cần thiết lập các chính sách để có sự lựa chọn giữa hiệu quả công việc và chi phí tiết kiệm được.

Theo PCWorld

Bài viết liên quan