2007年10月15日 星期一

刪除重覆資料的好處(Benefit by Data De-Duplication)

現在人使用電腦的習慣,也跟著硬體儲存空間的增加快速,而有了很大的不同,以前利用搬移(MOVE)的動作,現在大多變成了複製(COPY),所以在電腦中,就會累積相當程度的重複資料

雖然,不把所有雞蛋放在同個籃子裡的作法是分散風險的好方法,過於濫用卻只是佔用過多資源,即使有的時候是為了防範無法預期的程式中斷,所做的備份資料,對於採用其它模式備份的資源來說,任何一筆資料應該都要具有其獨特性(僅有一筆)。

例如,我先前有關異地備份的文章,它所採取的方式就是僅僅備份更動的資料,雖然他沒有辦法做到自我比對(無法比對不同資料夾中的檔案是否為相同),但是針對備份所佔用的資源來說,這種備份方式就已經減少許多不必要的浪費。

這種刪除重覆資料的技術對於離線式(OFFLINE)異地備份的成效較高,因為在線式(ONLINE)採用此這種資料運算方式時,可能會使效能急遽降低,甚至造成資料的毀損,這結果也是我們所不願意見的。

透過這種資料比對與刪除的技術,再加上異地備份的機制,每次都進行全系統的資料備份也不是件難事,只是...要付出的成本代價,並非中、小型企業所能夠接受的範圍。

可是,對於大型企業或政府機構的資料,如果是透過多人整合的專案,就有其利用的價值,假設每日要進行的備份量從1GB變成300MB、備份時間從1小時變成20分鐘,能夠省下的頻寬維護時間的成本,就具備極大的影響力。

其實這也牽涉到資料整合及版本管理的議題,這部份目前各家學派應該都還未有定論,有人說僅保留最新版本即可、有人認為每個版本都有保留的必要性,資料量往往就在這種取捨中無形地增加許多。

舉例來說,一個每天利用電腦工作的文字工作者,在它的電腦中至少同一份文件可能為了安全起見,就會有兩個不同分割區(Partition)或硬碟(Hard Disk)來儲存同一筆資料,甚至是透過磁碟陣列(RAID 1或5)來保存資料,如果再進行異地備份的同時,又把這兩份相同的資料全部備份上去,就太過於浪費現在愈來愈不受人重視的資料儲存空間。

我就列出幾家已經發展出刪除重覆資料(Data De-Duplication)的業者:

1.EMC的Avamar
2.SYMANTEC的Veritas NetBackup PureDisk Remote Office Edition
3.NETAPP的FAS6000系列。
...(其它不多贅述)

在上述業者的說明中,或許可以看見更多相關的應用與實際的執行成效。

其實,在我們個人電腦上的資料備份與比對,也是件很重要的事情,不然對於磁碟運作的順暢,以及資料的整合與歸類,都會有不良的影響,不信的話...請大家可以自行搜尋一下,自己桌面上的任一個文件檔,很有可能你會發現有許多這個同名檔案的分身散落各地呢!