數據資料是我們組織最寶貴的資產 — 對其保護至關重要
若我們面臨未來還會需要用到的大批珍貴資料,就必須先來認識數位封存及不能完全依賴資料備份這兩者的重要性。
在這整篇部落格文章,我們將會說明檔案與備份之間較深度的差別並討論用不同方式處理資料的重要性和分享一個資料遺失的真實案例、探索打造數位檔案的各種選項且分享您可向提供解決方案業者詢問的各種問題來確定廠商能否符合圖書館的備份需求。
儲存備份與數位封存相比
當許多機構在為數位資料檔案研擬一套長期策略時,假使參與這個過程的某個人不太了解備份與數位檔案之間的差別就很容易發生失誤且往往也會認為備份是符合檔案功能性,但這也是錯的且還可能造成資料丟失。
基本上,資料備份 (back up) 就相當於將我們的資料加快照、存放在別的地方,一旦有需要就可在某個時間點將這份資料復原;一般來說都是在重大災難發生的情況下,像是資料刪除或損毀這種復原方法才會派得上用場。
常理來看當日備份都會保存個幾天,然後由當週備份加以取代,後者再由當月備份取代;許多企業通常都會同時保留當日備份與當週備份,而這兩者也都會持續被新備份取代。
但萬一有重大災情發生時,存在備份系統中的資料也可能丟失;因此要先設想我們的復原點目標及復原時間目標就變得非常重要— 在本文下個段落會有更詳細介紹這部分,許多機構必須對自己的備份完整持續的檢查測試以確保資料不會暴露在勒索病毒攻擊範圍,這亦是那種利用加密功能鎖住受害者資料來勒贖的軟體。
而數據資料封存data archive則是一種持續進行、有管理的環境,其專門用來封存各種資料且不僅用於製作一份副本,還著重在即使是經過一段時間的未來也能讓我們的資料可再存取使用。
為了將我們的數據資料長期封存,只靠備份並不能防範資料丟失損毀或格式失效,這是因為備份未考慮到萬一必要的時候,資料是否能容易檢索與救回儲存;在檔案中用這種方式來管理的範例包括運用詮釋資料來提升檢索功能和維護檔案副本封存,那麼這些資料在很久之後依然能讀取使用。
將我們的數據資料放在一個要長期持續更新備份的作業系統環境裡會導致有一大堆的資料要儲存且還會面臨資料丟失並產生過多成本或資料刪除等風險。
這些數據資料的累積也會造成一些資料可攜性(data portability)相關問題,其概念是使用者將資料放在彼此不相容的單獨的儲存空間,導致它們遭到供應商技術鎖定(lock-in),結果就讓機構再次面臨要花更多成本的狀況。
透過不同方式處理數據資料
另一個會碰到的實務問題是參與封存計畫和備份策略的人也會用同樣的方式來處理每個數據資料。
凡是涉及到我們的資料就必須要有不同等級的封存和必要的可存取性,例如我們可能有需要封存25年的檔案,像是生命科學產業的電子臨床試驗主檔案(eTMF),而其他像是財報之類的文件則規定封存7年;在這個階段並非所有的資料都需以檔案方式來管理,某些文件像是行銷資料可能只須放在自己在執行操作的地方即可。
當要為我們機構的資料擬定決策時,其務必要考慮到復原點目標(Recovery Point Objective, RPO)和復原時間目標(Recovery Time Objective, RTO)。RPO是從故障發生到最後一次有效備份的時間為準來界定資料最大容許丟失量,而RTO則指故障時間,從事故發生到使用者可恢復正常作業為止的需要時間。
選擇優質商譽的提供備份服務供應商很重要,若選了一個低於標準或未採取正確防護措施的協作廠商,可能會對我們的機構造成損害。謹記備份是傾向方便作業,而檔案則是著重長期封存;所以我們的存檔備份與檔案封存必須相輔相成。
為了擬定最有效率的一套策略,我們應先問問自己:
- 我們的數據資料目的是什麼?
- 數據資料是否要封存在一個持續運行中的作業環境,還是需封存來封存數據資料留到未來幾年後使用?
- 我們數據資料的復原點目標(RPO)和復原時間目標(RTO)?
- 我們數據資料在部分保留和全部保留的法規或控管有哪些要求?
一旦我們決定好哪些資料需能夠長期存取,那麼就應該將資料移到檔案中;這樣就能確保該資料封存,而不是依賴存檔備份,因存檔無法永遠保證檔案是可長期存取的。
數據資料封存是一個持續進行管理的作業環境,其強調封存遠超過建立副本範圍且重點是放在未來很長一段時間還能存取使用數據。
數據資料封存是一個持續進行管理的作業環境,其強調封存遠超過建立副本範圍且重點是放在未來很長一段時間還能存取使用數據。
實務上數據資料丟失的各種影響
普遍來說各種存檔備份技術都具有相當高的復原度,但若您只依賴未經認證或低於標準的提供備份服務廠商且不幸出錯的話,相信這勢必會對我們的圖書機構造成損失,這些損失可能是商譽毀損、罰款或必須重做一次先前的營業活動來找回已缺失的資料。
加拿大紐芬蘭紀念大學
紐芬蘭紀念大學的伊莉莎白女王二世圖書館(Queen Elizabeth II Library, Memorial University) 在2016年有員工執行例行保養維修,而這項動作需將該棟建築的電源切斷並轉接到備援系統上;但過程中備援系統卻發生故障,結果造成此事件有超過70TB的資料遺失。
對這個學校來說,還算幸運的是實體文獻資料還在,但館員必須重做館藏資源數位化,這是極為昂貴且非常耗時的過程;藉此實例我們可看到備份根本不能保護圖書館數據資料。
將數位封存策略納入圖書館並為我們的數據資料建置附有備份的長期檔案,將有助於減少資料丟失風險。
數位資料封存建置有哪些選項?
既然前述說明了資料備份和封存之間的區別跟數據丟失的實例,我們現在可能就要開始思索建置數據封存的後續流程選項。
對於各行各業來說,我們在建置資料封存會有兩種選項—在機構內部直接進行封存或是透過第三方廠協解決方案供應商共同合作。
資訊工程師在分析新技術有時會為了是否要打造自家本身的解決方案而發生爭論,這樣的想法最重要的優點是有機會為圖書館特定需求擁有並打造解決方案並具有更大的彈性。但由於相應的作業流程、系統與整合專業特性要花很多時間、努力加上各種技能且機構內部就解決方案的整體擁有成本(Total Cost of Ownership, TCO)尤其是經過一段時間之後都是相當可觀的。
除此之外,舉例像是由人員流失或經費不穩定的情況發生時,機構也會面臨有些時間段沒有必要資源來進行維護工作的風險;即使是大型且經費充裕的機構,包括國家圖書館或國際研究機構,目前都已逐漸傾向選擇雲端代管解決方案。
為了協助提出採購建置決策可先回問自己: 機構內部的 IT資訊團隊是否有辦法在未來很長一段時間內持續管理和存取歷史數據資料?
選擇以外包圖書館解決方案的模式可減輕IT團隊的工作量。
向解決方案供應商提出問題
究竟是要建置我們機構自己的數據資料封存解決方案,還是要與第三方合作都不是一個容易做出的決定;若我們覺得自己正為此困擾不已,其建議最好是一開始就主動去找幾家第三方業者,這麼一來就可了解每家廠商提供解決方案的各項能力並可將方案與機構內部的能力做比較。
以下條列清單是我們在詢問第三方廠協供應商時,建議可提問的方向;如此就可更清楚了解廠商的解決方案與機構是否能符合數據資料封存要求。
- 您用什麼來備份系統?
- 您有哪些保護措施來防止數據資料篡改問題?
- 您如何滿足產業法規?
- 您的解決方案是否有妥善實行數據資料管理最佳實務,例如用 FAIR原則和 ALCOA+架構?
- 您的機構是否有取得 ISO 9001 和 ISO 27001 認證?
- 你會將自己的數據資料存在多個不同環境位置嗎?
- 您有預留退場策略嗎?