Обзор и настройка средств дедупликации в Windows Server 2012
Посетителей: 2522
| Просмотров: 5040 (сегодня 0)
Шрифт:
егодня хотелось бы провести обзор такой интересной новой возможности Windows Server 2012 как дедупликация данных (data deduplication). Возможность крайне интересная, но все же сначала нужно разобраться, насколько она нужна…
С каждым годом (если не днем) объемы жестких дисков растут, а при этом носители сами еще и дешевеют. Исходя из этой тенденции, возникает вопрос: «А нужна ли вообще дедупликация данных?». Однако, если мы с вами живем в нашей Вселенной и на нашей планете, то всё в этом мире имеет свойство подчиняться третьему закону Ньютона. Может аналогия и не совсем прозрачная, но я подвожу к тому, что как бы не дешевели дисковые системы и сами диски, как бы не увеличивался объем самих носителей — требования с точки зрения бизнеса к доступному для хранения данных пространству постоянно растут и тем самым нивелируют увеличение объема и падение цен.
По прогнозам IDC примерно через год в суммарном объеме будет требоваться порядка 90 миллионов терабайт. Объем, скажем прямо, не маленький.
И вот тут как раз вопрос о дедупликации данных выходит на первый план. Ведь данные, которые мы используем, бывают и разных типов, и назначение у них могут быть разные — где-то это production-данные, где-то это архивы и резервные копии, а где-то это потоковые данные, — я специально привел такие примеры, поскольку в первом случае эффект от использования дедупликации будет средним, в архивных данных — максимальным, а в случае с потоковыми данным — минимальным. Но все же экономить пространство мы с вами сможем, тем более что теперь дедупликация — это удел не только специализированных систем хранения данных, но и компонент серверной ОС Windows Server 2012.
Типы дедупликации и их применение
Прежде чем перейти к обзору самого механизма дедупликации в Windows Server 2012, давайте разберемся, какие типы дедупликации бывают. Предлагаю начать сверху-вниз, на мой взгляд, так оно будет нагляднее.
1) Файловая дедупликация — как и у любого механизма дедупликации, работа алгоритма сводится к поиску уникальных наборов данных и повторяющихся, и вторые типы наборов заменяются ссылками на первые наборы. Иными словами алгоритм пытается хранить только уникальные данные, заменяя повторяющиеся данные ссылками на уникальные. Как нетрудно догадаться из названия данного типа дедупликации — все подобные операции происходят на уровне файлов. Если вспомнить историю продуктов Microsoft — то данный подход уже неоднократно применялся ранее — в Microsoft Exchange Server и Microsoft System Center Data Protection Manager — и назывался этот механизм S.I.S. (Single Instance Storage). В продуктах линейки Exchange от него в свое время отказались из соображений производительности, а вот в Data Protection Manager этот механизм до сих пор успешно применяется и, кажется, будет применяться и дальше. Как нетрудно догадаться, файловый уровень — самый высокий (если вспомнить устройство систем хранения данных в общем), а потому и эффект будет самый минимальный по сравнению с другими типами дедупликации. Область применения — в основном пархивные данные.
2) Блочная дедупликация — данный механизм уже интереснее, поскольку работает он на субфайловом уровне — а именно на уровне блоков данных. Такой тип дедупликации, как правило, характерен для промышленных систем хранения данных, а также именно этот тип дедупликации применяется в Windows Server 2012. Механизмы всё те же, что и раньше — но на уровне блоков (кажется, я это уже говорил, да?). Здесь сфера применения дедупликации расширяется и теперь распространяется не только на архивные данные, но и на виртуализованные среды, что вполне логично, особенно для VDI-сценариев. Если учесть, что VDI — это целая туча повторяющихся образов виртуальных машин, в которых все же есть отличия друг от друга (именно поэтому файловая дедупликация тут бессильна), то блочная дедупликация — наш выбор!
3) Битовая дедупликаия — самый низкий (глубокий) тип дедупликации данных. Он обладает самой высокой степенью эффективности, но при этом также является лидером по ресурсоемкости. Оно и понятно — проводить анализ данных на уникальность и плагиатичность — процесс нелегкий. Честно скажу — я лично не знаю систем хранения данных, которые оперируют на таком уровне дедупликации, но я точно знаю, что есть системы дедупликации трафика, которые работают на битовом уровне, допустим, тот же Citrix NetScaler. Смысл подобных систем и приложений заключается в экономии передаваемого трафика — это очень критично для сценариев с территориально-распределенными организациями, где есть множество разбросанных географически отделений предприятия, но отсутствуют или крайне дороги в эксплуатации широкие каналы передачи данных — тут решения в области битовой дедупликации найдут себя как нигде ранее и раскроют свои таланты.
Очень интересным в этом плане выглядит доклад Microsoft на USENIX 2012, который состоялся в Бостоне в июне месяце. Был проведен достаточно масштабный анализ первичных данных с точки зрения применения к ним механизмов блочной дедупликации в WIndows Server 2012 — рекомендую ознакомиться с данным материалом.
Вопросы эффективности
Для того чтобы понять, насколько эффективны технологии дедупликации в Windows Server 2012, сначала нужно определить, на каком типе данных эту самую эффективность следует измерять. За эталоны были взяты типичные файловые разделяемые ресурсы, документы пользователей из папки «Мои документы», хранилища дистрибутивов и библиотеки и хранилища виртуальных жестких дисков.
Насколько же эффективна дедупликация с точки зрения рабочих нагрузок, проверили в Microsoft в отделе разработки ПО. Три наиболее популярных сценария стали объектами исследования:
Сервера сборки билдов ПО. В MS каждый день собирается приличное количество билдов самых разных продуктов. Даже незначительное изменение в коде приводит к процессу сборки билда, и, следовательно, дублирующихся данных создается очень много
Разделяемые ресурсы с дистрибутивами продуктов на релиз. Как не сложно догадаться, все сборки и готовые версии ПО нужно где-то размещать. Внутри Microsoft для этого есть специальные сервера, где все версии и языковые редакции всех продуктов размещаются — это тоже достаточно эффективный сценарий, где эффективность от дедупликации может достигать до 70%.
Групповые разделяемые каталоги. Это сочетание разделяемых папок с документами и файлами разработчиков, а также их перемещаемые профили и перенаправленные папки, которые хранятся в едином центральном пространстве.
А теперь самое интересное — ниже приведен снимок окна с томами в Windows Server 2012, на которых размещаются все эти данные.
Я думаю слова здесь излишни — все и так очень наглядно. Экономия в 6 Тб на носителях в 2 Тб — термоядерное хранилище? Не так опасно — но столь эффективно!
Характеристики дедупликации в Windows Server 2012
А теперь давайте рассмотрим основные характеристики дедупликации в Windows Server 2012.
Прозрачность и легкость в использовании. Настроить дедупликацию крайне просто. Сначала в мастере ролей в Windows Server вы раскрываете роль File and Storage Services, далее File and iSCSI Services, и уже там включаете опцию Data Deduplication.
После этого в Server Manager вы выбираете File and Storage Services, клик правой кнопкой мыши, и там выбираете пункт «Enable Volume Deduplication». Специальная ссылка для любителей PowerShell. Все крайне просто. С точки зрения конечного пользователя и приложений доступ и работа с данными осуществляются прозрачно и незаметно. Если говорить про дедупликацию с точки зрения фаловой системы, то поддерживается только NTFS. ReFS не поддается дедупликации, ровно как и тома, защищенные с помощью EFS (Encrypted File System). Также под дедупликацию не попадают файлы объемом менее 32 KB и файлы с расширенными атрибутами (extended attributes). Дедупликация, однако, распространяется на динамические тома, тома, зашифрованные с помощью BitLocker, но не распространяется на тома CSV, а также системные тома (что логично).
Оптимизация под основные данные. Стоит сразу отметить, что дедупликация — это не онлайн-процесс. Дедупликации подвергаются файлы, которые достигают определенного уровня старости с точки зрения задаваемой политики. После достижения определенного срока хранения данные начинают проходить через процесс дедупликации — по умолчанию этот промежуток времени равен пяти дням, но никто не мешает вам изменить этот параметр (будьте разумны в своих экспериментах!)
Планирование процессов оптимизации. Механизм, который каждый час проверяет файлы на соответствие параметрам дедупликации и добавляет их в расписание.
Механизмы исключения объектов из области дедупликации. Данный механизм позволяет исключит файлы из области дедупликации по их типу (например, JPG, MOV, AVI. Это потоковые данные — то, что меньше всего поддается дедупликации, если вообще поддается). Можно также исключить сразу целые папки с файлами из области дедупликации (это для любителей немецких фильмов, у которых их тьма-тьмущая).
Мобильность. Дедуплицированный том — это целостный объект, и его можно переносить с одного сервера на другой (речь идет исключительно о Windows Server 2012). При этом вы без проблем получите доступ к вашим данным и сможете продолжить работу с ними. Всё что для этого необходимо — это включенная опция Data Deduplication на целевом сервере.
Оптимизация ресурсоемкости. Данные механизмы подразумевают оптимизацию алгоритмов для снижения нагрузки по операциям чтения/записи, таким образом, если мы говорим про размер хеш-индекса блоков данных, то размер индекса на 1 блок данных составляет 6 байт. Таким образом, применять дедупликацию можно даже к очень массивным наборам данных.
Также алгоритм всегда проверяет, достаточно ли ресурсов памяти для проведения процесса дедупликации. Если ответ отрицательный, то алгоритм отложит процесс до высвобождения необходимого объема ресурсов.
Интеграция с BranchCache. Механизмы индексация для дедупликация являются общими также и для BranchCache, поэтому эффективность использования данных технологий в связке не вызывает сомнений!
Вопросы надежности дедуплицированных томов
Вопрос надежности крайне остро встает для дедуплицированных данных — представьте, что блок данных, от которого зависят по крайней мере 1000 файлов, безнадежно поврежден… Думаю, валидол-эз-э-сервис тогда точно пригодится, но не в нашем случае.
Резервное копирование. Windows Server 2012, как и System Center Data Protection Manager 2012 SP1 полностью поддерживают дедуплицированные тома с точки зрения процессов резервного копирования. Также доступен специальный API, который позволяет сторонним разработчикам использовать и поддерживать механизмы дедупликации, а также восстанавливать данные из дедуплицированных архивов.
Дополнительные копии для критичных данных. Те данные, которые имеет самый частый параметр обращения, подвергаются процессу создания дополнительных резервных блоков — это особенности алгоритма механизма. Также, в случае использования механизмов Storage Spaces, при нахождении сбойного блока, алгоритм автоматически заменяет его на целостный из пары в зеркале.
По умолчанию, один раз в неделю запускается процесс нахождения мусора и сбойных блоков, который исправляет данные приобретенные патологии. Есть также возможность вручную запустить данный процесс на более глубоком уровне. Если процесс по умолчанию исправляет ошибки, которые были зафиксированы в логе событий, то более глубокий процесс подразумевает сканирование всего тома целиком.
С чего начать и как померить
Перед тем как включать дедупликацию, всегда нормальному человеку в голову придет мысль о том, насколько эффективен будет данный механизм конкретно в его случае. Для этого вы можете использовать Deduplication Data Evaluation Tool.
После установки средств дедупликации вы можете найти инструмент под названием DDPEval.exe, который находится в каталоге \Windows\System32\. Данная утилита может быть портирована на сменный носитель или другой том. Поддерживаются ОС Windows 7 и выше. Так что вы можете проанализировать данные и понять стоимость овечьей шкурки. (☺).
На этом мой обзор завершен. Надеюсь, вам было интересно. Если у вас возникнут вопросы — можете смело найти меня в соц.сетях ВКонтакте, Facebook по имени и фамилии, и я постараюсь вам помочь.