wizzard | про content-based deduplication

Итак, как я уже писал, одна из ниш, в которой Cryptobox пытается работать - это дедупликация raw video. О других напишу чуть позже.

У нас есть "general puprose" content-aware chunking, который ест всё, что ему дадут, и в теории его можно расширять парсерами, которые шарят про формат файла.

Вот только на практике такое уточнение парсера, гм, не ахти как помогает.

Потратив очередные выходные на грубый парсер MOV-файлов, получилось следующее:
(тестовые данные - два коротких ролика, отличаются языком надписей)

Попугаи рассчитываются как "размер двух дедуплицированных файлов - размер одного дедуплицированного файла".
Иначе говоря, это "во сколько раз уменьшается место, требуемое для хранения дополнительной версии отрендеренного видео".

- frame-based chunking: 10x deduplication (500mb+500mb = 550mb)
- content-based chunking: 32х deduplication (500mb+500mb = 516mb)
- content-based + frame-based: 29x deduplication (500mb+500mb = 517mb)

Итого: epic fail. Фреймы слишком большие, content-based и без того хорошо попадает по их границам, а интрафрейм дедупликации практически нету. Добавление frame-based к content-based тупо увеличивает количество метаданных, необходимое для реконструкции, и мешает эвристике, группирующей похожие куски файла.

На inter-frame compressed форматах с мелкими фреймами, может быть, это и поможет. Но я не видел людей, которые бы в здравом уме монтировали видео в форматах с inter-frame compression.