wizzard: (Default)
wizzard ([personal profile] wizzard) wrote2012-08-26 12:51 pm
Entry tags:

про content-based deduplication

Итак, как я уже писал, одна из ниш, в которой Cryptobox пытается работать - это дедупликация raw video. О других напишу чуть позже.

У нас есть "general puprose" content-aware chunking, который ест всё, что ему дадут, и в теории его можно расширять парсерами, которые шарят про формат файла.

Вот только на практике такое уточнение парсера, гм, не ахти как помогает.

Потратив очередные выходные на грубый парсер MOV-файлов, получилось следующее:
(тестовые данные - два коротких ролика, отличаются языком надписей)

Попугаи рассчитываются как "размер двух дедуплицированных файлов - размер одного дедуплицированного файла".
Иначе говоря, это "во сколько раз уменьшается место, требуемое для хранения дополнительной версии отрендеренного видео".

- frame-based chunking: 10x deduplication (500mb+500mb = 550mb)
- content-based chunking: 32х deduplication (500mb+500mb = 516mb)
- content-based + frame-based: 29x deduplication (500mb+500mb = 517mb)

Итого: epic fail. Фреймы слишком большие, content-based и без того хорошо попадает по их границам, а интрафрейм дедупликации практически нету. Добавление frame-based к content-based тупо увеличивает количество метаданных, необходимое для реконструкции, и мешает эвристике, группирующей похожие куски файла.

На inter-frame compressed форматах с мелкими фреймами, может быть, это и поможет. Но я не видел людей, которые бы в здравом уме монтировали видео в форматах с inter-frame compression.

Post a comment in response:

(will be screened)
(will be screened if not validated)
If you don't have an account you can create one now.
HTML doesn't work in the subject.
More info about formatting

If you are unable to use this captcha for any reason, please contact us by email at support@dreamwidth.org