wizzard: (Default)
[personal profile] wizzard
Итак, как я уже писал, одна из ниш, в которой Cryptobox пытается работать - это дедупликация raw video. О других напишу чуть позже.

У нас есть "general puprose" content-aware chunking, который ест всё, что ему дадут, и в теории его можно расширять парсерами, которые шарят про формат файла.

Вот только на практике такое уточнение парсера, гм, не ахти как помогает.

Потратив очередные выходные на грубый парсер MOV-файлов, получилось следующее:
(тестовые данные - два коротких ролика, отличаются языком надписей)

Попугаи рассчитываются как "размер двух дедуплицированных файлов - размер одного дедуплицированного файла".
Иначе говоря, это "во сколько раз уменьшается место, требуемое для хранения дополнительной версии отрендеренного видео".

- frame-based chunking: 10x deduplication (500mb+500mb = 550mb)
- content-based chunking: 32х deduplication (500mb+500mb = 516mb)
- content-based + frame-based: 29x deduplication (500mb+500mb = 517mb)

Итого: epic fail. Фреймы слишком большие, content-based и без того хорошо попадает по их границам, а интрафрейм дедупликации практически нету. Добавление frame-based к content-based тупо увеличивает количество метаданных, необходимое для реконструкции, и мешает эвристике, группирующей похожие куски файла.

На inter-frame compressed форматах с мелкими фреймами, может быть, это и поможет. Но я не видел людей, которые бы в здравом уме монтировали видео в форматах с inter-frame compression.
(will be screened)
(will be screened if not validated)
If you don't have an account you can create one now.
HTML doesn't work in the subject.
More info about formatting

If you are unable to use this captcha for any reason, please contact us by email at support@dreamwidth.org

Profile

wizzard: (Default)
wizzard

January 2019

S M T W T F S
  12 345
6789101112
1314 1516171819
202122 23242526
2728293031  

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated Jun. 22nd, 2025 10:26 pm
Powered by Dreamwidth Studios