wizzard: (Default)
wizzard ([personal profile] wizzard) wrote2014-06-27 01:58 am

ходим кругами

В который раз я с удивлением переоткрываю, что для спокойствия души и вообще sanity мне жизненно необходимо хотя бы несколько дней в год сидеть ночью в ПУСТОЙ квартире. В тишине.

А потом снова забываю. Ну блииииин.

Совсем unrelated: а есть какие-нибудь очень-compressed lossy inverted index'ы для приблизительного полнотекстового поиска? ну типа чтобы занимали не 2х и не 8х от оригинального текста, а, например, 0.1х. А лучше 0.01х.

Можно чтоб давали false positives, хуже если false negatives, позиции в тексте не нужны, TF-IDF можно выбросить, но с ним лучше.

Хорошо, если их можно динамически апдейтить (добавлять и удалять документы). Если нельзя - нууу, будем делить документы в бины, отделять hot от cold, то-се.

Совсем хорошо, если можно части индекса отдельно строить и мержить.

Важно, чтобы RAM мало требовалось на построение и поиск (условно, датасет весит 1 гб, документы 1 кб..5 мб логнормально распределены, есть 50-200 мб диска, 20-50 мб оперативки). Пока думаю про какое-то trie толстых блумфильтров, где документы в листьях, а вверх они OR-ятся, группированы просто от фонаря (по старшим битам например)

Вотъ..