wizzard: (Default)
wizzard ([personal profile] wizzard) wrote2014-06-27 01:58 am

ходим кругами

В который раз я с удивлением переоткрываю, что для спокойствия души и вообще sanity мне жизненно необходимо хотя бы несколько дней в год сидеть ночью в ПУСТОЙ квартире. В тишине.

А потом снова забываю. Ну блииииин.

Совсем unrelated: а есть какие-нибудь очень-compressed lossy inverted index'ы для приблизительного полнотекстового поиска? ну типа чтобы занимали не 2х и не 8х от оригинального текста, а, например, 0.1х. А лучше 0.01х.

Можно чтоб давали false positives, хуже если false negatives, позиции в тексте не нужны, TF-IDF можно выбросить, но с ним лучше.

Хорошо, если их можно динамически апдейтить (добавлять и удалять документы). Если нельзя - нууу, будем делить документы в бины, отделять hot от cold, то-се.

Совсем хорошо, если можно части индекса отдельно строить и мержить.

Важно, чтобы RAM мало требовалось на построение и поиск (условно, датасет весит 1 гб, документы 1 кб..5 мб логнормально распределены, есть 50-200 мб диска, 20-50 мб оперативки). Пока думаю про какое-то trie толстых блумфильтров, где документы в листьях, а вверх они OR-ятся, группированы просто от фонаря (по старшим битам например)

Вотъ..

Post a comment in response:

(will be screened)
(will be screened if not validated)
If you don't have an account you can create one now.
HTML doesn't work in the subject.
More info about formatting

If you are unable to use this captcha for any reason, please contact us by email at support@dreamwidth.org