Jun. 27th, 2014

wizzard: (Default)
В который раз я с удивлением переоткрываю, что для спокойствия души и вообще sanity мне жизненно необходимо хотя бы несколько дней в год сидеть ночью в ПУСТОЙ квартире. В тишине.

А потом снова забываю. Ну блииииин.

Совсем unrelated: а есть какие-нибудь очень-compressed lossy inverted index'ы для приблизительного полнотекстового поиска? ну типа чтобы занимали не 2х и не 8х от оригинального текста, а, например, 0.1х. А лучше 0.01х.

Можно чтоб давали false positives, хуже если false negatives, позиции в тексте не нужны, TF-IDF можно выбросить, но с ним лучше.

Хорошо, если их можно динамически апдейтить (добавлять и удалять документы). Если нельзя - нууу, будем делить документы в бины, отделять hot от cold, то-се.

Совсем хорошо, если можно части индекса отдельно строить и мержить.

Важно, чтобы RAM мало требовалось на построение и поиск (условно, датасет весит 1 гб, документы 1 кб..5 мб логнормально распределены, есть 50-200 мб диска, 20-50 мб оперативки). Пока думаю про какое-то trie толстых блумфильтров, где документы в листьях, а вверх они OR-ятся, группированы просто от фонаря (по старшим битам например)

Вотъ..
wizzard: (Default)
Тут вот sorhed в Пованговать и покассандрить. пишет про светлое будущее.

Свои аргументы "за" я написал там. А тут будут немножко "против", ну и мое личное вангование. В основном про IT.

1. Интернет-то будет повсеместный. Но медленный и голимый. Сейчас рост абонентов даже в развитых странах превышает рост мощностей как сотовых операторов, так и магистральщиков интернета.

2. "Серверная в каждый дом" или каждую соту будет. Но апгрейдить ее будет дороже, чем сменить айфон, а еще это войдет в цену сотовой связи/коммунальных. Поэтому тут тоже не все гладко, это упирается в местное самоуправление и прочую социальщину.

3. (У тех, кто работает, а не только серфит фейсбук) Будут персональные сервера. No, really. Потому что data ownership, потому что прайваси, вот это всё. Много и отказоустойчивые. С p2p, мастер-мастер синхронизацией. Вот у всех, у кого сейчас есть счет в банке - будет сервер. Арендованный и физический. Физический сервер дома называется PlayStation/Xbox/"вон та коробочка которая раздает интернет", если кто не заметил.

Почему их нет сейчас? См. п.10.

4. Девайсы пойдут в ту же степь. На девайсах будет брутальная виртуализация и изоляция компонентов друг от друга. (Это уже сейчас есть, в айфоне вон 4 процессора независимых общаются, и крутят 3 разных операционки, у Самсунга и vmware есть виртуалки для Андроида)

5. Хороший процент этих компонентов будет на FPGA. Много. Разных. Потому что performance per watt не решить процессорами общего назначения.

6. Латенси никто, вроде, не собирается побеждать, кроме игроделов, а жаль. Но см. п.10.

7. Кстати, о игроделах. Я был очень скептичен насчет рэйтрэйса и вокселей, но таки да, PowerVR анонсировал, что в мобильных GPU будет хардверный рейтрейсинг, ну а майнкрафт все видели. Кубики гавнище, конечно, но не-кубики тоже есть (VoxelFarm, да тот же Far Cry, например). Арт делать безумно дорого уже сейчас, но 3d-scanned модели, motion capture и физдвижки спасают.

8. Криптостартапов сейчас (спасибо Сноудену) появилось как тараканов (И мы в ту же степь. Еще с 2010)
Большинство, конечно, гавнище. Но спрос появился, а значит, будет и софт. И страхомудия вроде PGP, надеюсь, останутся в прошлом. Хотя всё упирается в юзеров, которые готовы за $1 поменять любые настройки и запустить албанский вирус :(
Поэтому еще раз спасибо Сноудену.

10. Кстати, будет ЕЩЕ БОЛЬШЕ разных стартапов в области баз данных. Потому что п.6, будут бороть латенси на уровне API "менеджера стэйта". Больше негде, повторять каждый раз на уровне приложения - очень дорого.
Кто сделает новый мультимастер, только P2P и гибче Oracle RAC - заработает свой честный миллиард. Или больше.

11. Придется снова переписать весь софт на новый язык программирования. Потому что когда в девайсе будут FPGA и тысяча-другая независимых потоков выполнения - писать на C++, Java и Javascript будет, эмммм, не очень-то удобно.

12. В сабжевых языках программирования наконец-то появится понятие "недовычислено", "неточно вычислено" и т.д. Промисы вот уже везде появились, будет еще. А еще будут first-class ACL'и и вычисления на них.

13. Программирование и администрирование станет строго лицензируемым занятием. Как врачи/адвокаты, примерно. Это уже сейчас можно наблюдать, по мере того как случается всё больше факапов после аутсорса в Индию, а страховики постепенно учатся оценивать риски сабжа.
Ну и аккаунт в аппсторе тоже запросто можно назвать лицензией. Просто управляет им не государство.
А, в Германии, например, вирусы исследовать нельзя, но с лицензией - можно. Все там будем.

Так, дальше писать, эээ, лень. Хотя еще пунктов эдак 50 можно.

Profile

wizzard: (Default)
wizzard

January 2019

S M T W T F S
  12 345
6789101112
1314 1516171819
202122 23242526
2728293031  

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated Jun. 12th, 2025 03:14 am
Powered by Dreamwidth Studios