Идея: Capturing the Web
Aug. 15th, 2010 01:49 pmСначала про формат поста: мне с завидной регулярностью приходит в голову всякая фигня, которую дальше ждет следующее:
1. 85% забывается
2. 13% записывается и забывается
3. 1.8% записанное находится, делается proof-of-concept, а дальше приходит лень
4. 0.2% переходит в повседневное использование.
Цифры интуитивны, но где-то так оно и есть. Поэтому я решил, кроме записывания мыслей в свою wiki, писать их и сюда тоже – вдруг кому-то понадобится\понравится, и он реализует?
Вот, теперь собственно о посте.
1. Для чтения перегруженных навигацией и баннерами страниц есть хорошая штука Readability, которая по нажатию кнопки переформатирует хитрыми эвристиками страницу в более читабельный\печатабельный вид.
2. существуют сервисы и плагины, которые позволяют делать “нотариально заверенные скриншоты”, начиная с http://archive.org/ и кешей поисковиков, до всяких оффлайновых качалок – но они как-то очень быстро дохнут по неизвестным мне причинам.
А оригиналы статей нет-нет да дохнут тоже. Особенно это характерно для ценного и не успевшего набрать популярность original content, на олдскульных домашних страничках авторов – статьи, мелкие кусочки исходников и т.д. Хотя в последнее время участились случаи выпиливания целых профайлов и блогосервисов.
Так вот, я с завидной регулярностью занимаюсь тем, что выдираю куски DOM, отвечающие за собственно текст поста (“единицу знаний”), и копипастю в свою вики, часто также выкачивая картинки и файлы (но не проходя по ссылкам). В Readability есть большой недостаток – невзирая на корректную обработку контента, сгенерированного Javascript-ом, она с завидной регулярностью отдирает комменты. Которые порой бывают важнее оригинального поста.
Вот этот процесс и хочется автоматизировать. Критика и комментарии (вдруг кто-то такое уже сделал?) с радостью принимаются.