Пару дней назад сделал текстовый архив блога с прикольными названиями файлов. Мне лень было разбираться с форматом SQLite-базы Movable Type (кроме того, заметки я писал в HTML, Textile и Markdown в разные времена), поэтому я просто сделал
wget -m http://sellme.ru
и получил копию блога у себя на диске. Потом написал скриптик, который проходился по всем страничкам и выдергивал содержание заметок и комментариев. На выходе получался кусок HTML, который я пропускал через html2text.py и получал красивый простой текст с Markdown-разметкой (пример).
Но этого мне показалось мало: что за названия файлов такие
reshil-uznat--russkie-slova.txt? Поэтому из каждой заметки я выдернул
заголовок, пропустил его через Google Translate, убрал лишние пробелы, заменив
остальные на “-“, и получил красивые имена файлов типа
i-decided-to-learn-russian-words.txt (а иногда и смешные:
davydov-quot-modern-teaching-omarketinge-is-poluideologie.txt).
Скачать архив sellme-2010-01-09.zip (1.9 МБ)
Это только текст, картинки не включены. Распакованный архив весит 4.5 мегабайт;
wc выдает, что я написал 380079 слов. Это уже почти три тома универсальной
единицы словоизмерения:
$ wc -w war_and_peace*.txt
139059 war_and_peace_vol_1.txt
127219 war_and_peace_vol_2.txt
134185 war_and_peace_vol_3.txt
112377 war_and_peace_vol_4.txt
512840 total