Василиса▶ Я жду вашего обращения. Что Вы хотите узнать?
Логотип
Уникальное обозначение: Дневник создания контента диафильмов ( страница )
Обозначение ⇔ Дневник создания контента диафильмов
Сущность ⇔ страница
Текст:

Дневник создания контента диафильмов.


Дневник реализации. (bts1009)
  • <2017.10.01>
    Рабочая директория задачи ~/work/d/
    Сайты с диафильмами
    
    1. http://diafilmy.su/ - диафильмы
    2. http://arch.rgdb.ru/xmlui/handle/123456789/27090/browse?type=title -Национальная электронная детская библиотека
    3. http://diaf.library.ru - база данных диафильмов
    4. http://my-ussr.ru -
    5. skalabuhin.narod.ru/SKLAD/ - Калабухин Сергей Владимирович (плохое качество)
    6. http://diafilm-nsk.ru/
    Загрузка базы данных с diaf.library.ru В файле ~/my/pibase/bsh/make_n_diafilm_from_diaf содержится скрипт считывающий базу данных с diaf.library.ru в файл ~/work/d/ddb_diaf.txt в виде комъектов пример комъекта: {+(>Область<=>диафильм<)(>№<=>1<)(>Обозначение<=>Заюшкина избушка (диафильм 1967)<) (>Обозначение<=>Заюшкина избушка<)(>студия<=>Диафильм<)(>номер<=>Д-42-67<)(>индекс<=>?<) (>кадров<=>37<)(>год создания<=>1967<)(>дата выпуска<=>1969; 1970<)(>диафильмы<=>цветные<) (>Обработка<=>Булатов Михаил Александрович<)(>редактор<=>Белая Л<) (>художественный редактор<=>Усайтис Леонид Александрович<)(>иллюстратор<=>Брей Андрей Андреевич<) (>источник<=>diafilmy.su/849-zayushkina-izbushka.html<)(>изображение<=>dia_img/1967/d-1967-042.jpg<) (>диафильмы<=>сказки<)(>сказки<=>русские<)+} Комъект записан в файле в одной строке. Формирование списков: Обозначений sed -r 's/(.*)значение<=>([^<]*)<\)\(>Обозначение<=>(.*)/\2/g' ddb_diaf.txt > lst_defin.txt Скрипты по диафильмам: все скрипты хроняться по адресу ~/my/pibase/bsh/ make_kom_diaf_n_from_diaf - читает БД с описанием из diaf.library.ru в файл ~/work/d/ddb_diaf.txt и преобразует их в комъекты make_kom_diaf_1_from_diaf - читает описание 1-го диафильма с diaf.library.ru по указанному номеру и преобразует его в комъект результат в ~/work/d/df10.tmp make_diaf_1_from_diafilmy_su - читает сам диафильм с сайта diafilmy.su по его описанию из комъекта БД ~/work/d/ddb_diaf.txt make_diaf_1_diafilmy_su_hand - читает 1 диафильм с сайта diafilmy.su с параметрами заданными вручную make_diaf_1_arch_hand - читает 1 диафильм с сайта diafilmy.su с параметрами заданными вручную make_img_1_from_net - читает 1 изображение из сети по указанному на входе файлу записывает его в стандартную директорию ~/i/ под новым именем и возвращает в файле вывода имя нового файла make_ddb_diaf_poster - для всей БД ~/work/d/ddb_diaf.txt считывает постеры с diaf.library.ru и вставляет как атриз (>визитка<=>MD5<) удаляя атриз изображение результат в ~/work/d/ddb_diaf1.txt make_ddb_diaf1_check - для всей БД ~/work/d/ddb_diaf1.txt проверка на наличие комъекта в ~/pibase/gen/x_gen_dflm.txt признак наличия самого диафильма в ~/pibase/gen/x_gen_dflm.txt присутствие артриза (>№№<=>d00019<) результат в ~/work/d/ddb_diaf2.txt - если надо считывать этот комъект результат в ~/work/d/ddb_diaf2.bad - если есть несколько комъектов в ~/pibase/gen/x_gen_dflm.txt результат в ~/work/d/ddb_diaf2.yes - если комъект из ~/pibase/gen/x_gen_dflm.txt уже обработан ранее чтение картинки с сайта arch.rgdb.ru http://arch.rgdb.ru/xmlui/bitstream/handle/123456789/36369/00037.jpg загружаем пакеты перекодировки: sudo apt-get install unoconv sudo apt-get install djvulibre-bin для форматов djvu Теперь займёмся конвертацией. Допустим в домашней директории лежит файл Книга.djvu и его нужно конвертировать в pdf. Не проблема, воспользуйтесь такой командой: ddjvu -format=pdf Книга.{djvu,pdf} http://smallpdf.com/ru/pdf-to-jpg сервис по извлечению картинок из pdf ----------------------для чтения фото с http://diafilmy.su/ для нумерованных ([0-9]{2,2})< !--dle_image_begin:http:\/\/diafilmy\.su\/uploads\/posts\/([^.]*)\.jpg\|-- > < !--dle_image_end--> curl http://diafilmy.su/uploads/posts/\2.jpg > d03130_\1.jpg < !--dle_image_begin:http:\/\/diafilmy\.su\/uploads\/posts\/([^/]*)\/([0-9]*)_([0-9]{2,2})\.jpg\|--> < !--dle_image_end--> curl http://diafilmy.su/uploads/posts/\1/\2_\3.jpg >> d03131_\3.jpg ==================== curl http://diafilmy.su/base.php > ~/work/d/db.tmp читаем бд sed -r 's/<\/tr>\n ~/work/d/db1.tmp вставляем перевод строки sed -r 's/([^<])<\/td>/(>№<=>\1<)/1' ~/work/d/db1.tmp > ~/work/d/db2.tmp ==================== _([0-9]{2,2})\.jpg\|-->< !--dle_image_end--> _\1.jpg >> d03096_\1.jpg ========================================================================= 1. копируем тег с коментариями фото tmp.tmp 2. запускаем скрипт: cat -n tmp.tmp > tmp1.tmp 3. открываем в редакторе tmp1.tmp и делаем замены -------------------регю выр. ([0-9]) 0\1 ----------------------- > d00559_ -------------регю выр. [ ]*([0-9]{2,2}) ([^>]*) > d00559_ \2 > d00559_\1.jpg ---------------- cat tmp1.tmp | bash curl $p_url > ~/work/d/df.tmp # чтение диафильма grep "<\!--dle" ~/work/d/df.tmp > ~/work/d/df1.tmp iconv -f CP1251 -t UTF-8 ~/work/d/df1.tmp > ~/work/d/df22.tmp sed -r 's/\r//g;' ~/work/d/df22.tmp > df2.tmp # убирает CR в конце строк cat -n ~/work/d/df2.tmp > ~/work/d/df3.tmp sed -r 's/ / 0/1' ~/work/d/df3.tmp > ~/work/d/df2.tmp #rm ~/work/d/df.tmp sed -r 's/ ([0-9]{2,2})([^<]*)(.*)/curl http:\/\/diafilmy.su\/uploads\/posts\/\3.jpg > ~\/work\/d\/d'$p_num'_\1.jpg/1;' ~/work/d/df2.tmp > ~/work/d/df3.tmp #sed -r -f ~/my/pibase/gen/1_diafilm.sed ~/work/d/df2.tmp > ~/work/d/df3.tmp #sed -r 's/d'$p_num'/'$1'/1' ~/work/d/df3.tmp > ~/work/d/df4.tmp bash ~/work/d/df3.tmp # чтение фотографий echo 'md5sum d'$p_num'*.* > a' echo 'md5sum d'$p_num'*.* > a' | bash com2=$(echo "sed -r 's/^(.*?) d"$p_num"_([0-9]{2,2})\.jpg/{+(>область<=>изображение<)(>обозначение<=>"$p_name" ( изображение кадра диафильма \2)<)(>url<=>[>di\/d"$p_num"_\2.jpg<]<)(>MD5<=>\1<)(>изображения<=>диафильмы<)(>изображения<=>"$p_name"<)(>№<=>"$p_num"<)(>кадр<=>\2<)+}/1;' ~/work/d/a >> ~/work/d/x_gen_dflm_img.tmp") echo $com2 | bash #sed -r 's/^(.*?) d'$p_num'_([0-9]{2,2})\.jpg/00'$p_name'11/1;' ~/work/d/a >> ~/work/d/x_gen_dflm_img.tmp #----------- изменение иллюстраторов получение списка #sed -r 's/^(.*?)>иллюстратор<=>([^<]*)<(.*)$/\2/1;' ~/work/d/x_gen_dflm.tmp > ~/work/d/lst_ill.tmp #sed -r 's/^(.*?)>художественный редактор<=>([^<]*)<(.*)$/\2/1;t a;d;:a;' ~/work/d/x_gen_dflm.tmp > ~/work/d/lst_hr.tmp # художественный редактор #sed -r 's/^(.*?)>редактор<=>([^<]*)<(.*)$/\2/1;t a;d;:a;' ~/work/d/x_gen_dflm.tmp > ~/work/d/lst_rr.tmp # редактор 1. копируем тег с коментариями фото tmp.tmp 2. запускаем скрипт: cat -n tmp.tmp > tmp1.tmp 3. открываем в редакторе tmp1.tmp и делаем замены -------------------регю выр. ([0-9]) 0\1 ----------------------- > d00559_ -------------регю выр. [ ]*([0-9]{2,2}) ([^>]*) > d00559_ \2 > d00559_\1.jpg ---------------- cat tmp1.tmp | bash curl $p_url > ~/work/d/df.tmp # чтение диафильма grep "<\!--dle" ~/work/d/df.tmp > ~/work/d/df1.tmp iconv -f CP1251 -t UTF-8 ~/work/d/df1.tmp > ~/work/d/df22.tmp sed -r 's/\r//g;' ~/work/d/df22.tmp > df2.tmp # убирает CR в конце строк cat -n ~/work/d/df2.tmp > ~/work/d/df3.tmp sed -r 's/ / 0/1' ~/work/d/df3.tmp > ~/work/d/df2.tmp #rm ~/work/d/df.tmp sed -r 's/ ([0-9]{2,2})([^<]*)(.*)/curl http:\/\/diafilmy.su\/uploads\/posts\/\3.jpg > ~\/work\/d\/d'$p_num'_\1.jpg/1;' ~/work/d/df2.tmp > ~/work/d/df3.tmp #sed -r -f ~/my/pibase/gen/1_diafilm.sed ~/work/d/df2.tmp > ~/work/d/df3.tmp #sed -r 's/d'$p_num'/'$1'/1' ~/work/d/df3.tmp > ~/work/d/df4.tmp bash ~/work/d/df3.tmp # чтение фотографий echo 'md5sum d'$p_num'*.* > a' echo 'md5sum d'$p_num'*.* > a' | bash com2=$(echo "sed -r 's/^(.*?) d"$p_num"_([0-9]{2,2})\.jpg/{+(>область<=>изображение<)(>обозначение<=>"$p_name" ( изображение кадра диафильма \2)<)(>url<=>[>di\/d"$p_num"_\2.jpg<]<)(>MD5<=>\1<)(>изображения<=>диафильмы<)(>изображения<=>"$p_name"<)(>№<=>"$p_num"<)(>кадр<=>\2<)+}/1;' ~/work/d/a >> ~/work/d/x_gen_dflm_img.tmp") echo $com2 | bash #sed -r 's/^(.*?) d'$p_num'_([0-9]{2,2})\.jpg/00'$p_name'11/1;' ~/work/d/a >> ~/work/d/x_gen_dflm_img.tmp #----------- изменение иллюстраторов получение списка #sed -r 's/^(.*?)>иллюстратор<=>([^<]*)<(.*)$/\2/1;' ~/work/d/x_gen_dflm.tmp > ~/work/d/lst_ill.tmp #sed -r 's/^(.*?)>художественный редактор<=>([^<]*)<(.*)$/\2/1;t a;d;:a;' ~/work/d/x_gen_dflm.tmp > ~/work/d/lst_hr.tmp # художественный редактор #sed -r 's/^(.*?)>редактор<=>([^<]*)<(.*)$/\2/1;t a;d;:a;' ~/work/d/x_gen_dflm.tmp > ~/work/d/lst_rr.tmp # редактор <!--dle_image_begin:http://diafilmy.su/uploads/posts/2011-09/1315931759_02.jpg|--><!--dle_image_end--> <!--dle_image_begin:http://diafilmy.su/uploads/posts/2011-09/1315931814_03.jpg|--><!--dle_image_end--> =========================================================================

    Формализован процесс заполнения контента диафильмов.

    < /2017.10.01>

Cвойства:
страницы ⇔ документации Василисы ЯВИКС
страницы ⇔ дневники Василисы ЯВИКС
дата ⇔ 01. 10. 2017
FF ⇔ bts1009
© 2014-2018 ЯВИКС - все права защищены.
Наши контакты/Карта ссылок