Участник:Sergey kudryavtsev/Сканы постранично

Материал из Викитеки — свободной библиотеки
Перейти к навигации Перейти к поиску

Введение[править]

Некоторые интернет-ресурсы предоставляют сканированные книги в виде изображений отдельных страниц. Такие сканы могут эффективно быть загружены на Викисклад и собраны в единый индекс в Викитеке (см., например, Индекс:Стихотворения М. Л. Михайлова, 1862, собранный из файлов в commons:Category:М. L. Mikhailov's poems, 1862).

Загрузка сканов при помощи инструмента URL2Commons[править]

Перед загрузкой проверьте, чтобы загружаемые изображения были одного из типов, разрешённого для загрузки на Викисклад, т. е. PNG, JPEG или GIF.

Также определитесь для себя:

  1. как будут называться файлы отдельных страниц. Удобно, чтобы имя файла было производным от номера страницы и чтобы при обычной сортировке файлов они шли в том же порядке, что и страницы в книге.
  2. как будет называться категория Викисклада, где будут лежать файлы отдельных страниц.
  3. как должно выглядеть описание файла. Рекомендуется сделать на Викискладе шаблон, который бы принимал в параметрах номер страницы и URL, откуда изображение было загружено (см., например, шаблон commons:Template:М. L. Mikhailov's poems, 1862 с параметрами page и url), и который бы включал файлы отдельных страниц в категорию книги. Это облегчит вам в дальнейшем любые корректировки описания.

Подготовьте список URL загружаемых изображения страниц, где каждая строка представляет собой: <URL> <имя файла на Викискладе с расширением>|<номер страницы> Как правило имеет смысл формировать этот список полуавтоматически, например с помощью электронной таблицы Excel. В сложных случаях, например, когда в книге есть несколько разделов и они имеют каждый свою нумерацию страниц, проще составить несколько отдельных списков.

NB: Не используйте в имени файла апостроф, по какой-то причине URL2Commons его «проглотит». Из-за этой ошибки, например, отсутствует апостроф после имени автора в файлах commons:Category:М. L. Mikhailov's poems, 1862.

Затем откройте URL2Commons и авторизуйтесь в OAuth (надо нажать зелёную кнопку Allow). В поле "URLs" надо ввести подготовленный на предыдущем этапе список. В поле "Description" вводится описание изображения на Викискладе, в котором можно использовать подстановочные символы $URL$ (URL, откуда было загружено изображение) и $DESCRIPTOR$ (параметр списка, в нашем случае — номер страницы). Если вы сделали шаблон для описания, напишите в "Description" что-то вроде: {{М. L. Mikhailov's poems, 1862|page=$DESCRIPTOR$|url=$URL$}}.

Затем нажимайте кнопку Simulate, и URL2Commons проверит, что введённые имена не конфликтуют с именами файлов, уже существующих на Викискладе. Если ошибок нет, то появится кнопка Upload, которую и надо будет нажать. Файлы будут появляться на Викискладе, как загруженные от вашего имени с примечанием «Transferred from <URL>».

Сборка индекса из изображений отдельных страниц[править]

Следующей нашей задачей будет объединение загруженных на Викисклад изображений индекс. Это нужно чтобы работая в пространстве имён Страница: мы могли бы переходить на предыдущую или следующую страницу. При загрузке сканов одним файлом PDF или DJVU, место расположение индекса известно: Индекс:Имя файла c расширением. В случае когда страницы лежат в отдельных файлах, имя можно указать любое, например Индекс:Стихотворения М. Л. Михайлова, 1862.

Создание индекса в этом случае отличается только тем, что в поле «Список страниц» указываются не тег <pagelist />, а ссылки на страницы в обычном вики-синтаксисе [[Страница:Имя файла c расширением|номер страницы]].

Пример[править]

Допустим, нам надо загрузить из РГБ журнал «Иллюстрация», 1848, том 7, № 41, 13 ноября. Нумерация страниц в журнале сквозная по всем номерам тома, этому номеру соответствуют страницы 257—272. Файлы страниц назовём Иллюстрация, 1848, 41, page <номер страницы>.jpg. Тогда список для загрузки будет выглядеть так:

http://dlib.rsl.ru/viewer/pdf?docId=01003192392&page=652&rotate=0&negative=0 Иллюстрация, 1848, 41, page 257.jpg|257
http://dlib.rsl.ru/viewer/pdf?docId=01003192392&page=653&rotate=0&negative=0 Иллюстрация, 1848, 41, page 258.jpg|258
http://dlib.rsl.ru/viewer/pdf?docId=01003192392&page=654&rotate=0&negative=0 Иллюстрация, 1848, 41, page 259.jpg|259
http://dlib.rsl.ru/viewer/pdf?docId=01003192392&page=655&rotate=0&negative=0 Иллюстрация, 1848, 41, page 260.jpg|260
http://dlib.rsl.ru/viewer/pdf?docId=01003192392&page=656&rotate=0&negative=0 Иллюстрация, 1848, 41, page 261.jpg|261
http://dlib.rsl.ru/viewer/pdf?docId=01003192392&page=657&rotate=0&negative=0 Иллюстрация, 1848, 41, page 262.jpg|262
http://dlib.rsl.ru/viewer/pdf?docId=01003192392&page=658&rotate=0&negative=0 Иллюстрация, 1848, 41, page 263.jpg|263
http://dlib.rsl.ru/viewer/pdf?docId=01003192392&page=659&rotate=0&negative=0 Иллюстрация, 1848, 41, page 264.jpg|264
http://dlib.rsl.ru/viewer/pdf?docId=01003192392&page=660&rotate=0&negative=0 Иллюстрация, 1848, 41, page 265.jpg|265
http://dlib.rsl.ru/viewer/pdf?docId=01003192392&page=661&rotate=0&negative=0 Иллюстрация, 1848, 41, page 266.jpg|266
http://dlib.rsl.ru/viewer/pdf?docId=01003192392&page=662&rotate=0&negative=0 Иллюстрация, 1848, 41, page 267.jpg|267
http://dlib.rsl.ru/viewer/pdf?docId=01003192392&page=663&rotate=0&negative=0 Иллюстрация, 1848, 41, page 268.jpg|268
http://dlib.rsl.ru/viewer/pdf?docId=01003192392&page=664&rotate=0&negative=0 Иллюстрация, 1848, 41, page 269.jpg|269
http://dlib.rsl.ru/viewer/pdf?docId=01003192392&page=665&rotate=0&negative=0 Иллюстрация, 1848, 41, page 270.jpg|270
http://dlib.rsl.ru/viewer/pdf?docId=01003192392&page=666&rotate=0&negative=0 Иллюстрация, 1848, 41, page 271.jpg|271
http://dlib.rsl.ru/viewer/pdf?docId=01003192392&page=667&rotate=0&negative=0 Иллюстрация, 1848, 41, page 272.jpg|272

NB: Лично я для формирования списка использовал вот этот небольшой сценарий JavaScript:


Открыв URL2Commons, авторизовавшись и скопировав в поле "URLs" полученный список в "Description", укажем шаблон commons:Template:Illustratsiya Magazine:

{{Illustratsiya Magazine|year=1848|issue=41|page=$DESCRIPTOR$|url=$URL$}}

После нажатия кнопки «Simulate» появится сообщение «All simulations successful! Upload button enabled!» и кнопка «Upload», нажав её и подождав около минуты появится сообщение «All files uploaded!», а файлы страниц окажутся в commons:Category:Illustratsiya Magazine, 1848 под именами File:Иллюстрация, 1848, 41, page 257.jpgFile:Иллюстрация, 1848, 41, page 272.jpg.

Индексу дадим имя Индекс:Иллюстрация, 1848, № 41, а при его создании заполним поле «Список страниц» так:

[[Страница:Иллюстрация, 1848, 41, page 257.jpg|257]]
[[Страница:Иллюстрация, 1848, 41, page 258.jpg|258]]
[[Страница:Иллюстрация, 1848, 41, page 259.jpg|259]]
[[Страница:Иллюстрация, 1848, 41, page 260.jpg|260]]
[[Страница:Иллюстрация, 1848, 41, page 261.jpg|261]]
[[Страница:Иллюстрация, 1848, 41, page 262.jpg|262]]
[[Страница:Иллюстрация, 1848, 41, page 263.jpg|263]]
[[Страница:Иллюстрация, 1848, 41, page 264.jpg|264]]
[[Страница:Иллюстрация, 1848, 41, page 265.jpg|265]]
[[Страница:Иллюстрация, 1848, 41, page 266.jpg|266]]
[[Страница:Иллюстрация, 1848, 41, page 267.jpg|267]]
[[Страница:Иллюстрация, 1848, 41, page 268.jpg|268]]
[[Страница:Иллюстрация, 1848, 41, page 269.jpg|269]]
[[Страница:Иллюстрация, 1848, 41, page 270.jpg|270]]
[[Страница:Иллюстрация, 1848, 41, page 271.jpg|271]]
[[Страница:Иллюстрация, 1848, 41, page 272.jpg|272]]

NB: Лично я для формирования списка использовал вот этот небольшой сценарий JavaScript:


Для проверки откроем, например, Страница:Иллюстрация, 1848, 41, page 260.jpg и обратим внимание на появившиеся ссылки «предыдущая страница», «следующая страница», «индекс» и заполнение верхнего и нижнего колонтитулов из индекса.

Теперь можно приступать к распознаванию текста.

См. также[править]