Викитека:Проект:OCR
Материал из Викитеки — свободной библиотеки
Целью проекта является совместная работа по распознаванию и сверки отсканированных текстов. Сами сканы хранятся на Викискладе, для сверки текста и скана в Викитеке используются специальные пространства имен Индекс и Страница.
Содержание |
[править] Размещение сканов на Викискладе
Сканы текстов, не охраняемых авторским правом, как найденные в сети, так и произведенные специально для Викитеки следует размещать на Викискладе в commons:Category:Scanned Russian texts. При этом важно выяснить, перешло ли само произведение в ОД. Фотографические копии произведений, находящихся в общественном достоянии, не могут быть защищены авторским правом, потому что в них отсутствует новизна. Сканированный документ находится в общественном достоянии даже при наличии современного добавления в виде надписи, не имеющей существенной творческой составляющей, или «лицензионного соглашения» с необоснованными претензиями на исключительные авторские права в отношении этого документа. [1]
Допустимы форматы djvu, pdf, jpg и gif. При этом Djvu и Pdf-файлы можно просматривать/вставлять в статьи как обычные изображения (см., напр., рис. 1). Обычно конвертация в djvu-файл приводит к уменьшению размера документа без существенной потери качества, поэтому рекомендуется переводить все файлы в формат djvu с разрешением 300-400 dpi, используя, напр., бесплатный сервис http://any2djvu.djvuzone.org/.[2]
Размещая в Викитеке текст, сканы которого имеются на Викискладе, дайте на него ссылку в графе ИСТОЧНИК шаблона {{Отексте}}:
- |ИСТОЧНИК={{Источник|Имя файла.djvu|Описание }}
[править] Заявки на загрузку
Если Вы не можете загрузить файл на Викисклад по тем или иным причинам, разместите заявку на загрузку ниже, указав адрес нужного файла в интернете и коротко описав его.
<Пусто>
[править] Распознавание и размещение в Викитеке
[править] Индексы
Цель: создание навигации по сканам, в т.ч. и разрозненным.
Пример: Файл:Lexicon-01 (Pluchart).djvu → Индекс:Lexicon-01 (Pluchart).djvu.
Для того, чтобы создать индекс (список страниц) для файла Название.djvu, загруженного на Викисклад, откройте Файл:Название.djvu в Викитеке и перейдите по ссылке «Ссылка на страницу индекса» (размещается вверху страницы). Если Индекса еще не существует, появится форма, заполнив которую можно его создать. Добавьте в графу «Страниц» <pagelist/> , тогда приводит к созданию на индексе в разделе «Страниц» появится список всех страниц djvu-файла, пронумерованных по порядку арабскими цифрами.[3] Имеется, возможность нумеровать часть страниц римскими цифрами. Напр.,
- <pagelist 1to2="-" 3="5" 3to14=roman 15=1/>
нумерует 1 и 2 страницы как «-», страницы с 3 по 14 с «V» по «XVI», а с 15 до конца – с «1» до конца.
Все индексы собраны в Категория:Индекс.
[править] Страницы
Создав документ Страница:Название.djvu/Номер страницы или просто нажав на красные ссылки в индексе, можно перейти на соотв. страницу divu-файла: при этом справа появится скан, который можно сохранить как jpg-рисунок, слева – окно для ввода текста.
В Викитеке нет встроенной возможности распознавания текста, но имеется возможность обратиться к другим участникам Викитеки с просьбой срочно распознать ту или иную страницу. Для этого следует разместить на соответствующей странице шаблон {{OCR}}.
Среди кнопок, появляющихся над окном для ввода текста следует обратить внимание на [+]. Нажав ее, можно открыть еще два окна – верхний и нижний колонтитулы. Для текстов в ДО в верхний колонтитул следует добавить <div class="oldspell">, в нижний - </div>.
Все страницы по степени вычитки упорядочены в Категория:Вычитка страниц.
[править] Тексты
Пример: Индекс:Поэмы Оссиана (Балобанова).djvu → Поэмы Оссиана (Балобанова)/Каррик-Тура/ДО
Распознанный текст можно вставить в любой документ при помощи шаблона {{Страница}}. Напр., чтобы вставить текст со Страница:Пример.djvu/247 (Распознная 247 страница документа Пример.djvu), следует написать {{Страница|Пример.djvu/247}} Содержимое колонтитулов страницы при этом игнорируется.
Если есть необходимость вставить лишь часть текста со Страница:Пример.djvu/247, эту часть на Страница:Пример.djvu/247 следует выделить как секцию
- <section begin=Номер секции />Нужная часть текста. <section end=Номер секции />
и тогда эту часть можно вставить в документ, написав
- {{Страница|Пример.djvu/247|section=Номер секции}}
При применении шаблона Страница необходимо создать поля на странице. Для этого можно использовать шаблоны {{OCR-on}} и {{OCR-off}} или стиль стиль <div style="margin:0 auto;text-align:justify;width:45em;" class="pagetext">.
[править] Участники
- Bkmd 19:18, 7 ноября 2008 (UTC)
[править] Шаблоны
- {{Страница}}
- {{OCR-on}} и {{OCR-off}}
- {{OCR-poem-old}}
- {{OCR}}
[править] Примечания
|
|
Оцифровка книг в Википедии? |
|
|
Оцифровка печатных текстов в Викиучебнике? |
|
|
Category:Scanned Russian texts на Викискладе? |
- ↑ См. Bridgeman Art Library против Corel.
- ↑ О других возможностях см. http://djvu-inf.narod.ru/
- ↑ В некоторых иноязычных Викитеках эта функция напрямую не работает, ср., напр., it:Indice:Introduzione (Cremona).djvu