Обсуждение Викитеки:Проект:OCR

Материал из Викитеки — свободной библиотеки

Перейти к: навигация, поиск

Содержание

[править] djvu

Я наткнулся на [1]. Не думал, что так можно. Т.е. я могу загружать книги в формате djvu (а также pdf и другие форматы)? (с авторскими правами всё в порядке - дореволюционное издание). Есть ли какие-то рекомендации/ограничения? Или лучше на Викисклад загружать? --Butko 16:59, 7 ноября 2008 (UTC)

[править] Распознавалка?

Leksikon title.jpg

Участник:Tar-ba-gan мне задал вопрос, на который я не знаю ответа. Прошу помочь ответить (Dmitrismirnov 00:18, 7 ноября 2008 (UTC)) :

Такой вопрос: как можно прорабатывать книги, скачанные c Google Books? Я нашел там несколько русских изданий XIX века, которые скачиваются в PDF, но для меня остается загадкой техника правильной трансляции их текстов в Викитеку. --Tar-ba-gan 12:13, 6 ноября 2008 (UTC)
Можно только в том случае, если не нарушаются права авторов (должно пройти 70 лет со дня их смерти). -- Dmitrismirnov 14:33, 6 ноября 2008 (UTC)
Я в этом не сомневаюсь, а технически как? Я хочу эту книжку выкладывать. Чем их распознают-вскрывают? --Tar-ba-gan 22:09, 6 ноября 2008 (UTC)
PDF в картинку можно перевести с помощью Adobe Photoshop'а или Illustrator'a (но, к сожалению только постранично, это будет неудобно). Acrobat Reader умеет класть в Clipboard заданную часть страницы в виде изображения — это тоже не фонтан. Для ABBYY Fine Reader есть приблуда для чтения PDF («PDF IN Add-on Module», см. [2]), но, естественно, денег стоит. А вообще лучше об этом у немцев спросить — у них работа с Google Book'ами на поток поставлена. -- Sergey kudryavtsev 07:53, 7 ноября 2008 (UTC)
PS: Я задал вопрос в de (de:Benutzer Diskussion:Paulis, «GoogleBooks into Wikisource»). -- Sergey kudryavtsev 08:12, 7 ноября 2008 (UTC)
Я как раз сейчас занят выкладыванием в Викитеку распознанных текстов и использую ABBYY FineReader 9.0. Начиная как минимум с 7-ой версии, FineReader умеет открывать pdf-файлы и распознавать тексты в дореформенной орфографии. Ничего дополнительно устанавливать не надо, если установить полную версию. Впрочем, Google Books дает сканы очень низкого качества и распознанную версию придется дорабатывать вручную.
Известные мне бесплатные программы для распознавания не поддерживают кириллицу.
Для сверки текста и скана (и тем более преобразования pdf в картинку) в Викитеке есть очень полезный механизм – Индекс. (Кажется, он и распознавать умеет, поскольку в it-wiki есть кнопочка OCR, но я этим не пользовался.) Советую делать так:
  1. На сайте http://any2djvu.djvuzone.org/ преобразовать pdf-файл в *.djv с разрешением 400 dpi (сжатие до 100 раз) и вылодить его на Викисклад. (Для русских текстов – категория commons:Category:Ru Wikisource book djvu)
  2. Создать в Викитеке навигацию, то есть файл с названием Индекс:*.djv. Заполнить появившуюся форму можно по аналогии с Индекс:Istoriia drevnei russkoi slovesnosti.djvu.
  3. Распознавать постранично FineReader’ом и выкладывать на Страница:*.djv/номер страницы.
  4. Создать текстовую версию, см. Договор об окончательном урегулировании в отношении Германии
В других языковых разделах распознаванием занимаются уже давно, много полечного я нашел в оформлении it:Elementi. --Bkmd 11:10, 7 ноября 2008 (UTC)
Все картинки из PDF можно вытащить с помощью бесплатной (консольной) утилиты pdfimages (из пакета XPDF. Правда, может потребоваться дополнительная обработка, т.к. катринки получаются в редких для Windows форматах PBM/PPM, для этого можно использовать например IrfanView или XnView. — Lozman 11:02, 7 ноября 2008 (UTC)
Немцы мне посоветовали для этого утилитку PDFXViewer (4.9 Мб). Попробовал — действительно работает. -- Sergey kudryavtsev 11:39, 7 ноября 2008 (UTC)

А в общем немцы загружают отдельные страницы page001.jpg, page002.jpg, page003.jpg и т.д. (у них есть специальный бот для загрузки commons:User:GerWsUpload). А дальше действуют так, как написал Bkmd. Кроме того у них есть шаблон Seite который даёт ссылку [3]. -- Sergey kudryavtsev 11:51, 7 ноября 2008 (UTC)

С тем, чтобы разговор перешел в практическое русло, создал Индекс:Lexicon-IX-1 (Shenin, 1837).djvu, содержащий первые 100 страниц указанной книги. Нажав на красные ссылки, можно перейти на соотв. страницу: справа - скан, слева – окно для ввода текста. Запустил его распознавание в ФайнРидере, текст выложу тут. По опыту, самое трудное и долгое – его растащить по страницам, выверить и отредактировать. --Bkmd 14:35, 7 ноября 2008 (UTC)

[править] commons:Category:Ru Wikisource book

С удивлением обнаружил на Викискладе несколько русских книг в формате djvu, используемых в Викитеке. Я собрал их в commons:Category:Ru Wikisource book, преамбулу взял из commons:Category:De Wikisource book. --Bkmd 20:27, 31 октября 2008 (UTC)

[править] Сканы

Можно ли в викитеке размещать сканы книг (.djvu, .pdf)? Например рукописных или художественно оформленных книг имеющих ценность именно этим? --HalanTul 07:57, 27 августа 2008 (UTC)

Я думаю, что можно. Dmitrismirnov 09:39, 27 августа 2008 (UTC)
Для djvu даже установлено какое-то расширение (см. Индекс:Zwei-Plus-Vier-Vertrag.djvu) -- Sergey kudryavtsev 10:08, 27 августа 2008 (UTC)
Угу. Только, помнится, сами сканы предполагалось размещать на Викискладе? — Lozman 11:49, 27 августа 2008 (UTC)
Желательно там, но формального запрета нет. Возможны случаи, когда из-за авторских прав книжку не дадут разместить на Commons, а здесь её размещение будет законным. -- Sergey kudryavtsev 08:39, 28 августа 2008 (UTC)
Сканы книг размещают на Коммонз в Category:Scanned texts. Мне показалось наиболее разумным то, как разместили сканы для немецкого раздела Викитеки в специально созданной для этого Category:De Wikisource book. Там кстати и очень разумная преамбула. Особо обратите внимание на Category:De Wikisource book djvu. Думаю, что наиболее правильно будет создать Category:Ru Wikisource book по ее образу и подобию. При необходимости, готов помочь с оформлением. --Bkmd 12:18, 28 августа 2008 (UTC)

[править] Ф. Ф. Пуцыкович «Жизнь Спасителя Міра»

Может быть, кому-то будет интересно распознать. Текст в общественном достоянии (автор умер в 1899). Отсканированые страницы находятся в commons:Category:F.F. Putsykovich - Life of the Saviour of the World. К сожалению, миниатюры для больших PNG-файлов MediaWiki не создаются. --EugeneZelenko 22:47, 13 июня 2009 (UTC)

Количество глюков при создании миниатюр в текущей версии MediaWiki нарастает в геометрической прогрессии. Тем не менее, книга интересная и заслуживает распознавания. Посмотрю, что удастся сделать. — Lozman 00:06, 14 июня 2009 (UTC)

[править] Историческія свѣдѣнія о примѣчательнѣйшихъ мѣстахъ въ Бѣлоруссіи

Повтореніе очень старого запроса :-) Возможно, кого-то заинтересует... Тут можно найти отсканированную книгу Михаила Осиповича Без-Корниловича «Историческія свѣдѣнія о примѣчательнѣйшихъ мѣстахъ въ Бѣлоруссіи». Текст в общественном достоянии (автор умер в 1862). --EugeneZelenko 02:22, 14 июня 2009 (UTC)

Я взял на себя смелость превратить Ваш запрос в страницу автора – Михаил Осипович Безкорнилович. Мне кажется, что без авторской страницы, заполненной в новой орфографии, эту книгу никто не найдет, поскольку едва ли в поисковике кто-то станет набивать «Историческія свѣдѣнія о примѣчательнѣйшихъ мѣстахъ въ Бѣлоруссіи». Так же очень советую найти ссылки на книгу в Википедии – одну я нашел и направил на Коммонз. --Bkmd 16:15, 14 июня 2009 (UTC)

[править] File:Списокъ дворянъ Волынской губерніи, 1906.djvu

Книга, конечно же специфическая, но, думаю, будет хороша как АИ для статей соответствующей тематики. --EugeneZelenko 00:10, 28 июня 2009 (UTC)

[править] Дорошевич. «Легенды и сказки Востока»

Буду очень благодарен за помощь в распознавании книги Дорошевич. «Легенды и сказки Востока» (дореформенная орфография). К сожалению, загрузить PDF на Commons нельзя из-за претензий Google, но вряд ли Google сможет претендовать на авторские права на сам текст. --EugeneZelenko 03:52, 15 июля 2009 (UTC)

Commons-logo.svg Дорошевич В. М. Легенды и сказки Востока. — М.: Товарищество И. Д. Сытина, 1902. Насколько можно понять, у Гугла претензии не к АП, а к юзерам с российскими IP-адресами. --Bkmd 10:34, 15 июля 2009 (UTC)
Участник:Bkmd/Легенды и сказки Востока (Дорошевич) — распознанный текст. --Bkmd 11:34, 15 июля 2009 (UTC)
Огромное спасибо! Буду вычитавать.
Всё-таки в начале книги явно написано Make non-commercial use of the files, что с Commons не совмеатимо. Думаю файл стоит удалить.
EugeneZelenko 14:15, 15 июля 2009 (UTC)

Обсуждение продолжено на Викитека:Форум. --M5 15:16, 18 июля 2009 (UTC)

[править] Дорошевич. «Собрание сочинений. Том III. Крымские рассказы»

Буду очень благодарен за помощь в распознавании книги Дорошевич. «Собрание сочинений. Том III. Крымские рассказы» (дореформенная орфография). --EugeneZelenko 14:25, 22 июля 2009 (UTC)