Обсуждение Викитеки:Проект:OCR/Архив

Материал из Викитеки — свободной библиотеки
Перейти к навигации Перейти к поиску
Эта страница содержит завершившееся обсуждение. Не изменяйте её. Новое обсуждение можно создать на другой странице.
Stop hand nuvola.svg

djvu[править]

Я наткнулся на [1]. Не думал, что так можно. Т.е. я могу загружать книги в формате djvu (а также pdf и другие форматы)? (с авторскими правами всё в порядке - дореволюционное издание). Есть ли какие-то рекомендации/ограничения? Или лучше на Викисклад загружать? --Butko 16:59, 7 ноября 2008 (UTC)

Распознавалка?[править]

Leksikon title.jpg

Участник:Tar-ba-gan мне задал вопрос, на который я не знаю ответа. Прошу помочь ответить (Dmitrismirnov 00:18, 7 ноября 2008 (UTC)) :

Такой вопрос: как можно прорабатывать книги, скачанные c Google Books? Я нашел там несколько русских изданий XIX века, которые скачиваются в PDF, но для меня остается загадкой техника правильной трансляции их текстов в Викитеку. --Tar-ba-gan 12:13, 6 ноября 2008 (UTC)
Можно только в том случае, если не нарушаются права авторов (должно пройти 70 лет со дня их смерти). -- Dmitrismirnov 14:33, 6 ноября 2008 (UTC)
Я в этом не сомневаюсь, а технически как? Я хочу эту книжку выкладывать. Чем их распознают-вскрывают? --Tar-ba-gan 22:09, 6 ноября 2008 (UTC)
PDF в картинку можно перевести с помощью Adobe Photoshop'а или Illustrator'a (но, к сожалению только постранично, это будет неудобно). Acrobat Reader умеет класть в Clipboard заданную часть страницы в виде изображения — это тоже не фонтан. Для ABBYY Fine Reader есть приблуда для чтения PDF («PDF IN Add-on Module», см. [2]), но, естественно, денег стоит. А вообще лучше об этом у немцев спросить — у них работа с Google Book'ами на поток поставлена. -- Sergey kudryavtsev 07:53, 7 ноября 2008 (UTC)
PS: Я задал вопрос в de (de:Benutzer Diskussion:Paulis, «GoogleBooks into Wikisource»). -- Sergey kudryavtsev 08:12, 7 ноября 2008 (UTC)
Я как раз сейчас занят выкладыванием в Викитеку распознанных текстов и использую ABBYY FineReader 9.0. Начиная как минимум с 7-ой версии, FineReader умеет открывать pdf-файлы и распознавать тексты в дореформенной орфографии. Ничего дополнительно устанавливать не надо, если установить полную версию. Впрочем, Google Books дает сканы очень низкого качества и распознанную версию придется дорабатывать вручную.
Известные мне бесплатные программы для распознавания не поддерживают кириллицу.
Для сверки текста и скана (и тем более преобразования pdf в картинку) в Викитеке есть очень полезный механизм – Индекс. (Кажется, он и распознавать умеет, поскольку в it-wiki есть кнопочка OCR, но я этим не пользовался.) Советую делать так:
  1. На сайте http://any2djvu.djvuzone.org/ преобразовать pdf-файл в *.djv с разрешением 400 dpi (сжатие до 100 раз) и вылодить его на Викисклад. (Для русских текстов – категория commons:Category:Ru Wikisource book djvu)
  2. Создать в Викитеке навигацию, то есть файл с названием Индекс:*.djv. Заполнить появившуюся форму можно по аналогии с Индекс:Istoriia drevnei russkoi slovesnosti.djvu.
  3. Распознавать постранично FineReader’ом и выкладывать на Страница:*.djv/номер страницы.
  4. Создать текстовую версию, см. Договор об окончательном урегулировании в отношении Германии
В других языковых разделах распознаванием занимаются уже давно, много полечного я нашел в оформлении it:Elementi. --Bkmd 11:10, 7 ноября 2008 (UTC)
Все картинки из PDF можно вытащить с помощью бесплатной (консольной) утилиты pdfimages (из пакета XPDF. Правда, может потребоваться дополнительная обработка, т.к. катринки получаются в редких для Windows форматах PBM/PPM, для этого можно использовать например IrfanView или XnView. — Lozman 11:02, 7 ноября 2008 (UTC)
Немцы мне посоветовали для этого утилитку PDFXViewer (4.9 Мб). Попробовал — действительно работает. -- Sergey kudryavtsev 11:39, 7 ноября 2008 (UTC)

А в общем немцы загружают отдельные страницы page001.jpg, page002.jpg, page003.jpg и т.д. (у них есть специальный бот для загрузки commons:User:GerWsUpload). А дальше действуют так, как написал Bkmd. Кроме того у них есть шаблон Seite который даёт ссылку [3]. -- Sergey kudryavtsev 11:51, 7 ноября 2008 (UTC)

С тем, чтобы разговор перешел в практическое русло, создал Индекс:Lexicon-IX-1 (Shenin, 1837).djvu, содержащий первые 100 страниц указанной книги. Нажав на красные ссылки, можно перейти на соотв. страницу: справа - скан, слева – окно для ввода текста. Запустил его распознавание в ФайнРидере, текст выложу тут. По опыту, самое трудное и долгое – его растащить по страницам, выверить и отредактировать. --Bkmd 14:35, 7 ноября 2008 (UTC)

commons:Category:Ru Wikisource book[править]

С удивлением обнаружил на Викискладе несколько русских книг в формате djvu, используемых в Викитеке. Я собрал их в commons:Category:Ru Wikisource book, преамбулу взял из commons:Category:De Wikisource book. --Bkmd 20:27, 31 октября 2008 (UTC)

Сканы[править]

Можно ли в викитеке размещать сканы книг (.djvu, .pdf)? Например рукописных или художественно оформленных книг имеющих ценность именно этим? --HalanTul 07:57, 27 августа 2008 (UTC)

Я думаю, что можно. Dmitrismirnov 09:39, 27 августа 2008 (UTC)
Для djvu даже установлено какое-то расширение (см. Индекс:Zwei-Plus-Vier-Vertrag.djvu) -- Sergey kudryavtsev 10:08, 27 августа 2008 (UTC)
Угу. Только, помнится, сами сканы предполагалось размещать на Викискладе? — Lozman 11:49, 27 августа 2008 (UTC)
Желательно там, но формального запрета нет. Возможны случаи, когда из-за авторских прав книжку не дадут разместить на Commons, а здесь её размещение будет законным. -- Sergey kudryavtsev 08:39, 28 августа 2008 (UTC)
Сканы книг размещают на Коммонз в Category:Scanned texts. Мне показалось наиболее разумным то, как разместили сканы для немецкого раздела Викитеки в специально созданной для этого Category:De Wikisource book. Там кстати и очень разумная преамбула. Особо обратите внимание на Category:De Wikisource book djvu. Думаю, что наиболее правильно будет создать Category:Ru Wikisource book по ее образу и подобию. При необходимости, готов помочь с оформлением. --Bkmd 12:18, 28 августа 2008 (UTC)

Ф. Ф. Пуцыкович «Жизнь Спасителя Міра»[править]

Может быть, кому-то будет интересно распознать. Текст в общественном достоянии (автор умер в 1899). Отсканированые страницы находятся в commons:Category:F.F. Putsykovich - Life of the Saviour of the World. К сожалению, миниатюры для больших PNG-файлов MediaWiki не создаются. --EugeneZelenko 22:47, 13 июня 2009 (UTC)

Количество глюков при создании миниатюр в текущей версии MediaWiki нарастает в геометрической прогрессии. Тем не менее, книга интересная и заслуживает распознавания. Посмотрю, что удастся сделать. — Lozman 00:06, 14 июня 2009 (UTC)

Историческія свѣдѣнія о примѣчательнѣйшихъ мѣстахъ въ Бѣлоруссіи[править]

Повтореніе очень старого запроса :-) Возможно, кого-то заинтересует... Тут можно найти отсканированную книгу Михаила Осиповича Без-Корниловича «Историческія свѣдѣнія о примѣчательнѣйшихъ мѣстахъ въ Бѣлоруссіи». Текст в общественном достоянии (автор умер в 1862). --EugeneZelenko 02:22, 14 июня 2009 (UTC)

Я взял на себя смелость превратить Ваш запрос в страницу автора – Михаил Осипович Безкорнилович. Мне кажется, что без авторской страницы, заполненной в новой орфографии, эту книгу никто не найдет, поскольку едва ли в поисковике кто-то станет набивать «Историческія свѣдѣнія о примѣчательнѣйшихъ мѣстахъ въ Бѣлоруссіи». Так же очень советую найти ссылки на книгу в Википедии – одну я нашел и направил на Коммонз. --Bkmd 16:15, 14 июня 2009 (UTC)

File:Списокъ дворянъ Волынской губерніи, 1906.djvu[править]

Книга, конечно же специфическая, но, думаю, будет хороша как АИ для статей соответствующей тематики. --EugeneZelenko 00:10, 28 июня 2009 (UTC)

Дорошевич. «Легенды и сказки Востока»[править]

Буду очень благодарен за помощь в распознавании книги Дорошевич. «Легенды и сказки Востока» (дореформенная орфография). К сожалению, загрузить PDF на Commons нельзя из-за претензий Google, но вряд ли Google сможет претендовать на авторские права на сам текст. --EugeneZelenko 03:52, 15 июля 2009 (UTC)

Commons-logo.svg Дорошевич В. М. Легенды и сказки Востока. — М.: Товарищество И. Д. Сытина, 1902.. Насколько можно понять, у Гугла претензии не к АП, а к юзерам с российскими IP-адресами. --Bkmd 10:34, 15 июля 2009 (UTC)
Участник:Bkmd/Легенды и сказки Востока (Дорошевич) — распознанный текст. --Bkmd 11:34, 15 июля 2009 (UTC)
Огромное спасибо! Буду вычитавать.
Всё-таки в начале книги явно написано Make non-commercial use of the files, что с Commons не совмеатимо. Думаю файл стоит удалить.
EugeneZelenko 14:15, 15 июля 2009 (UTC)

Обсуждение продолжено на Викитека:Форум. --M5 15:16, 18 июля 2009 (UTC)

Дорошевич. «Собрание сочинений. Том III. Крымские рассказы»[править]

Буду очень благодарен за помощь в распознавании книги Дорошевич. «Собрание сочинений. Том III. Крымские рассказы» (дореформенная орфография). --EugeneZelenko 14:25, 22 июля 2009 (UTC)

Пара вопросов[править]

При распознавании:

  1. Править или нет описки и опечатки исходного текста (например, в книге издания 1872 повстречал дату свершившегося события 1875)?
  2. Как лучше организовать сноски исходного текста, например, на этой странице: Страница:Spisok voennyh sudov 1688-1850.djvu/6?--Mike1979 Russia 14:31, 1 апреля 2010 (UTC)

Цветовой индикатор[править]

В разделе Цветовой индикатор после слов «Например, если индикатор выглядит так:» — пустое место. Это у меня одного так? С уважением, --Borealis55 09:24, 13 октября 2010 (UTC)

Фон ячеек таблицы почему-то не отображается, если все ячейки пустые. Добавил   — заработало. — Lozman 10:12, 13 октября 2010 (UTC)

Викитека:Проект:OCR#Соединение страниц[править]

В пункте а) сказано

а) на предыдущей странице находится слово, разорванное переносом и оканчивающееся на следующей странице. С этим поделать ничего нельзя и при обработке страницы следует всегда заканчивать слово, перенося окончание разорванного слова на предыдущую страницу;

На oldwikisource для переноса слов можно применять шаблоны {{Hyphenated word start}} и {{Hyphenated word end}}, которые позволяют и на страницах сохранить оригинальный перенос, и подсказать там же что за слово перенесено, и на основных страницах при импорте текста со страниц, полное слово показать в нормальном виде. Может и в rusource имеет смысл применить такую практику? Могу поспособствовать переносу и локализации шаблонов, категорий и т.д. -- Crower 06:55, 6 марта 2011 (UTC)

Можно и так. Можно всё это и без шаблонов делать, с помощью <includeonly>, но нужно ли? По-моему, не очень красиво выглядит половинка слова на странице. C уважением, Виталий Чихарин 09:20, 6 марта 2011 (UTC)
Ну, в оригинале-то половинки как раз присутствуют и ничего. ;) Нет, я не настаиваю, но пытаюсь понять насколько это необходимо. Необходимость соответствия текста оригиналу понятна и не вызывает вопросов. Необходимость устранять переносы тоже очевидна. Но иногда встречаются страницы, на которых сохранение разметки вызывает у меня сомнение, действительно ли это настолько необходимо. Например, здесь сохранены даже переносы строк (с поправкой на устранение переноса слов) и даже количество точек между пунктами содержания и номерами страниц. В зависимости от размера экрана/окна браузера и установленного масштаба разметка расползается и перестаёт соответствовать исходному виду, становится ломаной. Например, выглядит так:
О включении Северной части Буковины и Хотинского,
Аккерманского
и Измаильского уездов Бессарабии в состав Украинской
Советской
Социалистической Республики. (Закон от 2 августа 1910 г.)
..
Может это черновой результат, полученный после OCR-енья и первичной обработки, а может сохранение разметки, максимально близкой к оригинальной, и было целью - не знаю. В польской викитеке вообще встретил рекомендацию, которая мне показалось странной: сохранять опечатки, помещая текст с устранёнными опечатками в примечания. Подход мне понятен, но его ценность для меня не очевидна. Имеются ли какие-либо рекомендации по подобным вопросам здесь - пока не нашёл. Вот и думаю: что важнее - содержание, передаваемое источником или внешний вид? По крайней мере в тех случаях, когда они конкурируют друг с другом. Зато упоминавшиеся выше шаблоны выглядят как возможность обеспечить и соответствие вычитанного текста оригинальной странице, и нормальный вид слова (без переноса) при импорте текста страницы в статьях. -- Crower 16:13, 6 марта 2011 (UTC)
В приведённом вами примере я действительно старался сохранить разметку максимально близко к оригиналу. Конечно, на узких экранах она сползает. Что касается рекомендаций и прочего — не забывайте что они не «появляются свыше», а вырабатываются участниками сообщества, точно такими же как вы и я. И по результатам обсуждения в том числе могут и меняться. В разных локальных Викитеках они могут быть разными, кроме того в этой Викитеке они всё же остаются рекомендациями, а не незыблемыми правилами. То есть участник может делать что-то и не так как рекомендовано, в конце концов.
Большое спасибо за исчерпывающий ответ. Я понял. -- Crower 05:26, 7 марта 2011 (UTC)
Так как при просмотре страницы текст делит место на экране с изображением, то содержание съезжает не только на 14, 15 дюймах, но и на 17 и даже 19. Чтобы получить текст в том виде как оно задумывалось, нужно либо принудительно уменьшить шрифт, либо раза в три умельчить масштаб. Кроме того, на оригинале получается красивенько, выравнено с обоих сторон, а у нас строки торчат как у ёжика, как за счёт устранения переносов, так, возможно, и за счёт шрифта. То ли и тут поиграться includeonly/noinclude, то ли рукой махнуть. -- Crower 01:24, 18 марта 2011 (UTC)
Средствами HTML принципиально невозможно получить полную копию оформления (для чего, собственно и был придуман в своё время формат PDF). Так что думаю что можно махнуть рукой. Хотя и поиграть можно — выравнивание по обеим сторонам, ширина таблицы и столбцов заданная в em и т.п. Но я на такую стонкую настройку пока не готов :) C уважением, Виталий Чихарин 06:11, 18 марта 2011 (UTC)

«Революція и культура»[править]

М. Горькій. Революція и культура (1918).djvu — знаменитая книга, более известная как «Несвоевременные мысли».

Рекомендую для OCR. --Максим Пе (обсуждение) 17:59, 11 августа 2012 (UTC)

Собственно, файл — djvu с текстовым слоем, так что нужно вычитывать. Индекс сейчас сделаю. — С уважением, VadimMog (обсуждение) 20:34, 11 августа 2012 (UTC)
Индекс:М. Горькій. Революція и культура (1918).djvu — С уважением, VadimMog (обсуждение) 21:40, 11 августа 2012 (UTC)
Спасибо. С уважением, --Максим Пе (обсуждение) 17:32, 12 августа 2012 (UTC)

«Теория относительности и ее влияние на научную мысль»[править]

Здравствуйте.
Обратите, пожалуйста, внимание на такую эпохальную книгу: Индекс:Эддингтон А. С. Теория относительности. 1923.djvu. --Максим Пе (обсуждение) 10:38, 11 января 2015 (UTC)

Yes check.svg Сделано Оцифровано через archive.org. Hinote (обсуждение) 23:05, 11 января 2015 (UTC)

Спасибо! Но там страницы переименованы без перенаправления, поэтому заявки всё ещё висят. Их теперь нужно удалять? --Максим Пе (обсуждение) 14:52, 12 января 2015 (UTC)
Да, нужно удалить. Я заливал страницы ботом (работать должны роботы, а не человек), скрипт djvutext у меня почему-то не функционирует, поэтому пришлось заливать скриптом pagefromfile, выделив предварительно тексты каждой страницы в отдельный файл. А этот скрипт опять же почему-то не смог разместить новый текст поверх старого, вашего (наверное из-за несовместимых моделей данных, но все-равно это странно). А поскольку прав удалять страницы у меня нет, то пришлось сделать как сделал: переименовать ваши страницы в другие имена, освободив тем самым оригинальные страницы, чтобы бот смог залить новый текст. (Если вы не IT-шник и ничего тут не поняли -- не беда, never mind... ;-) ). Так что эти получившиеся временные страницы надо просто теперь удалить (быстрое удаление). Я думаю, вы не против, что потеряются при этом эти ваши изначальные правки, в которых вы проставляли шаблон OCR на страницах? Hinote (обсуждение) 16:32, 12 января 2015 (UTC)
P.S. Буду признателен, если при работе над страницами этого издания вы опробуете в работе мой тулбар-хелпер и сообщите свой feedback... Hinote (обсуждение)
Я-то не против. Но там же 56 страниц, а википедийного КБУ здесь нет... --Максим Пе (обсуждение) 16:54, 12 января 2015 (UTC)
Вы об этом: {{d}}? Такой шаблон есть... Hinote (обсуждение) 17:12, 12 января 2015 (UTC)
А можно так же ботом проставить 56 {{d}}? :-) --Максим Пе (обсуждение) 17:20, 12 января 2015 (UTC)
Вас понял. Попробую (если не будет такой же несовместимости в форматах данных)... Hinote (обсуждение) 17:23, 12 января 2015 (UTC)

Перевод в djvu[править]

Подскажите, пожалуйста - решил заняться одной дорреволюционной книгой на русском языке (в старой орфографии). Нашел и скачал ее pdf, сделанный Google Books. Ну, и в соответствии с инструкцие решил перевести ее в djvu. Но, к сожалению, указанный сайт ( http://any2djvu.djvuzone.org/ ) не сработал. Просто ничего не стал выдавать. Может он не работает уже? Я где-то в интернете читал, что он для русских текстов не годится. Конечно, может быть еще проблема с размером pdf, он занимает почти 500 Мб. Скачал с интернета программку PDFtoDJVU, тоже не получается, выдает ошибку. Буду признателен за помощь с этой проблемой. Игорь Филиппов (обсуждение) 08:07, 17 апреля 2015 (UTC)

  • Тяжелые pdf можно конвертировать в djvu с помощью программы ABBYY FineReader. Hausratte (обсуждение) 09:17, 17 апреля 2015 (UTC)
    • Одновременно с переводом в djvu очень желательно делать OCR (потому что иначе OCR придётся позже делать постранично, что, конечно, менее удобно), поэтому напрашивается FineReader. Можно бесплатно распознать и перевести в djvu на сайте archive.org (там используется движок FineReader) (если только я не перепутал сайт). А может так быть, что эта книга там уже есть. А какой книгой Вы хотели заняться? — VadimVMog (обсуждение) 09:25, 17 апреля 2015 (UTC)
      • Спасибо, попробую! Хотел заняться переводом книги Лайеля "Руководство к геологии", изданной в 1867 году. Игорь Филиппов (обсуждение) 09:55, 17 апреля 2015 (UTC)
  • Еще есть утилита pdf2djvu. Hinote (обсуждение) 12:41, 17 апреля 2015 (UTC)

Примечания к басням Крылова 1878[править]

Рекомендую: Индекс:Библиографические и исторические примечания к басням Крылова. 1878.pdf. Раритет! --Максим Пе (обсуждение) 12:31, 14 июля 2015 (UTC)