Обсуждение справки:Оцифровка

Содержимое страницы недоступно на других языках.
Материал из Викитеки — свободной библиотеки

Курсив и жирный текст[править]

У меня вопрос по поводу курсива и жирного текста: их обязательно оставлять как в книгах? «Прекрасный редактор» их не распознает. Я делаю это вручную. Но я человек, и поэтому могу что-то пропустить. Wlbw68 (обсуждение) 11:24, 9 июня 2020 (UTC)[ответить]

Да, выделение курсивом и болдом (жирным) важно, поскольку обычно несёт авторскую смысловую оценку. Где-то курсив несёт одно из принципиальных смысловых значений, например в ТСД и в Библии. А где-то им отмечаются цитаты, заменяя кавычки; соответственно текст без выделенных цитат (при отсутствии кавычек и с утерянным курсивом) вообще является невольным плагиатом, поскольку сторонние цитаты присваиваются автору. Тоже насчёт жирного шрифта - им авторы подчёркивают суть всего текста. --Vladis13 (обсуждение) 15:32, 9 июня 2020 (UTC)[ответить]
FineReader очень хорошо распознаёт курсив, скриншот. Скорее стоит обратить внимание на настройки и формат файла экспорта. — Курсив не сохранится в PDF и DJVU, и разумеется в формате простого текста. Поэтому надо сохранять как HTML или FB2 и затем конвертировать в викиформат, Справка:Оцифровка#Сохранение только распознанного текста. В общем, FB2 проще конвертировать. А HTML создаёт больше лишнего кода (css-стили), но зачастую html можно так и оставить не конвертируя в викиформат. --Vladis13 (обсуждение) 15:32, 9 июня 2020 (UTC)[ответить]
Если текст с курсивом уже вычитан на стороннем сайте, то проще скопировать тамошний HTML со всем оформлением. Поскольку копировать только plain-text и затем распознавать заново снуля - контрпродуктивно. --Vladis13 (обсуждение) 15:32, 9 июня 2020 (UTC)[ответить]
У меня еще один вопрос к вам, Vladis13. В довоенных печатных изданиях я встречал следующий тип выделения текста. Выглядит он следующим образом: т е к с т. Каждая буква, выделенного слова, пишется через пробел. Можно ли подобные выделения в набранных текстах Викитеки заменять курсивом? Интересно, у такого выделения текста есть ли специальное название? Wlbw68 (обсуждение) 21:38, 17 июня 2020 (UTC)[ответить]
Да, всё есть. См. Справка:Вычитка#Разрядка. Там написано, что кто-то в совр. версиях текстов меняет разрядку на курсив, но в ВТ я такого не встречал. Лучше спросить у опытных участников, занимающихся вычиткой. --Vladis13 (обсуждение) 21:44, 17 июня 2020 (UTC)[ответить]
Vladis13. Ещё один способ выделения текста — более мелкий шрифт. С ним как быть? В Википедии есть функция в инструментах small, здесь я её не нашел. Wlbw68 (обсуждение) 22:26, 17 июня 2020 (UTC)[ответить]
Также как в ВП - в панели редактирования на вкладке Дополнительно w:Википедия:Панель редактирования#Дополнительные функции, И под полем редактирования в Часто используемых тегах. --Vladis13 (обсуждение) 23:15, 17 июня 2020 (UTC)[ответить]

Опечатки в исходных текстах[править]

И еще по поводу опечаток. В печатных изданиях они встречаются. В набираемых текстах я их исправляю. Правильно ли делаю? Понимаю, что это не принципиально. Wlbw68 (обсуждение) 11:24, 9 июня 2020 (UTC)[ответить]

Справка:Вычитка#Опечатки. --Vladis13 (обсуждение) 15:41, 9 июня 2020 (UTC)[ответить]

Опечатки распознавания[править]

По поводу текстов. Вот какая штука. Послевоенные тексты довольно хорошего качества, но в них присутствует редактирование, дополнительные ссылки, примечания (всё, что относится к области авторского права). Что касается довоенных текстов, как я понимаю, здесь авторское право редакций отсутствует? Если это так, то их возможно набирать не заморачиваясь? Но тут другая неприятная вещь: на книгах 100-летней давности обсыпается шрифт и при переводе pdf или djvu в txt редактор путает (ох, уж эти бестолковые роботы!) буквы и, н, п; и многое другое. В результате текст приходится исправлять очень долго вручную. Времени на это уходит уйма. Но всё же это дело очень нужное и стоящее: формат чтения в Викитеке самый удобный из тех, что я видел в интернете, а набранные тексты (в отличии от слепых сканов) теперь могут легко читать все. Wlbw68 (обсуждение) 11:24, 9 июня 2020 (UTC)[ответить]

В FineReader есть установка выбора словарей (русский, русский с ударениями, русский дореформенный). Орфографию лучше в нём и править, т. е. видим типично плохое распознавание буквы в одном слове, и в режиме «поиск-замена» меняем его по всему тексту. Это зачастую лучше, чем распознать текст, сохранить с ошибкой в pdf/djvu, загрузить текст в индекс Викитеки на массу страницу, а потом возиться с этими ошибками на массе страниц. --Vladis13 (обсуждение) 15:41, 9 июня 2020 (UTC)[ответить]
Многие тексты уже кем-то распознаны и вычитаны. Часто лучше поискать в интернет и скопировать. --Vladis13 (обсуждение) 15:41, 9 июня 2020 (UTC)[ответить]
Да, с текстами советской эпохи могут быть большие проблемы с АП (пример БСЭ1). Поэтому некоторые участники их принципиально избегают. --Vladis13 (обсуждение) 15:41, 9 июня 2020 (UTC)[ответить]