Обсуждение:Платон

Материал из Викитеки — свободной библиотеки
Перейти к навигации Перейти к поиску

Заливка OCR и лучших сканов Карпова[править]

На сайте РГБ имеются сканы 2-го издания в переводе Карпова, видимо, более полные, чем имеющиеся сканы с Google Books (с пропусками). Может быть, кто-нибудь, если есть возможность, зальет OCR со сканов РГБ, так как определенный интерес к вычитке, по-видимому, присутствует. -- Badger M. (обсуждение) 20:56, 18 декабря 2016 (UTC)

  • Возьмусь за распознавание, заливку в обоих орфографиях, чистку OCR ботом. Надо ли перезагружать сканы с РГБ? Если число и порядок страниц в сканах разное (у залитых и тех что будут распознаватья с РГБ), то будет сбой заливки OCR. Заливать в пространство с постфиксом «:ВТ», или обе орфографии на одну страницу разделённые шаблоном {{свр}}/{{ВАР}}? --Vladis13 (обсуждение) 03:20, 19 декабря 2016 (UTC)
Имхо, достаточно было бы просто загрузить сканы с РГБ полностью с OCR. Переписывать сканы с Google Books сканами с РГБ, думаю, нет смысла, пусть лежат параллельно (по аналогии с Энциклопедическим лексиконом); часть текстов, вычитанную с GB-сканов, можно будет постепенно перенести в РГБ-сканы (тоже как в ЭЛ). ВТ-версия и ВАР-шаблоны меня особо не интересуют, но, если кто будет этим заниматься, то наверное лучше делать ВТ-версию через доп. индекс, а не через ВАР-шаблон. -- Badger M. (обсуждение) 13:19, 19 декабря 2016 (UTC)
Там не однозначно. У тома 1 с РГБ качество очень плохое, мелкий шрифт сносок не разобрать даже визуально, OCR получается мусором. Т. е. практически заливать бессмысленно. Том 2 такой же, с GB гораздо лучше (хотя GB размером 17 Мб, а с РГБ 98 Мб). --Vladis13 (обсуждение) 14:12, 19 декабря 2016 (UTC)
  • Похоже все тома уже распознаны: в «Платоновском обществе» (тексты в СО, и OCR в pdf в приемлемом качестве). Ещё Платон и предисловия Карпова вычитанные в html, с нумерацией страниц и сносками. И здесь все тома с OCR в djvu и pdf, причём pdf в отличном качестве (как минимум 2 том, 35 Мб) — сужу по мелкому греч. шрифту в сносках. Сравните навскидку греч. шрифт в сносках стр. 15 тома 2 в РГБ (+страницы спарены), залитую с Google (тоже не разобрать, +логотип), и тут. Наличие/число страниц нигде не сравнивал. --Vladis13 (обсуждение) 14:12, 19 декабря 2016 (UTC)
Я особо не искал нигде кроме РГБ. Если сканы с «Платоновского общества» в лучшем качестве (навскидку это так), то вероятно предпочтительнее ими воспользоваться. -- Badger M. (обсуждение) 15:11, 19 декабря 2016 (UTC)
Там OCR хорошее, но тоже полно ошибок, особенно в греческом тексте. Лучше пойти с другого конца. Есть уже вычитанный OCR всех томов в современной орфографии с разделителями страниц скана (т.1 и т.д.). 1) Выложил, сконвертив из html в wiki, нормализую. 2) Далее перенесу в индекс:ВТ. 3) И копию в индекс ДО, пропустив через конвертер в дореформенную орфографию. --Vladis13 (обсуждение) 08:09, 22 декабря 2016 (UTC)
Загрузил сканы томов Карпова, и изд. Академии РАН 1920-х гг. (там разные переводчики). --Vladis13 (обсуждение) 23:35, 19 декабря 2016 (UTC)
@Vladis13: Спасибо! Вот только тома 13 и 14 академического издания несвободны из-за Егунова :/ Придется удалить. На commons выставите, пожалуйста, через speedydelete. Ratte (обсуждение) 07:49, 20 декабря 2016 (UTC)
Что делать с томом 9? Там половина ОД — Болдырев («Гиппий больший» и «Менексен»). А половина не-ОД Боровского и Болтуновой. --Vladis13 (обсуждение) 09:29, 20 декабря 2016 (UTC)
Нужно перезалить скан на commons, заменив страницы с несвободным текстом плейсхолдером вроде такого. Ratte (обсуждение) 10:21, 20 декабря 2016 (UTC)
Спасибо! Alexander Demchenko (обсуждение) 18:21, 20 декабря 2016 (UTC)

Оформление Диалогов[править]

@Ratte: лучше ли такое оформление? — тетралогии подзаголовками, диалоги через «;» (жирным), переводы маркированным списком с одной «*». --Vladis13 (обсуждение) 12:30, 3 января 2017 (UTC)

  • @Vladis13: Тетралогии подзаголовками — ок, маркированный список тоже, а вот жирное выделение лучше убрать, оно на страницах авторов используется не для отдельных произведений, а для их групп. Ratte (обсуждение) 13:11, 3 января 2017 (UTC)
    • Вот. Но не уверен, может всё же лучше списком. --Vladis13 (обсуждение) 14:02, 3 января 2017 (UTC)
      • Можно оформить сами названия диалогов тоже маркированным списком (см., напр., как это выглядит у Гёте). Ratte (обсуждение) 14:42, 3 января 2017 (UTC)

Заливка других переводов[править]

Перезагрузил оригинальные сканы, — все кроме «Феэтита» Добиаша и «Пир». Там была какая-то проблема с отображением их в Вики, хотя сделаны со стандартными настройками FineReader. @Wendersnaven, Artremy: залил Индекс:Федон (Платон, Лебедев).pdf, Федон (Платон/Лебедев)/ДО. Заливать теперь буду с шаблоном {{ВАР}}. Т. е. на одной странице будут сразу старая (ДО) и современная орфография (СО). Пример: Страница:Федон (Платон, Лебедев).pdf/17

  1. Есть ли пожелание заменить его на шаблон {{ВАР2}}, который скрывает отображение текста в СО, хотя в коде она остаётся и работает? Удобство — нет лишнего текста, недостаток — без открытия дополнительной страницы не увидеть качество вычитки СО. Могу ботом заменить в этой заливке и в последующих. Или можно обсудить, и, например, можете по мере вычитки вручную менять. Как лучше?
  2. Я добавил себе в бот скрипт «деятификатор», конвертирующий ДО в СО, но ещё не проверял. В шаблоне {{ВАР}} во втором параметре даётся версия в СО, в этой заливке я туда ДО залил, т. е. там обе орфографии дубли ДО. Перезалить? Надо ли конвертировать в следующих заливках? Или по мере вычитки будете конвертить сами (кнопочкой Button old to new spelling Russian.png в панели редактирования)?

--Vladis13 (обсуждение) 16:21, 7 августа 2018 (UTC)

  • @Vladis13: Спасибо! По обоим пунктам - на Ваше с Wendersnaven усмотрение. Artremy (обсуждение) 16:44, 7 августа 2018 (UTC)
  • @Vladis13: Мне удобнее сначала видеть только текст в ДО, вычитать его, потом викифицировать, а потом уже конвертировать это в СО. Для этого конечно очень поможет бот из второго пункта. Wendersnaven (обсуждение) 16:26, 12 августа 2018 (UTC)

Диакритика, сверка греч. текста, загрузка Штальбаума[править]

Перенесено со страницы Обсуждение страницы:Сочинения Платона (Платон, Карпов). Том 6, 1879.pdf/477

@Wendersnaven: @Vladis13: Добрый день! Проверил греческие цитаты в примечаниях к Тимею и во введении к нему. В процессе возник вопрос. В подстрочном примечании к этой странице стоит ξυμπέπηγε (все норм, просто ξύν - одна из форм написния σύν). Лучше всего так здесь и оставить, т.к. Карпов цитирует по греческому тексту Штальбаума (у Бёрнета συμπέπηγεν), с которого переводит. При правке греческих цитат у Карпова предпочтительно проверять по изданию Штальбаума, а не Бёрнета (распространенного в 20 столетии), т.к. фундаментальное издание Штальбаума было самым популярным в 19 столетии (и до сих пор востребовано) и Карпов руководствуется главным образом именно им при переводе почти всех диалогов Платона (разумеется, беря в расчет и другие издания).

Так, например, на стр. 358 (Т. 6 ) Карпов цитирует ζῶον ἀΐδιον в точности по Штальбауму (у Бёрнета ζῷον ἀίδιον). Аналогично, пропущенная на 415 (Т. 6) первая буква в -υναθροίσαντες - у Штальбаума ξ (ξυναθροίσαντες), а у Бёрнета σ (συναθροίσαντες).

Не знаю как сделать шаблон "так в греческом тексте, по которому сделан перевод" вместо обычного "так в тексте". Можно ли его сделать? Это было бы очень удобно. Artremy (обсуждение) 10:31, 12 августа 2018 (UTC)

  • @Artremy: можно использовать шаблон {{comment}} со всплывающей подсказкой. Выглядит так: υναθροίσαντες. Ratte (обсуждение) 13:18, 12 августа 2018 (UTC)
  • @Artremy: огромное спасибо за сверку греческого текста. Я ни латынь, ни греческий не знаю, поэтому могу только сличать текст с оригиналом, но не находить ошибки. Единственное на что я бы обратил Ваше внимание, это то, что диакритические знаки часто пропечатаны очень плохо и я не по незнанию языка набирал их, как они выглядят. А на самом деле это не опечатки, а плохое качество скана или печати текста Wendersnaven (обсуждение) 16:18, 12 августа 2018 (UTC)
    • @Wendersnaven: Не за что! Да, с диакритическими знаками есть такая проблема и из-за этого очень трудно вычитывать. На самом деле Вы отлично вычитали и греческий, и латинский текст по изданию и проделали здесь просто огромную работу. С греческими и латинскими цитатами достаточно проблематично еще и потому, что не всегда можно найти то издание, по которому приведена цитата, чтобы проверить текст. Поэтому кажется предпочтительным для начала просто набирать так, как напечатано у Карпова. В Тимее и Критии еще не так много цитат в примечаниях, но, например, в примечаниях к Пармениду и Филебу их намного больше. Artremy (обсуждение) 16:56, 12 августа 2018 (UTC)
      • Я тоже не зная оригинального языка, использую следующий способ, может пригодится. — Выделяю слово или фразу, и ищу в интернет. Обычно в выдаче есть авторитетные сайты, словари, и сайты на языке оригинала, по которым можно сверится. Зачастую, это быстрее, чем листать словарь. К тому же, в нём может быть фраза вне контекста и с другим написанием. Только надо быть осторожным, что в выдаче могут быть некачественные сайты. Например, с этим сложность для РСКД, что на массе сайтов выложены тексты с опечатками. --Vladis13 (обсуждение) 19:03, 12 августа 2018 (UTC)
      • @Vladis13: Да, согласен, тоже так делаю. Очень полезен бывает Персей: http://www.perseus.tufts.edu/hopper/morph?l=λόγος&la=greek Можно вставить слово, и он определит исходную форму и приведёт разные варианты. Можно вводить без диакритических знаков. Удобно использовать библиотеку TLG. Когда Карпов в примечании к определенному месту диалога приводит греческий текст и дает на него комментарий, можно также просто ввести эту цитату или её часть в поисковик на сайте: http://www.plato.spbu.ru/TEXTS/Burnet.htm Там залит текст Бёрнета без ошибок по всем диалогам. В хроме это удобно делать, справа наверху есть меню поиска по странице. Так можно сразу найти это место в соответствующем диалоге и сравнить эту цитату у Карпова с изданием Бёрнета; и если они отличаются, как раз и посмотреть что в этом месте у Штальбаума. Что касается самого Штальбаума, теперь самое интересное. Google сделал сканы всех томов, но они не качественные и разбросаны по отдельности. Они делали даже по несколько вариантов сканов для отдельно взятого тома, но в одном варианте данного тома нет одних страниц, в другом варианте нет других страниц, а некоторые страницы продублированы; один вариант конкретного тома сделан в целом хуже другого варианта, какие-то страницы почти не читаемы и т. п, и т. п… Поэтому я несколько лет назад скачал себе все сканы Штальбаума которые они сделали, и для каждого тома выбирал тот вариант, который сделан в целом лучше, и если в нем были отдельные плохие страницы, заменял их на лучшие из других вариантов. Так поступил со всеми томами. В итоге собрал все тома в целости, без дублированных и пропущенных страниц, и еще исправил нумерацию (страницы введений в издании пронумерованы римскими цифрами). Причем собрал вообще всё – и первые издания и переиздания. Давайте я Вам их все отправлю, а Вы постепенно загрузите их на викисклад. Я добавил таблицу с перечнем всех изданий Штальбаума: Сочинения Платона (Платон/Карпов)#Опорное издание греческого текста В неё можно будет проставить потом ссылки на все эти тома. Это будет очень и очень здорово. У всех желающих будет возможность сразу найти нужный том в приемлемом качестве. Artremy (обсуждение) 03:41, 13 августа 2018 (UTC)

Новые сканы[править]

@Vladis13: Добрый день! Наконец пишу Вам. Извините, что только спустя два месяца. По Штальбауму я решил тогда не спешить и поискать некоторое время в сети что-то помимо google-сканов, чтобы потом не переделывать по нескольку раз. На данный момент нашел сканы Университета Торонто и Мюнхенского центра оцифровки и проставил на них ссылки. Они намного лучше любых google-сканов тем, что в них присутствуют все страницы, они читаемы, сделаны в цвете и на достаточно высоком разрешении с экземпляров в хорошей сохранности. Впрочем, надо сказать, что и они тоже несовершенны, но ничего лучше по данному изданию я пока в сети не видел. Главная же проблема ограничивающая качество любых его сканов в том, что качество печати самого издания было весьма среднее.
Также хотел сообщить Вам, что сделал оцифровку еще трех русских изданий Платона. Менон 1868, Евтидем 1878, Софист 1907. Их тоже было бы хорошо добавить на Викитеку. Отправил Вам файлы на почту. Перераспознавать их уже не нужно – сделал в 12 файне (в ocr дореформенная орфография со словарной поддержкой). Artremy (обсуждение) 11:25, 11 октября 2018 (UTC)

  • Замечательно! Загрузил. --Vladis13 (обсуждение) 12:41, 11 октября 2018 (UTC)
  • @Artremy: Хотел залить OCR этих книг, но оказывается FineReader не видит его в pdf, предлагает распознавать с нуля. Залить хорошо бы, ибо будет и шаблон ВАР с деятификацией, убраны плохие колонтитулы, текст без ненужных переносов, и другие улучшения. Иначе это всё придётся участникам делать вручную, каждую страницу. Может у вас остался проект программы с распознаванием? Тогда сам его пересылать не стоит, слишком большой. Мне нужны все страницы, сохранённые в html или fb2 (fb2 только от 12-го FR, не от 14-го, где fb2 с серьёзным багом). Сохранение постраничное, страница в своём файле (выбор в окошке сохранения). Без сохранения оформления текста (здесь вроде нет или минимум курсива/жирного шрифта, не надо чтобы не было мусора), без картинок и колонтитулов. Папкой в архиве. Посмотрите пожалуйста. --Vladis13 (обсуждение) 17:05, 14 октября 2018 (UTC)