Обсуждение Викитеки:Проект:БСЭ1/Архив

Содержимое страницы недоступно на других языках.
Материал из Викитеки — свободной библиотеки
Эта страница содержит завершившееся обсуждение. Не изменяйте её. Новое обсуждение можно создать на другой странице.

Перенос статей с wikia[править]

Здравствуйте, я уже некоторое время вношу статьи на ru.gse1 на wikia. Сейчас готово ок. 700 статей, в т. ч. крупные. Когда узнал о вашем проекте, стало понятно что место этой работе - тут. Если тут есть какое-либо сообщество именно по БСЭ1 прошу выйти на связь чтобы помочь с переносом и объяснить нюансы работы здесь. Openvoid (обсуждение) 09:55, 17 декабря 2014 (UTC)[ответить]

Приветствую. Понемногу занимаюсь статьями БСЭ1 в здешнем проекте. Основной нюанс работы здесь, по-видимому, связан с авторскими правами. Судя по обсуждению Викитека:Форум/Авторское право#Авторские права БСЭ, БРЭ и других, основное мнение заключается в том, что АП на подписанные явным образом статьи остается за авторами -- ну и далее в соответствии со сроками охраны по текущему законодательству [Хотя есть и другие мнения]. Я лично загружаю только либо анонимные статьи, изданные более 70 лет назад, либо подписанные статьи тех авторов, по которым срок охраны по текущему законодательству истек. -- Badger M. (обсуждение) 10:20, 17 декабря 2014 (UTC)[ответить]
Спасибо, теперь есть представление, чем конкретно можно заняться. 100% безопасные статьи будут переноситься и в ru.gse1 будет ставиться перенаправление. Жалко крупные статьи, там даже несколько разных авторов бывает указано. Сложные случаи оставляю на будущее и на заинтересованных исследователей. Openvoid (обсуждение) 12:05, 17 декабря 2014 (UTC)[ответить]

Ботозаливка 2-го тома[править]

Здравствуйте.

Имеется ли у Вас возможность добавить недостающие статьи из БСЭ1 используя текстовый файл вида —

https://cloud.mail.ru/public/EQVZ/MvPMFRoDK ?

Там около 750 недостающих статей второго тома БСЭ1. Можно ли с Вами обсудить, какой к какому виду оптимальнее всего приводить подобные текстовые файлы? — Это неподписанное сообщение было добавлено Zhuvv63 (обс · вклад

Текстовка нормальная, текст всеровно надо будет приводить в порядок скриптом. Совершенно не критично, но сохранять можно было в кодировке utf8 (без BOM).
  • Если есть названия статей отдельно — желательно добавить в текстовку. Если нет, то можно считать ими слова написанные прописными в текстовке в начале статей. Но в ряде случаев будет «десинхронизация» со словником. Например в словнике есть ссылка на статью «БСЭ1/Ангаретис, Зигмонт 676». А в текстовке: АНГАРЕТИС (Алекса), Зигмонт, политич. деятель, р.. Т. е. появится статья БСЭ1/Ангаретис, которой будет не видно из словника, надо будет проходить потом вручную по словникам, и по оставшимся красным ссылкам искать статьи, делая переименования/редиректы.
  • При конвертации регистра в строчные потеряются прописные буквы в именах. Например, в АЛЕЧСКИЙ ГЛЕТЧЕР «глетчер» станет строчными.
  • Правильно я понимаю, что статьях БСЭ1 (например БСЭ1/Алагоаш) первые термины (слова о которых статья) пишутся прописными и выделяются жирным шрифтом? Есть ли ещё специфичное оформление? --Vladis13 (обсуждение) 12:31, 5 ноября 2016 (UTC)[ответить]
  • Да, названия статей надо дать как в словнике. Скажите только - какими тегами вставку этих доп.слов оформить, и в каком месте статьи? Возможен ли вариант добавления названия только в том случае, когда слова в текстовом файле до запятой и название в словнике разнятся? Это сильно уменьшит объем работ.
  • Перед заливкой её по-любому надо нормализовывать. Там (см. нижнюю статью АН0С0ВСНАЯ СТАЛЬ) есть вместо букв «О» нули. Тире не отделено пробелами (от греч. an—отрицат. частица и osme—запах). Названия статей можно поместить в имеющиеся «==== статья ====». Этой перечисленной рутиной не беритесь заниматься, может ближе к вечеру сегодня ботом поправлю. Это же касается лишних переводов строк (уберу).
  • Для сверки со словником надо делать список статей текстовки, писать скрипт, это морока… Предлагаю залить как есть, а потом визуально будет в словнике видно, какие статью красные — там уже переименовывать. И ботом можно будет сделать список «красных ссылок», это спец. функция «одной кнопкой». --Vladis13 (обсуждение) 15:53, 5 ноября 2016 (UTC)[ответить]
  • Предполагал, что т.к. тексты еще не просмотрены, надо давать какое-либо предупреждение.
  • Заголовки с меткой !!!дубль надо переименовать, желательно как словнике. Это вручную. И, по возможности, исправить ошибки распознавания, после заливки их будет сложнее заметить (ибо будут на сотнях страниц). Как скажете, что можно — будем заливать. Регистр букв заголовков в строчные переведу чуть позже. [сделал] --Vladis13 (обсуждение) 18:31, 5 ноября 2016 (UTC)[ответить]
(замечание) Я кое-что поправил в списке для заливки. Есть замечание: встречается довольно много не вполне корректно оформленных шаблонов {{lsafe}} -- пожалуйста, ознакомьтесь с документацией указанного шаблона (хотя, впрочем, это не оч. критично, но потом все равно придется исправлять). -- Badger M. (обсуждение) 09:19, 6 ноября 2016 (UTC)[ответить]
  • Например - статья "Алеппо" из-за чего удалена?
  • Для чего в выделение первой фразы статей жирным шрифтом в конце принудительно добавляется запятая? В других проектах этого нет. В чем логика? --Zhuvv63 (обсуждение) 15:02, 6 ноября 2016 (UTC)[ответить]
Удалены уже созданные статьи (см. словник).
to Zhuvv63: Что касается запятой: в разных проектах по-разному, вы не правы. В скане БСЭ1 запятые после гнездовых терминов довольно жирные, поэтому я с самого начала последовательно их оформляю жирным шрифтом (кстати, в ЭСБЕ такая практика тоже присутствует). -- Badger M. (обсуждение) 23:42, 6 ноября 2016 (UTC)[ответить]
PS. Ссылки на сканы 1-го издания на Google Books, вообще, приведены на осн. странице БСЭ, но в настоящее время, похоже, просмотр фрагментов GB не функционирует. -- Badger M. (обсуждение) 03:54, 7 ноября 2016 (UTC)[ответить]
Думаю, нет смысла с этим заморачиваться. Пусть будет общее бото-качество. -- Badger M. (обсуждение) 06:55, 8 ноября 2016 (UTC)[ответить]
Еще такое замечание: хорошо бы оформление знаков процентов сделать как в оригинале -- т.е. вплотную к цифрам, без пробела (50%, а не 50 %). Викификатор, к сожалению, в такой ситуации проставляет пробелы. -- Badger M. (обсуждение) 08:19, 9 ноября 2016 (UTC)[ответить]
Обернул в {{nobr}}. Вообще чтобы текст не викифицировался, его можно тэгами <nowiki></nowiki> обрамлять (красная кнопка в панели редактирования). --Vladis13 (обсуждение) 17:52, 9 ноября 2016 (UTC)[ответить]

Сканированные тома[править]

Кстати, сколько всего имеется томов на ботозаливку? --Vladis13 (обсуждение) 18:16, 10 ноября 2016 (UTC)[ответить]

  • (мнение) Теоретически все тома (в ОД), видимо, можно подготовить, т.е. порядка 60. А практически, наверное, на текущий момент только по полностью заполненным словникам можно более-менее быстро подготовить сырой OCR-текст и проконтролировать, т.е. порядка 25. -- Badger M. (обсуждение) 19:16, 10 ноября 2016 (UTC)[ответить]
  • Словники только по двадцати пяти томам заполнены? Для ориентировки по проекту неплохо иметь данные статистики. Например: а) "Общее кол-во статей БСЭ1" - "Текущее кол-во статей под авторскимм правом" - "Текущее кол-во опубликованных статей в ВТ": б) "Общее кол-во словников" - "Текущее кол-во подготовленных словников". Берусь за неделю сделать подсчет. --Zhuvv63 (обсуждение) 03:50, 11 ноября 2016 (UTC)[ответить]
  • Если мы формируем статьи на базе полного текста томов, то словники, по большому счету, нам не нужны - при подготовке, от подписанных статей, оставляем только заголовок. --Zhuvv63 (обсуждение) 04:06, 11 ноября 2016 (UTC)[ответить]
  • В принципе, это верно. Только несколько сложнее в этом случае проконтролировать по pdf корректность соответствия. И при загрузке без словников, видимо, возникнут некоторые нюансы. -- Badger M. (обсуждение) 05:26, 11 ноября 2016 (UTC)[ответить]
  • У меня штук пять pdf-файлов не прочиталось из скаченного торрента. По остальным гарантированно есть текст. Около 10 часов работы уходит на разделение статей и удаление статей с авторскими правами. Работаем вместе над этим проектом, сколько сил хватит? А то я уже собрался уходить с этого ресурса. --Zhuvv63 (обсуждение) 03:37, 11 ноября 2016 (UTC)[ответить]
  • Pdf'ы, в принципе, все есть (у меня, напр., издание на CD). Проект добровольный: если и кому интересно -- тот работает. Раз взялись, то работаем. В любом случае, думаю, уже сделанная вами работа не пропадет -- в итоге бото-заливка по загруженному тексту будет сделана. -- Badger M. (обсуждение) 05:26, 11 ноября 2016 (UTC)[ответить]

О сроках ботозаливки[править]

@Zhuvv63 на общие вопросы отвечу тут.

  • Когда текст выложен как сейчас на одной странице, то гораздо проще видеть и исправлять типовые ошибки. С точки зрения замены тоже всё просто: достаточно написать, например, в гаджете замены текста или боте «заменить 2 пробела на один» — всё исправится одной правкой за несколько секунд. Если же залить текст по отдельным страницам, то затем боту надо будет читать/записывать каждую страницу, на каждую по ~3 секунды (вики-ограничение для ботов), умножаем 3 * 700 страниц второго тома = 40 минут машинного времени на личном компьютере. Ошибки, тем более в плохо распознанном тексте, будут находится постоянно, и для каждой операции надо будет опять проходить все 700 страниц 40 минут. Вручную же увидеть ошибки и исправить в сотнях-тысячах уже залитых статей — вообще огромная и сложная проблема, которую вряд ли кто будет делать.
  • Консенсусный срок на выполнение любых заявок/номинаций обычно минимум неделя (кроме очевидных случаев). Чтобы все могли высказаться, и было время заметить ошибки. Например, благодаря тому, что Badger M. заметил тему, текст существенно исправлен и вычитывается ещё сегодня. А если бы опубликовали сразу с ошибками, читатели бы нас не поняли.
  • Задача замечена. Если не я, то другой ботовод зальёт эти готовые тексты. В крайнем случае напишите на форум. --Vladis13 (обсуждение) 16:06, 9 ноября 2016 (UTC)[ответить]
  • «Я правильно понял, что в каждом конкретном случае пишется отдельный скрипт, который запускается в основном только автором скрипта?» — Есть два общеиспользуемых «стандартных» викибота (pwb и awb), они у всех ботоводов. Для заливки ботам надо дать текстовку в понятном им формате, для преобразования в который ботоводы пишут какие-то свои скрипты. Не засоряйте этим голову, это внутренняя работа ботоводов. (Для Pwb формат одним файлом с метками начала и конца статей, для AWB — CSV.) --Vladis13 (обсуждение) 16:06, 9 ноября 2016 (UTC)[ответить]
  • ОК. Спасибо за подробные ответы. Для меня приятной неожиданностью стало, что несколько участников так тщательно дорабатывают информацию. Думал, что неспешно одному придется это делать. Приятно. Может быть вместо(кроме) вычитки, более значимые проблемы попробовать осуществить? --Zhuvv63 (обсуждение) 17:06, 9 ноября 2016 (UTC)[ответить]
Энциклопедия значима, поэтому. Обычные тексты, к сожалению, редко кто вычитывает. Более значимые это какие? --Vladis13 (обсуждение) 17:55, 9 ноября 2016 (UTC)[ответить]
Написал на отдельной страничке - Типовые элементы оформления статей --Zhuvv63 (обсуждение) 03:27, 10 ноября 2016 (UTC)[ответить]
Извините, перенёс её в раздел ниже. Там всё касается проекта, который обсуждается здесь, не стоит размазывать обсуждение по всей Викитеке, почте и сторонним хостингам. А тут можно обсудить по пунктам. К тому же, страницы обсуждений создаются в пространстве имён с префиксом «Обсуждение:», а не в основном пространстве статей. --Vladis13 (обсуждение) 03:48, 10 ноября 2016 (UTC)[ответить]

Предложение о сроках выкладывании тома статей в основное пространство БСЭ1: Если файл со статьями прошел основные стадии корректировок и никем не редактируется неделю (как ранее предлагал Vladis13) или 10 дней, то участник-ботовод начинает перенос статей. А то пока еще ни один рабочий файл до конечного результата не довели. Мне, как новичку, интересно посмотреть результат. --Zhuvv63 (обсуждение) 11:41, 18 ноября 2016 (UTC)[ответить]

@Badger M. тома 2 и 4 тогда заливаю? --Vladis13 (обсуждение) 13:35, 18 ноября 2016 (UTC)[ответить]
Неделя или 10 дней -- это вообще в данных обстоятельствах не срок, учитывая мизерное количество участников проекта БСЭ1 (сейчас по факту 2 + 1 ботовод). Поэтому я вообще-то против подобного предложения (что здесь тестировать -- не оч. понятно [ясно, что бот может справиться с задачей]; редактировать же начерно en masse, имхо, несколько удобнее и быстрее в общем файле; при скоропалительной же заливке низкое качество будет размазано по сотням статей).
PS. К примеру, до проверки вставки изображений (с помощью шаблонов-заглушек Img) у меня вообще еще руки практически не дошли.
Хотите поэкспериментировать -- валяйте, вся ответственность за халтурное качество заливки будет лежать на вас. -- Badger M. (обсуждение) 14:06, 18 ноября 2016 (UTC)[ответить]
Тогда, для понимания, какие операции были сделаны по каждому тому, а какие еще предстоят (и вообще последовательность операций доводки файла "до ума") - надо сделать таблицу выполнения стандартных процедур. Прошу, как новичок, помощи в создании такой таблицы (ни разу в Википедии не создавал, не знаю где правильно её разместить). Заголовки колонок предлагаю: 1 - "Исходный текст"; 2 - "Бот чистки переводов строк"; 3 - "Бот формирования заголовков"; 4 - "Ручная выверка заголовков"; 5 - "Бот вставки шаблона lsafe"; 6 - "Ручная выверка lsafe"; 7 - "Вставка шаблонов изображений"; 8 - "Бот перевода статей в основное пространство"; 9 - "Проверка корректности перевода" (может я какие этапы забыл?). Каждая строка - отдельный том. По мере готовности будем в таблицу плюсики ставить. И голова ни о чем не будет болеть :) [Удален переход на личности, согласно w:ВП:НО. --Vladis13 (обсуждение)] --Zhuvv63 (обсуждение) 15:39, 18 ноября 2016 (UTC)[ответить]
to Zhuvv63: Пожалуйста, воздержитесь от перехода на личности и голословных уничижительных заявлений/обвинений. Ведите дискуссию конструктивно.
Насчет ваших предложений по "таблице операций": думаю, разместить что-то подобное можно на страницах/подстраницах обсуждения (вроде этой, на которой тут идет обсуждения; или можете прямо здесь отдельным разделом и разместить), либо на подстраницах в вашем личном пространстве. По конкретной таблице и обсудим конкретику, насколько ваше предложение подходит для совместной работы (вместе с Vladis13).
Общая логика, видимо, должна состоять в том, чтобы довести "файлы с текстом в ОД БСЭ1 по томам" до некоторого минимально приемлемого качества текста для последующей бото-заливки (по отд. статьям). Т.е. нам нужно договориться об уровне этого минимально примлемого качества и обозначить те операции, которые для достижения этого уровня надо проделать. [Идеальный же уровень качества (100%) -- это полное соответствие оцифрованного текста печатному оригиналу (скану)]. -- Badger M. (обсуждение) 16:02, 18 ноября 2016 (UTC)[ответить]
Извиняюсь "за переход на личности". Мы сейчас ищем способы организации только-что сформировавшегося коллектива, так, чтобы не дублировать одинаковые операции над одним и тем же текстом. Надеюсь, четкие правила дадут возможность опубликовать десятки тысяч статей БСЭ1 без лишних нервов, принося добровольным участникам удовлетворение от сделанного. --Zhuvv63 (обсуждение) 16:27, 18 ноября 2016 (UTC)[ответить]
Не уверен, что такая таблица нужна, слишком заморочно. Сделанные операции по текстовке просто увидеть по её историю правок. Перевод заголовков в нижний регистр — это последняя операция, которую делаю ботом, дальнейшие — вручную. --Vladis13 (обсуждение) 16:45, 18 ноября 2016 (UTC)[ответить]

Предложения Zhuvv63[править]

Очевидные темы:[править]

  • Перекрестные ссылки в текущей статье на другие энциклопедии и Википедию.
Комментарии: это достаточно просто, только надо на каждую страницу зайти и убедиться, что такая статья там существует. Если в Википедии такой статьи нет, то надо её создать, так как наличие статьи в БСЭ чаще всего является достаточным основание для статьи в Википедии.
  • 1) Через Викиданные. В Википедии есть гаджет «WEF:Ссылки», включается в настройках. Заходите на страницу Википедии, открываете гаджет (после его включения он появится в левой колонке страницы), там на вкладке «Викитека» вводите статью (если таковая залита). 2) На форуме есть обсуждение о создании элементов Викиданных для энциклопедий, см. про тему про «словарь Римана». Это после того как будут залиты сами статьи. 3) Можно делать перелинковку вручную, в шапках статей есть параметры типа |ЭСБЕ=|ЕЭБЕ=|МЭСБЕ=|ВЭ=|НЭС, куда вписывается синоним из другой энциклопедии. --Vladis13 (обсуждение) 03:58, 10 ноября 2016 (UTC)[ответить]
  • Добавление ссылки на текущую статью на страницах других энциклопедий и Википедии.
Комментарии: это тоже достаточно просто. Только возникают сомнения в какой раздел статьи Википедии добавлять ссылку на БСЭ1. Там, где я смотрел, ссылки на БСЭ1 встречаются в разделах "Литература", "Примечания", "Ссылки". Чтобы понять, как обстоят дела, можно сделать таблицу с отметками "сделано/несделано".
  • Добавление категории статьи.
Комментарии: Почему-то в БСЭ1 нет категорий как в ЭСБЕ - Тематические разделы
Это, в общем, сознательный выбор. Поясню отчасти, почему. Категоризация большого проекта, типа ЭСБЕ или БСЭ1 -- это очень большая работа. В случае с ЭСБЕ, например, она не завершена, хотя ведется уже много лет. Это минус. Еще одна важная проблема, которая возникнет при категоризации БСЭ1 -- это сложность географической категоризации по адм.-политическому делению в силу серезных изменений в этом делении за время издания БСЭ1. [С другой стороны, ценность такой категоризации не оч. велика в силу меньшей, чем в ЭСБЕ, гео-детализации словника в БСЭ1.] В целом, сложность тематической категоризации, на самом деле, весьма велика, хотя, как понимаю, многими недооценивается. В принципе, сложность формализации данной задачи можно было бы увидеть, если попытаться написать руководство по тематической категоризации для новичков, создающих статьи БСЭ1. Попробуйте и, наверное, поймете, о чем идет речь. [Или попробуйте создать в явном виде полное дерево тематических категорий для БСЭ1.] Поэтому-то тематической категоризации в проекте БСЭ1 изначально нет (во всяком случае, я лично против, ради сохранения простоты проекта). -- Badger M. (обсуждение) 07:48, 10 ноября 2016 (UTC)[ответить]

Сложные темы, которых нет в других проектах:[править]

  • Создать еще один вариант оформления статей (как в ЭСБЕ есть дореформенный и современный варианты) - со ссылками на Википедию. Сейчас в энциклопедических статьях Викитеки если и встречаются гиперссылки, то только те, которые авторы статей сделали при написании произведения (обычно отмечается словом "см."). Этого явно мало, так как при чтении статьи часто термины требуют дополнительного изучения. К тому же в проекте БСЭ1 множество таких ссылок пока неактивно из-за соблюдения авторских прав.
  • Не уверен, что правильно понял предложенное. Однако, думаю, что подобное предложение не пройдет. Сама по себе викификация (проставление перекрестных ссылок) в Викитеке не запрещена, однако чрезмерная викификация не приветствуется. Четкий объективный критерий для выделения отдельной редакции статей БСЭ1, исходя из предложенного, отсутствует. -- Badger M. (обсуждение) 08:21, 10 ноября 2016 (UTC)[ответить]
  • добавить еще один признак(категорию) - "Нет в других редакциях БСЭ".
Комментарии: Посмотрите на таблицу - https://cloud.mail.ru/public/49M1/AVTLEgVQu . Множество статей из БСЭ1 в более поздних редакциях не встречается. Добавление в конце статьи БСЭ1 отметки "Нет в других редакциях БСЭ" будет очень познавательно с точки зрения понимания, что волновало людей начала 20-го века.
В Викитеке нет словников БСЭ2 и БСЭ3 и, видимо, появятся они нескоро, что сильно затрудняет работу по созданию предложенных таблиц. Кроме того, вероятно, подобное может не вполне вписываться в правило ВТ:ЧСВ. Как вариант, может быть, подобную работу можно было бы вести в Википедии, поскольку какие-то манипуляции со словниками различных энциклопедий там ведутся, но, впрочем, не уверен в этом. -- Badger M. (обсуждение) 08:02, 10 ноября 2016 (UTC)[ответить]
  • Добавить в словник данные о размерах статей
Комментарии: Об этом написано в определении понятия "Словник". Предлагаю размер статьи указывать по нескольким категориям: а) кол-во знаков; б) кол-во изображений; в) кол-во таблиц. На страницах словников отображение этой информации можно разными способами оформить. Например, при наведении на номер страницы, появляется всплывающая подсказка.
  • Словники оформлены особым шаблоном, это не просто текст, скрипты Викитеки в реальном времени берут оттуда инфу при показе статей. --Vladis13 (обсуждение) 04:15, 10 ноября 2016 (UTC)[ответить]
  • У словников БСЭ1 в Викитеке есть вполне простой практический смысл -- они решают определенные технические задачи по упрощению работы над созданием статей. Заполнение словников требует и так немало времени, а предлагаемое нововведение еще более усложнит работу. Поэтому я возражаю против данного предложения на текущем этапе. Может быть, в будущем, когда бОльшая часть статей будет загружена, подобный сбор стат. информации и можно будет реализовать. -- Badger M. (обсуждение) 08:02, 10 ноября 2016 (UTC)[ответить]
  • В "шапке" статьи, где стоят ссылки на аналогичные статьи других энциклопедий и Википедии, сделать всплывающую подсказку о размере соответствующей статьи.
Комментарии: Если ссылок на другие энциклопедии много, то приходится их все перебирать в поисках наиболее полной статьи. А имея возможность увидеть сразу, какая из статей наиболее большая (или с иллюстрациями), время поисков значительно сокращается.

Общее. Чего не хватает в БСЭ1[править]

  • Насчет страницы -- согласен. Но в отношении категорий, полагаю, все несколько сложнее (см. выше обсуждение о тематической категоризации). Для новичков нужна более подробная инструкция по категоризации (если вообще можно такую себе представить) или описание дерева тематической категоризации проекта в явном виде. -- Badger M. (обсуждение) 17:04, 10 ноября 2016 (UTC)[ответить]
  • Если ботом все статьи зальём, то инструкция по ручному созданию статей не нужна. --Vladis13 (обсуждение) 18:16, 10 ноября 2016 (UTC)[ответить]
Имхо, инструкция по созданию статей для новичков будет содержать лишь строчку: «1. Скопируйте содержимое другой статьи БСЭ1. 2. Замените текст статьи, оставив шаблон и категории». :) --Vladis13 (обсуждение) 16:06, 29 ноября 2016 (UTC)[ответить]
Для текстовой части статей всё более-менее понятно. А со сканами как? Если мы через FR будем отдельные статьи забелять, надо будет файл файнридера на Викискладе хранить? --Zhuvv63 (обсуждение) 16:15, 29 ноября 2016 (UTC)[ответить]
Если забелять статьи через FR (видеоурок, опция «ластик»), то и сохранить том с изменёнными страницами в формате pdf (или djvu). А потом этот файл залить на Викисклад, сделать индекс для удобной вычитки... — всё как предлагалось в соответствующей теме ниже. Если текст будет залит в индекс, то может и нужна будет справка, если нет — то и не надо отвлекаться на это. --Vladis13 (обсуждение) 17:54, 29 ноября 2016 (UTC)[ответить]

Перелинковка[править]

Автоматическая расстановка lsafe ботом довольно часто лажает (приходится исправлять: [1]). Имхо, лучше этого в таком виде ботом не делать (сырой OCR-текст проще править вручную). -- Badger M. (обсуждение) 12:24, 16 ноября 2016 (UTC)[ответить]

Я это полувручную делал с аккаунта бота, и только после подстроки «см. ». В этом случае нет склонений, поэтому используется только один параметр. Не вижу по ссылке где ошибся? И какой процент соотношения ошибок/корректности? По ссылке только три коррекции на более двести расстановок. Мне кажется, это значительное облегчение труда перед ручной вычиткой. --Vladis13 (обсуждение) 13:17, 16 ноября 2016 (UTC)[ответить]
Процент не знаю, но я на небольшом участке нашел несколько неправильных простановок. "См." -- это не однозначное указание о простановке lsafe. Напр., обратите внимание на статьи "Бритты" и "Бруцкус" (в этих двух статьях 4 раза неправильно был проставлен lsafe). --Badger M. (обсуждение) 13:26, 16 ноября 2016 (UTC)[ответить]
PS. Вообще-то, полагаю, lsafe -- это опциональная возможность. Базовое же оформление ссылок -- просто курсивом (минимальное соответствие источнику). -- Badger M. (обсуждение) 13:30, 16 ноября 2016 (UTC)[ответить]
Перелинковка в общем желательна. 1) Полезна при изучении статьи. 2) В вебмастеринге известно, что поднимает позиции сайта в поисковиках. В Викитеку вложено столько труда и времени, хочется чтобы тексты в поисковиках были на верхних, а не нижних позициях, где минимум посещаемости.
Ок. Не буду ставить. Может ошибаюсь, но мне кажется, Zhuvv63 сделал перерыв в загрузке текстовок. Пишите, если нужна техподдержка ботом/шаблонами, и когда будет готово к заливке. --Vladis13 (обсуждение) 13:46, 16 ноября 2016 (UTC)[ответить]
Если бы бот полностью корректно отрабатывал -- проблем бы не было. А исправлять вручную еще и ошибки, вносимые ботом, -- это, имхо, уже перебор.
Планов Zhuvv63 я не знаю, может, он вообще покинул проект. Впрочем, перепроверять и исправлять его вклад, видимо, придется еще порядочно. -- Badger M. (обсуждение) 14:14, 16 ноября 2016 (UTC)[ответить]
Кстати, была ещё идея конвертить подстроки вроде на п e p е х о д н ы й период, С a h e n G.на {{razr2|пepеходный}} период, {{razr2|Сahen}} G.. Алгоритм поиска: искать одиночные буквы, разделённые пробелами, штук от 4 подряд, без пунктуации между ними. Надо? --Vladis13 (обсуждение) 15:12, 16 ноября 2016 (UTC)[ответить]
Скорее, не надо. На практике, полностью точного распознания разрядки для работы бота в имеющемся OCR нет. Лично у меня поэтому мыслей о подобной автоматизации не возникало. -- Badger M. (обсуждение) 16:01, 16 ноября 2016 (UTC)[ответить]

Заливка в индекс[править]

Наша реальность - полные страницы сканов всей БСЭ1 еще долго будет нельзя публиковать из-за авторских прав. В то же время скан очень важен: он увеличивает достоверность распознанной статьи; по нему можно делать выверку текста; формулы химические и математические без искажений; проверка наличия изображений; и т.п. Оформление страниц Викитеки с использованием сканов полных страниц давно освоено. Например это сделано в ЭСБЕ. Для БСЭ1 такой вариант не проходит, т.к. на странице с текущей статьей может быть другая статья под авторскими правами. Проблему решает создание растровых файлов с частичным изображением исходной сканированной страницы. Тут может быть несколько вариантов: а) "одна статья" - "один файл", плохо, что много файлов для мелких статей делать придется; б) на страницах, где есть одновременно и статьи в открытом доступе, и под авторскими правами, "забеливать" ненужные участки страницы. По мере пропадания авторских прав, в БСЭ1 будут появляться тексты статей и, соответственно, придется править растровые страницы, открывая скрытые участки. Не знаю, где размещать доработанные сканы. Не знаю как добавить на всех страницах ссылку на нужный скан. Да, я понимаю, что добавление сканов увеличит трудоемкость работ. --Zhuvv63 (обсуждение) 15:39, 18 ноября 2016 (UTC)[ответить]

Теоретически можно грузить порезанные сканы в Викитеку или на Викисклад. Однако, мое мнение, нет смысла с этим заморачиваться (как говорится "овчинка не стоит выделки"), так как простого способа все это сделать я лично не вижу. [Ссылки на сканы в Интернете здесь уже приводились -- думаю, этого достаточно на текущем этапе]. -- Badger M. (обсуждение) 16:08, 18 ноября 2016 (UTC)[ответить]

Есть альтернативный вариант заливки. — Заливать в пространство имён «Страница:», где текст будет возле изображения страницы скана, это сильно упростит вычитку. Для этого надо залить сами сканы томов. И прислать мне распознанный текст в формате fb2 (сохраняется в программе распознавания FineReader), ни чего не меняя в нём после распознавания. Пример: таких индекса и страницы. Это вариант для ботовода более сложный, но с точки зрения вычитки гораздо лучше. --Vladis13 (обсуждение) 16:50, 18 ноября 2016 (UTC)[ответить]

Какой том прислать для пробы? --Zhuvv63 (обсуждение) 17:01, 18 ноября 2016 (UTC)[ответить]
Давайте 25-й, к нему нет словника и как раз распознаёте. Только необходимо залить скан. В файле желательно оставить распознавание колонтитулов, а вот сохранять с иллюстрациями излишне. --Vladis13 (обсуждение) 17:07, 18 ноября 2016 (UTC)[ответить]
Вопрос 1: Не понял про "залить скан" в Викитеку. У нас же в каждом томе БСЭ1 порцентов 10 статей (процентов 30 от объема текста) под авторскими правами? Арестуют же. Или сначала надо куски сканов с ненужными статьями забелить? Вопрос 2: Что Вам даст формат fb2? Мы сейчас берем готовый текст из текстового слоя PDF-файлов. Я пробовал FineReader на нескольких томах, процент опечаток от FR выше. По 25-му тому уже больше половины текста разделены на страницы и статьи. У статей под авторскими правами собираюсь оставлять только первую и последнюю строки (название статьи/автор статьи) для соблюдения законов --80.234.111.115 19:18, 18 ноября 2016 (UTC)[ответить]
Тогда «ой». По 2-му: «берем текст из текстового слоя PDF-файлов», — его из FR туда и поместили, или из других OCR-программ, которые по определению хуже. Обычно собственное распознавание лучше, из-за более качественных настроек, чем в текстовом слое. Но каждый случай по своему уникален… --Vladis13 (обсуждение) 20:50, 18 ноября 2016 (UTC)[ответить]
Вопрос Vladis13-у Текст 25-го тома разбил на статьи (575шт) и страницы. теперь, в соответствии с новой концепцией, в растровых файлах страниц забеливаю авторские статьи. Предполагаю, что их будет около 250-300 шт. (Есть авторские статьи по 20-30 страниц, их пропускаю). Как потом полученный jpg-файлы превратить в "индекс" на Викитеке? По указанным Вами ссылкам о "заливке" сканов ходил - ничего не понял. Прошу доп.помощь, с учетом того, что в моем нике цифры, это возраст. --Zhuvv63 (обсуждение) 07:11, 19 ноября 2016 (UTC)[ответить]
Ок. Но поскольку часть тома охраняется АП, я не уверен есть смысл этим заниматься. Сейчас забелили страницы, а через год или позже они тоже перейдут в ОД — по новой перезакачивать что-ли?..
Здесь текстовку на страницы и статьи разбивать вручную не надо. (Можно, но там свой формат, который мне проще самому сделать, потом в нём разберётесь.) Надо сохранить распознанный текст в формате fb2, который сохраняет текст именно в разбивке по страницам скана, а не по статьям.
!!! поправка: Перепроверил у себя, — почему-то в недавно переустановленном FR не сохраняется разбивка на страницы при сохранении в fb2 (в файле должны создаваться тэги <section> для каждой страницы, это видно при его открытии как текстового файла), тогда это бесполезно. Но можно сохранять включив при сохранении «создавать отдельный файл для каждой страницы», получится ворох файлов. Или сохранить в формат CSV (тогда наверно это предпочтительней), обязательно включив в его настройках «Разделять страницы символом кода страницы».
Чтобы загрузить скан: 1) Загружаете на Викисклад (Commons). 2. После загрузки описываете. Обязательно напишите, что страницы/статьи не перешедшие в ОД забелены. (Чтобы пояснить, что остальной файл с разрешённым контентом, иначе удалят, и что файл неполный.) Добавьте в категории «Category:Scanned Russian texts» и «Category:Great Soviet Encyclopedia». 3. После этого следуйте инструкции на Викитека:Проект:OCR#Разместите в Викитеке и оформите. Т. е. откройте в Викитеке страницу с тем же именем под которой загрузили на Вкисклад, но с префиксом не «File:», а «Индекс:». Далее заполните инфу. --Vladis13 (обсуждение) 09:09, 19 ноября 2016 (UTC)[ответить]
@Zhuvv63, Badger M. есть такой вопрос: ВТ:Ф#Загрузка файлов не перешедших в ОД в Викитеку и Индекс. --Vladis13 (обсуждение) 10:04, 23 ноября 2016 (UTC)[ответить]
  • Что за ерунда. Для 25-го тома я все сканы обработал, не нарушил ни чьих авторских прав. На всех сканированных страницах остались только статьи, находящиеся в общественном достоянии. И текстовку этого тома разметил: (1) на статьи, (2) на страницы, (3) на номера колонок. В заголовках статей с авторскими правами проставил везде метки "АП"+ФИО автора, чтобы словник тома скриптом получить (завтра в тексте удалю статьи с АП и выложу файл рядом с другими томами). По трудоемкости, обрезать в сканах лишнее, не слишком долго, только надо лучше сначала словник иметь с номерами страниц/колонок. Теперь к каждой статье 25-го тома есть скан из Вики-склада и можно сверять текст с оригиналом (только не знаю, как ссылку на странице статьи оформить. или так в принципе нельзя сделать?). Зачем ждать пока весь том в ОД перейдет? Это еще не менее 10-20-30 лет. --Zhuvv63 (обсуждение) 17:15, 23 ноября 2016 (UTC)[ответить]
  • (комментарий) Ну, допустим, сейчас вы обработали файл скана, не нарушив АП, оставив только содержание в ОД.
    Потенциально проблемы заключаются в том, что а)+б) Непонятно, что делать, если вдруг у вас затесалась какая-либо неточность в определении свободного контента и лишнее содержание нужно из скана убрать. Или же, наоборот, со временем какая-то часть содержания тома перейдет в ОД и его нужно будет в файл скана добавить. Как это сделать кому-либо, кроме вас, вы можете объяснить (желательно сравнительно простым способом)? То бишь, задача поддержания в актуальном состоянии подобного скана, вероятно, весьма или даже более трудоемка. -- Badger M. (обсуждение) 17:58, 23 ноября 2016 (UTC)[ответить]
  • "забеливание" запрещенных статей - очень короткая процедура, по сравнению с "заливкой" статей в Викитеку. Согласитесь, что большинству пользователей по силам в открытом PDF-файле сохранить нужную страницу "как JPEG-изображение". А затем в любом редакторе (Paint, например) выделить прямоугольную область над нужной частью, и нажать кнопку "Del". Всё, остаётся только в Вики-склад положить. А если наоборот, в Вики статья была скрыта, а АП закончились, то только сохраненную страничку перезаписать поверх существующей. --Zhuvv63 (обсуждение) 07:56, 24 ноября 2016 (UTC)[ответить]
  • Понятно. То есть, речь идет о сохранении постранично в jpeg.
    Общее замечание по этому поводу состоит в том, что такой способ с практической точки зрения все же менее удобен для среднего пользователя, чем работа с целыми pdf и djvu. [Например, хотя бы потому, что OCR-текстовым слоем нельзя будет воспользоваться. Скорее всего, в обязательном порядке будет требоваться помощь ботов для обработки.] В целом, все это ведет лишь к усложнению работы, так как пользователю придется заниматься и "заливкой"/вычиткой статей, и параллельно обработкой сканов ("забеливанием" и т.п.). [Не говоря уже о работе по заполнению словника, которою пока что тоже приходится заниматься.]
    Главное же -- ради чего эта дополнительная работа делается/будет делаться? Предполагаю, что только ради того сомнительного достижения, чтобы в ускоренном режиме "залить" в "-1"-качестве "все полностью" статьи БСЭ1 (в ОД). -- Badger M. (обсуждение) 13:13, 24 ноября 2016 (UTC)[ответить]
  • Быстро выложить текст 25-го тома только со статьями в ОД быстро не получается, т.к. удаляя куски текста от начала до конца статьи, удаляются теги разметки на страницы/колонки (нужные для формирования словника). Придется изучать программирование, чтобы локально у себя формировать списки статей, а только потом их копировать в Викитетеку. Перерыв. --Zhuvv63 (обсуждение) 07:56, 24 ноября 2016 (UTC)[ответить]
  • Самостоятельно «изучать программирование» это слишком долго. Тем более вы, извините, не ориентируюсь в элементарных для программиста терминах, например, как посмотреть тип файла (pdf или нет), что такое csv, и называете программированием операцию, где требуется лишь базовое знание regexp.
  • Можете просто маркеры ставить в эти статьи. Я удалю по ним. Хорошо бы лучше обратить внимание на выкладку остальных томов, удаление дубликатов из тома 5, и вычитку. Это необходимо сделать для заливки. --Vladis13 (обсуждение) 14:37, 24 ноября 2016 (UTC)[ответить]
  • Буду рад, если Вы разделите текст 25-го тома на словник и статьи. "Можете просто маркеры ставить в эти статьи." - всё расставлено для пробного 25-го тома. Этот файл лежит у Вас в почте, чтобы В Викитеке не появились статьи под АП. Там доп.теги стоят, описывающие страницы/колонки для словника. Что именно стало тормозом в этой ситуации? Ранее ведь обсуждали, что беремся за том, для которого словник не готов. --Zhuvv63 (обсуждение) 15:54, 24 ноября 2016 (UTC)[ответить]
  • В текстовке тэги вручную, их не заметил. Просьба, поправьте настройки сохранения TXT: Сохранять деление на строки — выкл., Разделять страницы символом … и Разделять абзацы пустыми — вкл. Сохранять колонтитулы — тоже выкл., их очень муторно потом убирать вручную из текста, не нужны, ибо в индекс заливать не будем. --Vladis13 (обсуждение) 16:46, 24 ноября 2016 (UTC)[ответить]
  • Лучше переделать текстовку тома 25 с этими настройками. Ибо в текстовке потеряны абзацы, это куча лишней ручной работы по их восстановлению. --Vladis13 (обсуждение) 17:15, 24 ноября 2016 (UTC)[ответить]
  • По вычитке: В нашем коллективе, как будто, уже сложилась специализация - (1) Zhuvv63 выкладывает "сырые" заготовки статей (т.к. интересуют лишь названия статей) - (2) Vladis13 ботами делает типовые преобразования - (3) Badger M. финишная доработка и контроль. Пробуем перед вычиткой получить сканы статей, но пока сталкиваемся с взаимным непониманием (получить JPG-страницы достаточно просто, обработать для АП тоже, сделать в каждой статье ссылку на JPG тоже можно). --Zhuvv63 (обсуждение) 15:54, 24 ноября 2016 (UTC)[ответить]
  • По вороху jpg, — а зачем оно надо? Badger M. выше об этом написал. Вот посмотрите например этот индекс — его я распознавал, заливал, и приводил в порядок ботом (сложные орфография и оформление). Покликайте по красным ссылкам страниц. Это всё сделано из одного файла pdf или djvu. Из jpg такого не сделать технически. --Vladis13 (обсуждение) 16:46, 24 ноября 2016 (UTC)[ответить]
  • @Zhuvv63 Например, алгоритм:
  1. Жмёте в FineReader «Сохранить документ как…» → TXT, выбираете внизу «создавать отдельный файл для каждой страницы» → выбираете пустую папку → Сохранить → появится ворох нумерованных файлов.
  2. Открываете консоль в этой папке → вводите for %f in (*.txt) do (echo ^<newpage n="%f"/^> && type "%f") >> output.txt. (UPD: обновление команды)Появится файл output.txt, в котором все страницы разделены тэгом с нумерацией страниц скана. Обратите внимание, что если запустите команду дважды, то файл допишется, поэтому надо удалять этот файл при перезапуске.
  3. Выкладываете сюда. Отмечаем маркером и удаляем, или сразу удаляем, статьи не перешедшие в ОД.
  4. По заголовкам делаем словник. Номера страниц скана преобразуем в номера страниц книги. Для этого уточните смещение (например, 5 стр. скана = 2 стр. книги, значит смещение =-3). --Vladis13 (обсуждение) 15:45, 24 ноября 2016 (UTC)[ответить]

Zhuvv63 (обс | вклад), видимо выше взаимонепонимание. Предполагалась, что вы хотите загружать сканы не отдельными страницами jpg, а пакетным файлом pdf или djvu. И из него можно было бы делать индекс, о чём речь выше. С отдельных jpg его не сделать. Редактор изображений есть в самом Finereader — забеляйте сколько угодно отдельные страницы, и сохраняйте весь том одним файлом pdf/djvu. То что вы продолжаете делать, загружая ворохи jpg для томов, — неудобно. --Vladis13 (обсуждение) 11:09, 29 ноября 2016 (UTC)[ответить]

Согласен, неудобно. На примере 3-го тома убедился, что это слишком долго. Буду пробовать предложенным Вами способом. --Zhuvv63 (обсуждение) 11:28, 29 ноября 2016 (UTC)[ответить]

Формат и качество текстовки[править]

@Zhuvv63 вы писали, что создаёте сканы экспортом из программы STDU Viewer. Я скачал её, протестил и сравнил качество. В итоге настоятельно советую вам экспортировать из FineReader. Он распознаёт том всего за 1 час на моём стареньком компьютере. При этом распознаются абзацы, таблицы, курсив и жирный шрифтом, сноски, колонтитулы, а зачастую и подстрочность/надстрочность текста. Распознаются картинки, что можно оформить викишаблоном.

Присылаемая же вами текстовка требует массу времени на вычитку. Что тут компьютером делается за час, придётся вычитывать месяцы(?) за уйму человекочасов. За такую работу может никто не взяться, поэтому де-факто публикации не будет никогда. (Викитека — не свалка.)

Сравните сами. Это я сделал за пару минут (распознавание страницы в FineReader → сохранение в .odt → открытие в OpenOffice и экспорт в формат wiki).

to Vladis13: Что-то вы не о том. Во-первых, просьба к вам защищенный АП текст не использовать в качестве примера, если в той же БСЭ1 не очень сложно найти свободный текст. Во-вторых, качество OCR в имеющихся сканах довольно приличное и не сильно отличается от качества обработки FineReader (как понимаю, STDU Viewer не обладает функциональностью OCR). В-третьих, "настоятельно" советовать кому-либо использовать платный софт в добровольном и свободном википроекте -- это как-то не комильфо. -- Badger M. (обсуждение) 19:23, 26 ноября 2016 (UTC)[ответить]
  • 1) Цитаты не нарушают АП, не в основном пространстве, да и тут скрыто. Тем не менее сократил текст. Фактологическая общеизвестная информация и короткие ознакомительные фрагменты не нарушают АП. 2) Да, текстовый слой в данных сканах, который достаёт STDU, похоже кто-то уже распознал в FineReader. Однако, как уже писал, там нет абзацев, курсива, таблиц, меток картинок и т. д. Вычитывать плохой текст боюсь исключительно вам, выбор исходного качества — воля ваша. Я бы не хотел тратить множество дней кропотливого труда на исправление ошибок, при наличии возможности получить качественный текст сразу без них.
3) А ничего, что вы столь же настойчиво советуете STDU Viewer, который работает лишь в платной MS Windows, используя её dll и драйверы? Да и доступ к свободному википроекту не бесплатный — надо платить за интернет и энергию, «железо», жкх… Потраченные человеко/часы на исправление ошибок де-факто стоят реальных денег, месяц их исправления обойдётся как раз в стоимость FineReader. --Vladis13 (обсуждение) 21:47, 26 ноября 2016 (UTC)[ответить]
по п. 3) -- Врёте, я никогда не советовал STDU Viewer (текстовый слой легко извлечь с использованием другого свободного ПО). В имеющихся в т.ч. в интернете сканах БСЭ1 уже есть текстовый слой, о нем и речь. Насчет другого платного ПО, используемого при доступе к проекту, речи не было -- предполагается, что в этом отношении участники равны и свободны в выборе. -- Badger M. (обсуждение) 22:02, 26 ноября 2016 (UTC)[ответить]
«Врёте»… И выше вы предлагали использовать пиратские сайты, для получения БСЭ1. Ведь в интернет она только пиратская. Все участники тут работают с пиратской версией. Кстати, а у вас официальный CD с ней? И позвольте узнать, лицензированная ли у вас Windows? Раз уж начали критиковать меня... --Vladis13 (обсуждение) 08:49, 27 ноября 2016 (UTC)[ответить]
Опять продолжаете не в том направлении. Я не "предлагал" использовать пиратские сайты, а лишь отвечал на вопрос, где можно было бы взять нужные сканы, по ситуации. [Впрочем, и в пиратстве я никого не обвинял]. Насчет CD и Windows отвечаю: и то и другое у меня полностью легальное. Так что вам бы я посоветовал извиниться, а не продолжать измышлять абсурдные обвинения. -- Badger M. (обсуждение) 18:23, 27 ноября 2016 (UTC)[ответить]
Конечно я бы извинился, но возможно вы тут задеты меньше всех. Опустим ваш не этичный слэнг («враньё, измышлять абсурдные обвинения»). Первые ваши слова — за данную тему о сравнении качества распознавания, необходимом для проекта, «абсурдно обвинили» меня «Что-то вы не о том». Я то как раз по теме страницы. --Vladis13 (обсуждение) 19:35, 27 ноября 2016 (UTC)[ответить]
Насчет "неэтичного слэнга" опять вы неправы, никакой это не сленг, а нормальный русский язык. Впрочем, желания дальше проводить тут ликбез у меня нет. В следующий раз придется обращаться на общий форум, так как, похоже, конфликт присутствует и конструктивного настроя с вашей стороны к его разрешению не наблюдается. -- Badger M. (обсуждение) 01:07, 28 ноября 2016 (UTC)[ответить]
Да, так и сделаете. Неприятно читать ваши личные преследования и неэтичные переходы на личности в каждой реплике. --Vladis13 (обсуждение) 09:07, 28 ноября 2016 (UTC)[ответить]
Похоже, я лишаюсь двух активных помощников в проекте создания статей "БСЭ1" --Zhuvv63 (обсуждение) 14:39, 28 ноября 2016 (UTC)[ответить]
Никакого преследования нет, тем более перехода на личности. Все, что есть, это реакция на ложные обвинения в мой адрес с учетной записи Vladis13. -- Badger M. (обсуждение) 15:07, 28 ноября 2016 (UTC)[ответить]
@Vladis13 1) Прошу не критиковать программу STDU Viewer за качество текста в pdf-файле. Эта программа не виновата, что там такой текстовый слой. 2) Какую версию FR Вы использовали? Мои эксперименты в v.9.0.0.724 давали плачевный результат - и в каждой странице текст в десятках мест исправлять надо, и таблицы все вручную переправлять. Да, я заинтересован в получении полного распознанного текста, но как "дешево" это сделать, пока не знаю. Если совместно удастся настроить распознавание, буду рад. Согласен оплачивать консультации, см. почту. 3) Ваш "крик души" о том, что текст плохо распознан от того, что Вы увидели все статьи 25-го тома. Да, таблицы там в ужасном состоянии, но практически все таблицы находятся в статьях с АП, их так и так вырежем. А в мелких статьях, которые мы публикуем, опечаток не так много, на уровне предыдущих томов. 4) Будьте спокойнее, предполагаю, что мы тут просто развлекаемся. Я так вообще смеюсь над действиями некоторых участников :) --Zhuvv63 (обсуждение) 04:49, 27 ноября 2016 (UTC)[ответить]
Версию последнюю: 12. Вчера, на основе вышеупомянутого анализа программ, дополнил Викитека:Проект:OCR, т.ч. проекту только польза. --Vladis13 (обсуждение) 09:13, 27 ноября 2016 (UTC)[ответить]

Том 3[править]

https://commons.wikimedia.org/wiki/Category:Great_Soviet_Encyclopedia,_1-st_edition,_vol.03 - сканы страниц третьего тома с "забелёнными" статьями. В описании страниц есть номера колонок. Пользователю Владис13-му: можно ли автоматизированно добавить ссылки на сканы статей третьего тома?

У меня нет времени на это. (Займёт минимум 2 дня, нужно создание таблиц соответствий "страница = картинка", согласование, написание скрипта. Умножить на возню с каждым томом.) --Vladis13 (обсуждение) 11:16, 29 ноября 2016 (UTC)[ответить]
Картинки залитые вами на Викисклад опять свалены в общей категории… Пожалуйста, не ставьте общую категорию (!) «Category:Great Soviet Encyclopedia», только подкатегорию для тома (в данном случае «Category:Great Soviet Encyclopedia, 1-st edition, vol.03»). Опять придётся терять время на чистку. --Vladis13 (обсуждение) 13:07, 30 ноября 2016 (UTC)[ответить]

Технологические отметки в заголовках статей о сделанном этапе проверки, и типовые замены[править]

Предлагается к строке заголовка статьи (например "=== Александрия, город и порт в Египте ===") с самого начала добавлять условный набор букв, означающий этап ручной правки/проверки. Участник, выполнив установленную операцию со статьёй, удаляет из строки заголовка букву отметки. Таким образом можно над одним файлом работать параллельно, не делая проверки тех статей, в которых сняты отметки. Полное отсутствие отметок в заголовках статей и будет означать начало заливки тома в основное пространство Вики. Начатые тома доделываем по старому. Тома после восьмого обрабатываем по меткам. --Zhuvv63 (обсуждение) 16:39, 18 ноября 2016 (UTC)[ответить]

Мне нравится. Например, метка «#». --Vladis13 (обсуждение) 16:54, 18 ноября 2016 (UTC)[ответить]
Как вариант, есть шаблоны {{tq}} или {{TextQuality}} (соответствуют параметру КАЧЕСТВО общевикитечного шаблона {{Отексте}} и «вычитке» страниц в индексе). Можно ставить их в разделах-статьях, которые годятся к заливке. Или изначально поставив их везде со значением "0". В них предусмотрено качество 25 % или 1 (см. документацию {{TextQuality}}), что означает консенсус на возможность существования статьей с таким качеством в основном пространстве. Соответственно в вычитанные разделы-статьи можно ставить {{tq|2}}, {{tq|3}} и даже {{tq|4}}. --Vladis13 (обсуждение) 16:43, 18 ноября 2016 (UTC)[ответить]
В принципе, можно что-то подобное сделать. Если бот, скажем, мог бы грузить частично из файла только "проверенные" статьи -- это было бы, видимо, неплохим решением.
Однако, также желательно определиться со стандартом качества в более-менее общем случае. [Предполагаю, что должны соответствовать оригиналу: разбивка абзацев, проставление тегов оформления <small>, <sup>, <sub>, курсивный шрифт, жирный шрифт, разрядка, шаблоны-заглушки для изображений (может, что-то пропустил -- дополните). Опционально -- простановка ссылок через lsafe. Еще нужно бы определиться с общим качеством OCR-текста -- примерно допустимым процентом ошибок. В имеющемся OCR стабильно не распознаются лат. символы с диакритикой, часто неправильно распознается кириллическая буква ж.]
Букву «ж» и диактрику с латиницей в основном выправил. --Vladis13 (обсуждение) 18:02, 29 ноября 2016 (UTC)[ответить]
Для простейших случаев, вроде перенаправлений, думаю, все более-менее понятно. Например, можно считать приемлемым и точно готовым для загрузки оформление типа

'''БОЛЬШАЯ ПОСЫЛКА,''' см. ''{{lsafe|Силлогизм}}''.

или

'''БОЛЬШАЯ ПОСЫЛКА,''' см. ''Силлогизм''.

и т. п. -- Badger M. (обсуждение) 21:51, 18 ноября 2016 (UTC)[ответить]
Если мы будем вычитывать все тома до идеального состояния, то на это потребуется больше 10 лет, а к тому времени перейдут в ОД и остальные тома…
Метку могу расставить по уже залитым текстовкам, пока вычитано не много. При этом сразу уберу ботом метки с таких коротких однословных статей-перенаправлений, при условии что там стоят после «см.» символ «'», как в этих примерах.
В БСЭ1 вижу жирным шрифтом только термины. Отсутствие курсива и разрядки допускается в описании {{TextQuality}}, это надо, но такого шрифта так много, что вычитываться он будет очень долго. Скачал сканы.
  • Насколько вижу, разрядка практически всегда идёт сразу после термина в скобка при условии, что там только русские буквы. А также в параграфах начинающихся с «Лит:», там в подстроках где цифра, сразу затем ';' и затем ФИО разрядкой. И в ФИО сразу после «Лит:». Ещё «Маркс», «Ленин» и «Энгельс» в скобках почти всегда разрядкой.
  • Подтермины перед «(см.)» почти всегда курсивом, это тоже можно ботом заворачивать в lsafe.
  • «км2», «см3» и т. п. очевидно надо заменить на <sup> или ² ³. --Vladis13 (обсуждение) 23:44, 18 ноября 2016 (UTC)[ответить]
  • Я так понимаю, что основная мысль не в том, чтобы ботом проставить метки или пытаться автоматически (ботом) выправить оформление в соответствии с оригиналом, а в том, чтобы с помощью меток регулировать, что̀ именно бот будет из "общих файлов" грузить в статьи. [Ну а вычитка в основном по-любому ведется вручную].
  • Проблема (и уникальность) проекта БСЭ1 в том, что а) нет загруженных в ВТ/commons сканов (сложнее быстро проверить соответствие скану) и б) текст, загружаемый из внешнего источника, довольно сырой, т.е. нуждается в предварительной обработке (в других проектах не припомню такой ситуации). Отсюда, видимо, и несколько повышенные требования, как может показаться, [с моей стороны], к загружаемому в статьи тексту.
  • В ОД и через 10 лет не все содержание БСЭ1 перейдет, так как сроки охраны АП индивидуально по авторам определяются. -- Badger M. (обсуждение) 23:59, 18 ноября 2016 (UTC)[ответить]
  • PS. Короче говоря, вышеобозначенная уникальность проекта БСЭ1 приводит к тому, что предложенный механизм меток как бы институциализирует некое промежуточное хранилище для текстов статей ("тексты для загрузки по томам"), в котором тексты выдерживаются, доводятся до кондиции, и только потом, с помощью регулируемого проставления нужных меток, статьи переносятся ботом в основное пр-во. Вот как-то так, концептуально.. -- Badger M. (обсуждение) 00:43, 19 ноября 2016 (UTC)[ответить]
  • Согласен с Баджером --Zhuvv63 06:58, 19 ноября 2016 (UTC)[ответить]
  • @Badger M. по вашей правке вижу перемещение инициалов в {{lsafe}}: ''{{lsafe|А. А. Бахрушин|А. А. Бахрушин}}''''{{lsafe|Бахрушин, А. А.|А. А. Бахрушин}}''.
И вынос инициалов из {{razr2}}: {{razr2|Карский, Е. Ф.}}{{razr2|Карский}}, Е. Ф.. Заменить также в других местах?
  • Ещё надо бы обсудить оформление тире. По правилам русского языка, оно отделяется пробелами (если это не числовой диапазон). Но в скане БСЭ1 не так. Пишется вроде: 1920—34—45, где 34 неочевидно может быть как диапазоном лет 1920—34, а 45 — перечислением чего-то, так и только 1920 — год, а 34—45 перечислением чего-то. Сейчас я тире отделяю от года пробелами. Как лучше? --Vladis13 (обсуждение) 01:47, 6 декабря 2016 (UTC)[ответить]
Для "Бахрушина" просто сделана верная викификация ''{{lsafe|Бахрушин, Алексей Александрович|А. А. Бахрушин}}''. Автоматически, вероятно, этого не сделать.
Инициалы из razr2 я выношу последовательно, т.к., вроде, это лучше смотрится и соответствует скану. Если можно это обработать ботом, то было бы неплохо.
Оформление тире, в общем случае, нужно определять исходя из контекста. В принципе, правила времен БСЭ1 для тире, вроде, соответствуют современным. Однако распознанное "1920—34—45" может означать в действительности как "1920 — 34—45", так и "1920—34 — 45", или даже "1920—34—45", нужно смотреть индивидуально по контексту, какие диапазоны имеются в виду. -- Badger M. (обсуждение) 07:06, 6 декабря 2016 (UTC)[ответить]
В скане БСЭ1 по тире старые правила. Они вообще между годами и последующими числами перечислений чего-либо не отбиваются пробелами. Например, в скане Баскунчакское озеро (том 5): 1914—484,9; 1919—655,2; 1920—70.5. Викификатор пробелы убирает между числами, не учитывая контекст. Я пробелы с тире заворачиваю в <nowiki></nowiki> чтобы не викифицировались. Но может оставить как в скане? --Vladis13 (обсуждение) 07:46, 6 декабря 2016 (UTC)[ответить]
Вероятно, это сделано для сокращения объема. Есть примеры в том же 5 томе, где отбивка тире видна, хотя в массе случаев ее не видно. Поэтому, на мой взгляд, нужно исходить из контекста и можно руководствоваться современными правилами [в первом приближении] -- тогда получится единообразно. -- Badger M. (обсуждение) 08:27, 6 декабря 2016 (UTC)[ответить]

«Проект БСЭ1» и порядок в оформлении обсуждений[править]

@Zhuvv63 поскольку создан Викитека:Проект:БСЭ1 возможно стоит перенести соответствующие обсуждения (вместе с архивом) отсюда туда. Или там вместо страницы обсуждения сделать перенаправление на эту страницу. Путаница очевидно помешает новым участникам понять куда обращаться с вопросами и предложениями.

Также, у нас залиты черновики со статьями, содержащие тексты нарушающие АП. Поскольку, как я вижу, в работе они так и не применялись, а правила строго запрещают подобные нарушения, в том числе выложенные не в основном пространстве, возможно стоит удалить их. --Vladis13 (обсуждение) 10:15, 1 марта 2017 (UTC)[ответить]

Спасибо Владис13, что на забываете проект БСЭ1. === По наведению мелкого порядка в проекте - это к Баджеру М. === Тем более новых участников у нас пока немного (вообще нет). Пытаемся из ВП привлечь, делая из статей ВП ссылки на БСЭ1. А недавно OpenVoid вернулся. И сразу в бой ринулся на сообщество ВП (я до сих пор в шоке) - обсуждали Авторские права на БСЭ1 - OpenVoid вчера "дошел" до издательства "Большая Российская Энциклопедия", сделал явный запрос о статусе статей БСЭ1. Вы следите за той перепалкой? В связи с этим возможна ревизия того, чем мы тут занимаемся. === Да, моё мнение, лучше черновик 25-го тома удалить. Остальные черновики нормальные. === А можете ли Вы из файлов подготовленных томов опубликовать только короткие статьи (с чисткой файлов-черновиков от этих статей)? Логически ботозаливка нужна именно для коротких статей - с ними вручную нудно кнопки нажимать. Предполагаю - тысячи полторы таких статей наберется. Чтобы хоть как-то эти тома двигать. --ЖуковВВ (обсуждение) 10:40, 1 марта 2017 (UTC)[ответить]
Я с участником Badger M. не общаюсь, по решению на форуме. По истории правок страницы проекта её создание согласовано с участниками, т.ч. перенёс. --Vladis13 (обсуждение) 12:30, 1 марта 2017 (UTC)[ответить]
Не, за этим обсуждением в ВП не слежу.
По ботозаливке коротких статей со снятой меткой в заголовке (#Запуск программы ботозаливки из технологических страниц томов БСЭ1), да, видимо стоит залить. Но обещать не буду. У меня из-за личных обстоятельств (здоровье) вообще участие в проекте висит под постоянным вопросом, поэтому за долгие задачи стараюсь не браться. --Vladis13 (обсуждение) 12:30, 1 марта 2017 (UTC)[ответить]
@Zhuvv63 уточните, залитые вами черновики 25-го тома удалить? Там удалены нарушения АП? --Vladis13 (обсуждение) 12:42, 1 марта 2017 (UTC)[ответить]
  • @Vladis13. Кроме моего варианта 25-го тома, были ещё Ваши варианты (после FineReader-а). Но ни один вариант мы вручную не обрабатывали. Мой - смело можете удалять. Я дома периодически пытаюсь по тексту 25-го тома словник скриптами составить. --ЖуковВВ (обсуждение) 14:33, 1 марта 2017 (UTC)[ответить]

@Zhuvv63 Так словник 25 есть же, закомментированный в викикоде Викитека:Проект:БСЭ1/Словник/25. Я делал по OCR. С пагинацией по страницам скана, можно будет потом по страницам книги или колонкам пересчитать. --Vladis13 (обсуждение) 16:57, 1 марта 2017 (UTC)[ответить]

Запуск программы ботозаливки из технологических страниц томов БСЭ1[править]

@Vladis13, Badger M. Здравствуйте, уважаемые коллеги. У нас несколько снизилась активность работ по редактированию технологических страниц томов БСЭ1. Может быть завершим проделанную в прошлом году работу созданием страниц БСЭ1 в основном пространстве Викитеки? Мы договаривались, что снятие отметки в заголовке статей будет сигналом готовности статьи. Это осталось недоделанным. Ждать, когда кто-то придет и сделает полную проверку этих текстов, значит "заморозить" сделанное на много лет. Предлагаю выложить статьи с качеством "3", если отметка готовности еще не снята, и с качеством "4" если отметка снята. Жаль, идеальный вариант работы с полной вычиткой не получился, но проделано достаточно много. --ЖуковВВ (обсуждение) 11:00, 14 января 2017 (UTC)[ответить]
Возражаю против заливки статей из черновиков без отметки готовности. Качеству "3" эти статьи в массе своей не соответствуют, реально там качество варьирует вплоть до оценок "0" и "1" или хуже, вплоть до явного мусора. Никакого обоснования форсированной загрузки подобных статей нет. Тот факт, что проект растянут во времени -- это реальность, которую следует принять (при малом количестве в нем участвующих). Если нет способа сделать загрузку качественно, то нет смысла и плодить халтуру. -- Badger M. (обсуждение) 11:14, 14 января 2017 (UTC)[ответить]
Спросите на форуме приведя черновики, пусть другие участники оценят готовность к заливке.
Вобщем, выглядит прилично. Но есть, грубо говоря 5 % где явный мусор. И наверно много статей с опечатками, которые могут вызвать серьёзные проблемы у читателей, доверяющих Викитеке. А если кто-то будет копировать статьи (как, например, очень большая часть статей Википедии является заливкой статей ЭСБЕ), а те потом будут заливаться в Викиданные (как случилось с перезаливкой ЭСБЕ в Википедии), то ошибки размножаться и кто потом отвечать за это будет? Вон например проблема, которая вообще тихий ужас, — наверно десятки и сотни тысяч персоналий, у которых уже в Викиданных (т.е. транслируются во все вики-проекты на всех языках) указаны даты рождения по старому стилю, как по современному, ибо копировались из ЭСБЕ… Я за такие заливки отвечать не хочу, ибо сам постоянно участвую в жёстких спорах в Википедии, основываясь на источниках в Викитеке. И регулярно делаю в Википедии массовые переименования категорий и статей, где поправки лишь одной буквы/опечатки.
Т. е. качество 4 или 3 — только на вычитанных статьях. Для заливки условно проверенных, которые без метки «#» в заголовке — только 0—2. Заливка непроверенных — только если будет решение сообщества, с качеством 0 и может с доп.уведомлением, что текст не проверен. --Vladis13 (обсуждение) 11:30, 15 января 2017 (UTC)[ответить]
Способ работы со статьями БСЭ1 по томам оказался, на мой взгляд, слишком "тяжелым". Разные участники предъявляют разные требования к качеству текста. А идеальное состояние требует пословного сравнения со сканированным вариантом. К сожалению, в системе Викитеки для БСЭ1 нельзя сделать постраничного отображения распознанного и сканированного текста из-за авторских прав, а другие варианты неудобны в работе. Предлагаю довести до ботозаливки ранее обработанные тома (2...8), и завершить этот эксперимент. --ЖуковВВ (обсуждение) 03:26, 21 января 2017 (UTC)[ответить]
Капитально прошелся по тому 2. 1) Оформил большинство ссылок на другие статьи (lsafe). 2) Убрал явные "абра-кадабры" в словах. 3) В коротких статьях убрал знак неготовности (#), т.к. там и без сравнения со сканированным текстом правильность очевидна. 4) В остальных статьях к признаку неготовности добавил цифру (1, 2, 3) степени готовности. Предлагаю том 2 к ботозаливке. --ЖуковВВ (обсуждение) 03:26, 21 января 2017 (UTC)[ответить]
Насчет "качества": вероятно, действительно относительно его понимания есть разногласия. Я взял почти наугад две из ваших свежезагруженных статей БСЭ1/Ватт, Джемс и БСЭ1/Вафангоу. В обеих мне пришлось исправлять довольно явные изъяны оформления, однако, вами почему-то было проставлено качество 4 в этих статьях. Поэтому, полагаю, что ваше понимание качества оформления и вычитки не является вполне адекватным.
По поводу черновика тома 2: общее качество вычитки все еще на низком уровне (сразу бросается в глаза: "меныневистско", "Оба здаСтолпообразная"). Простановкой заглушек для изображений (img), похоже, вообще еще никто не занимался.
Пока мы не придем к единообразному пониманию "качества", думаю, рассмотрение ваших предложений по ботозаливке бессмысленно. -- Badger M. (обсуждение) 08:30, 21 января 2017 (UTC)[ответить]
ОК. Простановка качества "4" для меня не принципиальна. В следующих выложенных статьях будет не более "3". Заглушки для изображений тома 2 поставлю. Опечатки, типа "меныневистско", "Оба здаСтолпообразная" выискивать выше моих сил. Как нам дело до ботозаливки довести в обозримые сроки хотя бы одного тома? --ЖуковВВ (обсуждение) 08:47, 21 января 2017 (UTC)[ответить]
По идее, нужно довести/вычитать черновик какого-нибудь тома до такого качества, когда косяки не бросаются в глаза (а все запланированные обработки над черновиком проведены). Чтобы упростить задачу, лучше было бы взять том "покороче": из имеющихся черновиков это т. 2; потенциально, наверное, том 9 тоже не оч. большой должен быть. -- Badger M. (обсуждение) 09:00, 21 января 2017 (UTC)[ответить]
PS. Посмотрел еще некоторые статьи из вашей загрузки: даже качеству 3 они, имхо, не соответствуют -- почти везде либо явные изъяны оформления, либо явные неисправленные ошибки сканирования. Максимум их качества -- это в лучшем случае 2. -- Badger M. (обсуждение) 10:38, 21 января 2017 (UTC)[ответить]
Замечания принимаю. Перехожу на качество "1". Прошу показать, в каких хелпах критерии простановки качества описаны. Сам не нашел. --ЖуковВВ (обсуждение) 10:42, 21 января 2017 (UTC)[ответить]
Ни в каких не описаны. Если есть претензии, обращайтесь к другим участникам. -- Badger M. (обсуждение) 10:54, 21 января 2017 (UTC)[ответить]
В документациях шаблонов упомянутых в теме чуть ниже, там вверху. 2 = 50% и т.д. Качество 3 — это "законченные работы с исправленными ошибками и правильно оформленные". Поэтому не вычитанные статьи, +с отсутствующими иллюстрациями и не проставленными пометками о них, качеству 3 явно не соответствуют. --Vladis13 (обсуждение) 16:32, 21 января 2017 (UTC)[ответить]
Поднимите вопрос на форуме. Я бы например "за" заливку, но с обязательными пометками, которые упомянул выше. --Vladis13 (обсуждение) 16:32, 21 января 2017 (UTC)[ответить]

@Zhuvv63 давайте ещё раз уточним. вот в этой последней версии тома 2 — отметка «#3» — это вы вычитали и стоят заглушки иллюстраций {{img}}? А в тех где вообще сняты отметки — там идеально вычитано, кроме упомянутого проверенны латинские (и др.) термины, нет опечаток? Т. е. претензия на качество 4? Или тоже на качество 3? --Vladis13 (обсуждение) 19:32, 4 марта 2017 (UTC)[ответить]

Ставить цифры качества - это было моё предложение. Никто спорить не стал (может просто никто не заметил). По публикации 2-го тома - Баджер М. рекомендует сначала картинки (или заглушки) поставить по всему тому. На картинках я и завис: jpg-aайлы сделать легко, а правильно на Викисклад положить - методички не хватает (в прошлом году Вы же мучались со мной, переделывали). Над методичкой - думаю. А пока предлагал Вам ботом выбрать для публикации короткие статьи (например с кол-вом символов < 300, гарантированно без картинок), и их выложить. Общество Вам спасибо скажет. А в оставшихся статьях потом когда-нибудь ссылки на изображения добавить. --ЖуковВВ (обсуждение) 05:45, 5 марта 2017 (UTC)[ответить]
На Викисклад можно загружать файлы не заполняя по-новой каждый раз мышкой форму (это долго и муторно). Там можно сразу готовый викикод вставлять, в котором уже прописаны категории/лицензии и прочее. --Vladis13 (обсуждение) 15:15, 5 марта 2017 (UTC)[ответить]
(комментарий): Картинки добавлять я не предлагал, а лишь заглушки (разница все же существенная с практической точки зрения). А необходимость так или иначе указать на присутствие изображения уже прописана в руководстве Викитека:Проект:БСЭ1/Как создавать статьи из БСЭ1 в Викитеке. -- Badger M. (обсуждение) 05:51, 5 марта 2017 (UTC)[ответить]
= По картинкам - я всё-таки намереваюсь сразу картинки вставлять (а не заглушки), чтобы два раза не проходить по всему тому. Пока не могу из-за командировки. Если Баджер М. сейчас живет в Нижнем Новгороде, то можно встретиться :) = По заливке коротких статей - любезный Vladis13 теоретически готов запустить самого быстрого бота. У кого будут возражения? = Предлагаю продолжить подготовку статей томами. Только теперь после первоначальной типовой правки - все короткие статьи сразу публиковать, а продолжать работать только со средними и большими. Будет проще, т.к. будет виден прогресс в работе. --ЖуковВВ (обсуждение) 06:32, 5 марта 2017 (UTC)[ответить]
Имхо, расставить заглушки картинок было бы быстрее. Корпус статьей стал бы формально готов к заливке по этому параметру. А потом уже по настроению картинки заливать, или вычитывать-проверять, и темы статей и том любой выбрать по настроению. А если возится с каждой статьей - то это долго, другие формально не готовы к заливке из-за картинок, даже если вычитаны. (Ведь зальёш без картинок сотни-тысячи отдельных страниц, а потом как гоняться за ними тем кто захочет картинки залить. А по заглушке можно всегда их список увидеть для простого доступа.) --Vladis13 (обсуждение) 15:41, 5 марта 2017 (UTC)[ответить]
Что значит "заливке коротких статей"? Такого уговора не было. Было соглашение: заливать проверенные. Если кто-то будет "проверять и заливать", то к этому вопросов нет. А непроверенные, даже "короткие", полагаю, нет смысла заливать ботом, так как это потеря в качестве. -- Badger M. (обсуждение) 06:47, 5 марта 2017 (UTC)[ответить]
Посмотрите, у нас большой процент статей-перенаправлений, статей, умещающихся в одну-две строки. Вот их то мы и можем после первых формализованных редакций файлов (викификация, опечатки, орфография и т.п.) томов отфильтровать и опубликовать, чтобы затем оставшиеся статьи более подробно редактировать. Всё логично. --ЖуковВВ (обсуждение) 07:08, 5 марта 2017 (UTC)[ответить]
Ну, это уже детали индивидуальной организации работы. Если они укладываются в ранее обсуждавшуюся схему с обязательной проверкой/контролем качества перед заливкой, то нет вопросов. -- Badger M. (обсуждение) 07:16, 5 марта 2017 (UTC)[ответить]
Теперь ждем действий от коллеги Vladis13 - когда он обработает файлы, посмотрим, что получилось и сделаем окончательные выводы об успешности нашей методики. С Богом! --ЖуковВВ (обсуждение) 09:59, 5 марта 2017 (UTC)[ответить]
Ответа я так и не получил — вычитаны ли статьи с которых отметки были сняты или заменены на «#3»? --Vladis13 (обсуждение) 15:09, 5 марта 2017 (UTC)[ответить]
Заливать короткие статьи-перенаправления было предложено Badger M. в теме ниже (коммент от 21:51, 18 ноября 2016): «Для простейших случаев, вроде перенаправлений, думаю, все более-менее понятно. Например, можно считать приемлемым и точно готовым для загрузки оформление типа». Все поддержали, поэтому с них была снята метка как с готовых к загрузке, и с тех пор по ним возражений не было.
Поэтому предлагаю так. 1) Временно отменить последние правки томов со сменой/удалением отметок. 2) По предыдущему консенсусному варианту залить эти короткие статейки. 3) Далее вернуть/не вернуть правки обратно (по результатам этого обсуждения).
Викифицировать заголовки, заменив на вики-ссылки — сразу по красным/синим ссылкам будет видно, какие статьи уже залиты. --Vladis13 (обсуждение) 15:09, 5 марта 2017 (UTC)[ответить]
(комментарий): Вынужден прокомментировать, так как в очередной раз неверно интерпретируются мои реплики: ".. Заливать короткие статьи-перенаправления было предложено Badger M. .." [неверно]. Моя реплика не содержит предложения о заливке, а касается лишь изложения требований к качеству оформления коротких статей, в принципе готовых для заливки (оценочно). Если имеются сомнения в адекватности изложенной мною интерпретации, пожалуйста обратитесь к нейтральным участникам. [К сожалению, уч. Zhuvv63 тоже, бывает, переиначивает смысл моих реплик.]
Насчет текущего состояния проверенности/непроверенности конкретных статьей в черновиках (актуальности отметок) я не имею представления, так как давно не следил за состоянием работы над черновиками. Соответственно, за конкретную реализацию заливки и ее исход ответственности нести не могу. -- Badger M. (обсуждение) 15:38, 5 марта 2017 (UTC)[ответить]
От фразы «можно считать приемлемым и точно готовым для загрузки оформление типа: [примеры]» — не отказываетесь? Если так, то другие участники согласились с этим, и дальше см. мою пред. реплику. --Vladis13 (обсуждение) 15:47, 5 марта 2017 (UTC)[ответить]
Разумеется, не отказываюсь. Моя реплика относилась исключительно к примеру, некоторому образцу.
К инициированию же конкретной загрузки и определению актуального качества статей в черновиках на текущий момент я отношения не имею [за исключением, конечно, своих (ранее сделанных) правок в черновиках, смысл и качество которых следует рассматривать отдельно]. -- Badger M. (обсуждение) 16:01, 5 марта 2017 (UTC)[ответить]
Ок, спасибо за уточнение. Тогда готовлюсь реализовать эту задачу. (Напомню, что метки были сняты как в этих консенсусных примерах, см. в моей реплике в теме ниже 23:44, 18 ноября 2016 вторую строку.) --Vladis13 (обсуждение) 16:31, 5 марта 2017 (UTC)[ответить]
  Залил короткие поставив качество «3», и убрал их из текстовок. Получилось по 30-80 статеек с каждого тома. --Vladis13 (обсуждение) 06:58, 7 марта 2017 (UTC)[ответить]
Остальные во 2-м томе со снятыми отметками не трогал. Раз так и не понятно, вычитывались они или нет. --Vladis13 (обсуждение) 06:58, 7 марта 2017 (UTC)[ответить]

Переименование Ага[править]

Предлагаю переименовать БСЭ1/Ага, титул в Турции в "Ага, на Востоке", а БСЭ1/Ага, вид жаб в "Ага, зоологический вид" "Ага, ботанический вид" по причине и некоторой небрежности допущенной при составлении словника. — Это неподписанное сообщение было добавлено Openvoid (обс · вклад

Я сам придерживаюсь такой логики именования при уточнении (несколько иной), когда уточняемая часть наименования берется непосредственно из текста самой статьи (преамбулы статьи). Только в том случае, когда описанный способ по каким-то причинам затруднительно или невозможно применить, тогда именование производится из некой общей логики с использованием слов/терминов, отсутствующих в тексте самой статьи.
Применительно к конкретным двум статьям, соответственно, исходя из описанной логики, я бы сказал, что переименование не требуется. Я не то чтобы сильно против переименования, но мне не совсем понятна его логика. -- Badger M. (обсуждение) 16:16, 4 марта 2017 (UTC)[ответить]
Я не сразу, но в какой то момент пришел к выводу, что использование дословных цитат из преамбулы, не то что бы плохо, но "не нравится". Наверное основным критерием при этом является то, что при столь удаленном во времени источнике, преамбула термина может быть описана или слишком кратко или выделять не существенные на данный момент детали. Для сравнения w:ru:Ага (титул) при не удачном названии в целом достаточно полно раскрывает суть понятия. И ЭСБЕ/Ага, на Востоке и название удачно, и содержание хоть Уже, но в целом верно на тот исторический момент. Таким образом я пришел к мысли, что для названий синонимичных статей, дословную цитату можно использовать лишь когда лучше не скажешь, иначе делать усилие и порождать нечто не дословно повторяя преамбулу. Openvoid (обсуждение) 20:53, 4 марта 2017 (UTC)[ответить]
Уточню свою логику: даже используя слова из преамбулы, можно выбрать те или иные, и критерий выбора лучшего сочетания показывает, что понятие существует отдельно от слов его описывающих, и поэтому ограничиваться лишь дословно преамбулой не вполне корректно с моей точки зрения. Openvoid (обсуждение) 21:50, 4 марта 2017 (UTC)[ответить]
Если брать слова из статьи (преамбулы), то это с практической точки зрения намного проще, чем подробно анализировать употребление понятия на тот момент, что для поточного заполнения словника немаловажно. Кроме того, произвол в наименовании, на мой взгляд, никак не уменьшается в предложенной вами схеме, скорее наоборот [например, характеристика "зоологический вид" мало отличается от "биологический вид"]. Согласен, определенный произвол есть и в способе с использованием слов из самой статьи, но это все же ближе к логике, диктуемой непосредственно самим источником (вероятно, это более отвечает политике Викитеки по возможности приводить источники в "оригинальном" виде). -- Badger M. (обсуждение) 05:28, 5 марта 2017 (UTC)[ответить]
В общем, "оригинальный" вид относится к содержательной части статьи, а URL и title и так искажены элементами простанства имен. В любом случае, это лишь вишенка на торте и я готов скорректировать свое отношение к случаям "средней" сложности в пользу вашей позиции, иначе действительно можно потонуть в спорах в каждом отдельном случае. Т. о. "жаб" снимаю с повестки дня, а "титул" отношу к случаю некорректного позиционирования в множествах понятий предмета статьи, которых там описано ровно 2, поэтому я считаю корректировка необходима. Openvoid (обсуждение) 11:35, 5 марта 2017 (UTC)[ответить]
Ну, переименовывайте, если хотите. Я просто обрисовал положение: получается, что общий подход к именованию в подобных случаях пока отсутствует в проекте. Или попробуйте, например, дополнительно проконсультироваться у уч. Lozman’а. Он в проекте БСЭ1 не участвует и к этому обсуждению вряд ли присоединится, но по факту у него есть большой опыт в составлении различных словников. -- Badger M. (обсуждение) 12:08, 5 марта 2017 (UTC)[ответить]
Я тоже высказал свое мнение на ситуацию, и принял ваш аргумент, что для случаев "средней" сложности ваш подход более целесообразен в отношении меньшего возможного произвола. Мое стремление к прекрасному конечно похвально как инициатива, но в коллективном проекте действительно общий подход имеет самостоятельную ценность, к пониманию которого мы и подходим в этой дискуссии. Openvoid (обсуждение) 00:43, 6 марта 2017 (UTC)[ответить]

Заливка тома 2[править]

Перенесено со страницы Обсуждение участника:Vladis13

Я прошел по 2 тому, где получилось, поставил заглушки рисунков. Формулы химические не стал пока трогать, позже посмотрю как удобнее их вставлять. Видимо, можно заливать тексты по статьям. Вопросов там много ещё, но править удобнее в форматированном виде. --Egor (обсуждение) 04:59, 17 марта 2017 (UTC)[ответить]

перенесено в #Формулы
Ок, в ближайшее время залью. Посмотрел текстовку, формулы почти все битые. После заливки надо будет ботом категоризовать статьи для последующей проверки, которые содержат лексемы похожие на химич. формулы (латиницей «CH», «CO» и т. п.). --Vladis13 (обсуждение) 18:27, 21 марта 2017 (UTC)[ответить]
Также проверить статьи, где отдельные или отделены латин. буквы («Mar vell, Marve l l, Marve 1 1»), и среди букв вкрапления не-алфавитных символов. --Vladis13 (обсуждение) 07:58, 22 марта 2017 (UTC)[ответить]
(комментарий): В наст. время, имхо, не все статьи, помеченные "#3", соответствуют "качеству = 3". Не знаю уж, как их проверяли, но по всей видимости, вычитка целиком не производилась. (Взял статью "Альперович, Евгений Маркович #3" -- при вычитке обнаружились неточности в пунктуации.) -- Badger M. (обсуждение) 03:21, 22 марта 2017 (UTC)[ответить]
Согласен, заливать с качеством «2», не больше. Имхо в целом качество приемлимое. Хотя плохо, что попадаются ошибки в значимых данных (формулах, терминах, фамилиях), которые простой проверкой орфографии в принципе не найти. Но для сравнения, в Викитеке выложено много невычитанных изданий. Практически все словари/энциклопедии, выложенные в интернет на крупнейших специализированных сервисах не соответствуют в полной мере печатным источникам (опечатки, оформление и прочее). Т. е. стоит выкладывать на таком же уровне, но затем, для чего и нужна технология вики, улучшать эти тексты. --Vladis13 (обсуждение) 07:52, 22 марта 2017 (UTC)[ответить]
Когда сделаем сканированные страницы томов, тогда будет легче при любом подозрительном случае, быстро просмотреть оригинал. Сейчас листать pdf-файл для каждой статьи слишком нудно. --ЖуковВВ (обсуждение) 14:36, 22 марта 2017 (UTC)[ответить]
(мнение) Я лично пока против заливки отдельных сканов страниц в принципе, так как работы от этого добавляется по текущему состоянию очень много, а преимущества не сильно велики [активные участники могут и пролистать pdf, а вот правок от участников со стороны с исправлениями БСЭ1 я еще не видел]. По крайней мере, ссылка на скан не должна быть вручную добавляема в шаблон каждой статьи, как это сейчас сделано, а должна быть реализована в [полу]автоматическом режиме [в других проектах, напомню, привязка к сканам делается через словник]. -- Badger M. (обсуждение) 14:57, 22 марта 2017 (UTC)[ответить]
(замечание): На всякий случай: там и словник не мешало бы еще раз проверить на соответствие печ. оригиналу. Бегло просматривая, обнаружил несколько несоответствий [2]. -- Badger M. (обсуждение) 08:50, 22 марта 2017 (UTC)[ответить]
  Залито. Текстовка пока сохранена, может пригодится, позже удалим. Статьи с ошибками можно найти в этой категории (в основном это «сироты» не связанные со словником 2-го тома), и некоторые помечены шаблоном {{TODO}}. После вычитки статей пожалуйста меняйте в них параметр КАЧЕСТВО на «3» или «4». --Vladis13 (обсуждение) 14:56, 22 марта 2017 (UTC)[ответить]
Свершилось. Сколько штук добавилось? Теперь можно даже процент готовности БСЭ1 подкорректировать. --ЖуковВВ (обсуждение) 14:59, 22 марта 2017 (UTC)[ответить]
~652. --Vladis13 (обсуждение) 15:13, 22 марта 2017 (UTC)[ответить]

Ссылки на Википедию из шапок при ботозаливке[править]

Есть следующее замечание: всех ли устраивает добавление ссылки из заливающихся статей на Википедию в бото-режиме с помощью "Special:Search"? Потенциально, на самом деле, это означает, что ссылки на ВП в залитых статьях могут содержать ошибки (примером является схожая практика в ЭСБЕ, где поиск был включен "по умолчанию", но все ссылки, естественно, не проверялись на релевантность). Альтернатива -- не добавлять ссылок на ВП при заливке. -- Badger M. (обсуждение) 15:08, 22 марта 2017 (UTC)[ответить]

Имхо, ссылка очень удобна. Она сразу даёт статью ВП при её наличии, или поисковик если есть неоднозначность. Например: в БСЭ1/Алтынсарин → сразу соотв. статья, из неоднозначной статьи БСЭ1/Альб сразу на неоднозначность ВП, а в БСЭ1/Амфибии, в зоологии (это в общем пример «ошибки» в названии) на поисковик со статьей о земноводных в выдаче. --Vladis13 (обсуждение) 15:28, 22 марта 2017 (UTC)[ответить]
Под «ошибками» я имел в виду реальные ошибки в виде нерелевантных ссылок. Примеров пока привести не могу, не смотрел подробно, но по опыту ЭСБЕ могу сказать, что они практически неизбежны (т.к. релевантность ссылок не проверялась при бото-заливке). -- Badger M. (обсуждение) 15:51, 22 марта 2017 (UTC)[ответить]
@Badger M. А надо ли, при вычитке статьи проверять соответствие ссылки на ВП реальному названию в ВП? И если названия совпадают, то удалять "Special:Search"? --ЖуковВВ (обсуждение) 15:56, 22 марта 2017 (UTC)[ответить]
Если ссылка нерелевантна, то надо ее исправлять [исходя из здравого смысла]. Остальное, видимо, зависит от ситуации, определенно не сказать. -- Badger M. (обсуждение) 16:02, 22 марта 2017 (UTC)[ответить]
Сейчас занимаюсь в Википедии добавлением обратных ссылок на статьи 1-го тома БСЭ1. Примерно в 7...10% статей названия или не соответствуют современным, или надо перенаправление делать. Спасибо Баджеру M., "Special:Search" сильно помогает разобраться. --ЖуковВВ (обсуждение) 15:49, 22 марта 2017 (UTC)[ответить]

Заливка тома 4[править]

Произведения в нескольких редакциях на одной странице[править]

Викитека:Форум#Произведения в нескольких редакциях на одной странице. --Vladis13 (обсуждение) 12:49, 25 марта 2017 (UTC)[ответить]

Различия редакций БСЭ1[править]

  • Внеся последнюю правку в тот текст, я гарантирую авторитетом своего превдонима, что по крайней мере в первых 4 томах, я обнаружил в выходных cвоих экземпляров данных слова "ДОП. ТИР.", когда и если другие участники сообщат иные сведения, текст можно будет уточнить. Openvoid (обсуждение) 15:04, 30 марта 2017 (UTC)[ответить]
  • Викитека:Проект:БСЭ1#Дополнительный тираж Предлагаю убрать из текста раздела предложение со ссылкой на "ООО «СИЭТС»: Бука", так как пользователю для сравнения имеющегося у него варианта pdf-томов БСЭ1 с рекомендуемым придется покупать DVD-диски. Если уж в сети так и так размещены сканы томов БСЭ1, то давайте определимся со ссылкой на какой-либо ресурс, чтобы скачав оттуда образец, можно было понять, что за вариант БСЭ1 у тебя находится. --ЖуковВВ (обсуждение) 03:27, 29 марта 2017 (UTC)[ответить]
  • Убирать ссылку на сайт РГБ с информацией о CD-издании Буки считаю бессмысленным, так как объективных причин это делать не было приведено [проблема с "купить" в расчет не принимается, так как получение в свое распоряжение многих опубликованных источников также подразумевает под собой "купить" (если иного практического способа нет)].
    Относительно ссылок на другие ресурсы проблема состоит в том, что, вообще говоря, затруднительно гарантировать, что за сканы находятся на этих ресурсах [т.е. есть определенная проблема в определении авторитетности ресурса, как выше было в целом отмечено уч. Openvoid]. Оценочно я могу, видимо, предположить, что все сканы БСЭ1 в интернете в конечном счете были взяты именно с CD-издания Буки (65 томов; за исключением доп. тома "СССР"), но полной гарантии не могу, естественно, на это дать [т.е. это лишь некоторое предположение]. -- Badger M. (обсуждение) 05:04, 29 марта 2017 (UTC)[ответить]
  • Согласен, что нет доказательств будто изданием «Буки» пользуются все участники, судя по всему им пользуется (?) только уч. Badger M. Я пользуюсь изданием с торрента, а там во 2-м томе на обороте титула указано «Доп. тираж 25000». Других сканов БСЭ1 в интернет на торрентах я не нашёл, поэтому гипотеза будто «все сканы в интернет из „основного тиража“ „Буки“» крайне сомнительна. --Vladis13 (обсуждение) 05:27, 30 марта 2017 (UTC)[ответить]
  • Ну, допустим, есть какие-то сканы на торрентах не с CD-издания «Буки». Однако, доказательств того, что все до одного сканы там оригинальные, а не взяты с CD-издания, также не представлено.
    Ну и, по большому счету, это мало что меняет. Что конкретно-то предлагается? Взять за основу непонятной авторитетности сканы с торрента? Это следует обосновывать. А в отсутствие обоснования другого варианта кроме как использовать на практике в качестве основы издание «Буки» я не вижу. Кроме того, есть еще сканы на Google Books, которые можно использовать для фрагментарного сравнения текста. -- Badger M. (обсуждение) 05:54, 30 марта 2017 (UTC)[ответить]
  • Где приведены обоснования, что у «Буки» именно основной тираж, причём желательно по каждому тому? Например, на Google Books выложен доп.тираж, по крайне мере у 1-го тома. Есть неоднозначности, см. комменты ниже. --Vladis13 (обсуждение) 19:12, 30 марта 2017 (UTC)[ответить]
  • Строгого обоснования этого нет. Впрочем, как вижу, обсуждение пошло в верном направлении, благодаря уч. Openvoid, касательно версионирования имеющихся сканов. Сканы на Google Books представлены, вообще говоря, в нескольких экземплярах, и, поскольку полноценный просмотр там в настоящее время отсутствует, могут быть использованы лишь в вспомогательных целях. -- Badger M. (обсуждение) 23:49, 30 марта 2017 (UTC)[ответить]
  • Бука умудрилась получить официальные выходные данные для того, что она явно где то стырила, как мне кажется, (хотя это весма вольное обобщение, глядя на свои файлы основного тиража). Это позволяет ссылаться на материал Буки. В рамках интернета у нас есть ровно 2 пути (и первый путь не исключает 2-й): свести воедино в список хэши файлов томов с тех источников, которыми мы пользуеся - и таким образом иметь возможность судить об их содержании, либо (именно в данном случае) заняться забелением своих материалов, а результат загружать на Викисклад. Вообще же - для несвободных файлов - хэш, для свободных - сам файл или свободные его части. Хранилище этих данных - версионированный архив. И гарантировано лишь то, что псевдоним Икс предоствил данные Игрек. Вера возможна лишь индивидуально к каждому псевдниму. Потому что только и так можно в интернете. И не иначе. (см. тут живой пример). / Я все же попыжился с недельку и выдал то что справа от сообщения. Openvoid (обсуждение)
  • > Сравнил раздачу с rutracker.org (она же позже на nnmclub.to, хотя хэши вроде разные) и с kinozal.tv. (Это самые авторитетные трекеры, других раздач БСЭ1 в поисковике по 300+ торрент-трекерам вроде нет, лишь дубли.) Размер файлов всех томов этих раздач идентичен (точность до десятых мегабайтов), вероятность конечно может быть, что были какие-то исправления и они уложились ~40 Кб на том, но это крайне маловероятно. В раздаче kinozal.tv отсутствует том «СССР».
> Отличается в этих раздачах только размер 2-го тома. Явно он взят из этой исправленной раздачи, где, кстати, подробно указаны различия тома в доп. и основном тиражах. Я сверил визуально по наличию исправленных страниц, и по размеру (230.8 Мб) — это так. Как выше писал, в этом томе отметка, что он из доп. тиража. PS: Сравнил подробней, похоже том тот же, просто в нём добавлены станицы, в частности титул, с указанием, что это доп.тираж. Признаки: а) на обложке идентичные помарки между словами «главный редактор», и пропечатка буквы «а» в «анри». б) При изменении формулировок и сокращений к концу тома неминуемо накопится смещение в положении букв. Однако, на последних страницах слова стоят идентично.
  • Про смещения более точно по 1-му тому: когда столбец "полыл" от правок, его коррекитровали другими сокращениями в других местах, часто укладываясь обратно к концу столбца, а уж к концу страницы так 100%. Openvoid (обсуждение)
> В 1-м томе в обоих раздачах в статье БСЭ1/Австразия написано «меров». По Викитека:Проект:БСЭ1#Дополнительный тираж в статьях в разделе внизу указывается основной тираж. Получается, что в этих раздачах все тома из основного тиража, кроме 2-го — он из доп. тиража. (Лучше конечно уточнить по каждому тому, по бумажному варианту.)
> На Google Books сканы не опубликованы, работает только поиск по слову. Там 1-й том похоже доп. тиража, ибо находится слово «мэров». Конечно авторитетность Гугл.букса (где сканировали тоже люди, причём неизвестно кто) и «Буки» подрывает, что они не удосужились уточнить тиражи. Неизвестно из каких тиражей у них каждый том. --Vladis13 (обсуждение) 19:12, 30 марта 2017 (UTC)[ответить]
  • google books ссылается как источник там винигрет из библиотек. По факту - любому подписчику мог достаться фарш из разных тиражей. Хотя я сомневаюсь, что тома доп. тиража могли быть после VI. Не могу утверждать что на заре google books не было возможность утянуть содержимое, что сейчас уже точно не так. Внимание интрига! С замиранием сердца жду подтвердится или нет факт, что Бука невобранно тиснула в своем издании 2012 нечто о чем в приличном обществе обычно не признаются :) Openvoid (обсуждение)
  • Прошу прощения, неверно воспринял сведения из выходных данных. 2010 - да, исключает возможность для ёрничания, примерно к этому времени относятся мои файлы. Судя по всему, Си ЭТС действительно тот источник, который мы все должны благодарить. Openvoid (обсуждение) 13:48, 31 марта 2017 (UTC)[ответить]
  • Честно говоря, совершенно не понимаю, на что вы намекаете и что тут может зависеть от даты издания дисков Буки. Если уж речь заходит о таких вещах, как "приличное общество", то, имхо, лучше выражаться более прямолинейно. -- Badger M. (обсуждение) 00:10, 1 апреля 2017 (UTC)[ответить]
> В Викитека:Проект:БСЭ1#Дополнительный тираж точное пояснение, что основной тираж пишется в нижнем разделе страниц? Уточните пожалуйста конкретней, какие маркеры доп.тиража у 1-тома? Пока невнятно, и следовательно делать вывод, что все тома (торрентов, «Буки», Гугл.букс…) принадлежат к этому тиражу, и пишутся на страницах в разделах либо выше, либо ниже — это путать читателей и ботов.
  • Однозначный маркер доп. тиража для I - на обороте титула фраза "ТОМ I Б. С. Э. ВЫШЕЛ 1 МАРТА 1926". Статьи с "Другой редакцией" создавал только я. С какого-то момента я последовательно давал сначала свой вариант, а ниже - основного тиража. Но мог напутать в некотором количестве ранних статей в 2014 (хронологически). Openvoid (обсуждение)
PS: Эту часть обсуждения, нужную для проекта БСЭ1, но вряд ли интересную другим участникам, позже перенесу на СО проекта. Надеюсь никто не будет возражать. --Vladis13 (обсуждение) 19:12, 30 марта 2017 (UTC)[ответить]