Обсуждение Викитеки:Проект:ТСД/Архив/2

Материал из Викитеки — свободной библиотеки
Перейти к навигации Перейти к поиску
Эта страница содержит завершившееся обсуждение. Не изменяйте её. Новое обсуждение можно создать на другой странице.
Stop hand nuvola.svg

Развитие/заливка словаря[править]

В продолжение темы на Википедия:Вниманию участников. Порыл интернет. В электронном виде везде выложено переиздание 1998 года (в современной орфографии, без графического оформления, с мелкими изменениями расположения слов) 2-го издания, инфа о нём. Судя по сверке некоторого текста, именно оно залито в викитеку. Других вариантов нет. (Хотя на сайтах попадалось нечто похожее на 3-е издание, но не проверял.) Создавать вручную (переписывать/выверять/вычитывать) каждое из 3-х основных изданий Даля, по несколько томов в каждом, по тысяче страниц в каждом, и создавать отдельные страницы для каждого слова (суммарно в 3х изданиях примерно 300 тыс. слов)… — это фантастика сродни межзвёздным перелётам. Это невозможно сделать для 1-2 иногда активных участников проекта.

Поэтому, лучше уже залитую близкую к оригиналу адаптированную версию пометить как не вычитанную (перелить в Индекс?), но она без оформления.

На «Яндекс.Словари» выложена частичная версия, с частично уже восстановленным графическим оформлением и разделением на отдельные словарные статьи. Судя по моей сверке некоторых фрагментов текста, это переформатирование вышеупомянутого издания. Возможно для многих случаев проще и быстрее будет не сверять с оригиналом с нуля, а скопировать с сайта html-код (заменив тэги оформления на википедийные в текстовом редакторе или спец.программой) и потом уже вычитывать. Вариант — выкачать версию с оформлением и рубрикацией по отдельным словарным статьям из «Яндекс.Словари», или другого сайта уже сделавшего это. Но это вопрос уже к ботоводам — существует несложный софт для выкачки сайтов, но не ясно как заливать в викитеку, тем более массово, с созданием страниц. --Vladis13 (обсуждение) 14:16, 19 июля 2015 (UTC)[ответить]

Одно другому не противоречит. Можно делать эти два дела параллельно (продолжать работу над отдельными статьями и улучшать ранее залитую версию). Проблема только в одном - предельно мало активных и заинтересованных участников. А здесь нужен был бы целый коллектив. Может быть надо дать объявление в проекте Википедия. В общем, подключайтесь. Добро пожаловать! Dmitrismirnov (обсуждение) 15:03, 19 июля 2015 (UTC)[ответить]
Прежде чем делать ботозаливку, нужно доделать ТСД/Словник, добавив все недостающие слова. Без полного словника ни один из ботоводов не возьмется. А доделывать его можно только вручную. Hausratte (обсуждение) 18:19, 19 июля 2015 (UTC)[ответить]
Если заливать отдельно второе издание, надо бы делать словник отдельно, назвав его, допустим ТСД2/Словник. Dmitrismirnov (обсуждение) 19:14, 19 июля 2015 (UTC)[ответить]
@Dmitrismirnov Поскольку вы объединяете в каждой статье ТСД/ все три редакции, то не вижу особого смысла в отдельных словниках по изданиям (тем более, что они на 90% будут дублировать друг друга и вести на одни и те же статьи). Будет замечательно, если вы закончите существующий словник — тогда можно будет предметно говорить о ботозаливке. Hausratte (обсуждение) 19:56, 19 июля 2015 (UTC)[ответить]
В разных редакциях словники весьма отличаются друг от друга. В этой электронной (по 2 изданию) всего 44 тысячи слов и они даны только в современной орфографии. (В 3 издании слов в где-то в 3-4 раза больше и многие статьи разделены на несколько). К сожалению почти во всех интернетных выкладках все слова написаны заглавными буквамм, что трудно приводить к нормальному виду. Я нашёл одно, правда нормальное, это здесь: http://slovonline.ru/slovar_dal/b-0/p-1/ (но неизвестно насколько он полный). Dmitrismirnov (обсуждение) 20:10, 19 июля 2015 (UTC)[ответить]
2-е издание в переиздании 1998 г. выложено на http://vidahl.ru (компания-оцифровщик, с которой оцифровка разошлась по интернету, приводит на сайте именно этот сайт). Лучше вариант — оригинал переиздания есть в формате .doc (торрент). Вроде регуляркой в текст.редакторе несложно скопировать из него список слов, сегодня сделаю. --Vladis13 (обсуждение) 13:55, 20 июля 2015 (UTC)[ответить]
Но у меня есть некоторые сомнения по поводу качества всех этих словарей - в них нет ударений и нет никакого нормального оформления... Dmitrismirnov (обсуждение) 20:15, 19 июля 2015 (UTC)[ответить]
@Dmitrismirnov Мне все равно не совсем понятно, почему нельзя использовать словник 3-го издания для заливки 2-го. Предположим, в словнике 2-го издания есть слова А, Б, В, а в словнике 3-го — слова А, Б, В и Г (где В и Г — это разбитая на части статья В из 2-го издания). Делается ботозаливка, создаются статьи А, Б и В, в которых указывается, что это 2-е издание. Впоследствии вы дополняете статьи А, Б и В 3-м изданием, при необходимости редактируете, добавляя ударения и т. д., и создаете статью Г. В чем именно проблема? Hausratte (обсуждение) 20:20, 19 июля 2015 (UTC)::[ответить]
Это большая работа. Одному не справиться, нужна серьёзная помощь. Списки нужно создавать отдельно, так как принцип их составления отличается от того, что используется в основных списках. Я называю здесь их так: В-доп, Г-доп, Д-доп, и т. д., где "доп" = дополнительный. Я создал полный список для буквы Э: Э-доп -- это можно уже "заливать". По этому примеру необходимо создать подобные списки для каждой буквы. Я сейчас работаю над списком для буквы Б: Б-доп. Списки можно брать, например, здесь: В Г Д, etc. Проблема в том, чтобы преобразовать прописные буквы в строчные: БУКВА в ТСД/Буква. Dmitrismirnov (обсуждение) 08:46, 20 июля 2015 (UTC)[ответить]
В текст.редакторе notepad++ регистр букв в тексте заменяется просто (меню > правка > пробраз.регистр). Подстановки типа «БУКВА» в «ТСД/Буква» делаются в том же редакторе регулярками. --Vladis13 (обсуждение) 13:55, 20 июля 2015 (UTC)[ответить]
В MS Word с текстом поудобнее, регулярки поддерживает; notepad++ вылетает - слишком большие файлы 16/30Мб. --Vladis13 (обсуждение) 06:10, 21 июля 2015 (UTC)[ответить]
В любом случае словники составлять необходимо. Если у Вас имеются эти программы, было бы весьма ценно, если бы Вы проверили и помогли с составлением этих списков. Пока что приходится их редактировать вручную. -- Dmitrismirnov (обсуждение) 16:04, 20 июля 2015 (UTC)[ответить]
Другой вопрос, надо ли для ботозаливки разбивать файл по словарным статьям на отдельные файлы для каждой? Или бот может брать из одного текстового файла, руководствуясь метками в нём. Надо ли конвертить текст в размеченный формат .csv, понимаемый наверно любым софтом и Excel? --Vladis13 (обсуждение) 13:55, 20 июля 2015 (UTC)[ответить]
Это, наверное, лучше на форуме ботоводов в ВП спрашивать, здесь вряд ли ответят. Сначала надо словники составить. Hausratte (обсуждение) 14:46, 20 июля 2015 (UTC)[ответить]
Загрузил словники: «СТРОЧНЫЕ БУКВЫ» и «ТСД/ЗаглавноСтрочные», вытащены из оригинального .doc файла, не с сайтов. Убраны названия-дубликаты, большая их часть в оригинале содержится в одной словарной статье, например «Ага» и «Ага»; могу сделать отдельным списком если надо (400 штук). В основном названия сделал как выделено жирным шрифтом в оригинале, например: в оригинале «Эбеновое дерево» — сделано «Эбеновое», «Абаз, абас» — соответственно оба слова, много вроде «Поглуздай-ка» — «-ка» убрано из названия. --Vladis13 (обсуждение) 06:10, 21 июля 2015 (UTC)[ответить]
Спасибо! Это очень ценно. Теперь надо подумать как совместить все эти варианты. Есть ли у Вас конкретный план действий? Dmitrismirnov (обсуждение) 11:10, 21 июля 2015 (UTC)[ответить]
Я хотел бы эту уже залитую и частью поправленную версию 2-го изд. скопировать в Индекс, пометив как «не вычитанную». Например, фрагмент включающий слово «лекарь» и соседние, на соответствующую страницу индекса в раздел «современная орфография».
По ботозаливке. Вроде есть хорошая функция заливки в AWB, проверил в ВП, но чтобы работало здесь — тоже нужен флаг AWB, и для массовых заливок — флаг бота. Вобщем, подумаю над созданием заявки на флаг, тогда выкачать каким-нить парсером с викитеки это частично поправленное переиздание 98года, сконвертить текстовку в файл CSV, и залить в индекс. --Vladis13 (обсуждение) 20:07, 21 июля 2015 (UTC)[ответить]
Подал заявку на получение прав AWB. --Vladis13 (обсуждение) 13:22, 22 июля 2015 (UTC)[ответить]
Я обнаружил, что в Ваш список проникли те же ошибки, что бытуют в интернете. Например: ТСД/Батвить —  во всех интернетных публикациях словаря напечатано Батвит —  ошибочно!!! я проверил по бумажным изд. первых трёх редакций. Dmitrismirnov (обсуждение) 11:18, 21 июля 2015 (UTC)[ответить]
Интересно, что это за "переиздание 1998 года" -- это бумажное или электронное издание? Лучше ли оно, чем то, что у нас уже здесь имеется? Проставлены ли там ударения. Для многих пользователей (в том числе для меня) словарь Даля без ударений в словах имеет мало смысла. Dmitrismirnov (обсуждение) 11:18, 21 июля 2015 (UTC)[ответить]
Электронной версии с проставленными ударениями не существует. Единичные ошибки вполне возможны, они были в самом doc-файле, часть поправил вручную, просто надо переименовать при сверке.
Сделаны дополнительные словники для букв Б, В, Г, Е и Э. Dmitrismirnov (обсуждение) 16:16, 21 июля 2015 (UTC)[ответить]

Совр.орфография от переизд. 1998 года по 2-му изданию[править]

Что за переиздание98 — писал в первом комментарии темой выше, именно оно залито в викитеку, Яндекс (у них дубликат - предисловие из .doc, причём издательство/год не указали), интернеты. Издание явно было бумажным, однако за давностью лет инфы не найти. Поиск выдаёт другое переиздание того же «Цитадель», 1998 — репринт 4-го издания Бодуэна. Видимо, они в тот год выпустили этот репринт, и адаптацию 2-го издания, по которому инфа затёрлась репринтом. Переиздание выложено в свободный доступ (см. данные ранее ссылки) на Яндексе и, как официально-бесплатный словарь, в коммерческой системе словарей Lingvo, да и сайта у издания давно нет (нет и в интернет-архиве). Даже имён авторов адаптации не сохранилось, не то что лицензионного соглашения. Искал по текстовым фрагментам переиздания98, вдруг этому издательству приписали чужую адаптацию, — нет, находятся только они. Вобщем, «все концы в воду». --Vladis13 (обсуждение) 20:07, 21 июля 2015 (UTC)[ответить]

  • Из предисловия к этой адаптации:

    При подготовке данного переиздания мы решили адаптировать Далев Словарь, исходя, в частности, из того, что вряд ли каждому из нас с вами по силам набрать слово для поиска не только в старой, дореформенной графике, но и в специфической орфографии В. И. Даля. Предлагаемая републикация выполнена на основе II издания (1880—1882 гг.) и не сохраняет графических и части орфографических особенностей издания. В нашей попытке приблизить текст к современным нормам мы соблюдали принципиальные требования автора. Характерные написания диалектных слов, авторская стилистика и пунктуация оставлены без изменений. В частности, позволив себе перерасположить словарные статьи в порядке современного алфавита, мы сохраняем написание и, соответственно, место некоторых словарных единиц, даже если это противоречит современным нормам в том случае, когда В. И. Даль пытался такой записью показать звучание или происхождение объясняемого слова. Рядом, в угловых скобках, мы поместили это же слово в нынешнем его виде, напр. шеромыжник <шаромыжник>.

    В предисловии Яндекса первая фраза изменена на «При подготовке этого электронного переиздания» и добавлены абзацы (2 предпоследних), про наличие оформления (жирный шрифт, курсив, петит), которое однако в версии Яндекса добавлено совсем немногим словам. // А вообще, у меня подозрение, что Яндекс забросил эту трудоёмкую работу. По многим словам словаря, яндекс не выдает ничего, хотя в основе были, наверно просто были удалены и никто не присматривает. --Vladis13 (обсуждение) 12:52, 22 июля 2015 (UTC)[ответить]

Ошибочные статьи[править]

Редакторы этого словаря весьма своевольно обращались с оригинальным текстом. Вот что я только что обнаружил

  1. ТСД/Батюшка Статьи с таким названием в оригинальных бумажных изданиях словаря Даля нет. Перенесено сюда редакторами интернетной версии 2 издания (1998) из середины статьи СНЕГ. прим. ред. Викитеки. Dmitrismirnov (обсуждение) 22:20, 21 июля 2015 (UTC)[ответить]
Это ошибка версии которая заливалась (похоже бралась отсюда), а не в самом переиздании98 — в doc-файле ошибки нет. (Вообще явная ошибка, ибо «батюшка» тут слово из одной поговорки, некорректно так называть целый раздел. В doc это абзац с новой строки, но как отдельная статья не выделен. Видимо они скриптом делали разделы деля по абзацам, а не по оформлению.) Обнаружил ещё несколько ложных статей, надо просто текст перенести в правильное место. (Эту перенёс.) --Vladis13 (обсуждение) 21:15, 29 августа 2015 (UTC)[ответить]
Также например в doc-файле данное предложение было разделено абзацем

Сидейки хаживали из Москвы в Сергиевскую
Лавру, до железной дороги. | Сиделка,

Но в интернет-версии слово "Лавру" скрипт посчитал отдельным термином, раз оно с нового абзаца, стало две статьи: обрезанная и "статья" Лавру.
Памятка: 1. При исправлении заголовков вносить изменения также в список Участник:Vladis13/СловникДаль 2-е изд.,переизд.1998 - Заглавные-и-строчные,сТСД,без дубликатов. После обработки, ещё раз сравнить имеющиеся в викитеке заголовки с данным списком, должны быть идентичны. 2. Также скорректировать ТСД/Словник, сделанный на его основе - по истории правок списка начиная со вчерашнего дня. Для ботозаливки.
  • Ошибочная статья Пола - отсканирована частично с текстом неизвестного происхождения. Статья Нос отсутствует в doc-файле, вроде на вид идентична скану. --Vladis13 (обсуждение) 07:53, 15 сентября 2015 (UTC)[ответить]

Соответствие переизданию или скану?[править]

@Dmitrismirnov Заметил вы приводите переиздание98 в соответствие со сканом ТСД. Кое-где меняете служебные слова в современном написании на то как они были написаны в скане (вроде современного «междомет.» на «мждм.», «перм.» на «прм.» и т. п.). У меня некоторые сомнения в нужности таких изменений, например, в скане «итд», но правильней для современного написания «и т. д.».

И касательно переноса в переиздание написания из индекса. Получается, что оно становится аналогом планируемой ботозаливки на отдельные страницы, только тут тоже самое будет на одной странице. Вроде обсуждали, чтобы не делать двойную/тройную работу залить на отдельные страницы, после чего это переиздание закрыть от редактирования (пометив как архив, шаблоном и т. п.). Как вы думаете? --Vladis13 (обсуждение) 09:54, 15 сентября 2015 (UTC)[ответить]

Поскольку Вы проделали огромную работу по упорядочиванию этого переиздания98, оно стало гораздо лучше, чем было, и место ему не в архиве а в открытом доступе на Викитеке. Придальнейшей доработке им будет удобно пользоваться наряду с вариантом, разбитым на отдельные статьи. Так мне кажется. Dmitrismirnov (обсуждение) 20:48, 15 сентября 2015 (UTC)[ответить]
На мой взгляд, после ботозаливки следует выставить переиздание98 на удаление как дубль. И итог должен подводить Lozman как нейтральный администратор. Роль «всех статей на одной странице» должен выполнять словник. Hausratte (обсуждение) 20:59, 15 сентября 2015 (UTC)[ответить]
Извините, если это создаёт сложности. Я просто обнаружил несколько серьёзных ошибок в некоторых статьях: напр. в статье "Ведро" вместо слова "хлеб", стояло "хлед" и т. п., не говоря уже об оформлении, которое почти везде не соответствует печатному изданию. Поэтому я и решил поставить исправленные тексты, вместо несверенных с источником. Источником я считаю только печатное издание. Что касается так наз. "переиздания98", то я не уверен, что оно когда-либо существовало в напечатанном на бумаге в опубликованном виде. Если я неправ, то поправьте меня. И если эти мои изменения на страницах мешают Вашим планам, можно (пока) вернуть предыдущий текст. Сокращения я привожу по оригинальному источнику, они достаточно понятны для современного читателя, и большой необходимости их переделывать («междомет.» на «мждм.», «перм.» на «прм.» и т. п.) я не вижу. Dmitrismirnov (обсуждение) 10:14, 15 сентября 2015 (UTC)[ответить]
Ок. Просто надо было обговорить нюанс, а то непонятка. --Vladis13 (обсуждение) 11:46, 15 сентября 2015 (UTC)[ответить]
И кроме того, при ботозаливке словаря нужно как-то исключить из общего списка те статьи, которые уже существуют в виде отдельных статей. А как раз те статьи, которые я добавил сегодня, слеланы не только на общих страницах, но также в виде отдельных статей. Dmitrismirnov (обсуждение) 10:37, 15 сентября 2015 (UTC)[ответить]
Я планирую пока залить буквы, по которым нет статей вообще. По другим, в боте есть опция "пропускать если страница существует", поэтому перезаписи не случится. --Vladis13 (обсуждение) 11:46, 15 сентября 2015 (UTC)[ответить]
А разве есть такие буквы? Dmitrismirnov (обсуждение) 11:50, 15 сентября 2015 (UTC)[ответить]
  • Внёс дополнение в шаблон заливки. Текст статьи буду обрамлять тэгами <section begin="termin1" /> <section end="termin1" />, как в индексе. Читателю его не видно, не мешает, а при ручном и автоматическом переносе в индекс с ним удобство, и для бота крайне полезный ибо помечает начало и конец нужного фрагмента. --Vladis13 (обсуждение) 23:03, 17 сентября 2015 (UTC)[ответить]
В принципе, могу его вставить прямо в "переиздание98", будет ещё удобней, ибо текст берётся оттуда. Сделать? --Vladis13 (обсуждение) 23:03, 17 сентября 2015 (UTC)[ответить]

Копирование переиздания98 в Индекс[править]

Вопрос, что делать с переизданием98? Перенести в Индекс, и текущую версию удалить? Или оставить две версии - распознавание оригинала в современную орфографию + перездание98? --Vladis13 (обсуждение) 13:00, 22 июля 2015 (UTC)[ответить]

  • Я бы не торопился удалять версию, над которой уже проделано столько работы (частичное оформление, сверка с оригиналом, проставление ударений и т. д.). Удалить это будет разумно, когда будет выложена эта работа в более совершенном виде. Так что я за то, чтобы пока оставить обе версии. Dmitrismirnov (обсуждение) 13:13, 22 июля 2015 (UTC)[ответить]
  • @Vladis13 В индекс надо переносить в любом случае. Сканы 2-го издания распознаны довольно неважно, доводка текста на их основе займет кучу времени. Давайте сначала перенесем в индекс худо-бедно сделанную электронную версию. Hausratte (обсуждение) 13:25, 22 июля 2015 (UTC)[ответить]
Это и предлагаю. А существует ли общая страница, куда выводятся страницы из Индекса 2-го издания? Например, эта страница индекса/оригинала выводится только на словник и словарные статьи, например сюда, но не выводится на статью типа этой, где, как в книге, все статьи на одной странице. --Vladis13 (обсуждение) 13:40, 22 июля 2015 (UTC)[ответить]
Индекс:Толковый словарь Даля (1-е издание). Часть 1 (1863).pdf -- Вы имеете в виде это? Dmitrismirnov (обсуждение) 13:47, 22 июля 2015 (UTC)[ответить]
Вроде этой, Или такой вывод в викитеке не применяется, предпочтительны отдельные страницы для каждой словарной статьи? --Vladis13 (обсуждение) 14:13, 22 июля 2015 (UTC)[ответить]
Создаются отдельные страницы для каждой статьи. Формат, при котором на одной странице много статей, используется только в пространстве «Страница», например. Hausratte (обсуждение) 14:16, 22 июля 2015 (UTC)[ответить]
Грязная версия не основана на индексе через тег pages, там просто сразу вставлен текст. Поэтому страницы из индекса-2 выводятся только на статьи с префиксом ТСД/. Hausratte (обсуждение) 13:45, 22 июля 2015 (UTC)[ответить]
Если копировать переиздание98 в индекс-2, то будут две копии, которые участники будут править в обоих местах. Двойная идентичная ненужная работа. Может в грязную версию ставить тег pages с индекса-2? Или переименовать понятно, — что это именно адаптация 98года, а не адаптация скана редакторами викитеки, т.е. две разных версии? --Vladis13 (обсуждение) 14:00, 22 июля 2015 (UTC)[ответить]
Двойной работы не надо... Может быть тогда старую версию поместить в архив (на всякий случай для возможной сверки)? Dmitrismirnov (обсуждение) 14:08, 22 июля 2015 (UTC)[ответить]
@Vladis13 Я не вижу особой двойной работы. Индекс надо делать в любом случае, его для этого и создавали, и текст там будет правиться согласно скану и выводиться в статьи ТСД/ через тег pages. Грязная версия - это временная версия, над ней вообще не нужно работать, и по создании статей ТСД/ ее надо будет удалить. Hausratte (обсуждение) 14:15, 22 июля 2015 (UTC)[ответить]
А можно закрывать на редактирование, с уведомлением сверху, что мол «правьте оригинал /ссылка/»? И при копировании где-то помечать, какие словарные статьи копировались, чтобы к их редактированию закрывать доступ. --Vladis13 (обсуждение) 14:19, 22 июля 2015 (UTC)[ответить]
Можно повесить на все страницы грязной версии плашку {{Перерабатываю}}, ботом (@Lozman). Помечать не обязательно, просто повесить плашку и все (там вообще ничего не нужно править, работа в корзину). Потом удалить. Hausratte (обсуждение) 14:29, 22 июля 2015 (UTC)[ответить]
Можно повесить такое объявление {{Недействующая редакция документа}}, или сделать нечто подобное на этой основе. 14:36, 22 июля 2015 (UTC)
Может быть есть возможность сделать новый индекс основанный на более читаемом скане с разделением на левую и правую колонки? - пока здесь всё смешано в полном беспоряде. Dmitrismirnov (обсуждение) 13:50, 22 июля 2015 (UTC)[ответить]
Зачем? Если Vladis13 перенесет в имеющийся индекс-2 обработанную электронную версию, там работы будет - просто добавить на ее основе ДО-версию и все. Индекс-1 я сейчас переделаю - скачал из РГБ более качественные сканы. Hausratte (обсуждение) 13:53, 22 июля 2015 (UTC)[ответить]
Мне кажется, что если Vladis13 это и сделает, что было бы замечательно конечно, это всё же будет достаточно далеко от оригинала... Dmitrismirnov (обсуждение) 14:05, 22 июля 2015 (UTC)[ответить]
В любом случае это будет лучше, чем сейчас. Можно, конечно, ждать, пока Hinote вернется, но я не знаю, когда это будет. А работать лучше уже сейчас, пока к проекту есть какой-то интерес. Hausratte (обсуждение) 14:09, 22 июля 2015 (UTC)[ответить]
Hinote сказал, что он ничего не может с этим сделать... Dmitrismirnov (обсуждение) 14:11, 22 июля 2015 (UTC)[ответить]
Ну тогда тем более надо переносить. Hausratte (обсуждение) 14:15, 22 июля 2015 (UTC)[ответить]
  1. В Индексе словарные статьи расположены по своим страницам оригинала. В выложенном перездании98 число словарных статей на интернет-страницах какое-то иное. Чтобы заливать в индекс, надо оглавление сделать — какие словарные статьи на какие номера страниц индекса заливать. Вижу не лучший вариант: рубрикация по буквам, которое есть в оглавлении томов, например в томе 1-м буква Б со стр. 32 (это 122 стр. индекса) по 161 стр. Хоть какая-то привязка. Может на каких-то сайтах есть словник привязанный к страницам скана, чтобы «велосипед не изобретать»? --Vladis13 (обсуждение) 04:37, 26 июля 2015 (UTC)[ответить]
  2. Был залит словник, как понимаю часть слов в нём исправлена, нужен обновлённый список. Из этого списка убрать статьи, которые уже залиты (в теории можно будет AWB прогнать список, просто пропуская существующие.)--Vladis13 (обсуждение) 04:37, 26 июля 2015 (UTC)[ответить]
Страницы в оригинале расположены по алфавиту в дореформенной орфографии, а в выложенном перездании98 —  по алфавиту в современной. Разница большая, поскольку сама орфография, порядок букв и их количество в обоих алфавитах существеноо отличаются. В основных списках я исходил из оригинала. Я уже писал, что сделал дополнительные словники для букв Б, В, Г, Е и Э - это надо будет продолжить и сделать для всех остальных букв. Работа эта трудоёмкая, если делать вручную. Dmitrismirnov (обсуждение) 05:47, 26 июля 2015 (UTC)[ответить]
В словнике смешано 2-е и 3-е издание? Например в Б-доп части статей может не быть во 2-м издании? --Vladis13 (обсуждение) 18:24, 26 июля 2015 (UTC)[ответить]
Заливка в индекс невозможна без списка привязки словника к страницам индекса (неясно что и куда заливать). По беглому поиску в интернет не нашёл, похоже никто составлением пословного оглавления скана не заморачивался. Вручную ~3000 страниц просматривать и делать оглавление… уйма труда.
В энциклопедии ЭСБЕ примерно такое же титаническое число словарных статей как во 2-м изд. Даля, но там с индексами вообще не заморачивались: индекс пустой, статьи сделаны обычным способом. Наверно смысла нет делать также, — переливать переиздания98 на отдельные страницы для каждой словарной статьи, «менять шило на мыло»? Надо обязательно в индекс? --Vladis13 (обсуждение) 15:58, 26 июля 2015 (UTC)[ответить]
Как мне кажется, все статьи интернетного переиздания98 имеются во втором издании словаря. Но расположение их отличается от книжного издания в силу того, что мы уже обсудили. Например, ТСД/Бегать, ТСД/Беда, ТСД/Бедный и т. п. находятся в самом конце буквы Б так как в оригинале вторая буква не "е", а "ѣ" Бѣг, Бѣгать, Бѣда, Бѣдный. В букве "Б" только одна статья ТСД/Батюшка -- перенесена сюда из статьи на букву "С" -- ТСД/Снег что очень странно и малообоснованно. Остальные статьи из списка в Б-доп имеются в индексе 2-го издания (я проверил первые 1230 статей) Dmitrismirnov (обсуждение) 20:15, 26 июля 2015 (UTC)[ответить]
Только сейчас заметил, что в списках первых букв которые не «-доп» частично есть номера страниц, пример ТСД/Словник/В. А что значит «-доп», современный порядок слов? --Vladis13 (обсуждение) 17:42, 27 июля 2015 (UTC)[ответить]
«-доп» означает "дополнительный", чтоб не путать с основным списком, который делается по 3-му изданию словаря. В основном списке везде указываюься страницы индекса. Я создал сегодня полный список Э-доп, в котором тоже указаны страницы индекса, и все слова расположены в том же порядке, что и в оригинальном издании. Прошу внимательно его посмотреть. Я обнаружил, что редакторы интернетного издания, переводя текст в современную орфографию, допустили несколько серьёзных ошибок в заглавиях статей. Я всё это подробно прокомментировал в словнике. Dmitrismirnov (обсуждение) 18:07, 27 июля 2015 (UTC)[ответить]
Сделал шаблон {{pag2}} для удобной подстановки пагинации в словник (вместо такой длинной записи) для 2-го издания. UPD: Сделал аналогичный {{pag3}} для 3-го. --Vladis13 (обсуждение) 03:15, 29 июля 2015 (UTC)[ответить]
Что «доп» — «дополнительный», в совр. и оригинальной орфографии разный порядок слов, возможны ошибки в адаптации98… — это понятно, уже обсуждали. Вопрос в другом: «-доп» — это 2-е издание с порядком слов по оригиналу, а без «-доп» — по 3-е изданию? --Vladis13 (обсуждение) 18:18, 27 июля 2015 (UTC)[ответить]
Да! Dmitrismirnov (обсуждение) 18:46, 27 июля 2015 (UTC)[ответить]
Не, путаница... ТСД/Словник/Б-доп - должно быть 2-е издание, как сказано выше, вроде много статей залито-сделано, а жму там например ТСД/Бесповоротный - это из 3-го издания. И также по другим буквам. --Vladis13 (обсуждение) 00:46, 28 июля 2015 (UTC)[ответить]
Синие ссылки ТСД просто не трогайте. Заливайте только туда, где красные. Hausratte (обсуждение) 20:27, 28 июля 2015 (UTC)[ответить]
@Vladis13 Ну так залейте переиздание98 сразу «обычным способом» в основное пространство (отдельная страница ТСД/ для каждой словарной статьи), ботом. Индекс можно не трогать, если с ним такие проблемы. Только при такой заливке надо будет поставить в каждой статье ссылку на скан в РГБ, как это сделано в РБС. Hausratte (обсуждение) 20:49, 26 июля 2015 (UTC)[ответить]
Проблема, что пространство ТСД/Слово уже занято 3-м изданием. Программы заливки могут только добавить текст в конец (под нижние шаблоны и категории), начало, или перезаписать страницу. Код имеющихся страниц с 3-м изданием, например см. код ТСД/Бесповоротный, содержит шаблон-заголовок с источником "3-е изд" и нижние шаблоны. Заливка текста вниз под категории и нижний шаблон не комильфо. (Может можно что-то придумать с регулярками и двойным проходом, чтобы после заливки при повторном проходе смещать шаблоны и тэг pages 3-го издания вниз страницы под залитый текст.)
Кроме этого обнаружилось, что словник например ТСД/Словник/Б-доп, содержит не 2-е изд, а 3-е, непонятно какие статьи уже залиты. Сделать дополнительное пространство ТСД-2/ с 44 тыс. статей, параллельно ТСД/ с 3-м изданием с 220 тыс. статей? (Во всей викитеке всего 313 тыс. статей.) Можно было бы взять словник, что я недавно делал взятый из переиздания98 и заливать по нему, но вероятно заливка наткнётся на вышеупомянутые страницы со статьями из 3-го издания.
Ещё приведу цифры: в AWB (без прав бота) при работе на автопилоте минимальная (upd: автозапись правок не доступна без прав бота) пауза между страницами 30 секунд, заливка 44 тыс. статей займёт 366 часов = 15.2 суток непрерывной работы компьютера, не считая прогрузок. Реально если считать заливку в личное свободное время — это займёт полгода минимум, не говоря о том что за массовые заливки не с бот-аккаунта прав AWB лишат. Вроде при получении прав бота можно снизить паузу, при паузе 5 секунд = займёт 61 час. (К слову, в 3-м издании 220 тыс. статей — это в 5 раз больше и дольше.) Сложность, что всё постоянно меняется — правится словник, выложенное переиздание98, поэтому видимо надо работать по каждой букве отдельно и циклично. (Что вносит кучу мороки, по подготовке каждой текстовки по отдельности, вместо всего текста сразу. - Парсинг, потом в Word там менять несколько регулярок, конвертить в CSV, Excel, сверка со словником, опять туда-сюда несколько программ... и так по каждому загружаемому фрагменту каждой буквы.)
Или всё же лить в индекс - вручную указатель статей составить (список с пагинацией). Но 44 тыс.статей на 3 тыс. страниц... я за такое не возьмусь. :) --Vladis13 (обсуждение) 02:07, 28 июля 2015 (UTC)[ответить]
Ещё вариант, просто улучшать залитое переиздание98, там всего ~850 страниц. Пока словник улучшается. Если дело до заливки дойдёт, не надо будет текст форматировать. Привести в приличный вид страницы, где словарные статьи не имеют заголовков (пример отсюда ниже) и где первое слово словарных статей перенесено (а не скопированно) в заголовок, примеры там же. Это просто. Только я не уверен, надо для этого аккаунт бота, всё же быстрые массовые правки. --Vladis13 (обсуждение) 02:07, 28 июля 2015 (UTC)[ответить]
@Vladis13 «Проблема, что пространство ТСД/Слово уже занято 3-м изданием» — боюсь, я вас не совсем понял. Пространство ТСД/ «занято» 3-м изданием примерно на 10%, остальных слов просто нет. Остальные 90% что мешает ботом залить? См., напр., ТСД/Словник/Г-доп — берете и заливаете, где красные ссылки. В чем проблема? Hausratte (обсуждение) 20:11, 28 июля 2015 (UTC)[ответить]

Статус обработки[править]

  1. Созданы заголовки, отсутствовавшие у множества словарных статей.
  2. Нормализована проблема, что у большинства статей отсутствовали термины (первые слова-заголовки статей).
  3. Оформление терминов нормализовано: шрифт из заглавных букв в строчный и выделены жирным. (Решилась скачкой, обработкой самописным скриптом и перезаливкой.)
  4. Объединены статьи, разделённые на абзацы. (Как в оригинале.)
  5. Ряд замен, "|" → ″||″.
Желательно, если нетрудно, заменить ″||″ на {{!}}{{!}}, чтобы они могли работать внутри текстов с "выступом" (как в 1 и 2 издании) и внутри других шаблонов. Я уже однажды об этом писал где-то здесь. Dmitrismirnov (обсуждение) 19:55, 8 сентября 2015 (UTC)[ответить]
Сделано. --Vladis13 (обсуждение) 23:56, 8 сентября 2015 (UTC)[ответить]

Обработка с переносом фрагментов текста сделана. Следующий этап: вставка тэгов оформления для типичных специальных слов, описанная 1-2 разделами ниже. После максимально возможного автообработкой уподобления переиздания98 оригиналу можно будет делать ботозаливку. --Vladis13 (обсуждение) 05:20, 16 августа 2015 (UTC)[ответить]

6. +Оформление терминов гнёзд (в жирный курсив).
7. +Служебные слова в курсив и в петит-курсив.

Остальной текст не формализован, поэтому распознать по каким-то признакам определённые фрагменты для оформления нет возможности. Это: поговорки (выделяются курсивом) и термины гнёзд (жирным курсивом), их только вручную. --Vladis13 (обсуждение) 08:24, 22 августа 2015 (UTC)[ответить]

8. Обнаружились ещё кое-какие массовые закономерности, 2 недели оформлял их.
9. Заменены дефисы на тире (как в оригинале), коррекция пунктуации. Убраны ударения из заголовков разделов (некорректно, усложняют создание ссылок, есть в самих статьях). --Vladis13 (обсуждение) 17:25, 8 сентября 2015 (UTC)[ответить]
Я не уверен, что в оригинале дефисы заменены на тире. Покажите, пожалуйста конкретные примеры. Dmitrismirnov (обсуждение) 19:58, 8 сентября 2015 (UTC)[ответить]
Любая страница скана, например, том 3 стр.5, «Пай» — «—щица», «—ница» — сделано также, там же «В паю — в бою». Естественно, где дефис между словами, как в Афанасия-ломоноса, там он и должен быть, не менял. --Vladis13 (обсуждение) 21:41, 8 сентября 2015 (UTC)[ответить]
А, теперь понятно! Это Вы правильно исправили. Линия перед окончаниями типа: «—щица», «—ница» — это не дефис, и не тире по своей функции, но, я даже не знаю как назвать... символическое сокращение первой части слова. Dmitrismirnov (обсуждение) 22:43, 8 сентября 2015 (UTC)[ответить]
10. Заголовки заглавными буквами → в строчные.
@Dmitrismirnov думаю перевести заголовки в строчные буквы. Единственное основание их нынешнего написаны заглавными - что так было в переиздани98, где было удалено оригинальное оформление текста, и регистр букв был единственным способом выделения терминов. Не вижу причин так оставлять, к тому же усложняет работу (создание ссылок, списков и т.д.). Что думаете? --Vladis13 (обсуждение) 20:39, 9 сентября 2015 (UTC)[ответить]
Согласен, в строчные, но начиная с заглавной, как в оригинале, не правда ли? Dmitrismirnov (обсуждение) 23:48, 9 сентября 2015 (UTC)[ответить]
Сделал. (Хотя стало непривычно, заголовки оформлением дублируют термины, в глазах двоиться.) --Vladis13 (обсуждение) 09:33, 10 сентября 2015 (UTC)[ответить]
Когда добавятся ударения, эти заголовки и начальные слова в статьях в своём большинстве будут всё же как-то различаться. Dmitrismirnov (обсуждение) 12:38, 10 сентября 2015 (UTC)[ответить]
А что если сменить уровень заголовков? (Число "=====".) Сейчас они 5 уровня - мелкий шрифт, но выравниваются по левому краю в отличие от 2-4 уровней. Пример с 3 уровнем. --Vladis13 (обсуждение) 19:16, 10 сентября 2015 (UTC)[ответить]
Да, так, конечно, нагляднее. Можете поменять на 3 уровень, если Вам так больше нравится. (Но по большому счёту, названия эти не нужны совсем -- в оригинале они отсутствуют. Если бы можно было здесь обойтись без них или сделать их невидимыми, было бы лучше... Как Вы думаете?) Dmitrismirnov (обсуждение) 21:15, 10 сентября 2015 (UTC)[ответить]
Уровень заголовков изменён. --Vladis13 (обсуждение) 06:23, 12 сентября 2015 (UTC)[ответить]
Технически это просто сделать с помощью якорей, просто заменив ===== Заголовок ====={{якорь|Заголовок}}. Но это будет непонятно читателям пытающихся создать ссылку, и удалит блок Содержания, сделав невозможным поиск статьи через него и удобный переход, удалит кнопки редактирования разделов. Поэтому лучше не надо. В принципе, якоря можно использовать для создания ссылок на гнёзда, но это тоже «на любителя». --Vladis13 (обсуждение) 01:00, 12 сентября 2015 (UTC)[ответить]
  • Сделал пример невидимых заголовков с помощью css-стилей. Оглавление при этом остаётся, также остаётся крайне важные кнопки «править» раздел (на примере не видны по причине, что пример является отменённой правкой). Можно было бы сделать шаблон, который вставлять вместо заголовков (например {{h|Ведро}}), а он бы подставлял «=== ===» и тэги стиля. Однако, всплывает другой недостаток — для читателя неясно как делать ссылку, ведь обычно ссылки делают просто копируя заголовок, хотя иногда копируется ссылка из оглавления. Что думаете? --Vladis13 (обсуждение) 06:38, 12 сентября 2015 (UTC)[ответить]
Честно говоря, я не знаю. Выглядит это хорошо, но если это создаёт неудобства, то лучше не надо. Удобство важнее. Dmitrismirnov (обсуждение) 10:25, 12 сентября 2015 (UTC)[ответить]
11. Доделан и проверен словник: Викитека:Проект:ТСД/ТСД2-98 - Словник. Дополнительный список неоднозначностей: Викитека:Проект:ТСД/ТСД2-98 - Словник-омонимы. --Vladis13 (обсуждение) 08:55, 15 сентября 2015 (UTC)[ответить]
12. Сделан шаблон {{tom}} для заголовков. --Vladis13 (обсуждение) 18:36, 15 сентября 2015 (UTC)[ответить]
13. Залит пяток статей на пробу на буквы "Яш". @Dmitrismirnov проверьте пожалуйста. Нужны какие-то коррективы? --Vladis13 (обсуждение) 18:44, 15 сентября 2015 (UTC)[ответить]
Да, нормально. Можно продолжать. Понятно, что ударения, оформление и ссылки на страницы скана надо будет делать потом от руки. Но это следующий этап, так сказать... Dmitrismirnov (обсуждение) 19:37, 15 сентября 2015 (UTC)[ответить]
Ура, наконец-то! С почином. Hausratte (обсуждение) 20:09, 15 сентября 2015 (UTC)[ответить]

Извлечение пагинации из колонтитулов скана[править]

Для заливки в индекс необходимы номера страниц на которые заливать статьи. Оказывается они есть в колонтитулах скана, рядом с номерами страниц, в формате "статьяпервая - последняя номерстраницы". Как бы только их распознать в FineReader, без остального текста? --Vladis13 (обсуждение) 10:53, 1 сентября 2015 (UTC)[ответить]

  • Попробовал, но тоже проблемы: Плохое распознавание. Там не названия статей, а гнёзда (например, не статья «Авось», а её гнездо «авосьничать»). Тратится куча времени на распознавание не только колонтитула, а всей страницы (что не отключить). В результате получается строка <p>7</p><p>Авангурйиный—авоеьничать.</p><p>8</p>, на приведение которой в норму +другие описанные трудозатраты, потратится усилий больше чем, на просто написание этого вручную (или ещё проще — перетаскивания диапазона мышкой из словника). Также необходим словник статей, с которым сравнивать этот диапазон, словник есть только для 2-го издания. --Vladis13 (обсуждение) 14:33, 25 сентября 2015 (UTC)[ответить]

Статьи-редиректы[править]

≈10 % словарных статей — это редиректы-синонимы на другие статьи в формате «Термин, см. Другойтермин». Например: «Забороздить, см. заборазживать.» или «Забросать, забросить, заброс и пр. см. забрасывать.» От 44000 статей 10 % это ≈5000 лишних статей. Лишняя нагрузка для викитеки, за которой надо будет следить, при этом на них никто не будет ссылаться. Т. е. польза от них даже не нулевая, а отрицательная. Понятно, что необходима копия всего оригинала где-то в индексе. Но отдельные статьи бесполезны, ибо термин-синоним уже содержится в основной статье, и ищутся статьи обычно через поисковик. Может сделать список таких статей-редиректов? Их формат прост для автоматического распознавания. --Vladis13 (обсуждение) 10:02, 10 сентября 2015 (UTC)[ответить]

Думаю, можно сделать и отдельную страницу, куда построчно их выложить, со ссылками на основные статьи. Т. е. не 5000 статей из 5 слов, а например страниц 10 по 500 строк? --Vladis13 (обсуждение) 10:01, 10 сентября 2015 (UTC)[ответить]
Статьи-перенаправления должны быть обязательно сохранены, такова общая практика во всех словарях, выложенных в ВТ. С аргументом про лишнюю нагрузку не согласен категорически: в ВТ и так довольно мало контента по сравнению с другими вики-проектами, заниматься ненужной экономией места нет смысла. Hausratte (обсуждение) 12:17, 10 сентября 2015 (UTC)[ответить]
Уточню на случай если плохо пояснил мою идею. Я не предлагаю что-то удалять, а просто при ботозаливке не делать пустых, по сути, статей. При этом их контент потерян не будет, а просто будет на одной странице построчно, например:

Забороздить, см. заборазживать.

Забросать, забросить, заброс и пр. см. забрасывать.

Термин, см. Другойтермин

--Vladis13 (обсуждение) 19:26, 10 сентября 2015 (UTC)[ответить]
Я вас прекрасно понял. То, что вы называете «пустыми статьями» — это статьи-перенаправления, они в ВТ аккуратно переносятся из источника (напр., Категория:ЭСБЕ:Перенаправления — таких статей около 16 тыс.). На одной странице они не нужны, они нужны постатейно. И непонятно, откуда вы взяли, что такие статьи-перенаправления не нужны. Вам, может, и не нужны, а другим нужны. Hausratte (обсуждение) 22:46, 10 сентября 2015 (UTC)[ответить]
Тогда надо будет сделать аналогичную категорию для ТСД. Насчёт нужности не вижу ни единой пользы, но ок. --Vladis13 (обсуждение) 20:22, 11 сентября 2015 (UTC)[ответить]
Рад, что вы прислушались :) Категория уже есть: Категория:ТСД:Перенаправления. Hausratte (обсуждение) 21:55, 11 сентября 2015 (UTC)[ответить]

Статьи-омонимы[править]

Имеется много статей, являющихся омонимами соседних. Например: Ведро и Ведро 2. При этом, почти в каждой обычной статье среднего размера в толковании есть несколько омонимов не вынесенных в отдельные абзацы; примеры прямо ниже приведённого «Ведра», например Векша это: белка, сорока, каток в бытовой механике.
Мне кажется омонимы надо приводить в одной статье, под одним заголовком, разделять просто абзацем, это наглядно, пример: А. Не делать на отдельных страницах, где часть омонимов будет в толковании, а часть на другой странице. К тому же, значения часто близко связаны, в данном примере с Ведром, во втором значении (о дожде) приведены поговорки имеющие прямую связь с первым значением (о посуде): «Не ситечком сеет, ведром поливает (дождь). Придет пора, польет, что из ведра.» --Vladis13 (обсуждение) 05:09, 12 сентября 2015 (UTC)[ответить]

  • @Dmitrismirnov, Hausratte какие мнения? Надо что-то решить по данному пункту, чтобы доделать словник. --Vladis13 (обсуждение) 11:40, 13 сентября 2015 (UTC)[ответить]
    • Я думал об этом, и у меня были сображения и за и против разделения этих одноимённых статей. Вопрос немного сложнее, чем кажется на первый взгляд. Поскольку я в основном занимался 3 изданием Словаря, я решил для себя точно следовать его плану, создавая для каждой статьи отдельную страницу. Я объясню свои соображения чуть позднее. Dmitrismirnov (обсуждение) 13:13, 13 сентября 2015 (UTC)[ответить]
      • Ну раз делать, тогда делать. В каком формате называть? "1 Ведро" и "2 Ведро", или цифра сзади, иначе? --Vladis13 (обсуждение) 14:08, 13 сентября 2015 (UTC)[ответить]
        • Отвечаю на ваш вопрос: в заголовке статьи я добавляю цифру после слова, чтобы в списке категорий статья попадала на правильную букву: "Ведро 1" и "Ведро 2", а не на цифру. Dmitrismirnov (обсуждение) 15:29, 13 сентября 2015 (UTC)[ответить]
          • Однако внутри статьи в начале текста следует ставить цифру перед словом, как в 3-ем издании словаря: "1. Ве́дро" и "2. Ведро́" -- при этом жирным выделять слово, но не цифру. -- Dmitrismirnov (обсуждение) 15:41, 13 сентября 2015 (UTC)[ответить]
            • Ниже вы привели пример, где для первого омонима название "Бес" и для второго "Бес 1". Цифра в заголовке и в статье перед термином должна совпадать, т.е. не быть в заголовке "Бес 1" а в тексте "2. Бес". Думаю правильней помечать и первый термин, считая с единицы, как в примере с "Ведро". --Vladis13 (обсуждение) 16:53, 13 сентября 2015 (UTC)[ответить]
              • Может быть. Потом можно переделать. Dmitrismirnov (обсуждение) 18:11, 13 сентября 2015 (UTC)[ответить]
              • @Vladis13!!! Но всё это касается только 3-го издания. Во втором же издании, как мне кажется, в текст словарных статей ничего этого вносить не надо, а следовать точно печатной (бумажной) версии, воспроизводить её как можно ближе к оригиналу. Dmitrismirnov (обсуждение) 12:07, 14 сентября 2015 (UTC)[ответить]
                  • Хм... Я уже сделал, пример. Убрать? --Vladis13 (обсуждение) 12:22, 14 сентября 2015 (UTC)[ответить]
                    • @Vladis13!! Я сказал: "как мне кажется"... То есть мы должны это решить вместе с Вами. Мне кажется, что текст статьи должен быть таким, как в оригинале. Заголовка статьи это не касается, в нём мы спокойно можем добавлять то, что ститаем необходимым. Если мы с Вами что-то вносим в сам текст статьи, например, нумрацию, нужно как-то дать понять читателю, что это добавлено редактором викитеки. Я до сих пор делал так: (1.) с примечанием: Добавлено ред. викитеки. Согласны ли вы с этим, и если нет, что Вы можете предложить? Dmitrismirnov (обсуждение) 13:02, 14 сентября 2015 (UTC)[ответить]
                      • Вы поставили "!!!", показывая важность замечания. Я согласен, лучше убрать из статьи. Ибо необходима идентичность оригиналу, +номер значения есть в заголовке. Если будет отдельная статья для 2-го значения, и там цифра 2, особенно если нет ссылок на 1-е значение, читатель не поймёт что за "2". --Vladis13 (обсуждение) 13:25, 14 сентября 2015 (UTC)[ответить]
                      • В других словарях в ВТ у заголовков-омонимов есть уточнения. В виде "Омонимпервый, в физике" и "Омонимвторой, в литературе". Во 2-м издании их немного - 920 шт., список есть Викитека:Проект:ТСД/ТСД2-98 - Словник-омонимы, при желании можно будет переименовать. --Vladis13 (обсуждение) 13:32, 14 сентября 2015 (UTC)[ответить]

Основное соображениe то, что в 3 издании была проделана серьёзная работа по упорядочиванию и разделению статей, которые в первых двух изданиях объединяли различные понятия . Мне показалась такая работа логичной. Иван Бодуэн де Куртенэ в Предисловии подробно объяснил и обосновал эти изменения. Приведу только две цитаты:

« Выше я упомянулъ, что иногда мнѣ приходилось выдѣлять изъ гнѣздъ цѣликомъ и безусловно отдѣльныя слова, попавшія туда только по смѣшенію понятій или же по недоразумѣнію. Но я не ограничивался выдѣленіемъ отдѣльныхъ словъ, а то и дѣло просто разбивалъ гнѣзда и изъ одного дѣлалъ два или даже болѣе. Такъ напримѣръ:

Изъ одного гнѣзда Аба́зъ 2-го изданія у меня получились два: Абаза́ и Аба́зъ.

Изъ одного гнѣзда Аˊвва у меня два: Аˊвва и Авваку́мовщина.
Изъ одного гнѣзда Адони́съ у меня два: Адони́съ и Адони́ческій-стихъ.
Изъ одного гнѣзда Аля́кишъ у меня два слова: Аля́кишъ и Аля́люшки.
Изъ одного гнѣзда Ахъ 2-го изданія у меня вышли два: Ахва́, и Ахъ.
»
« Одинаково написанныя слова (графическіе гомонизмы), — кромѣ, впрочемъ, ударенія, которое можетъ быть различно, — если они являются начальными (заглавными) словами отдѣльныхъ словарныхъ статей или, по Далю, гнѣздъ, снабжены мною, для отличія и для точности ссылокъ, порядковыми цифрами (числами): 1, 2, 3 ...

Такъ напримѣръ:

1. А, 2. А,
1. Ага́, 2. Ага́,
1. Адъ, 2. Адъ, и т. д.
»

Конечно можно было бы вернуться назад к принципам первых двух изданий и объединить на одной странице все «статьи-омонимы».

Но здесь возникают две или три проблемы:

  1. Это займёт много времени и сил, так как сделано уже более 7400 страниц словаря. Кто возьмётся за это дело? Поскольку этим занимаются только 1-2 участника и обчёлся, мне такое решение кажется нереальным.
  2. Как быть со словами, которые в дореформенной орфографии омонимами не считаются, например «Миръ» и «Міpъ», или «Бесъ» и «Бѣcъ». Подобные слова могут находиться рядом друг с другом (и потому объединяться на одной странице) только в словарях в соременной орфографии. Здесь же выбрано расположение словарных статей по оригиналу в дореформенной орфографии и потому они расположены в самых разных местах, а иногда даже начинаются с разных букв, например: ѣ, е и э; и, і и Ѵ; ф и Ѳ и т. д. Какое может быть решение это проблемы?

и т. п. Пока я выхожу из этого положения, добавляя ко второму из этих слов в названии статьи цифру 1:

в дореформенной орфографии: / в соременной орфографии:

Dmitrismirnov (обсуждение) 15:24, 13 сентября 2015 (UTC)[ответить]

  • Вопрос скорее в надобности, чем в сложности ручной реализации. Ботом можно сделать много рутинных задач.
  1. В других словарях в ВТ вроде есть категории для страниц неоднозначностей (дизамбигов), т.е. для страниц со списками омонимов. Гипотетически можно сделать также в ТСД, но поскольку в 3-м издании 270 тыс.терминов (потенциальных статей), и разделом выше о статьях-синонимах сказано страниц-списков не делать... - То это задача с очень низким приоритетом, ибо имеет мало смысла и нереальна по трудозатратам. Технически можно было бы написать скрипт для создания списка терминов, совпадающих с другими терминами допустим по первым 4 буквам. Хотя в таком списке будут тысячи слов, где вначале не достаточно уникальный корень, а приставка, например "пере-" - всяческих слов с такой приставкой тыщи. Можно было бы сделать фильтры для самых распространённых длинных приставок, но это лишняя морока, и какие-то не приставочные слова тоже отфильтруются (например "перец, переправа", или для "воз-" - "воздух, вознесение, возможность").
  2. Омонимы которые отличаются и значением и написанием (омографы) думаю правильно помещать в отдельные статьи. Но то что они говорятся идентично (омофоны) их сближает. По идее, для таких слов правильней на страницу добавить раздел "См. также" и там ссылку на омоним, или вверху шаблон "У этого слова есть другие значения" и ссылку на дизамбиг или на конкретную статью.
Давайте тогда пока я сделаю для омонимов названия с цифрой? Потом, если дело дойдёт до заливки, помечу созданные статьи с ними категорией "ТСД/Неоднозначности". А потом, если захочется, думаю будет не сложно опять же ботом перелинковать эти статьи-омонимы. --Vladis13 (обсуждение) 16:33, 13 сентября 2015 (UTC)[ответить]
Да, Вам виднее. Я ботом не владею, и потому не могу об этом судить. Делаем пока так, а потом решим. Dmitrismirnov (обсуждение) 18:14, 13 сентября 2015 (UTC)[ответить]

Дозаливка[править]

@Dmitrismirnov Пожалуйста не снимайте и не добавляйте категории Категория:ТСД:Ботозаливка 2 изд. и Категория:ТСД:Без статей из 2-го издания. Дозаливку приходится делать по сложному алгоритму. (Я писал, что многое прописано в разных местах и шаблонах страниц, что доставляет массу неудобств, поэтому требуется много проходов, для увязки друг с другом каждого элемента.) Надеюсь сегодня отстаток долить, поправить, и эти категории уберу. --Vladis13 (обсуждение) 16:51, 30 сентября 2015 (UTC)[ответить]

Понял. Не буду Вам мешать, пока Вы не закончили ботозаливку. Dmitrismirnov (обсуждение) 18:33, 30 сентября 2015 (UTC)[ответить]

Разнобой размера шрифта в скане[править]

В оригинальных сканах присутствует разнобой размеров шрифтов, часто в одной фразе. Быть может это было ошибкой или небрежностью в типографиях рубежа 19-20 веков. На дублирование их тратится большая часть сил и времени. При этом читателю это не надо, в словарях (например Lingvo и Яндекс) опускается. Мне кажется это только для мимолётного интереса ценителей раритетных шрифтов — но пусть они тогда смотрят оригинальный скан. По сути, о чём сказано и у Яндекса (2 предпоследних абзаца) в словарных статьях есть конкретные элементы: термин, его варианты, трактовка, служебные слова (род, часть речи, место употребления), фразеологизмы-примеры (поговорки и пословицы); и есть конкретные типографские шрифты для выделения этих элементов: жирный шрифт, курсив, разрядка, крупный шрифт и петит. Может унифицировать эти элементы? А то зачастую получается разброд вроде: «Поговорка слов1 слово2 слово3 слово4 последнее слово поговорки.» И кстати, тогда можно и с помощью AWB/ботов быстро править орфографию, например автозаменой «перм.» на «перм.», можно было бы и список подобных правил прописать. --Vladis13 (обсуждение) 14:47, 22 июля 2015 (UTC)[ответить]

А ещё в современных адаптациях заменено «м.» и «ж.» на «муж.» и «жен» соответственно. Современному читателю зачастую, чтобы понять сокращения надо отдельно искать раздел пояснения сокращений у Даля. Это надо приводить в современную форму? --Vladis13 (обсуждение) 14:47, 22 июля 2015 (UTC)[ответить]
Моё мнение такое: это не разнобой, а глубоко продуманная система. Каждое такое изменение в шрифте имеет свой смысл. Все нестандартные сокращения лучше оставлять, как в оригинале - для них имееются короткий (в начале) и развёрнутый (в конце) списки сокращений. Но на данном этапе, если поставить целью просто воспроизвести текст данной электронной версии как можно полнее и быстрее, это можно ПОКА игнорировать. А в идеале, если думать о качестве, всё это следует воспроизвести с максимальным приближением к оригиналу. Dmitrismirnov (обсуждение) 15:11, 22 июля 2015 (UTC)[ответить]
Это не ошибка и не небрежность. ТСД был весьма известным изданием, печатали его тщательно, да и если бы было ошибкой — не повторялось бы из страницы в страницу и из издания в издание. Если Даль счел, что нужны такие шрифты — значит, так и надо, не нам за него цензурить, что оставлять, что нет, и не нам решать за всех читателей, кому нужны шрифты, а кому не нужны. В введении к словарю есть объяснение всех шрифтов. «Но пусть они тогда смотрят оригинальный скан» — ну тогда и Викитека не нужна, пускай все смотрят оригинальные сканы. Яндекс с Лингво не авторитеты, они выложили Даля довольно неряшливо. Нужно полное соответствие оригиналу, в т.ч. и в сокращениях. Hausratte (обсуждение) 15:13, 22 июля 2015 (UTC)[ответить]
(комментарий) Во всяком случае, то, что сейчас определяемые слова в вычитываемом 3-м издании оформляются тегом <big>...</big> не соответствует скану-оригиналу. В оригинале, скорее всего, используется просто жирный шрифт. А, в принципе, имхо, да, вариации шрифта в тексте желательно сохранять при вычитке/оцифровке. -- Badger M. (обсуждение) 15:26, 22 июля 2015 (UTC)[ответить]
Ну посмотрите оригинал. Как раз большой шрифт. Hausratte (обсуждение) 15:29, 22 июля 2015 (UTC)[ответить]
Да, в заголовках статей это большой и чуть более жирный шрифт. Я стараюсь максимально приблизить шрифты к оригинальным, насколько позволяют возможности викитеки, но это удаётся не всегда. В оригинале это ещё более сложно, например, там имеется более высокий и узкий шрифт, которого здесь воспроизвести не удалось. Dmitrismirnov (обсуждение) 15:54, 22 июля 2015 (UTC)[ответить]
Я уже смотрел и вычитывал несколько страниц. Викитечному тегу <big> никак это не соответствует. -- Badger M. (обсуждение) 15:56, 22 июля 2015 (UTC)[ответить]
PS. Ниже привели ссылку на пояснение по поводу шрифтов -- так там явным образом заголовочный шрифт гнёзд статей охарактеризован просто как жирный [точнее самый жирный, хотя не оч. ясно, что в контексте это означает], а далее поясняется, что жирный текст разрядки -- мельче размером. Что касается разрядки, то в соотв. шаблоне {{razs}}, как понимаю, отмеченное уменьшение размера шрифта обработано (стоит 95%). -- Badger M. (обсуждение) 22:47, 22 июля 2015 (UTC)[ответить]
В 3-м издании есть пояснение каким шрифтом отмечаются какие элементы статьи. Всего задумывалось авторами 6 шрифтов + обычный. Про большие шрифты там не сказано, если только жирный заголовков считать одновременно и большим. Во 2-м издании нет подобного пояснения и объяснения сокращений. --Vladis13 (обсуждение) 18:49, 22 июля 2015 (UTC)[ответить]


Если говорить о высоте букв, то Вы, пожалуй, правы. Но видно даже невооружённым глазом, что все буквы в заголовках статей не только жирнее, но как минимум раза в полтора шире обычных и потому выглядят гораздо крупнее их. Как это точно воспроизвести в простых используемых нами на Викитеке шрифтах я не знаю. Но мне кажется, выбор тега <big> для заголовков и <small> для петита, успешно решает эту проблему. Если Вы с этим не согласны, предложите своё решение. Dmitrismirnov (обсуждение) 23:19, 22 июля 2015 (UTC)[ответить]
(мнение) Есть шаблон {{fs}} (= Font-size). С его помощью можно более аккуратно подстраивать размер шрифтов, чем просто тегами big и small. Возможно, для заголовков статей жирный шрифт где-то размера 105%—115% был бы в данном случае более подходящим вариантом [если просто жирный шрифт 100%-размера не может подойти]. (Кроме того, я бы предпочел не использовать class oldspell, но это уже, видимо, менее принципиально) -- Badger M. (обсуждение) 12:06, 23 июля 2015 (UTC)[ответить]
Абецадло.png
Вот сводная таблица размеров шрифтов. Какой, по-вашему больше подходит для заголовков статей?
1. Текст 150%, 2. Текст 125%, 3. Текст big, 4. Текст 120%, 5. Текст 115%, 6. Текст 110%, 7. Текст 100%, 8. Текст 90%, 9. Текст 80%, 10. Текст small.
Сейчас это выглядит так:
[Аˊбзацъ м. Тип. Начало текста съ новой или красной строки. || Архит. Уступъ, обрѣзъ въ каменной стѣнѣ. Ак.].
Абана́тъ, абану́съ? (об?) м. пск. упрямецъ, своевольникъ; [своенравіе Опд.]. Абану́сливый, —систый? упрямый, своенравный.
Dmitrismirnov (обсуждение) 14:07, 23 июля 2015 (UTC)[ответить]
Я не берусь в точности сказать, свое мнение в целом я уже высказал. Отображение может зависеть от браузера, используемой темы оформления. Свойства шрифта для каких-то классов в личных настройках участника, вообще говоря, могут быть переопределены.
В оформлении ТСД, как я сейчас понял, идут вперемешку шрифты с засечками и без засечек (без засечек -- в шаблоне {{razs}}, общий стиль, определяемый class oldspell -- с засечками), а визуальный размер шрифта даже определенного одного размера зависит от семейства шрифтов (с засечками или без; т.е. уменьшение размера до 95% в шаблоне razs может быть обусловлено выравниванием размеров шрифтов разных семейств (?)).
Могу сказать более-менее определенно, что размер текста big у меня визуально близко соответствует тексту 125% (а у вас big помещен между 115% и 120%) [вероятно, причина в разных браузерах; смотрел в Opera 12]. -- Badger M. (обсуждение) 14:57, 23 июля 2015 (UTC)[ответить]
Я переделал таблицу, но не вижу большой разницы между 3. Текст big и 4. Текст 120%, а 2. Текст 125% мне всё же кажется чуть крупнее. Но не в этом дело. По мне то что есть (с тэгом <big>...</big>) меня вполне устраивает, но Вам не нравится. Мне хочется, чтобы Вы показали мне пример того, что Вы считеете идеальным соотношением шрифтов. Вот, например, статья. Отредактируйте её шрифты так, чтобы Вас это устраивало (Dmitrismirnov (обсуждение) 15:14, 23 июля 2015 (UTC)):[ответить]
Абана́тъ, абану́съ? (об?) м. пск. упрямецъ, своевольникъ; [своенравіе Опд.]. Абану́сливый, —систый? упрямый, своенравный.
или
Абана́тъ, абану́съ? (об?) м. пск. упрямецъ, своевольникъ; [своенравіе Опд.]. Абану́сливый, —систый? упрямый, своенравный.
Так я и не возражаю, что у вас big выглядит иначе -- это зависит, предполагаю, скорее всего, от вашего браузера. По мне, идеальный вариант пока -- это 100% или 105% жирный шрифт (отредактировал для примера; 1-й вариант -- 100%, 2-й -- 105%). -- Badger M. (обсуждение) 15:37, 23 июля 2015 (UTC)[ответить]


Спасибо. Видимо, Вы правы, проблема наверное в том, что в разных браузерах и на разных экранах шрифты эти выглядят по-разному. К сожалению, в моих двух браузерах (Google Chrom & Fire Fox) оба Ваши варианта выглядят неудовлетворительными по двум причинам: 1) ширина букв в заголовках мало отличается от обычного шрифта (а в оригинале буквы заголовка шире существенно - раза в полтора); 2) следующие за заголовком слова, выделенные прямым жирным шрифтом без засечек выглядят значительно крупнее самого заглавия - а в оригинале наоборот -- они мельче). Dmitrismirnov (обсуждение) 16:11, 23 июля 2015 (UTC)[ответить]
По поводу перемешивания шрифтов с засечками и без (пункт 2) я уже написал (не знаю, что с этим делать в общем случае; либо пытаться подстраивать величину шрифта без гарантии на получение приемлемого результата, либо радикально отказаться от перемешивания). По поводу пункта 1 (но и как общее замечание): полное воспроизведение типографики в html -- это, на мой взгляд, утопическое дело, чем-то все равно приходится пренебрегать (вам в данном конкретном случае важна ширина, а мне, получается, высота шрифта, а вместе это в простейшем варианте, выходит, пока не выглядит реализуемо). Желаю успехов. -- Badger M. (обсуждение) 16:35, 23 июля 2015 (UTC)[ответить]

@Badger M.! Кажется я нашёл как примирить это противоречие: уменьшил размер шрифта в шаблоне {{razs}} с 95% до 85% (!!!), и теперь жирный прямой шрифт у меня выглядит не больше, чем простой жирный текст. Таким образом, можно отказаться от примерения тега <big>...</big> для заголовков статей. См.ТСД/Эдакий/ДО / ТСД/Эдакий. Меня интересует Ваше мнение. Скажите, хорошо ли это выглядит на Вашем экране? Dmitrismirnov (обсуждение) 16:17, 25 июля 2015 (UTC)[ответить]

Автоматическое оформление текста[править]

Предлагаю правила для автоподстановки тэгов оформления в «черновом» тексте, чтобы уменьшить ручную рутину. В 3-м издании есть пояснение каким шрифтом отмечаются типичные служебным слова. Имеется также объяснение сокращений в 3-м изд., во 2-м издании нет объяснения сокращений, сокращения из переиздания98. Предлагается заменять оформление типичным служебным словам. Примечания:

  • При ручной работе в редакторе браузера, или в другом оффлайн-редакторе, используется виджет «поиск и замена». В нём, для обрамления тэгом < small > искомых подстрок:
    1. Включить «Считать строку поиска регулярным выражением».
    2. В поле «найти» скопировать выражение: ([\s\n])(м\., латн\.|мждмт\.|сев\. вост.|почти то же, что,|то же;|\[м\.\] ошибч\.|ж\., фрн\.|м\.|ж\.|ср\.|греч\.|латн\.|лат\.|политч\.|католич\.|врчб\.|матем\.|нем\. воен\.|нем\.|воен\.), где "|" разделены искомые подстроки из списка ниже без начальных пробелов. Внимание, знаки препинания, кроме некоторых типа «,;», по правилам регулярных выражений должны экранироваться символом «\», например «\[м\.\]».
    3. В поле «заменить на» скопировать: $1<small>$2</small>..
  • Заменять при условии, что такого оформления там ещё нет, и делать это как предварительную работу на невыверенных страницах.
  • Проверять на наличие уже проставленных тэгов в подстроке. При ручной обработке это надо визуально смотреть по каждой замене, при работе в каком-то софте, например в MS Word или AWB, можно настроить автопроверку.
  • Если замена идёт не предлагаемым выше способом, то учитывать пробел перед словом, иначе замена «м.» захватит и другие слова кончающиеся на эту букву с точкой.
  • Сначала лучше указать более широкие правила, например « м. латн.», а только затем частность вроде просто « м.» и «латн.», чтобы избежать излишка тэгов в одной последовательности, вроде: «<small>м.</small>, <small>латн.</small>».
 м., латн. => <small> м., латн.</small>
мждмт. => <small>мждмт.</small>
 сев. вост. => <small>сев. вост.</small>
почти то же, что, => <small>почти то же, что, </small>
 то же; => <small>то же;</small>
[м.] ошибч. => <small>[м.] ошибч.</small>
 ж., фрн. => <small>ж., фрн.</small>
 м. => <small>м.</small>
 ж. => <small>ж.</small>
 ср. => <small>ср.</small>
греч. => <small>греч.</small>
латн. => <small>латн.</small>
 лат. => <small>лат.</small>
политч. => <small>политч.</small>
католич. => <small>католич.</small>
врчб. => <small>врчб.</small>
матем. => <small>матем.</small>
 нем. воен. => <small>нем. воен.</small>
 нем. => <small>нем.</small>
воен. => <small>воен.</small>
 ряз. тмб. => <small>''ряз. тмб.''</small>
 ряз. => <small>''ряз. тмб.''</small>
тмб. => <small>''ряз. тмб.''</small>
ярс., прм. => <small>ярс., прм.</small>
ярс. => <small>ярс.</small>
прм. => <small>прм.</small>
мжд. => <small>мжд.</small>
кмч. => <small>''кмч.''</small>
морск. фрнц. => <small>морск. фрнц.</small>
морск. => <small>морск.</small>
фрнц. => <small>фрнц.</small>
''влд.'' то же. => <small>''влд.'' то же.</small>
как немецк. => <small>как немецк.</small>
нар. ''уф.'' => <small>нар. ''уф.''</small>
вост. тмб. => <small>вост. тмб.</small>
нвг. => <small>нвг.</small>
 вят.</small> => <small>''вят.''</small>
(Наум.). => <small>(Наум.).</small>
(на длинной). => <small>(на длинной).</small>
укорно: => <small>укорно:</small>
или: => <small>или:</small>
 ж., ''арх.-шнк.'' => <small>ж., ''арх.-шнк.''</small>

--Vladis13 (обсуждение) 19:54, 27 июля 2015 (UTC)[ответить]


Ну что ж, будем надеяться, что это получится. Dmitrismirnov (обсуждение) 21:09, 27 июля 2015 (UTC)[ответить]
Добавил выше регулярку для редактора браузера для ручной автозамены. --Vladis13 (обсуждение) 21:52, 27 июля 2015 (UTC)[ответить]
Есть одна тонкость в отношении сокращения ср. Оно используется в двух разных смыслах: 1) ср. петитом означает средний род. 2) Ср. обычным шрифтом означает сравни со словом таким-то. Dmitrismirnov (обсуждение) 21:13, 27 июля 2015 (UTC)[ответить]

Другие автозамены[править]

Жирный шрифт для первых слов с абзаце.

Поисковая регулярка: (\n\s*)([-А-ЯЁа-яё]+)(\W), заменить на $1'''$2'''$3

Автозамены
яросл.-мол. => ярс.-мол.
Курсив
ярс.-мол.
влд.
кмч.
арх.-шнк.
уф.
вят.
ряз. тмб.
ряз. 
тмб.

--Vladis13 (обсуждение) 21:04, 29 июля 2015 (UTC)[ответить]


Тройная навигация[править]

Здесь показано три разных версии навигации между предыдущий/следующий:

  1. Во многих случаях одной навигации достаточно,
a) если данная статья и смежные с ней статьи имеются во всех трёх изданиях, напр. ТСД/Абдикация, ТСД/Абдраган,
б) либо, если данная статья и смежные с ней статьи имеются только в 3-ем издании, напр. ТСД/Аангич
  1. В других случаях нужна навигация двойная, напр. (если смежные с данной статьёй статьи отсутствуют в первых двух изданиях): ТСД/Абажур, ТСД/Абаз, и т. п.
  2. Но вот тот случай, когда необходима тройная навигация (по причине отсутствия какой-либо статьи в одном из трёх изданий): ТСД/Абанат ТСД/Абапал ТСД/Аббат -- Dmitrismirnov (обсуждение) 09:47, 31 июля 2015 (UTC)[ответить]

Расположение ссылки на источник[править]

Перенесено с Форума Dmitrismirnov (обсуждение) 09:10, 31 августа 2015 (UTC)[ответить]

Имеются страницы, со словарными статьями из 1-3 изданий словаря Даля. Непонятно, где располагать ссылку на издание. Есть 3 возможные позиции: 1. в поле «Источник» шаблона {{ТСД}} (основан на шаблоне {{Отексте}}), 2. в [номерах страниц] слева от словарных статей, и 3. заголовками над статьёй. При размещении во всех 3-х позициях получается избыток идентичных ссылок, особенно когда на странице статьи из 2-3 изданий, пример офомления. В поле «Источник» шаблона: вроде общепринято, и если сделать в шаблоне специальные поля для пагинации (номера тома и страниц), даже если их не отображать, это упрощает различные последующие обработки ботом. В заголовках словарных статей: улучшает визуальное разделение статей разных изданий. Вопрос важен, ибо планируется ботозаливка многих тысяч статей с выбранным оформлением. --Vladis13 (обсуждение) 21:11, 31 июля 2015 (UTC)[ответить]

  • Оставьте позиции 1 и 2. В заголовках различных редакций ссылки излишни, в таких случаях оформляется по типу БСЭ1/А или ЭСБЕ/Альморавиды и Альмогады. В случае с Далем: оставляете заголовки «1-е издание, том 1 (1863)», «2-е издание, том 1 (1880)» и «3-е издание, том 1 (1903)», но не делаете их ссылками. Hausratte (обсуждение) 21:55, 31 июля 2015 (UTC)[ответить]
Вообще-то я могу согласиться с идеей не делать заголовки «1-е издание, том 1 (1863)» и т. п. ссылками, если это загромождает страницу. Dmitrismirnov (обсуждение) 22:02, 31 июля 2015 (UTC)[ответить]
1) Я уже выразил свою точку зрения на помещение сразу нескольких ссылок в графе источник -- я считаю их излишними, не привязанными непосредственно к тексту, а также увеличивающими размер и так большой шапки.
2) Можно было бы пожертвовать номерами страниц, но их наличие создаёт дополнительное удобство, особенно если статья большая, так как ведёт непосредственно на страницу индекса с источником текста. И поскольку эти номера выставляются автоматически, их можно было бы оставить при условии, исправления существующего в настоящее время дефекта -- при суживании страницы, цифры налезают на текст. Но я надеюсь, что технически эту проблему можно решить.
3) Ссылка прямо над текстом удобна и наглядна -- она самая важная. Её использование было согласовано с @Lozman'ом, который и предложил использовать такой дизайн. -- Dmitrismirnov (обсуждение) 21:58, 31 июля 2015 (UTC)[ответить]
«который и предложил использовать такой дизайн» — ссылку, пожалуйста. Hausratte (обсуждение) 22:03, 31 июля 2015 (UTC)[ответить]
Я так понял из Ваших слов. Dmitrismirnov (обсуждение) 22:08, 31 июля 2015 (UTC)[ответить]
Из каких?.. Уф, неважно. В общем, свою точку зрения я высказал выше. Есть определенная практика оформления разных редакций, предпочтительнее следовать ей во имя единоообразия. Hausratte (обсуждение) 22:12, 31 июля 2015 (UTC)[ответить]
Вот ссылка на Ваши слова: [1] Вы их потом поправили (выделено мной):

@Dmitrismirnov: Дело оказалось не в шаблоне. Lozman поправил статью ТСД/А 1/ДО. Используйте ее как образец (в частности, нужен тег pages index, а не lst). Hausratte (обсуждение) 20:53, 27 июня 2015 (UTC)

-- Dmitrismirnov (обсуждение) 23:03, 31 июля 2015 (UTC)[ответить]
Спасибо, теперь понятно. Я имел в виду, что следует использовать pages index вместо #lst:Страница. Вот и все Smiley.svg Использование ссылок в заголовках, в общем-то, не критично, но излишне, так как они и так уже есть в номерах страниц в левом поле. Hausratte (обсуждение) 23:29, 31 июля 2015 (UTC)[ответить]
Я не вполне понимаю выражение "использовать pages index вместо #lst:Страница." -- что конкретно имеется в виду под этими словами "pages index" и "#lst:Страница"? Dmitrismirnov (обсуждение) 23:48, 31 июля 2015 (UTC)[ответить]
Викитека:Проект:OCR#Тексты. Hausratte (обсуждение) 12:03, 1 августа 2015 (UTC)[ответить]
Технического языка я не понимаю. Переводов этих терминов "pages index" и "#lst:Страница" на человеческий язык по Вашей ссылке я не нашёл. Dmitrismirnov (обсуждение) 12:15, 1 августа 2015 (UTC)[ответить]
Насколько я понимаю, консенсус склоняется к тому, что ссылки в [пагинации] слева нужны. А вот насчёт размещения в шапке и заголовке непонятно. По общепринятым принципам оформления, анкор какой-то из ссылок на источник должен содержать ясное название издания/тома, поэтому выбор одного из двух: в поле «источник» шапки или в заголовке. Высказано в 21:58 что ссылки в заголовке нужны, в шапке лишние. Но сразу после этого в 22:02, что излишни в заголовках при наличии других ссылок. Оставить всё же в шапке? --Vladis13 (обсуждение) 02:05, 1 августа 2015 (UTC)[ответить]
О консенсусе рано ещё говорить, поскольку было высказано всего два мнения. Было бы полезно услышать что думают и другие участники. Даже Вы не высказали Вашего собственного мнения, а это было бы интересно. Dmitrismirnov (обсуждение) 06:46, 1 августа 2015 (UTC)[ответить]
С точки зрения оформления — не могу ничего сказать, спрашиваю, интересует консенсус сообщества. Мою позицию высказал в первом сообщении. Надо определиться по этому вопросу перед возможной ботозаливкой статей. --Vladis13 (обсуждение) 20:46, 1 августа 2015 (UTC)[ответить]
Я, если честно, не совсем понимаю, в чем проблема. Заполнение поля «Источник» является обязательным во всех текстах; Даль — единственный проект в ВТ, где это правило не соблюдается. Чтобы шапка {{ТСД}} сильно не раздувалась, ее можно оптимизировать по образцу других шапок ({{ЭСБЕ}}, {{ПБЭ}}, {{ВЭ}}, {{БСЭ1}} и т. д.) — в частности, убрав алфавит и поместив на одной строчке ссылки на словник, источники и «другие источники». Размещение ссылок в заголовках — это чисто изобретение Дмитрия, нигде в ВТ подобного нет и Лоцман не предлагал использовать такой дизайн (если что, уточните у него сами). Hausratte (обсуждение) 21:42, 1 августа 2015 (UTC)[ответить]
Алфавит необходимо оставить. Он сильно облегчает пользование словарём. В остальном могу согласиться с предыдущим мнением: добавить ссылки в графу ИСТОЧНИК, а указания на 1, 2 и 3 издания перед текстом делать без ссылок. Номера страниц оставить, но желательно поправить дефект, чтобы не налезали на текст при сужении страницы. То есть страница может выглядеть приблизительно так: Участник:Dmitrismirnov/ТДК/Абаз/test (только надо бы поправить ссылки в графе ИСТОЧНИК, расположив их в порядке: 1, 2 и затем 3 издание. Если все согласны и никто не возражает, можно сказать что консенсус достигнут. Dmitrismirnov (обсуждение) 22:15, 1 августа 2015 (UTC)[ответить]
Порядок ссылок 1-2-3 в графе «источник» поправил в тестовой странице. --Vladis13 (обсуждение) 23:51, 1 августа 2015 (UTC)[ответить]
Хорошо! Dmitrismirnov (обсуждение) 23:59, 1 августа 2015 (UTC)[ответить]
Заголовки оформлять именно так малым шрифтом и курсивом? --Vladis13 (обсуждение) 23:24, 1 августа 2015 (UTC)[ответить]
Да, если у Вас нет возражений. Я просто хотел, чтоб это не слишком бросалось в глаза и отличалось от текста самой статьи. Dmitrismirnov (обсуждение) 23:31, 1 августа 2015 (UTC)[ответить]

Категории[править]

Статьи содержатся в 4 категориях, не много ли? Например ТСД/Я в: Категория:ТСД:Я Категория:ТСД:Современная орфография, Категория:ТСД, Категория:Словарные статьи Владимира Ивановича Даля. В последних двух, добавляемых шаблоном {{ТСД}}, вверху есть оглавление с переходом на букву (в данном примере "Я"). Мне кажется они излишни, может убрать их из шаблона и из статей? --Vladis13 (обсуждение) 18:55, 15 сентября 2015 (UTC)[ответить]

Они не мешают. Иногда удобно поискать страницы в конкретных категориях. Dmitrismirnov (обсуждение) 19:41, 15 сентября 2015 (UTC)[ответить]
Может убрать всёже словарные статьи из Категория:ТСД? Это всё же верхняя распределительная категория. Там бардак. Под звёздочкой например Словник, дальше навалено словарных статей (сейчас 7.5 тыс., после заливки 2го изд. будет 50тыс., с другими изданиями и ДО в потенциале 300-800 тыс.), при этом Словник на букву С надо искать на "С" а не на звёздочке, а на "Т" вообще верхняя старница Толковый словарь В. Даля. --Vladis13 (обсуждение) 11:11, 19 сентября 2015 (UTC)[ответить]
Нашёл дикую Категория:Толковый словарь В. Даля, в которую входит Категория:ТСД. Всё её содержимое - только переиздание98, т.е. дублирует Категория:ТСД-2, переиздание '98, совр.орф.. Также в ней есть непонятная Категория:Толковый словарь живаго великорусскаго языка с подкатегориями, и статьи вроде: Толковый словарь В. Даля/Ангинга — Антихрист/ДО, Толковый словарь В. Даля/Атанде — Аутопсия/ДО. Похоже это всё давно не актуально, последние правки там были 7 лет назад. Мне кажется, эти категории надо зачистить, после чего туда перенести всё содержимое категории ТСД (с учётом предложения абзацем выше), ибо название "Толковый словарь В. Даля" более понятное, чем "ТСД". --Vladis13 (обсуждение) 16:53, 19 сентября 2015 (UTC)[ответить]
С категориями действительно есть некоторая путаница, поскольку работа над словарём началась давно (7-8 лет назад) без хорошо продуманного плана. Идеи менялись в процессе работы, и только теперь стало проясняться её направление. Конечно, категории желательно унифицировать. Категория:ТСД была введена только 2-3 года назад по общему решению и является сокращением категории Категория:Толковый словарь В. Даля. Да была и такая категория Категория:Толковый словарь живаго великорусскаго языка, которая точнее, так как воспроизводит оригинальное название словаря, но она чересчур громоздка. Категория:ТСД удобна благодаря своей краткости (наподобие БСЭ или ЭСБЕ). Поэтому, мне кажется, из соображений удобства, предпочтительнее оставить её, а старые категории можно было было бы переименовать. Но прежде, чем это делать, нужно чёткое решение сообщества. Dmitrismirnov (обсуждение) 17:18, 19 сентября 2015 (UTC)[ответить]
@Vladis13 Напишите, пожалуйста, на ВТ:Ф ваши конкретные предложения, и если никто не будет возражать — можно делать. В целом желательно следовать логике категоризации других словарей (см., напр., Категория:Энциклопедический словарь Брокгауза и Ефрона — заметьте, что туда входит Категория:ЭСБЕ). Если какие-то категории в результате останутся пустыми как ненужные, на них следует поставить плашку КБУ ({{d}}). Hausratte (обсуждение) 17:45, 19 сентября 2015 (UTC)[ответить]
Открыл тему на форуме. --Vladis13 (обсуждение) 19:09, 19 сентября 2015 (UTC)[ответить]

Служебные[править]

Добавил скрытые категории на время обработки. Выборка из Категория:ТСД:Современная орфография, ДО не смотрел.

  • Категория:ТСД:Имеется закомментаренный код - код старый, лишний. Также исправил проблему, что в коде страниц не было завершающего тэга "-->". Бот добавляет и автовикифицирует страницы, перенося код категорий вниз кода страницы (это не отключить), а если выше есть незакрытый тэг закомментирования "<!--", то страницы вылетают из всех категорий. Тэги надобы закрывать.
  • Категория:ТСД:Перенаправления?‎ - много страниц где есть закомментированная категория Категория:ТСД:Перенаправления, зачастую ошибочная. Некоторые такие перенёс в данную категорию с "?". Потом после заливки лучше пройти ботом, отслеживая страницы со словом "см. " - это точный признак перенаправления.
Что касается категории ТСД:Перенаправления, то думаю её можно было бы упразднить, но в этом я не вполне уверен, и мне было бы важно знать Ваше мнение. В большинстве случаев перенаправление явно отличается от статьи, но не всегда и бывают случаи, когда разницу трудно точно определить. Например:
1) иногда в одних изданиях это статья, а в других перенаправление, как здесь: ТСД/Алей, ТСД/Аблава/ДО;
2) или иногда перенаправление состоит из большого списка разных названий: ТСД/Бабуля, ТСД/Бабушка, а в некоторых случаях при этом даётся целая серия перенаправлений на разные слова, и даже наименование нового гнезда ТСД/Багривать, 1. Багрить, что больше смахивает на статью.
3) или когда перенаправление содержит краткий комментарий, что приближает его к функции статьи: ТСД/Баркан 2/ДО, ТСД/Басран, ТСД/Басалык 1
4) иногда ссылка "см." и даже не одна содержится в большой статье, так что на самом деле ссылка "см." не служит обязательным признаком перенаправления: ТСД/Баса ТСД/Баланец
Таким образом, определение функции текста (статья или перенаправление) может быть затруднительно, и устранение этой категории упростило бы процесс работы. Как Вы думаете? Или может быть всё-таки оставить эту категорию для бесспорных случаев? Dmitrismirnov (обсуждение) 07:26, 21 сентября 2015 (UTC)[ответить]
Действительно, это актуальные аргументы. Учтём, что вручную без бота добавить данную категорию невозможно для десятков и сотен тысяч статей. Да и с ботом надо хитрый алгоритм придумывать и вручную проверять очень много статей, отлаживая алгоритм, а потом зачищая. Крайне много работы и затрат времени, сомнительной нужности, есть полным-полно более важных задач в Проекте. Вики — это добровольный проект. Если я не буду этот алгоритм придумывать и недели сидеть вручную проверяя по тысяче правок в день, а вы не будете крайне сложно их вручную отмечать — никто другой этим заниматься не будет. Т. е. если кому-то это надо пусть и делает, однако никто не делает значит не надо. Я за упразднение, — создаёт слишком много ненужных сложностей. --Vladis13 (обсуждение) 18:47, 21 сентября 2015 (UTC)[ответить]
Тогда давайте пока упраздним эту категорию. Только что делать с теми, которые уже стоят? Оставлять или убирать? Dmitrismirnov (обсуждение) 19:16, 21 сентября 2015 (UTC)[ответить]
Давайте пока оставим для бота. Потом буду использовать так: поставлю категорию на все статьи со ссылками на др. статьи (содержащие "см. "). А потом по этой категории может будет проще исправить их на викиссылки. (Если понадобится делать несколько операций, то не придётся заново статьи искать - будут в категории). Т.е. вручную заморачиваться с ней не стоит, чисто служебная для автопоиска ботом. --Vladis13 (обсуждение) 20:24, 21 сентября 2015 (UTC)[ответить]
Сделал «Категория:ТСД:Перенаправления» скрытой и перенёс в служебные в «Категория:ТСД:Нуждаются в викификации», чтоб не отвлекала. --Vladis13 (обсуждение) 00:28, 22 сентября 2015 (UTC)[ответить]
У меня есть такая идея: считать перенаправлениями все статьи, в которых есть ссылка "см." независимо от их размера и функции. В таком случае в данную категорию войдут все перенаправления. Как вы думаете. есть в этом рациональное зерно? Dmitrismirnov (обсуждение) 07:18, 22 сентября 2015 (UTC)[ответить]
Для бота так и сделаю. А кроме как для бота я не понимаю зачем нужна эта категория. --Vladis13 (обсуждение) 14:08, 22 сентября 2015 (UTC)[ответить]


Шаблон ТСД[править]

В шаблоне есть поле «список», куда вводится первая буква статьи. Вставил в шаблон автоподстановку категории по букве. Поэтому отдельно добавлять в статью категорию, например [[Категория:ТСД:А]], не нужно. Я нигде не ошибся?

Надеюсь, что нет. Я проверил несколько разных букв - всё работает. Спасибо за это упрощение. Нельзя ли также сделать автоматической подстановку Категорий ТСД:Дореформенная орфография и ТСД:Современная орфография? Dmitrismirnov (обсуждение) 07:27, 21 сентября 2015 (UTC)[ответить]
Сделал. Автоподстановка по названию статьи — с «/ДО» или без. ТСД/Абака/ДО, ТСД/Абака. --Vladis13 (обсуждение) 18:13, 21 сентября 2015 (UTC)[ответить]
Спасибо! Работает!! Dmitrismirnov (обсуждение) 19:16, 21 сентября 2015 (UTC)[ответить]
При этом было бы хорошо, если можно так сделать, чтобы категория Категория:ТСД:Дореформенная орфография включалась в категорию Категория:Дореформенная орфография, но при этом сама Категория:Дореформенная орфография не появлялась внизу под каждой статьёй. Dmitrismirnov (обсуждение) 07:26, 21 сентября 2015 (UTC)[ответить]
«Категория:Дореформенная орфография» добавляется шаблоном {{Отексте}}, который вызывается {{ТСД}}. «Отексте» шаблон значимый и сложный. Пока не знаю как убрать. Надо на форуме спрашивать. --Vladis13 (обсуждение) 18:13, 21 сентября 2015 (UTC)[ответить]
Ну, это не обязательно, не заморачивайтесь! Dmitrismirnov (обсуждение) 19:16, 21 сентября 2015 (UTC)[ответить]
И ещё одна просьба: Ни в одной статье ТСД нет прямой ссылки на имя автора, а хотелось бы, чтобы она там была. Нельзя ли в шапке в надписи «Толковый словарь живого великорусского языка Владимира Даля» сделать такую ссылку? Dmitrismirnov (обсуждение) 12:01, 21 сентября 2015 (UTC)[ответить]
Добавил в имеющуюся так: Толковый словарь живого великорусского языка Владимира Даля. Нормально? --Vladis13 (обсуждение) 16:52, 21 сентября 2015 (UTC)[ответить]
Спасибо, наконец-то читатель может добраться до автора :) Dmitrismirnov (обсуждение) 19:16, 21 сентября 2015 (UTC)[ответить]
Незачто, предлагайте ещё идеи. --Vladis13 (обсуждение) 20:24, 21 сентября 2015 (UTC)[ответить]

две маленьие идеи[править]

1) Я не знаю заметили Вы или нет, что ссылка на |ВИКИСЛОВАРЬ=яла должна начинаться не с прописной, но со строчной буква (так как там почти все слова с маленькой буквы). Когда Вы пишете
|ВИКИСЛОВАРЬ=Яла и т. п.
то ссылка не приводит к желаемой странице (см. ТСД/Яла).

Это проблема викисловаря, в википедии регистр первой буквы нормально распознаётся. Сделал поправку в шаблоне, сейчас работает. Но есть нюансы что некоторые слова имеют разные значения при разном регистре, а в викисловаре между такими статьями нет перекрёстных ссылок (зато есть крайняя косность участников), например небыло в wikt:Ял и wikt:ял (сейчас добавил, но пока правку не подтвердили). Поэтому следующие заливки сделаю со строчной буквой. --Vladis13 (обсуждение) 16:07, 22 сентября 2015 (UTC)[ответить]
Уже залитые на «Я» тоже поправил. --Vladis13 (обсуждение) 19:39, 22 сентября 2015 (UTC)[ответить]
Кстати, в словнике стоят «Другие источники» на данную букву, хотя там списки и про конкретное слово (букву) они не к месту. Например, в ТСД/Словник/В: «Другие источники: МЭСБЕ, ЭСБЕ. Википроекты: Википедия, Словарь» — всё только про букву «В», эти ссылки к месту в статье ТСД/В. Предлагаю убрать из словника. --Vladis13 (обсуждение) 19:47, 22 сентября 2015 (UTC)[ответить]

2) в шаблоне в графе источник издания приводятся сверху вниз в порядке от последего к первому:

 |ИСТОЧНИК=
   |3-ИЗД.ТОМ= 4
   |3-ИЗД.ЧАСТЬ ТОМА=
   |3-ИЗД.СТРАНИЦА СКАНА=
   |3-ИЗД.СТРАНИЦЫ КНИГИ=
   |2-ИЗД.ТОМ= 4
   |2-ИЗД.СТРАНИЦА СКАНА=
   |2-ИЗД.СТРАНИЦЫ КНИГИ=
   |1-ИЗД.ТОМ= 4
   |1-ИЗД.СТРАНИЦА СКАНА=
   |1-ИЗД.СТРАНИЦЫ КНИГИ=

Мне более привычно и удобно было бы располагать их сверху вниз в порядке от первого к ппоследнему:

 |ИСТОЧНИК=
   |1-ИЗД.ТОМ= 4
   |1-ИЗД.СТРАНИЦА СКАНА=
   |1-ИЗД.СТРАНИЦЫ КНИГИ=
   |2-ИЗД.ТОМ= 4
   |2-ИЗД.СТРАНИЦА СКАНА=
   |2-ИЗД.СТРАНИЦЫ КНИГИ=
   |3-ИЗД.ТОМ= 4
   |3-ИЗД.ЧАСТЬ ТОМА=
   |3-ИЗД.СТРАНИЦА СКАНА=
   |3-ИЗД.СТРАНИЦЫ КНИГИ=

-- Dmitrismirnov (обсуждение) 10:45, 22 сентября 2015 (UTC)[ответить]

Спасибо! Dmitrismirnov (обсуждение) 17:39, 22 сентября 2015 (UTC)[ответить]

Модуль:ТСД[править]

Написал Модуль:ТСД, куда вынес нагромождение кода из {{ТСД}}. Добавьте его в список наблюдения. --Vladis13 (обсуждение) 18:31, 26 сентября 2015 (UTC)[ответить]

  • @Hinote Сломались все ссылки на источник в статьях. Думаю, надо поменять if (linkonly ~= nil) на if (linkonly == nil), с соотв.изменением кода. Чтобы по умолчанию, без этого параметра, работал прежний код, а с ним - что вы хотели. --Vladis13 (обсуждение) 14:19, 17 октября 2015 (UTC)[ответить]
    • Значит я ошибся, значит там условие наоборот, да... Yes check.svg Сделано Hinote (обсуждение)

Параметр СПИСОК[править]

  • С параметром |СПИСОК= не ясно. В нём для обоих орфографий указывается буква-ДО (или СО)? Или для тут — СО, а в пространстве «/ДО» — ДО? --Vladis13 (обсуждение) 05:02, 5 октября 2015 (UTC)[ответить]

Параметры СЛЕДУЮЩИЙ-ПРЕДЫДУЩИЙ-НАВИГАЦИЯ[править]

Предлагаю разобраться с полем навигации. Нужны 2 навигации: для 1-2 изданий и для ТСД-3. При их идентичности достаточно имеющихся параметров СЛЕДУЮЩИЙ/ПРЕДЫДУЩИЙ (пример). Если они различаются, я обычно очищаю в них значения (чтобы не перекрывали), и добавляю поле НАВИГАЦИЯ, где ставлю 2 шаблона «sub-nav» (пример):
|НАВИГАЦИЯ= {{sub-nav|[[ТСД/Абажур|Абажур]] | [[ТСД/Абаим|Абаим]] | [[ТСД/Словник/А-доп|1—2 издан{{и}}я]]}}
{{sub-nav|[[ТСД/Абазурить|Абазурить]] | [[ТСД/Абаим|Абаим]] | [[ТСД/Словник/А|3 издан{{и}}е]]}}

Предлагаю добавить в шапку поля «|1-2 ИЗД.СЛЕДУЮЩИЙ», «|1-2 ИЗД.ПРЕДЫДУЩИЙ», «|3 ИЗД.СЛЕДУЮЩИЙ», «|3 ИЗД.ПРЕДЫДУЩИЙ». (Или назвать как получше.) Если данные поля пусты, то значение будет браться как сейчас из обычных СЛЕДУЮЩИЙ/ПРЕДЫДУЩИЙ. --Vladis13 (обсуждение) 05:27, 5 октября 2015 (UTC)[ответить]


Шаблон для автоподстановки всего[править]

Идея. В шаблоне {{ТСД}} уже содержатся все данные. Но сейчас при написании страницы источник надо указывать трижды, а то и больше: в этом шаблоне, ниже в тэге page или #lst, и ещё в заголовках (шаблон {{tom}}). Это вручную заморочно, повышает риск напутать цифры. И заморочно ботом, приходится гонять бот по залитым 7600 страницам, ставя и снимая несколько служебных категорий и шаблонов.
Бот обрабатывает 1-2 тыс. страниц за час, поэтому 1 операция (изменение категории или одной буквы) по этим 7600 страницам занимает 4-7 часов, при наличии 44000 страниц изменение всех займёт ≈40 часов. Поэтому, всё что можно надо бы выносить в шаблоны.
Предлагаю просто использовать шаблон "ТСД". Добавить в него поле, куда вводится метка из тэга "section" Индекса. И шаблон сам будет подставлять статью из индекса с заголовком.
Нюанс вижу только один: Статья выводимая через "ТСД" будет сразу под шапкой. Т.е. если, например, в индексе статья только из 3-го издания и она выводится через шаблон, а другие статьи не в индексе и их текст на странице ниже шаблона - то выводится будут не по порядку, а так: 3, ниже 1 и 2. Два решения:

1) Текст таких статей тоже вводить в поля шаблона, пример:
{{ТСД
   |3-ИЗД.ТОМ=1
   |3-ИЗД.ЧАСТЬ ТОМА=2
   |3-ИЗД.СТРАНИЦА СКАНА=45
   |3-ИЗД.СТРАНИЦЫ КНИГИ=85-87
|1-ИЗД.МЕТКА В ИНДЕКСЕ = 
|1-ИЗД.ТЕКСТ           = '''Термин''' <small>м.</small> текст статьи. 
|2-ИЗД.МЕТКА В ИНДЕКСЕ = 
|2-ИЗД.ТЕКСТ           = '''Термин''' <small>м.</small> текст статьи.
|3-ИЗД.МЕТКА В ИНДЕКСЕ = термин1 <!-- метка из тэга "section", при её наличии выводится статья из индекса -->
|3-ИЗД.ТЕКСТ           = 
}}
== Примечание == <!-- если надо -->
{{примечания}}
2) Сделать новый шаблон только для текста статьи и заголовка на источник. Т.е. в формате например: {{статья-из-индекса|метка-в-индексе1|издание=3|том=2|часть=2|страницаскана=23|страницыкниги=150-152}}.

И он подставит:

<center><small>''3-е издан{{и}}е, том{{ъ}} 2(2) (1905):''</small></center>
{{#lst:Страница:.............."метка-в-индексе1"...|метка-в-индексе1}}

Первый вариант с одним шаблоном "ТСД" мне кажется наилучшим. --Vladis13 (обсуждение) 06:34, 23 сентября 2015 (UTC)[ответить]

Только объясните мне, а можно вместо текста вводить в этот шаблон ссылку на вычитанную страницу, например такую:
<pages index="Толковый словрь Даля (2-е издание). Том 4 (1882).pdf" from=705 to=705 onlysection="Яла1" /> ? Dmitrismirnov (обсуждение) 19:57, 23 сентября 2015 (UTC)[ответить]
Я хотел как раз отойти от использования сложных тэгов. Чтобы один раз в шапке ввести номер тома, страниц, названия секции — и автозаполнялась шапка, и подставлялась статья с индекса с заголовком. Наверно не получится, тэг pages не работает из шаблона если подставлять в него параметры в «{{{» типа {{{3-ИЗД.ТОМ|}}}. Работает другой шаблон — {{#lst:. Но он имеет недостатки: как я понял нельзя указать диапазон страниц (если статья продолжается на следующей странице), и не показывает ссылку на страницу источника (слева от текста). Поэтому массово использовать его наверно не стоит. --Vladis13 (обсуждение) 21:48, 24 сентября 2015 (UTC)[ответить]
Да, вот я чего боюсь, если шаблон станет слишком сложным, для многих будет непонятно как им пользоваться. Хотелось бы, чтобы работа с шаблоном была максимально простой и допускала бы самую обычную работу вручную. Автоматизация ручного процесса это конечно хорошо, но для меня главной трудностью являются две проблемы: 1) вычитка текста в сканах с источников и 2) составление словника 3-го издания. Есть ещё много проблем которые стоит обсудить, но нелья всё всё сразу... Dmitrismirnov (обсуждение) 22:03, 24 сентября 2015 (UTC)[ответить]
С шаблоном то всё просто, сделал документацию, достаточно просто скопировать оттуда на страницу. С вычиткой, вроде в Finereader можно сделать обучение распознавания, чтоб лучше распознавал, и уже ботом эту лучше распознанную версию ДО залить в индекс. А словника 3-го издания в интернетах нет? Вроде видел на сайтах выложено это издание... --Vladis13 (обсуждение) 14:35, 25 сентября 2015 (UTC)[ответить]
Здесь я не могу быть Вашим хорошим советчиком ввиду своей полной некомпетентности в технических вопросах. Но если Вы уверены, что эти новшества надёжны и пойдут на пользу проекту, то делайте то, что считаете необходимым. Это касается также упорядочивания категорий, действуйте согласно Вашему плану. Я не думаю, что кто-либо станет возражать. --Dmitrismirnov (обсуждение) 11:01, 23 сентября 2015 (UTC)[ответить]


Пагинация в словнике[править]

В словники номера страниц добавляются вручную, их число весьма невелико, ибо над этим трудится один участник. Наверно сделано 100—1000 номеров страниц, при 44 тыс. статей во 2 издании и 270 тыс. статей в 3-м. Нюанс, что в словнике кое-где номера страниц книги указаны для диапазона статей на этих страницах. При этом сами статьи могут вычитываться по отдельности, поэтому для страницы книги только часть статей будет с пагинацией. Просто по алфавиту статьи не расположишь — в старой орфографии они шли в другом порядке, словника в ДО нет. (Что-то можно высчитать из словника в СО, учитывая правила старой орфографии, но это отдельное задача, требующая обсуждения и тестов.) Также пока не обсуждался формат отображения пагинации в словнике. Например: номера страницы выводить для диапазона статей или для каждой отдельно, для ДО или СО, подзаголовком над диапазоном, ввиде таблицы, или справа-слева от названия статьи? --Vladis13 (обсуждение) 17:53, 30 сентября 2015 (UTC)[ответить]

Здесь на логику рассчитывать не приходится, так как статьи расположены не всегда в строго алфавитном порядке. Dmitrismirnov (обсуждение) 18:41, 30 сентября 2015 (UTC)[ответить]
По-моему вы изобретаете велосипед. Инфраструктура словников (уже имеющиеся шаблоны, этот модуль, функции в нем) как раз и рассчитаны на то, что статьи могут быть в хитром порядке, а не в алфавитном. Это все уже готово и работает. Посмотрите на упомянутые мной выше словники: там даже говорится явно для читателей: "Порядок расположения статей соответствует печатному изданию.", а не в алфавитном. Для алфавитного порядка есть категории, в них все как раз в алфавитном порядке все прекрасно собирается, для тех читателей, кто хочет в таком порядке просматривать и находить статьи. А словники (те, которые используют этот модуль и сопутствующие шаблоны), как правило, строятся в том порядке, как статьи расположены в издании. Кроме, вроде, ЭСБЕ -- но там это по историческим причинам, там при начале проекта было решено делать словник в алфавитном порядке... Hinote (обсуждение) 19:56, 30 сентября 2015 (UTC)[ответить]
  • Представляется такой формат словника и алгоритм:
  1. Строка словника «Термин в СО / Тѣрмін въ ДО 56-58» — СО, слэш, ДО, номера страниц книги. В приведённых выше примерах это сделано через шаблон {{Статья в словнике}} для каждой ссылки, пример: {{Статья в словнике|Абаза, Константин Константинович|Абаза, Константинъ Константиновичъ|2—3|28}}. (Кстати, судя по последним цифрам тут пагинация в скане не высчитывается?) В приведённых примерах словников ВТ и РЭБ название в другой орфографии не отображается, — отдельные страницы словников для каждой орфографии. Или лучше показывать их на одной странице рядом как сейчас в ТСД?
    1.1 Не понял первое предложение. Hinote (обсуждение) 22:02, 1 октября 2015 (UTC)[ответить]
    Я про текущий формат словника, например: "Абажу́ръ / Абажу́р". Но если всё уже продумано в шаблоне {{Статья в словнике}}, то ок. --Vladis13 (обсуждение) 07:17, 2 октября 2015 (UTC)[ответить]
    1.2 @Vladis13 "Кстати, судя по последним цифрам тут пагинация в скане не высчитывается" -- высчитывается. Это оно сначала не высчитывалась, поэтому там прописывались номера страниц. Потом уже обнаружили способ, что можно высчитывать из диапазона страниц. Поэтому, строго говоря, этот параметр там не нужен. Но его оставили и оставили не пустым, чтобы делать меньше изменений в существующем коде модуля Header, где там все это парсится, чтобы не разрушить ничего. Надо будет там это вычистить и поменять словники, убрать этот параметр... Это отложено на потом... Т.е. просто в одном из проектов, где номера страниц в сканах уже были проставлены в словниках -- они оставлены как есть, но не используются, а в другом -- в этот параметр просто дублировалось значение предыдущего, т.е. диапазона страниц в книге, и он тоже не используется, посмотрите на один и на другой словник... "отдельные страницы словников для каждой орфографии" -- нет, для второй орфографии словник -- это просто включение (transclusion) страницы словника в другой орфографии. (Посмотрите на них) Просто для одного из проектов собственно словник -- это страница ВТ (т.е. СО), а ДО -- его включает, а для другого -- наоборот. Т.е. тут тоже подход развивался со временем. Надо тут тоже будет порядок навести и сделать одинаково... "Или лучше показывать их на одной странице рядом как сейчас в ТСД?" -- давайте сделаем пока отдельно, это совсем несложно, а потом посмотрим на результат и если захотим на странице словника ВТ (т.е. СО) показывать и вариант названий статей в ДО -- поменяем код соответственно... Hinote (обсуждение) 23:06, 3 октября 2015 (UTC)[ответить]
  2. Скрипт отображает сделанную ссылку в шапке словарной статьи, вместо со ссылкой ведущую на страницу скана (которую высчитывает по смещению данной страницы книги). Любопытно, что в ВЭ/ВТ/Абаза, Константин Константинович параметры шапки все пустые, а всё показывается.
    2.1 Не понял, что такое "отображает сделанную ссылку", точнее, что такое "сделанную ссылку". Отображается название статьи, взятое из словника (СО, ДО или СО [ДО] -- это как договоримся) Hinote (обсуждение) 22:00, 1 октября 2015 (UTC)[ответить]
    2.2 "параметры шапки все пустые, а всё показывается" -- да, и это как раз результат работы инфраструктуры словников: название статьи, ссылка на нужный словник, номер тома (кстати: и номер тома вам в шапке тоже не нужен, это тоже может "подбираться" из словника, точнее высчитываться по номеру словника, в котором есть соотв. элемент для статьи), диапазон страниц -- это все берется из словника, страница в скане для ссылки на скан -- вычисляется из диапазона страниц, который берется из словника, плюс из Викиданных берутся ссылки на внешние проекты и на другие проекты в ВТ, если там есть данные... Так что, да, параметров нет, но все отображается. ;-) И для ТСД так же сделаем, и даже еще лучше... Hinote (обсуждение) 22:00, 1 октября 2015 (UTC)[ответить]
    Великолепно. А где эти функции парсинга находятся? В модуле Header? Там нет документации и комментариев к функциям, сложно что-либо понять к сожалению. --Vladis13 (обсуждение) 07:17, 2 октября 2015 (UTC)[ответить]
    Да, «номер тома» можно убрать. Тома разделены по буквам алфавита, в шаблоне уже есть параметр для буквы. Кстати, и его можно убрать, ибо буква алфавита = 1-й букве названия статьи. @Dmitrismirnov есть ли случаи, где первая буква названия статьи отличается от оглавления-буквы словника и следовательно от тома с этой буквой? --Vladis13 (обсуждение) 07:57, 2 октября 2015 (UTC)[ответить]
  1. Мне кажется надо добавить в {{ТСД}} поле «Оригинальное название» (или «НАЗВАНИЕ В ДО», хотя новым редакторам будет непонятно что за «ДО»), сейчас название статей в ДО в ряде статей дописывается вручную к названию (пример). И ещё связать этот параметр с подпространством «ДО» страниц. Если не ошибаюсь, вышеупомянутый скрипт это делает?
    Это хорошая идея. Dmitrismirnov (обсуждение) 20:55, 1 октября 2015 (UTC)[ответить]
    Название в ДО для каждой из статей, если их сделать как в ВЭ и РБС, и так будет в словнике в качестве второго параметра шаблона "Статья в словнике". В ВЭ и в РБС название в ДО используется только в вариантах ДО статей, т.е. в отдельных страницах, но если вы хотите, как и сейчас, отображать название статьи в ДО и в ее варианте в СО, то это тоже можно будет сделать. Надо определиться: сделать как в остальных словарях, когда на странице статьи в СО отображается только название СО, а на странице статьи в ДО -- только в ДО, или же на странице статьи в СО отображать оба варианта, как сейчас... И, да, такой параметр можно будет добавить к шапке, для того, чтобы, как Дмитрий говорит, "подправить" непосредственно на странице статьи это значение, которое оказалось почему-то неправильным в словнике (и отслеживать в отдельной категории такие страницы) с тем, чтобы другой участник, который не боится "лезть" в словник, сделал бы потом правку в словнике и удалил этот параметр из шапки страницы статьи. (Если так, то, имхо, лучше использовать название параметра вида НАЗВАНИЕ В ДО, т.к. ДО -- это часто используемый активными участниками в ВТ акроним, кому надо -- тот поймет. К тому же -- есть документация шаблона, где это можно будет описать, что это за параметр и что там можно записывать, когда и для чего...) Hinote (обсуждение) 21:41, 1 октября 2015 (UTC)[ответить]
    Мне кажется, лучше название в ДО в шапке показывать. Ибо словарь часто используется как этимологический, в этом он наверно на втором месте после словаря Фасмера.
    Хотя т. н. «название» — это просто первый термин в статье, а их может быть несколько, причём дальше в статье идут однокоренные слова и омонимы. И некоторые статьи названы по 3-му изданию, где Бодуэн на первое место поставил непонятные термины в скобках, которых у Даля в 1-2 изданиях нет, но вроде это единичные случаи. --Vladis13 (обсуждение) 09:39, 2 октября 2015 (UTC)[ответить]
  1. Я могу спарсить пагинацию из имеющихся словарных статей ТСД, сделать в виде списка, и залить в словник в таком формате. После чего удалить из шапок статей. В шаблон ТСД надо будет написать дополнение к инструкции, +в код всех статей добавить комментарий «пагинацию добавляйте в словник». Также можно добавить автодобавление категории для страниц, где в шапке заполнена пагинация, так будет элементарно отслеживать страницы где она добавлена вручную, а не в словник. --Vladis13 (обсуждение) 19:29, 1 октября 2015 (UTC)[ответить]
    Только удалять, по-моему, не надо, чтобы,если ошибка, можно было бы подконтролировать и поправить вручную. Dmitrismirnov (обсуждение) 20:55, 1 октября 2015 (UTC)[ответить]
    Дмитрий, не волнуйтесь -- мы все сделаем аккуратно и красиво... ;-) (И, да, можно будет при необходимости "подправить" и в шапке указать другие, корректные значения с тем, чтобы потом подправить словник или правило для вычисления страниц скана из страниц книги. Вы будете иметь такую возможность.) Hinote (обсуждение) 20:58, 1 октября 2015 (UTC)[ответить]


Парсинг пагинации[править]

  • Кстати, вот у вас в страницах ТСД параметры страницы сканов, страницы книги -- отдельными параметрами непосредственно в страницах. А ведь это можно было бы "вытягивать" непосредственно из словников. По крайней мере номера страниц в книге. А номера страниц в сканах -- из страниц в книге получать, как я это сделал для РБС, например... Потом когда-нибудь это все равно придется переделать и поудалять эти параметры из страниц ТСД... Hinote (обсуждение) 23:53, 28 сентября 2015 (UTC)[ответить]
    • В том и проблема, что словников, тем более с указаниями страниц не существует. Я сделал имеющийся словник без указания страниц, спарсив первые слова статей из одного переиздания в современной орфографии. Или я вас не правильно понял? Словник с пагинацией очень нужен. --Vladis13 (обсуждение) 15:04, 29 сентября 2015 (UTC)[ответить]
    • Или вы имеете ввиду высчитывание страниц скана из страниц книги (и наоборот), вроде если у скана стр. 50, смещение например 32, то страница книги = 50+32 ? Это будет не корректно, ибо не учитываются диапазоны. Страница скана в ссылке поля «источник» шапки должна выводится только на 1 конкретную страницу скана. А фактически статья может располагаться на нескольких страницах скана (это задаётся в тэге «<pages index»). При этом, в ссылке на источник читателю должен быть показан диапазон страниц книги. Поэтому прямой связи нет. --Vladis13 (обсуждение) 19:45, 29 сентября 2015 (UTC)[ответить]
      • Наоборот. Из диапазона страниц книги -- номер страницы в скане. Т.е. у статьи, например, диапазон "400—403". Всего то надо, выделить первую часть (в этом модуле даже есть уже весь имеющийся для этого функционал) и преобразовать (добавить смещение, где-то его изменить, если в скане есть страницы-дубликаты или наоборот пропущены страницы). Посмотрите на {{РБС/Ссылка на РГБ}}. Там это сделано шаблоном, но можно (и наверное даже лучше) вычислять в модуле, более по-человечьи будет выглядеть, чем эти ужасные лестницы условий в шаблоне. Причем, это даст возможность размещать ссылки на несколько источников. Посмотрите на любую статью ВЭ -- там есть недоделанная пока "заготовка" для ссылки не только на РГБ, но и на ГПИБ. Для этого из номера первой страницы диапазона страниц статьи надо просто пересчитать номер страницы в другом скане по-другому (другим шаблоном или другой ф-цией в модуле)... Посмотрите на шапки РБС, ВЭ -- там реализованы "самые последние наработки" ;-) в этой части... Т.е. первое здесь -- это то, что на самом деле номера страниц в сканах как параметры шапки страниц вам на самом деле не нужны, их можно легко высчитывать из параметров-диапазонов страниц в книге... А второе -- что и номера страниц в книге как параметры в шапке вам тоже не нужны. Их можно переместить из страниц в словники. Там с этим гораздо удобнее обращаться... Нет таких словников -- понятно. Но номера страниц в книге в параметрах шапки откуда то взялись? Подумайте о перемещении их в словники. Для этого, правда, нужно будет поправить этот модуль, в котором есть ф-ции, которые работают со словником и с номерами страниц для статей в нем -- у вас же сразу 3 издания и у каждой статьи будет 3 диапазона страниц, а не 1, как в других проектах, надо будет это дорюхать... Если решитесь -- я могу здесь это допилить, чтобы все 3 диапазона страниц можно было указывать в словниках... Hinote (обсуждение) 22:10, 29 сентября 2015 (UTC)[ответить]
        • Вроде будет удобней. Интересует мнение @Dmitrismirnov а как вы считаете, убрать из {{ТСД}} параметр «страница скана»? Он будет автоматом высчитывался из параметра «страница книги». --Vladis13 (обсуждение) 17:35, 30 сентября 2015 (UTC)[ответить]
Мне кажется, что этого делать не стоит. Но если Вы считаете, что это имеет смысл... тогда делайте по-вашему. В идеале было бы хорошо это автоматизировать, однако при этом иметь возможность поправить вручную, если что не так. Поэтому я и думаю, что лучше оставить этот параметр. Dmitrismirnov (обсуждение) 18:39, 30 сентября 2015 (UTC)[ответить]
Когда диапазоны страниц из книги (и страницы в скане) берутся из словника -- поправить все так же легко, как и в каждой конкретной странице. Просто посмотрите на словник РБС, словник ВЭ -- берете значение страниц для соотв. статьи и правите... И это даже удобнее для сопровождения, чем отдельные страницы: можно занести несколько страниц словника себе в список наблюдения и смотреть за исправлениями, исправление ошибки это или вандализм. С сотней тысяч статей это проблематично... Hinote (обсуждение) 19:48, 30 сентября 2015 (UTC)[ответить]
Да но словника-то ещё нет, и неизвестно когда будет. И Вы это прекрасно знаете. Расположение статей в словнике 2-го изд. в совр. орф. не соответствует печатному изданию. Для 1-го издания словника не существует, для 3-го -- он пока в самом зачатке. Одному участнику составить его не по силам. Это огромный труд. Dmitrismirnov (обсуждение) 20:04, 30 сентября 2015 (UTC)[ответить]
Хмм, а я думал есть... А откуда тогда берутся ссылки на предыд. и след. статьи? Hinote (обсуждение) 20:08, 30 сентября 2015 (UTC)[ответить]
Я просто посмотрел на пример статьи, та, которая мне понравилась, как я написал в другом обсуждении -- там сразу три линейки ссылок на предыдущие и следующие, и ссылки на сканы есть для всех изданий... Я подумал, что все это уже есть -- и словники (раз ссылки вперед/назад есть) и номера страниц и проблема только в том, что вы номера страниц принялись хранить непосредственно в страницах, хотя, как я тут поясняю, это можно и не делать... Если словников нет, тогда ёк, надо с них начинать, да... А вот тот корпус статей, который заливается -- это что, а то я не особо, получается, ориентируюсь -- это второе издание или как? Номера страниц там есть при заливке? Тогда можно было бы словник собрать... P.S. Давайте это все перенесем в обсуждение проекта ТСД, а то здесь этому не особо место подходящее... Hinote (обсуждение) 20:18, 30 сентября 2015 (UTC)[ответить]
Я занимаюсь 2-м изданием (оно заливается), Dmitrismirnov преимущественно 3-м. Не знаю точно про словник для 3-го издания, вроде видел (но не уверен) что оно выложено в интернет, значит его можно спарсить с сайтов, но мне кажется Dmitrismirnov делает его вручную. Для 2-го издания я сделал словник для современной орфографии, спарсив первые термины (слова) словарных статей из переиздания в современной орфографии. На его основе сделаны «следующие» и «предыдущие» статьи по алфавиту. Не существует словников с номерами страниц, для ДО, а также каких-либо для 1-го издания. --Vladis13 (обсуждение) 22:04, 30 сентября 2015 (UTC)[ответить]
Пробовал извлекать пагинацию из колонтитулов скана. Но это не вариант. --Vladis13 (обсуждение) 22:04, 30 сентября 2015 (UTC)[ответить]
Да, я видел. Да, это сложно и может быть и недостижимо. Кстати, если текстовый слой представленных в коммонс сканов не очень хороший, можно попробовать сделать новый слой (своей локальной OCR программой, только не tesseract, у него качество точно хуже будет, а ABBY, например; или же через archive.org) и перезалить в коммонс новые версии книг... Hinote (обсуждение) 21:24, 1 октября 2015 (UTC)[ответить]
Этот уже перезалитый с РГБ, лучше сканов вроде нет (на rutracker выложены хуже). Распознавать колонтитулы пробовал локально с помощью ABBY Finereader, результат привёл, да ещё она саму страницу распознаёт долго, потеря времени. Возможно, распознование можно улучшить функцией обучения в ABBY. Может у кого-то из участников викитеки уже есть файл обучения для старой офрографии и поделится? Хотя, как-то я сидел целый день, обучая ABBY одной книге в старой орфографии, а результат был такой же, если не хуже. --Vladis13 (обсуждение) 06:59, 2 октября 2015 (UTC)[ответить]
Я понял, о чем вы -- чтобы иметь возможность "подправить" номер страницы скана непосредственно в параметре шаблона-шапки страницы. Так одно другому не мешает. Я не помню, удалил я из шапок ВЭ и РБС за ненадобностью или оставил, но там есть (или была) следующая логика: номер страниц (-ы) книги берется из словника, номер страницы скана из этого вычисляется (с учетом пропущенных или задвоенных страниц в некоторых сканах), а вот если в параметре шаблона-шапки явно определено иное значение -- то используется оно. И для страницы в книге и для странице в скане. Так что вы можете сначала аккуратно добавить подбор страниц книги из словника (и/или вычисление страниц скана из страниц книги) по такой же схеме, т.е. с использованием явно указанных в параметре значений, если они есть, затем удалить из страниц эти параметры, ну а потом вы сможете на некоторых из страниц поправлять это, задавая соотв. параметры как и сейчас. Тогда это будет означать, что значение, подбираемое из словника или вычисляемое значение страницы скана неверно и надо другому участнику, который не боится лезть и править шаблоны или модули, посмотреть на несоответствие и исправить... Hinote (обсуждение) 20:06, 30 сентября 2015 (UTC)[ответить]
  • @Hinote Если возражений нет, тогда я только «за» убирание параметра «страница скана». Ибо при ручном редактировании необходимость заполнения дублирующейся рутины — это огромная заморочка. --Vladis13 (обсуждение) 19:35, 1 октября 2015 (UTC)[ответить]
  • Ок. Тогда давайте запишем это пока как open task, я подумаю, как это лучше увязать с изготовлением "правильного" словника (т.е. с другими шагами, с эти связанными), когда именно и что поменять, чтобы было проще и лучше... Hinote (обсуждение) 21:27, 1 октября 2015 (UTC)[ответить]

Текущий статус заливки[править]

А каков текущий статус ботозаливки? Все страницы статей этого корпуса существуют в ВТ и делаются уже только глобальные изменения в них, или пока не все? Hinote (обсуждение) 23:20, 30 сентября 2015 (UTC)[ответить]

  • Сегодня доделаю. --Vladis13 (обсуждение) 18:33, 1 октября 2015 (UTC)[ответить]
    • Просто я, когда будут все статьи, попробую, если вы не против, сделать "правильный" словник, с порядком статей, соответствующим изданию и со страницами... Дайте тогда отмашку... Это 2-е издание? Из яндекса? Диапазоны страниц там в параметре шапки только вручную размещаются или есть какие-то данные, которые вы ботом помещаете? Hinote (обсуждение) 18:41, 1 октября 2015 (UTC)[ответить]
      • Я только за. Начинайте когда вам удобно, мне осталось доделать совсем немного страниц, мелочи. Да, 2-е издание (ТСД-2), оно не из яндекса, наоборот яндекс его опубликовал из другого источника в сильном сокращении. Есть два словника: 1) Опубликованный - он делается вручную, сейчас сделан только для первых нескольких букв (более полный для 3-го издания), и в нём одна пагинация для диапазона страниц тоже добавляемая вручную. 2) Викитека:Проект:ТСД/ТСД2-98 - Словник - словник заливаемых страниц 2-го издания. Он достаточно актуальный. Только этой ночью как доделаю заливку - некоторые названия страниц в нём надо будет актуализировать (переименованы). Ботом/скриптами в них ничего не добавляется. --Vladis13 (обсуждение) 20:02, 1 октября 2015 (UTC)[ответить]
        Дмитрий дополнил «опубликованный» словник (из второго) почти для всех букв. --Vladis13 (обсуждение) 21:46, 1 октября 2015 (UTC)[ответить]
        Словники для ТСД-2 имеют суффикс «-доп». Кстати, может переименовать их понятнее? --Vladis13 (обсуждение) 03:14, 3 октября 2015 (UTC)[ответить]
        • "Ботом/скриптами в них ничего не добавляется." -- Я имел в виду не в словники, а в сами залитые страницы, в параметры шапки -- добавляются ли как то диапазоны страниц ботом (может быть у вас есть номера страниц для статей) или же это делается только вручную? (Речь везде только о корпусе статей 2-го издания, который вами заливается, т.к. относительно остальных изданий я уже понял, что все делается Дмитрием и вами вручную...) Hinote (обсуждение) 20:56, 1 октября 2015 (UTC)[ответить]
          • Пагинация нигде ботом/скриптами не добавляется. --Vladis13 (обсуждение) 21:46, 1 октября 2015 (UTC)[ответить]
            • Понял, жаль. Я просто по правкам это не понял -- бот ваш их добавляет из какого-то списка, который у вас возможно есть вместе с заливаемыми статьями, или же только вручную для каждой из просматриваемых вручную статей... Значит придется поиспользовать те уже установленные значения в статьях, где это уже вручную сделано в соотв. параметре в шапках страниц статей, а для остальных статей, где этот параметр не установлен -- пролистать книги постатейно в рамках изготовления словников... Hinote (обсуждение) 21:52, 1 октября 2015 (UTC)[ответить]
              • Я вытаскивал пагинацию в шапку из тегов «< pages» и «{{#lst:» статьей (тэги заполняются вручную). Кое-где ещё не вытащено, — отложил эту задачу на время завершения заливки. Завтра-послезавтра пройдусь ботом, может ещё найдётся. --Vladis13 (обсуждение) 23:05, 1 октября 2015 (UTC)[ответить]
  • Ботозаливка окончена. Осталось "причесать" кое-что, и актуализировать словник (некоторые статьи переименованы). --Vladis13 (обсуждение) 03:46, 2 октября 2015 (UTC)[ответить]
Поздравляю с окончанием первого основного этапа этой работы. Да, я заметил. Там ещё много чего надо переименовать. Статьи часто дублируют друг друга под разными названиями (начальными гнёздами). Мне кажется предпочтительней называть их по 3-му изданию. Dmitrismirnov (обсуждение) 05:45, 2 октября 2015 (UTC)[ответить]
Дублежа не обнаружил — сравнивал буквально списки переиздания98 и заливаемых. В переиздании98 44330 статей (считая омонимы-неоднозначности), в Категория:ТСД:Статьи из 2-го издания 44359 шт. (за вычитом ДО и несловарных статей), учитывая что там есть редиректы. Если дубликаты и затесались их буквально единицы.
Местами названия статей по 3-му изданию смущает. Но таких лишь несколько штук. Например, не ТСД/Ведение от слова «водить», а непонятная «веделица», не ТСД/Боровик от «бор», а «Боровика». Сделал по 3-му, — ибо всеровно статьи ищутся через поиск а он выдаёт текст а не названия, и перенаправления есть. --Vladis13 (обсуждение) 07:31, 2 октября 2015 (UTC)[ответить]
Хорошо, если дубли мне попадутся, я дам Вам знать. Так буквально 20 минут назад статью ТСД/Е пришлось перенаправить в ТСД/Е 1, потому что она её дублировала. Dmitrismirnov (обсуждение) 11:37, 2 октября 2015 (UTC)[ответить]
Интересно, что во всех трёх изданиях в этой статье (ТСД/Е 1 и ТСД/Е 1/ДО) имеются значительные различия. Dmitrismirnov (обсуждение) 11:44, 2 октября 2015 (UTC)[ответить]
Понял. Это была парочка таких случаев. Ботозаливка создавала страницы которых ещё нет. А тут омонимы-неоднозначность, были страницы «Е 1» и «Е 2», но небыло страницы «Е», вот бот её и создал. --Vladis13 (обсуждение) 21:20, 2 октября 2015 (UTC)[ответить]


Кунсткамера[править]

Отсутствие статей[править]

следует добавить текст из Переиздания98

В ТСД-2 и ТСД-3 она по разному названа. Поправил по оригиналу, перенёс в ту как называется в ТСД-3. --Vladis13 (обсуждение) 23:10, 5 октября 2015 (UTC)[ответить]
ТСД/Залужить - не нашёл текста 2 издания в ботозаливке. Попробую восстановить по оригиналу. Dmitrismirnov (обсуждение) 23:00, 13 октября 2015 (UTC)[ответить]
Это из-за упомянутой ошибки дозаливки, пропустил. В переиздании она есть. --Vladis13 (обсуждение) 00:21, 14 октября 2015 (UTC)[ответить]
  • Думаю не надо, при вычитке словника обнаружатся. Я тоже восстаналивал ряд статей не сообщая. Мне кажется, отсутствующие статьи обычно попадались с буквами ѣ и ѵ, но не суть. Я просто сообщаю, с какого сайта их можно скопировать, чтобы вручную не писать. Сейчас восстановил длинющую статью ТСД/Пола. В заливке она была сканирована частично с посторонним текстом, в вышеназванном сайте была только 1/3 статьи, хоть и с оформлением, нашлась полностью только на яндексе с 1-го издания с частичным оформлением (хотя там вроде тоже переиздание98). --Vladis13 (обсуждение) 00:36, 24 октября 2015 (UTC)[ответить]

Дубляжи[править]

следует перенести текст (соединив с текстом 3-го изд.) и перенаправить (на название по словнику ТДК-3):

  1. Yes check.svg Сделано: ТСД/Амбар, анбар дублирует статью ТСД/Амбар
  2. Yes check.svg Сделано: ТСД/Амброзия, амвросия дублирует статью ТСД/Амброзия..
  3. Yes check.svg Сделано: ТСД/Анда, анно дублирует статью ТСД/Анда.
  4. Yes check.svg Сделано: ТСД/Антрепренер, антресоль дублирует ТСД/Антрепренёр (нет нужды в в двух страницах для одной статьи). Исправил Dmitrismirnov (обсуждение) 20:14, 2 октября 2015 (UTC)[ответить]
  5. Yes check.svg Сделано: ТСД/Армянский камень весь текст входит в статью ТСД/Армянка как её составная часть.
  6. Yes check.svg Сделано: ТСД/Артезианский колодезь дублирует статью ТСД/Артезианский колодец в качестве сост. части.
  7. Yes check.svg Сделано: ТСД/Бабарская пшеница? (название со знаком вопроса!) дублирует статью ТСД/Бабарская песчица?.
  8. Yes check.svg Сделано: ТСД/Бабка, бабочка текст входит в более развёрнутую статью ТСД/Бабистый/ДО.
  9. Yes check.svg Сделано: ТСД/Байка, ТСД/Байка/ДО vТСД/Байка 2 текст 2-го издания соответствует тексту ТСД/Байка 3 и должен быть перенесён туда.
    @Dmitrismirnov Может объединить ТСД/Байка 1 и ТСД/Байка 2? В 1-2 издании у Даля это одна статья, в 3-м Бодуэен зачем-то разделил их абзацем, хотя оба ссылаются на баять и баю - корень и смысл один. Объединить как я сделал в ТСД/Безрукий с "Безручка". --Vladis13 (обсуждение) 23:08, 2 октября 2015 (UTC)[ответить]
    Хорошая идея. -- Dmitrismirnov (обсуждение) 23:32, 2 октября 2015 (UTC)[ответить]
  10. Yes check.svg Сделано: ТСД/Бакша 2 текст 2-го издания соответствует тексту ТСД/Бакша 3 и должен быть перенесён туда.
  11. Yes check.svg Сделано: ТСД/Балл, бал дублирует статью ТСД/Балл
  12. Yes check.svg Сделано: ТСД/Бамьи сучья дублирует статью ТСД/Бамьи-стручья
  13. Yes check.svg Сделано: ТСД/Баркан 2 более соответствует тексту ТСД/Барканица и должен быть перенесён туда.
  14. Yes check.svg Сделано: ТСД/Баркан 1 в точности соответствует тексту ТСД/Баркан 2 и должен быть перенесён туда.
  15. Yes check.svg Сделано: ТСД/Борец 2 текст 2-го издания соответствует тексту ТСД/Борец 3 и должен быть перенесён туда.
  16. Yes check.svg Сделано: Упорядочил: ТСД/О, ТСД/О 1, ТСД/О 2, ТСД/О/ДО, ТСД/О 1/ДО, ТСД/О 2/ДО, Превратил в перенаправление: ТСД/О 3

-- Dmitrismirnov (обсуждение) 15:14, 2 октября 2015 (UTC)[ответить]



Объединение одноименных страниц в одну[править]

Как показал опыт, в некоторых случаях логичнее слить несколько страниц-омонимов в одну

Здесь список подобных страниц:

в СО в ДО как это было раньше
ТСД/Алабор, ТСД/Алабор/ДО (2 с. - слил вместе 2 страницы: Алабор 1-2)
ТСД/Алое, ТСД/Алое/ДО (2 с.: Алое 1-2)
ТСД/Арса, ТСД/Арса/ДО (2 с.: Арса 1-2)
ТСД/Арца, ТСД/Арца/ДО (2 с.: Арца 1-2)
ТСД/Арча, ТСД/Арча/ДО (2 с.: Арча 1-2)
ТСД/Аршан, ТСД/Аршан/ДО (2 с.: Аршан 1-2)
ТСД/Ат, ТСД/Ат/ДО (2 с.: Ат 1-2)
ТСД/Ата, ТСД/Ата/ДО (2 с.: Ата 1-2)
ТСД/Атлас, ТСД/Атлас/ДО (2 с.: Атлас 1-2)
ТСД/Атя, ТСД/Атя/ДО (2 с.: Атя 1-2, Атька)
ТСД/Аще, ТСД/Аще/ДО (2 с.: Аще 1-2)
ТСД/Багор, ТСД/Багор/ДО (2 с.: Багор 1-2)
ТСД/Багровый, ТСД/Багровый/ДО (2 с.: Багровый 1-2)
ТСД/Бава, ТСД/Бава/ДО (2 с.: Бава 1-2)
ТСД/Байка, ТСД/Байка/ДО (3 с.: Байка 1-3)
ТСД/Бака, ТСД/Бака/ДО (2 с.: Бака 1-2)
ТСД/Бакан, ТСД/Бакан/ДО (2 с.: Бакан 1-2)
ТСД/Бакля, бакляга, ТСД/Бакля, бакляга/ДО (2 с.: Бакля, бакляга - во 2 изд. в одной статье)
ТСД/Бакса, ТСД/Бакса/ДО (2 с.: Бакса, бакса 1)
ТСД/Бакша, ТСД/Бакша/ДО (3 с.: Бакша 1-3)
ТСД/Бодяга, ТСД/Бодяга/ДО (3 с.: Бодяга 1-3)
ТСД/Болтовой,   ТСД/Болтовой/ДО   (2 с.: Болтовой 1-2)
ТСД/Болт, ТСД/Болт/ДО (2 с.: Болт 1-2)
ТСД/Болтыхать ТСД/Болтыхать/ДО (2 с.: Болтыхать 1-2)
ТСД/Борец, ТСД/Борец/ДО (2 с.: Борец 2-3)
ТСД/Бон, ТСД/Бон/ДО (2 с.: Бон 1-2)
ТСД/Борок ТСД/Борок/ДО (2 с.: Борок 1-2)
ТСД/Боронение, ТСД/Боронение/ДО, (2 с.: Боронение 1-2)
ТСД/Боронить, ТСД/Боронить/ДО, (2 с.: Боронить 1-2)
ТСД/Бороний, боронка, ТСД/Бороний, боронка/ДО (2 с.: Бороний, боронка 1-2)
ТСД/Боронник, бороньба, ТСД/Боронник, бороньба/ДО (2 с.: Боронник, бороньба 1-2)
ТСД/Бортн-, бортный, ТСД/Бортн-, бортный/ДО (2 с.: Бортн-, бортный 1-2)
ТСД/Волжанка, ТСД/Волжанка/ДО (2 с.: Волжанка 1-2)
ТСД/Волженка, ТСД/Волженка/ДО (2 с.: Волженка 1-2)
ТСД/Еда 1, ТСД/Еда 1/ДО (2 с.: Еда 1-2, Ёда 2, см. также Еда 3 (Ѣда) = Еда)
ТСД/Залудить, залуживать, ТСД/Залудить, залуживать/ДО, (2 с.: Залудить 1-2, залуживать)
ТСД/Зябра, ТСД/Зябра/ДО, (2 с.: Зябра 1-2)
ТСД/Мак, ТСД/Мак/ДО, (2 с.: Мак 1-2)
ТСД/Одерябить - ТСД/Одерябить/ДО (2 с.: Одерябить 1-2)
ТСД/Отава, ТСД/Отава/ДО (3 с.: Отава 1-3)
ТСД/Отай, ТСД/Отай/ДО (2 с.: Отай 1-2)
ТСД/Теология ТСД/Теология/ДО (Статьи 3-го изд. «Теократия» и «Теология», объеденены на одной стр., как в 1х двух изданиях)
ТСД/У!/ДО, ТСД/У!/ДО (4 с.: У 1-4)
ТСД/Фаз, ТСД/Фаз/ДО (2 с.: Фаз 1-2)
ТСД/Фухтель, ТСД/Фухтель/ДО (2 с.: Фухтель 1-2)
ТСД/Хабарка, ТСД/Хабарка/ДО, (2 с.: Хабарка 1-2)
ТСД/Хабарник, ТСД/Хабарник/ДО, (2 с.: Хабарник 1-2)
ТСД/Юга, ТСД/Юга/ДО (2 с.: Юга 1-2)
ТСД/Юк ТСД/Юк/ДО (2 с.: Юк 1-2)
ТСД/Юс, ТСД/Юс/ДО (3 с.: Юс 1-2 + Юсы*)
ТСД/Юхала, ТСД/Юхала/ДО (2 с.: Юхала 1-2)
ТСД/Вып (2 с.: Вып и Выпь) я разделил эти две статьи. Dmitrismirnov (обсуждение) 14:29, 11 октября 2015 (UTC)[ответить]

А эти может объединить, как которые выше? В ТСД-2 это одна статья, в ТСД-3 отдельные.

--Vladis13 (обсуждение) 07:22, 3 октября 2015 (UTC)[ответить]

Просто они вроде омонимы. Не уверен. --Vladis13 (обсуждение) 09:16, 3 октября 2015 (UTC)[ответить]

Обработал поиск дубликатов по символам: [-,!?1]. --Vladis13 (обсуждение) 07:56, 3 октября 2015 (UTC)[ответить]

@Vladis13 на всякий случай, если Вы будете сливать вместе статьи-омонимы, присоединяйте их к моему списку (чуть выше), чтобы не терять контроля над этим процессом. Я понял, что в словнике при этом менять ничего не надо, но следует сделать все необходимые редиректы. Dmitrismirnov (обсуждение) 13:10, 10 октября 2015 (UTC)[ответить]
@Vladis13 думаю, не стоит объединять статьи ТСД/Вып и ТСД/Выпь на одной странице, поскольку между ними (в 3 изд.) 2 других статьи (Выпырять и Выпытать). Dmitrismirnov (обсуждение) 21:11, 10 октября 2015 (UTC)[ответить]

Дубляжи в оригинале[править]

  • Статьи ТСД/Боровец и ТСД/Буровец даны в двух почти идентичных вариантах в первых двух изданиях с очень небольшими изменениями (о на у, добавлено м. кур.). В третьем исправлено на перенаправление. Оставлено, как в оригинале. --Dmitrismirnov (обсуждение) 08:04, 3 октября 2015 (UTC)[ответить]


"Волкан" и "Вулкан"[править]

Я сделал это для уточнения, так как с удивлением обнаружил что Вы поставили (наверное случайно) вместо статьи всего три слова:
https://ru.wikisource.org/w/index.php?title=%D0%A2%D0%A1%D0%94/%D0%92%D1%83%D0%BB%D0%BA%D0%B0%D0%BD&diff=1807737&oldid=1798225
Когда позднее я сверил с переизданием98 -- там была вся статья, но не редактированная, и я поставил туда отредактированный текст. Этот случай ещё раз доказывает, что текст с полным переизданием98 очень нужен для сверки. Подобных случаев может ещё оказаться немало. --Dmitrismirnov (обсуждение) 11:54, 9 октября 2015 (UTC)[ответить]
Это не ошибка. Есть "ТСД/Волкан", а есть "ТСД/Вулкан" которая в переиздании98 именно в 3-х словах. Также в оригинале книги: Страница:Толковый словарь Даля (2-е издание). Том 1 (1880).pdf/326 и Страница:Толковый словарь Даля (2-е издание). Том 1 (1880).pdf/371. Также в ТСД-3: Страница:Толковый словарь. Том 1(2) (Даль 1903).djvu/54. Стоит их объединить, или сделать отдельные страницы? --Vladis13 (обсуждение) 12:25, 9 октября 2015 (UTC)[ответить]
Спасибо, что сказали! Я не знал... Исправил свою ошибку. Dmitrismirnov (обсуждение) 14:33, 9 октября 2015 (UTC)[ответить]

Статья "С"[править]

Влад, заметили ли Вы, что в статью С (2 изд.) было добавлено содержание статьи С 2 (Съ), которая находится на стр. скана: 390-391 ? Dmitrismirnov (обсуждение) 11:32, 31 октября 2015 (UTC)[ответить]

Да, сейчас разделено на отдельные страницы. --Vladis13 (обсуждение) 12:52, 31 октября 2015 (UTC)[ответить]

Ошибки[править]

223. Алексѣя теплаго / Алексея теплого
224. Алексѣя-теплаго / Алексея-тёплого
Dmitrismirnov (обсуждение) 12:57, 12 октября 2015 (UTC)[ответить]
199. Алажъ / Алаж
Dmitrismirnov (обсуждение) 13:03, 12 октября 2015 (UTC)[ответить]
165. Акклиматизировать / Акклиматизировать
166. Аккомпанировать / Аккомпанировать
167. Аккордъ / Аккорд
168. Аккредитовать / Аккредитовать
169. Аккуратный / Аккуратный

Dmitrismirnov (обсуждение) 13:14, 12 октября 2015 (UTC)[ответить]

239. Аллегорія / Аллегория
240. Аллегро / Аллегро
241. Аллея / Аллея
242. Аллигаторъ / Аллигатор
243. Аллилуйя / Аллилуйя ---исключение (в оригинале с двойным первым "лл": Аллилуія !!!)
244. Аллодіальный / Аллодиальный
245. Аллопатія / Аллопатия
246. Аллювій / Аллювий
247. Аллюръ / Аллюр
Dmitrismirnov (обсуждение) 13:22, 12 октября 2015 (UTC)[ответить]
Дмитрий, так может сразу там и исправите названия ДО? (Название ДО -- это второй параметр). И переставить сразу можно на нужное место... Это и есть часть ручного прохода при корректировке сгенерированного словника... Как бы там это все для этого и присутствует: видите несоответствие -- правите... Название ДО можно просто поправить, но поскольку по этому названию и проводилась автоматическая сортировка, то исправление этого названия как правило означает, что нужно соотв. строку переместить, т.к. изменился и лексикографический порядок. Название СО в первом параметре -- это название страницы статьи, если его правите, то нужно и переименовывать страницу статьи (и наоборот, если переименовывается страница статьи, то нужно в словнике поменять этот параметр). Если же название статьи в СО по каким-то причинам должно отличаться от названия страницы статьи -- то для этого есть 3-й параметр. Сейчас он не заполнен, но если нужно указать название статьи в СО, отличное от названия страницы (напр., название без суффикса " 1", " 2", который вы добавляли в названия страниц одноименных статей) -- то нужно его прописать в третьем параметре. Все достаточно просто. Hinote (обсуждение) 17:12, 12 октября 2015 (UTC)[ответить]
Боюсь, что это для меня слишком сложно, и я мало что понял из данного объяснения. Здесь должен править специалист... :) Dmitrismirnov (обсуждение) 18:55, 12 октября 2015 (UTC)[ответить]
Ну почему же, у вас прекрасно получается (посмотрел ваши правки до Авантюрина). Сразу скажу, что надо переставить статьи Б, В, и т.д. (они записаны в ДО как БЪ, ВЪ, поэтому находятся совсем не в том месте, в конце списка статей на Б, В и т.д.) Не стал сам править, чтобы не было конфликта с вашими правками, если вы правите в то же время, чтобы не усложнять... Может, нам в начало страницы словника, которую вы, Vladis13, я взялись править, ставить на время работы (просмотр списка, внесение исправлений), например, маркер {{Перерабатываю}}, чтобы исключить конфликты правок и упростить взаимную работу?... Hinote (обсуждение) 19:47, 12 октября 2015 (UTC)[ответить]
С {{перерабатываю}} хорошая идея! Только лучше приостановить сейчас вычитку словника, надо доделать его разделение на части. Затем можно всем одновременно с ним заниматься, каждый своим делом, дел много: подключить скрипты/шаблоны, вычитка-орфография-порядок, пагинация. --Vladis13 (обсуждение) 20:25, 12 октября 2015 (UTC)[ответить]
Да, действительно, так наверное будет удобнее, т.к. списки огромные. Поскольку сейчас в списках -- сортировка по ДО, хоть и с огрехами, то больших перемещений статей из одной части словника в другую не предвидится, так что, действительно, удобнее побить на части. Hinote (обсуждение) 21:28, 12 октября 2015 (UTC)[ответить]
У меня сразу такой вопрос: в список 2-го издания почему-то попало название статьи ТСД/Абапал, которая есть в 1-м и 3-м изданиях. Однако этой статьи во 2-м издании нет. Есть правда статья ТСД/Обапол в соответствующем месте (другое написание этого же слова). Так что делать, изъять её из списка, или снабдить примечанием, что данная статья с таким названием именно в этом издании отсутствует? Dmitrismirnov (обсуждение) 21:06, 12 октября 2015 (UTC)[ответить]
Со статьей, которой нет во 2-м издании, но есть в 1-м: м.б. поместить ее в комментарий? Без дополнительных пояснений, просто эту строку в комментарий -- будем знать, что это из 1-го издания... Или же пояснение написать, тоже в комментарии, что это из 1-го издания? А потом когда-нибудь потом поймем, что с ней делать... (3-е издание отдельно стоит, там список сильно отличается, так что пока на него предлагаю не смотреть в этой части работы над словниками...) Hinote (обсуждение) 21:28, 12 октября 2015 (UTC)[ответить]
Yes check.svg Сделано Для ТСД/Абапал указал (вчера еще) это в примечании, Дмитрий, посмотрите. Так можно (наверное лучше именно так) указывать доп. информацию о статьях, чтобы потом решить, что делать в каких-то особых случаях. Hinote (обсуждение) 04:53, 14 октября 2015 (UTC)[ответить]

Я видел это:
# {{Статья в словнике ТСД|Абапал |Абапалъ || || }} <!-- (нет во 2-м изд.[!!!] - только в 1-м и 3-м.) -->
...но не понял, почему эта информация скрыта -- её нигде нельзя увидеть (кроме как в режиме редактирования), и почему это название оставлено в словнике 2 издания, хотя статьи с таким названием в этом издании нет. Мне кажется, что в словнике должны быть только статьи, входящие в издание, а для таких и подобных случаев нам надо завести отдельное место типа "примечания к словнику 2-го издания ТСД" (может быть внизу на той же странице). Dmitrismirnov (обсуждение) 07:49, 14 октября 2015 (UTC)[ответить]

  • Дмитрий, можно и просто текстом, и примечанием (переделал строку Абапал из комментария на просто текст, для примера). Почему не удалять пока: пока мы не знаем, будет отдельный словник для 1-го издания или же он будет совмещен с этим делающимся нами словником для 2-го издания, правильно? Поэтому, если статья есть в 1-м издании (не важно, есть она в 3-м или нет) или же наоборот -- статья есть во 2-м и ее нет в 1-м, то это лучше пока просто как-то пометить. А потом уже придумаем, что с ними делать: переносить в отдельный словник для 1-го издания или как-то скомпоновать в одном словнике для 1-го и 2-го. Я так думаю. Конечно же, если статья есть только в 3-м издании, ее нет ни в 1-м, ни 2-м, но она по каким-то причинам все равно попала в эти сгенерированные словники -- то ее можно (нужно?) удалить, пока мы на 3-е издание не смотрим в части словников, т.к. и так понятно, что там большие отличия... (Дмитрий, Vladis13 -- я на своей странице участника указал свое имя в юзербоксе, можете его использовать в обсуждениях для обращения, если это проще, чем писать ник (как я использую имя Дмитрия вместо его более длинного имени пользователя)) Hinote (обсуждение) 15:40, 14 октября 2015 (UTC)[ответить]

Статьи-омонимы[править]

Это Вам для справки и для введения в словник: я разобрался и упорядочил нумерацию статей "О". У Вас ботом были сделаны ТСД/О 1/ДО, ТСД/О 2/ДО и ТСД/О 3. А в 3-ем издании всё сдвинуто на 1: ТСД/О, ТСД/О 1 и ТСД/О 2. Я сделал всё по 3-му изданию а ТСД/О 3 переправил на ТСД/О 2/ДО. Таким образом в словнике должны быть следующие шесть страниц:

  1. ТСД/О
  2. ТСД/О 1
  3. ТСД/О 2
  4. ТСД/О/ДО
  5. ТСД/О 1/ДО
  6. ТСД/О 2/ДО --Dmitrismirnov (обсуждение) 14:43, 6 октября 2015 (UTC)[ответить]
  • @Dmitrismirnov Было обсуждение с какого числа нумировать омонимы-неоднозначности. Обсуждение Викитеки:Проект:ТСД/Архив#Статьи-омонимы Решили же с единицы. Вы тогда привели цитату самого Бодуэна, нумирующего с "1", а также сами переименовали "Бес" и "Бес 1" в "Бес 1" и "Бес 2". --Vladis13 (обсуждение) 16:19, 6 октября 2015 (UTC)[ответить]
    • Вы исходите из общей логики, а я из того что имеется на самом деле. Факт заключается в том, что Даль не нумеровал эти статьи, а Бодуэн это сделал, и я стараюсь воспроизвести его логику, пусть не всегда последовательную. Я не думаю, что мы сможем всё унифицировать. Так можно далеко зайти. Но такие вещи не очень важны. И если Вы против, можно всё это обсудить и прийти к какому-то обоюдно-согласованному решению. Гораздо важнее, чтобы тексты разных изданий соответствовали друг другу на одной странице, а не не разных. Dmitrismirnov (обсуждение) 19:01, 6 октября 2015 (UTC)[ответить]
      • случай с бесом совсем особенный: там в источнике нет нумерации, но есть бесъ и бѣсъ - два разных написания этого слова. Dmitrismirnov (обсуждение) 19:04, 6 октября 2015 (UTC)[ответить]
        • С единицы нумерация человечней. Это же не массивы в программировании, где нумерация с нуля, "1" = 2. Тогда и все другие омонимы с цифрами переименовывать надо. А то "А" и "О" с нуля (если А опять не переименовано), а у 573 остальных омонимов нумерация с "1". --Vladis13 (обсуждение) 07:49, 7 октября 2015 (UTC)[ответить]
        По другим омонимам. Статей с номерами у Даля нет, у Бодуэна многие разделены на несколько гнёзд и названы с номерами. Лучше по возможности так и оставить. Чтобы словники были адекватны статьям оригиналов. Например, чтобы в словнике ТСД-2 было «ТСД/Ять», а в словнике ТСД-3 было «ТСД/Ять 1» и «ТСД/Ять 2» — это статьи которые есть в оригиналах. --Vladis13 (обсуждение) 10:31, 7 октября 2015 (UTC)[ответить]
        • Может быть. Сложность наша в том, что здесь объединяются 3 разных издания с разными принципами наименования статей. Вопрос кажется неразрешимым однозначно. Всё время приходится решать, исходя из конкретной ситуации. Может быть было бы хорошим решением объединить статьи-омонимы на одной странице, как мы уже начали это делать (хотя мы иногда и рискуем, что страницы могут оказаться довольно длинными?) И тогда можно было бы оставить авторские наименования статей... То есть, сделать одну статью "О", одну статью "А" и т. д. Только для случаев как "бесъ" и "бѣсъ" сделать нумерацию 1 и 2. Каково Ваше мнение? Dmitrismirnov (обсуждение) 10:52, 7 октября 2015 (UTC)[ответить]
Согласен, и с вашим предложением, и что вопрос сложный, и с логикой Бодуэна разделять омонимы на отдельные словарные статьи. Мне кажется довольно симпатично получилось на ТСД/Бодяга и ТСД/Юга, +не плодятся лишние страницы. Я ранее поднимал вопрос о статьях-редиректах, предлагая их как раз объединить на одной странице. Но Hausratte ответил: «Статьи-перенаправления должны быть обязательно сохранены, такова общая практика во всех словарях, выложенных в ВТ. … (напр., Категория:ЭСБЕ:Перенаправления — таких статей около 16 тыс.). На одной странице они не нужны, они нужны постатейно. Категория:ТСД:Перенаправления — и вы не прокомментировали. Как быть с этим противоречием? --Vladis13 (обсуждение) 13:34, 7 октября 2015 (UTC)[ответить]
  • Я думаю, что с объединением подобных статей мы упростили бы координацию, а также работу со словниками. Давайте спросим мнение участника @Hinote, поскольку он собирается принять участие в их составлении. Dmitrismirnov (обсуждение) 13:45, 7 октября 2015 (UTC)[ответить]
    С редиректами это немного другой вопрос, поскольку там не омонимы, а скорее синонимы, то есть другие слова с подобными значениями, и поэтому если человек хочет найти какое-то слово, он обратится именно на эти страницы, которые его приведут на правильную страницу. Структура этих редиректов не всегда простая, иногда она объединяет по нескольку слов со сходным написанием, включая некоторые пояснения, что приближает их по значению к статьям. Так что, наверное, их стоит оставить как есть. Dmitrismirnov (обсуждение) 13:55, 7 октября 2015 (UTC)[ответить]
  • Ещё можно оформлять дизамбигами (страницами неоднозначностей). Пример: ТСД/Весь, в тсд2 и тсд3 это разные статьи, хоть и соседние и в тсд3 нумерованы. Мне кажется в таком случае объединять их не стоит, или может ещё лучше переименовать вторую статью в "Весь, вся, все"? --Vladis13 (обсуждение) 11:23, 11 октября 2015 (UTC)[ответить]
Категория:ТСД:Неоднозначность‎. --Vladis13 (обсуждение) 14:50, 11 октября 2015 (UTC)[ответить]

Высчитываемый словник с пагинацией[править]

Словник с пагинацией можно сделать так:

  1. Имеется словник в СО. Зная некоторые правила старой орфографии можно перевести словник в ДО. Правила такие: в конце слов после согласных ставится «ъ», «е» может быть ѣ, и — і, ф — ѳ. Слова с «ъ» перекодировать элементарно. А с остальными указанными буквами можно пропустить, ввиду их неопределённости, или продублировать с обоими вариантами букв. Получится фрагментарный словник в ДО.
  2. В словаре слова идут по алфавиту в ДО. Если в словнике известно, что некая статья1 на 86 странице, статья5 на 86 странице, значит и статьи 2-4 на этой странице.
  3. Так можно точно вычислить пагинацию ряда статей. А других — достаточно точно, чтобы привести на непроверенных вручную страницах, и залить эти страницы в индекс для последующей выверки. Также можно автоматом переводить названия статей в ДО, и выводить в шапке. --Vladis13 (обсуждение) 07:52, 2 октября 2015 (UTC)[ответить]
  • Почти так, см. ниже тему "Задачи по изготовлению словников (залитый корпус 2-го издание)". Большую задачу всегда удобнее разделить на небольшие шаги/фазы. Hinote (обсуждение) 23:28, 3 октября 2015 (UTC)[ответить]


Скриптом «следующая/предыдущая» страница из категории[править]

@Hinote Через скрипты возможно сделать выборку «следующей/предыдущей» страницы из категории, где статьи уже идут по алфавиту? А то страницы могут переименовываться, для каждого издания свой порядок… вручную следить невозможно. --Vladis13 (обсуждение) 22:02, 3 октября 2015 (UTC)[ответить]

Нет, они берутся из словников. Т.е., при переименовании страницы статьи нужно соответственно поменять и запись в словнике... А зачем вообще предыдущий и следующий брать из категории? В категории же они будут браться по правилам СО, причем по названиям страниц статей, которые в общем случае могут не совпадать с названием собственно статьи в издании (вы же добавляете всякие суффиксы "1", и прочие -- все это влияет на порядок, в котором страницы показываются в категории), плюс это часто не совпадает с порядком в ДО в оригинальном издании. Так что только словник, в котором ссылки на страницы статей проставлены в нужном порядке (соответственно оригинальному изданию). Если это сделать однажды, то потом при работе над статьями нужно будет делать только разовые редкие исправления, когда меняется название страницы статьи -- нужно будет изменять и ее название в словнике. Это не так уж и сложно, исходя из опыта работы над другими проектами. Для разных изданий -- разные словники. Причем после создания словника для одного из изданий (для 2-го), их не нужно будет делать "с нуля" -- нужно будет взять готовый словник для этого 2-го издания и пройтись по томам другого издания, добавляя статьи, меняя их названия или перемещая, если порядок отличается... Это гораздо менее затратно, чем делать словник с нуля... Hinote (обсуждение) 22:51, 3 октября 2015 (UTC)[ответить]
Порядок статей алфавитный (иного не замечал), для СО он согласно СО, для ДО свой. Суффиксы "1" (номера омонимов-неоднозначностей) идут в конце после слова, поэтому на порядок не влияют, ибо он алфавитный с начала слова. Из категории порядок подставлялся бы автоматически для десятков и сотен тысяч статей. Вручную его сделать можно (ботом по имеющемуся словнику), но проверять и следить за изминенениями... лучше бы это делал безошибочный автомат мгновенно и актуально. Для заполнения полей "следующий/предыдущий" сейчас используются несколько полей: два соответствующих поля, но если порядок статей отличается во 2-м издании то используется дважды шаблон {{sub-nav}}, в каждом из которых надо заполнить поля соответственно изданию, а из полей "следующий/предыдущий" убрать чтобы не перекрывали значения. См. пример ТСД/Абаз. Аналогично у статей в ДО. Надо ещё придумать как бы это ботом обработать после сделанной ботозаливки...
Это не единственно место применения. В версии словаря Категория:ТСД-2, переиздание '98, совр.орф. до сих пор (спустя несколько лет после его заливки) у множества страниц недоделаны поля "следующий/предыдущий", а с недавней его коррекцией и переименованием ряда страниц, всё ещё больше сбилось. Такой скрипт был бы очень полезен и для других книг и энциклопедий как вариант. В частных случаях ничто не мешает использовать улучшенный вариант, который вы предлагаете. (Хотя пока такого скрипта нет не сверить что лучше.)
Но вроде функций в Lua для такой цели нет mw:Extension:Scribunto/Lua reference manual. --Vladis13 (обсуждение) 00:03, 4 октября 2015 (UTC)[ответить]
Признаюсь, я почти ничего из этого не понял, что вы тут имеете в виду... Про sub-nav, разумеется, я знаю, я знаю как реализуется навигация в шаблонах-шапках и посмотрел, как это делается для ТСД... "Алфавитный порядок" в категориях довольно своеобразный. Он отражает то, как викидвижок реализует лексикографический порядок. Можно несколько таких способов придумать. Например, утилита sort сортирует совсем иначе... И нам он, этот порядок в категориях, вообще не нужен: нам нужен порядок по изданию. И такой порядок будет отражен (и будет подбираться) из словников. И параметры ПРЕДЫДУЩИЙ и СЛЕДУЮЩИЙ тоже не нужны: ведь скоро они станут неиспользуемыми (ну, только в единичных случаях, где временно "подправить", как Дмитрий хочет), а все будет браться из словников... Зачем заполнять эти параметры? Это лишнее... Да, а технически: в вики нет способа получить список статей из категории. Ни в шаблоне, ни через Lua... Только через вики-API, но там надо это делать долго и нудно кусками по сколько-то ссылок из категории, правильно продляя запросы для каждого последующего куска... Hinote (обсуждение) 00:42, 4 октября 2015 (UTC)[ответить]


О словниках 3-го издания[править]

Я думаю, что нужно делать словник 3-го издания -- так как он самый полный и включает практически все статьи предыдущих двух изданий. Dmitrismirnov (обсуждение) 23:48, 3 октября 2015 (UTC)[ответить]

  • Словник 3-го издания невозможно сделать в течении пары дней/недели. Его только вручную, 270 тыс. статей. Может быть издание выложено в интернет? - скажите где, спарсю. --Vladis13 (обсуждение) 00:18, 4 октября 2015 (UTC)[ответить]
    • Именно так. Дмитрий, мы же не хотим делать словник вручную полностью с нуля -- это очень трудоемко. Надо максимально поиспользовать то, что есть. Для 2-го издания -- это список статей, который полон. Поэтому из него сделаем словник, а потом будем корректировать -- перемещать статьи, чтобы соотв. изданию, корректировать названия статей в ДО, добавлять пагинацию там, где она не прописана... Ну а потом уже можно будет сделать словник и для 3-го издания, используя уже этот готовый словник как наработку, так что тоже не с нуля... Hinote (обсуждение) 00:29, 4 октября 2015 (UTC)[ответить]
      • Для справки (чтобы не делать двойную работу): В словаре 36 букв (в ДО). Для 3-го издания уже составлены словники полностью для 12 13 букв:
ТСД/Словник: АЕІЪЫЬѢЭЮѦЯѲѴ
Так что основные усилия стоит сосредоточить на словниках для остальных 24 23 букв. Dmitrismirnov (обсуждение) 07:38, 4 октября 2015 (UTC)[ответить]
Не уверен, что эти буквы составят и 20% (от 270тыс.) статей. --Vladis13 (обсуждение) 21:17, 4 октября 2015 (UTC)[ответить]
Только что сделал полный словник для буквы І, также дополнительные (-доп) словники для всех букв. Dmitrismirnov (обсуждение) 08:36, 4 октября 2015 (UTC)[ответить]
А что такое -доп словники? Я что-то не допонял... Hinote (обсуждение) 17:59, 4 октября 2015 (UTC)[ответить]
«-доп» словники это словники 2-го издания для каждой буквы, но названия статей даются только в СО, и расположены они по порядку так-называемого "переиздания98 года" (то естъ по современному алфавиту). В словнике на букву А: ТСД/Словник/А-доп я попробовал указать страницы оригинального издания. Такое (и нужно) можно было бы проделать со всеми остальными словниками. Dmitrismirnov (обсуждение) 19:37, 4 октября 2015 (UTC)[ответить]
Уже не раз поднимались вопросы: «что такое словники "-доп"» и «где словники 2-го издания». Не заходящим сюда читателям не догадаться. Может переименуем «-доп» во что-то понятнее? --Vladis13 (обсуждение) 21:22, 4 октября 2015 (UTC)[ответить]
«-доп» - это приставка временная. Эти словники можно считать заготовкой к созданию полноценного словника 2-го издания, когда:
*1) заголовки статей будут расположены в том порядке, как они даны в печатном издании;
*2) будут добавлены оригинальные заголовки в ДО;
*3) будут указаны номера страниц по печатному изданию.
Тогда их можно будет переименовать в словник соответствующего издания, например в: ТСД-1/Словник/А, ТСД-2/Словник/А, ТСД-3/Словник/А и т. д. Или предложите другой вариант названия... Dmitrismirnov (обсуждение) 23:36, 4 октября 2015 (UTC)[ответить]
  • Несомненно, нужно по максимуму поиспользовать те наработки, которые уже есть.

    Так, давайте тут, прежде чем двигаться дальше, поговорим о том, сколько нам словников нужно и какие. Т.е., понятно, что список в 3-м издании наиболее полный (так ведь?). Т.е. можно было бы взять список статей из 3-го издания и добавить в него пагинацию -- и для 3-го издания и для 2-го и для 1-го. Если для какого-то издания для статьи нет пагинации (значение пустое) -- значит и этой статьи нет в издании. Но так можно сделать только в том случае, если нет статей, которые в разном издании расположены в разном порядке -- одна в одном издании перед второй, а в другом издании -- наоборот. Соответственно, вопрос: есть ли такие статьи, известны ли они вам (Vladis, Дмитрий), как знающим эти издания? Если такие статьи есть (или мы сейчас не знаем, но допускаем, что такие статьи могут быть), то нужно делать 3 разных комплекта словников, каждый из которых будет определять порядок статей только своего издания (и отсюда формировать ссылки на предыдущий и следующий)... Да, это не означает, что мы не будем в таком случае использовать наработки или, по-крайней мере, пытаться их использовать... Итак, что насчет разного порядка следования каких-либо статей, которые есть в более чем одном издании, но следуют в них в разном порядке -- @Dmitrismirnov, Vladis13, что скажете? Hinote (обсуждение) 17:58, 4 октября 2015 (UTC)[ответить]
Я думаю, что нет нужды создавать двойную и тройную навигацию, или так называемую "субнавигацию" по каждому из изданий в отдельности, но ограничиться одной простой навигацией, и расположить статьи по порядку 3-го издания. В таком случае подробные словники 2-го издания создавать большого смысла не имеет. Зато словник 3-го издания необходим. Dmitrismirnov (обсуждение) 20:10, 4 октября 2015 (UTC)[ответить]
Так она сейчас уже есть по факту -- есть же 3 линейки навигации... Думаете, нужно убрать 3 линейки навигации и оставить одну? (от 3-го издания как наиболее полного, плюс "вставленные" в какое-то подходящее место между ними статьи из 1-го и 2-го издания, которых нет в 3-м, если такие есть... т.е. такого рода некая "общая" навигация) В принципе, здесь есть здравое зерно, сейчас с тремя линейками навигации шапка статей все же перегружена, ни к чему это по большому счету... Но чтобы все это понять, я все-таки хочу определиться, есть ли 1) статьи в одном из изданий, которые в другом идут в ином порядке (о чем выше писал), и 2) есть ли статьи в 1-м или 2-м издании, которых нет в 3-м. Возможно вам в уже сделанных вами статьях такие встречались... Hinote (обсуждение) 21:48, 4 октября 2015 (UTC)[ответить]
Да, 1) есть статьи в одном из изданий, которые в другом идут в ином порядке 2) есть статьи в 1-м или 2-м издании, которых нет в 3-м. То и другое встречается, но редко, и я это всегда оговариваю в сносках. Dmitrismirnov (обсуждение) 22:41, 4 октября 2015 (UTC)[ответить]
Нужен словник обоих изданий. Они полностью различаются пагинацией, весьма отличаются порядком слов, иногда и буквами в словах. 3-е издание не содержит всех статей 2-го, из тех не многих что я смотрел некоторых статей 2-го не нашёл в 3-м. (Навскидку, ТСД/Баллада. — Есть в ТСД-2, в ТСД-3 там «Балл-», причём статья ТСД/Балл- не расположена в словнике возле ТСД/Бал 1 и ТСД/Балл, которая неявно «Бал 2».) Напомню, что 3-е издание было изменено другим автором, подверглось жёсткой критике (оправданной или нет несуть) и не издавалось в СССР, т. е. словарь Даля и словарь Даля-Бодуэна — это достаточно разные книги.
Вот 1-е издание почти идентично 2-му (по сути, это исправление ошибок в словаре дочерью Даля, после его смерти). Ввиду того, что 1-е издание мало кому интересно (разница только в наличии в нём ошибок), работа над ним неведётся, и словники 1-2 изданий вполне можно объединить, может они даже идентичны как и большинство текста. Но даже тут таже проблема: если выводить на одной странице данные разных изданий (названия и пагинацию) — это будет загромождение страниц.
Также мне зачастую не нравится порядок слов в 3-м издании. Выше приводил пример, когда к слову «Ведение», от слова «Водить» 2-го издания, зачем-то в 3-м издании на первом месте Бодуэн приписал непонятое незначимое «ТСД/Веделица», из-за чего статья теперь так называется. Порядок по сомнительным словам… некрасиво. Другой пример привёл выше с Балладой, переименовывать «ТСД/Баллада» в «Балл-», озадачивая читателя словника почему в словнике нет слов «баллада» и «ведение», хотя есть в основной редакции словаря… — сомнительно и путано. --Vladis13 (обсуждение) 22:25, 4 октября 2015 (UTC)[ответить]
Да в третьем издании, как я понял, Бодуэн выстраивает гнёзда в алфавитном порядке, поэтому заголовком статьи может оказаться менее характерное слово. В этом есть своя логика. Как из этого выходить нам, объединившим на одной странице статьи трёх изданий? Я предлагаю в заголовке указывать оба слова: по 1-2 изданиям и по 3-му. При этом делать перенаправления таким образом, чтобы и то и другое слово отражалось в наших словниках. Я сейчас приведу пример:
ТСД/Аневризм (по словнику 3-го изд.) и ТСД/Аневрисма (по словнику 2-го изд.) ведут к одной и той же статье.

Dmitrismirnov (обсуждение) 22:41, 4 октября 2015 (UTC)[ответить]



Автоопределение тома в шаблонах[править]

Добавил в шаблоны автоопределение тома. Теперь в шапке ненужны параметры -ИЗД.ТОМ и -ИЗД.ЧАСТЬ ТОМА, и в {{tom}} надо указывать только номер издания (пример {{tom|2}}). Том высчитывается по первой букве названия статьи (тома разделены по буквам оглавления). А части 1-2 томов в ТСД-3 высчитывается по номерам страниц книги (их надо указывать). --Vladis13 (обсуждение) 07:39, 4 октября 2015 (UTC)[ответить]

Спасибо, я проверил, вроде бы работает. Но исчезли внизу категории ТСД:Статьи из 1-го издания, ТСД:Статьи из 2-го издания‎, ТСД:Статьи из 3-го издания, а в шапке стали указываться все 3 издания, даже в тех случаях, когда статья в эти издания не входит. Например, ТСД/Банёва -- есть только в 3-м издании, а в шапке указаны все три. Dmitrismirnov (обсуждение) 08:46, 4 октября 2015 (UTC)[ответить]
Проблема с буквами в ДО. Словарные статьи на Ѣ например теперь показыказываются в словнике на букву Е, и ТСД/Ежа 1 ТСД/Ежа 1/ДО [Ѣжа] ссылается в шапке на несуществующую страницу 1-го тома вместо 4-го. Dmitrismirnov (обсуждение) 10:51, 4 октября 2015 (UTC)[ответить]
Это потому, что номер тома надо вычислять не по букве статьи, а из номера (или имени, если они как сейчас не по номерам) словника. Ведь слова на Е и на Ѣ будут в разных словниках, которые строятся не по лексикографическому порядку в СО, а по порядку в оригинальном издании... Vladis13 немного поторопился... Hinote (обсуждение) 17:37, 4 октября 2015 (UTC)[ответить]
  1. Добавил в шапку опциональный параметр «ДОРЕФОРМЕННАЯ_ОРФОГРАФИЯ=» (он уже был но не активен), значение этого параметра выводится после названия статьи в «[ ]» (пример ТСД/Ежа 1). Его необходимо заполнять для слов начинающихся с букв-ДО (выше их упоминал), таких слов немного, затем перенесём их в новый словник. Если не указать, то сбивается автооопределение тома. Можно переименовать в «НАЗВАНИЕ В ДО» или иначе.
    В шаблоне {{tom}} первый параметр (издание) прежний, а дальше теперь 3 варианта заполнения. См. документацию к шаблону. --Vladis13 (обсуждение) 02:14, 5 октября 2015 (UTC)[ответить]
  2. Возникла проблема с пространством «/ДО». Там названия страниц в СО, а в параметре «НАЗВАНИЕ» в ДО, причём зачастую после него в «[ ]» приведены названия в СО, поле «ДОРЕФОРМЕННАЯ_ОРФОГРАФИЯ» соответственно отсутствует (пример нажмите «предпросмотр»). Излишне сложная неопределённая логика для скрипта. Необходимо формализовать. Предлагаю ботом также перенести названия из поля «НАЗВАНИЕ» в «ДОРЕФОРМЕННАЯ ОРФОГРАФИЯ», а «НАЗВАНИЕ» заполнить из названия статьи в СО. Или как лучше?
  3. Категории сейчас поправлю. --Vladis13 (обсуждение) 21:08, 4 октября 2015 (UTC)[ответить]
  • Вернул параметры -ИЗД.ТОМ и -ИЗД.ЧАСТЬ ТОМА в шапку. Причина: «в шапке стали указываться все 3 издания, даже в тех случаях, когда статья в эти издания не входит.» Скрипту надо как-то указать, что статьи нет в издании. Если, например, вместо номера тома писать любую букву, например «нет», может и работало бы, но возможно это лишней работы больше чем, писать сразу номер тома. --Vladis13 (обсуждение) 03:36, 5 октября 2015 (UTC)[ответить]


Сканы[править]

@Vladis13, Dmitrismirnov Тут я хотел бы со словниками сделать небольшую паузу и обсудить вот что: для 2-го издания тома разделены на части. Это сделано искуственно, совершенно в произвольных местах и потом создаст неудобства. Просто видимо Вадим, который заливал на коммонс части, не умел в то время заливать книги больше 100 МБ. Соответственно, вопрос: надо бы объединить все части одного тома в один djvu и перезалить. Есть возражения? (Естественно, все уже имеющиеся страницы из пространства Страница не будут при этом потеряны, а будут перемещены так, чтобы отвечать страницам уже нового djvu). Hinote (обсуждение) 23:24, 7 октября 2015 (UTC)[ответить]

  • Упс, это же для третьего издания тома разделены на части. Ну, можно это оставить на потом, пока мы делаем словники для 2-го издания, а за это возьмемся уже позже... Hinote (обсуждение) 23:35, 7 октября 2015 (UTC)[ответить]
    • Если надо, диапазоны всех изданий-томов-частей выложил в Модуль:Sandbox в строке 31 массив "local range_pages". А ниже "-- расчёт части тома ТСД-3 по странице function parttom(tom, pagebook)". Эти функции в Модуль:ТСД пока не перенёс, ибо если пагинация будет браться из словника, то вычисление страниц/томов по названию самой статьи наверно не нужно. --Vladis13 (обсуждение) 23:54, 7 октября 2015 (UTC)[ответить]
      • Это хорошо, что есть эти функции. Смотрите, какие тут есть сложности и почему части лучше объединить (кратко: потому что они побиты в произвольных местах). Вот смотрите: мы словник будем делать не единым списком, а они будут разделены на части (примерно как сейчас существующие). И для того, чтобы работал модуль Header, крайне желательно, чтобы граница словника проходила 1) по границе книги, 2) по границе буквы или по "короткому префиксу" имен статей. Например, по двухбуквенным границам. Например, один словник А-Ам, а второй -- Ан-Ая, а третий -- Б-и т.д. Просто так будет гораздо проще. У нас тома начинаются с буквы -- очень хорошо. А вот книги побиты в произвольном порядке. И там такую границу между словниками придется провести не по короткому префиксу. Более того, есть еще одна сложность -- когда содержимое статей собирается тегами pages, в пограничной статье, которая "разъехалась" на две части одного тома, придется собирать ее двумя тегами pages. Некрасиво... А ссылка в шапке будет вести на первую часть, где только половина такой статьи, а на вторую, получается, оттуда не попасть... Hinote (обсуждение) 00:03, 8 октября 2015 (UTC)[ответить]
        • Хорошая идея! Если исправится столько потенциальных ошибок, всё будет работать, и к тому же это было искусственное не соответствующие оригиналу решение. +От лишнего параметра в шапке можно избавиться. Уже сделанные страницы точно не пострадают? --Vladis13 (обсуждение) 00:23, 8 октября 2015 (UTC)[ответить]

Тэги pages и lst[править]

Скажите, а почему используете то один тэг, то другой? Например, тут lst. Как я понимаю, в lst нельзя указать диапозон страниц, и он не показывает пагинацию. Если так, он вроде похуже pages, или нет? --Vladis13 (обсуждение) 10:56, 9 октября 2015 (UTC)[ответить]

Нет, я отказался, в принципе, от тэга lst (который я использовал раньше), но здесь я попробовал воспользоваться тэгом pages, и пагинация налезла на текст - некрасиво получилиось, и я переделал на lst. --Dmitrismirnov (обсуждение) 11:54, 9 октября 2015 (UTC)[ответить]
Если хотите, могу ботом заменить везде lst на pages. --Vladis13 (обсуждение) 08:13, 10 октября 2015 (UTC)[ответить]
Раз нет возражений, сегодня ботом заменю везде эти тэги. Кроме использующих упоминавшиеся нестандартные страницы индекса "Dal 3-I", с ними тэг pages не работает. --Vladis13 (обсуждение) 19:59, 20 октября 2015 (UTC)[ответить]
Yes check.svg Сделано --Vladis13 (обсуждение) 00:59, 22 октября 2015 (UTC)[ответить]


Задачи по изготовлению словников (для залитого корпуса 2-го издания)[править]

(Давайте оставим эту тему внизу, пока занимаемся словниками, чтобы не искать по всей станице среди прочих тем)

Перенесено на страницу Обсуждение участника:Vladis13 Про листинг категории и сравнение ботов.
  • Затем, давайте добавим туда названия в ДО и пагинацию (где она есть). Для начала названия в ДО -- автогенерируемые (вы выше написали, как вы собираетесь из названий страниц делать названия в ДО -- давайте например так), раз у нас нет других. Потом мы по ним пройдемся вручную и поправим по тексту издания. Пагинация -- из параметров шапок страниц или же из тегов -- неважно. Главное извлечь эти значения там, где они есть и поиспользовать в словнике... Поскольку это временная рабочая страница, формат не особо важен, главное, чтобы он был регулярным. Предлагаю следующий (потом будет понятно почему именно так, пояснять долго):

# Ссылка на статью || Название_в_ДО # диапазон_страниц

Дайте отмашку, когда сделаете... Hinote (обсуждение) 23:19, 3 октября 2015 (UTC)[ответить]

Диапазон страниц книги или скана? Иногда бывает есть одно, но нет другого. Может тогда пагинацию в формате # диапазон скана|диапазон книги? И если чего-то из этого нет то там будет пусто. --Vladis13 (обсуждение) 00:21, 4 октября 2015 (UTC)[ответить]
Да, давайте так (и то, и то), только в другом порядке: # диапазон книги|диапазон скана (или просто номер первой страницы скана). Hinote (обсуждение) 00:31, 4 октября 2015 (UTC)[ответить]
  • TODO: Затем мы будем бить общий большой список на словники-части. Тут я опишу правила, как это нужно сделать, чтобы потом удобнее было использовать...

Конвертер в дореформенную орфографию[править]

Предложенный мной выше способ простой подстановки "ъ" в конце слов после согласной не подходит, ибо ять мог вставляться и внутри слов, а также сами слова писались иначе ("-аго" вместо "-ого" и др.).

http://slavenica.com - конвертит в "петровское написание", как там написано. Но вообще орфография введёная Петром изменилась к рубежу 19-20 века, например он заменил "з" на "s", "и" на "i", что не прижилось. Вроде этих букв в конвертере не наблюдается, выглядит похоже. Можно этот конвертер использовать для автоматизированного создания словника. @Dmitrismirnov делать словник с автоконвертацией названий в ДО? --Vladis13 (обсуждение) 20:10, 7 октября 2015 (UTC)[ответить]

  • Все равно его надо будет просматривать по изданию и корректировать названия. Это проще делать, когда уже как-то заполнены заготовки для названий в ДО. Мне кажется надо сделать как вы сейчас сделали, а все яти, фиты и ижицы вставим вручную. Hinote (обсуждение) 20:14, 7 октября 2015 (UTC)[ответить]