Обсуждение Викитеки:Проект:ТСД

Материал из Викитеки — свободной библиотеки
Перейти к навигации Перейти к поиску
Проект:ТСДОбсуждение проектаНовости проектаШаблоны:ТСДКатегория:Толковый словарь В. ДаляСловникТолковый словарь В. Даля
Архив
Архив обсуждений:
Последнее изменение страницы:
12.05.2019.

Пожалуйста, добавляйте новые темы снизу.

План разделения страниц на статьи по изданиями[править]

Викитека:Форум#Разделение изданий словаря Даля

  • Yes check.svg  Переименование страниц, на которых выложено только одно издание в подстраницу данного издания. Например: ТСД/СловоТСД2/Слово. На прежнем месте остается перенаправление. Таких страниц основная масса, несколько десятков тысяч. (Текущие счётчики, показывающие что в категории ТСД3 — 30тыс. статей сбиты, из-за текущего формата «3 в 1», см. форум.
    На прежнем месте можно будет оставить перенаправление на ТСД2, как более комплексные статьи, включающие подстраницы из ТСД3 (статьи которого в основном является разделением статей ТСД2). +В Википедии основная масса ссылок оформлена на ТСД2.
  • Yes check.svg  Смена шаблона-шапки (на основе Модуль:ТСД, Модуль:Header, {{Отексте}}) на Модуль:Отексте. Статьи в подпространствах изданий («ТСД1/», «ТСД2/», «ТСД3/») сразу будут работать на этом шаблоне-модуле.
  • Yes check.svg  Пока просто добавить в шапки параметры {{tom}}, об аналогах статьи в других изданиях, с перечислениями больше чем 1 статья для одного издания (таких сравнительно немного).
    • Оформить и обработать.

Дополнительно:

  • Yes check.svg  Перенаправление шаблонов ТСД2 в ВП и Викисловаре на новые подстраницы.
  • Yes check.svg  Чистка от шаблона {{tsdbr}}. Это ссылка снизу страниц на словники. Создавался из-за большой длины совмещённых страниц, на при их разделении не нужен.
  • Yes check.svg  Чистка всех статей от тэга <pages>, с перемещением его автоподстановки в шапку. Все данные для его заполнения уже есть в словнике. Очень заморочно и является пустой тратой времени вводить его в каждой статье. Т.ч. для создания новых статей достаточно будет добавить только шапку, все остальное подхватится из словника. (Надо добавить в шапку параметр для названия секции, ибо иногда оно отличаются от названия статьи.) --Vladis13 (обсуждение) 08:36, 11 августа 2017 (UTC)
    • (сделано, требуется повторная проверка) Некоторые страницы содержат два и более тэгов «pages», но в словнике/шаблоне может указываться только одна секция. Поэтому статьи надо обернуть в одну секцию.
    • Yes check.svg  В словниках ряд статейных ссылок — это перенаправления, статьи надо переименовать. Иначе данные и текст статей могут не подгружаться.
    • Категория:Страница в оглавлении не найдена — статьи-потеряшки. В основном: а) просто пометки «статьи, отсутствующие в издании», для которых при разделении создались отдельные страницы; б) рассогласования названий страниц с указанными в словниках (поэтому не находятся), для ТСД2 может быть много редиректов, ибо страницы называли по ТСД3; 3) под названием ТСД2 там много мусора, это ошибочные дубли статей из ТСД3 (созданные скриптом при разделении), их потом надо будет удалить.
    • Перепроверить всё на незагруженные секции (страницы без текста). Такое возможно из-за каких-то глюков, что названия секции или пагинация некорректны. В основном встречается у статей-омонимов, которые были объединены на одной странице, но старый (отдельные нумерованные страницы) и новый вариант (без номера) страниц остались в словниках и категориях (см. выше статьи-потеряшки), поэтому бот редактировал страницы два раза, отсюда сбой.
  • Почистить от пустых разделов «Примечания» и «примечания ВТ». --Vladis13 (обсуждение) 15:27, 21 октября 2017 (UTC)

Заливка OCR ТСД1[править]

@Dmitrismirnov: распознаётся так: скриншот (слева скан, справа OCR). По-моему, качество распознавания мусор. Стоить ли заливать? Может лучше скопировать статьи из ТСД2? Тем более, что они, в основном, теперь оформлены и с ударениями. Особенно, если обновить ДО. Как считаете? --Vladis13 (обсуждение) 00:30, 24 апреля 2018 (UTC)

Трудно сказать, хотя может быть Вы и правы. Качество так себе... но это всё-же лучше, чем то, что у нас есть - хотя бы порядок соответствующий - там ведь все слова из правой и левой колонок были вперемежку... В общем, это на Ваше усмотрение. --Dmitrismirnov (обсуждение) 07:05, 24 апреля 2018 (UTC)
Мне кажется, лучше из ТСД2, они почти идентичны. Но тогда нужен готовый словник ТСД1, для разметки на какие страницы какие статейные секции заливать. --Vladis13 (обсуждение) 07:53, 24 апреля 2018 (UTC)
С буквой "А" закончено - статьи всех трёх изданий выложены и проверены. Словник ТСД1 для буквы "Б" практически готов. Можно заливать. --Dmitrismirnov (обсуждение) 22:49, 24 апреля 2018 (UTC)
Хорошо. Возможно было бы достаточно вычитать только первые слова для каждой страницы, чтобы залить постранично. Так делали со словниками и заливкой ТСД2. Полная вичитка это слишком долго, за год для ТСД2 так и не сделана. --Vladis13 (обсуждение) 23:12, 24 апреля 2018 (UTC)
Словник ТСД1 для буквы "В" готов. --Dmitrismirnov (обсуждение) 09:44, 1 мая 2018 (UTC)
Словники для первого тома (А-З) ТСД1 готовы. К сожалению сейчас у меня очень мало свободного времени, и не могу этому серьёзно уделять внимание. Нужна помощь для завершению словника остальных томов. --Dmitrismirnov (обсуждение) 15:58, 7 июня 2018 (UTC)
У меня тоже завал, к сожалению, два месяца занят уже. Позже попробую найти время открыть на http://forumok.com задание по вычитке словника. Я предупрежу вас, потому что надо будет контролировать результаты, чтобы исполнители не халтурили. --Vladis13 (обсуждение) 17:42, 9 июня 2018 (UTC)
Точней, сначала надо открыть задание только на разметку по страницам, чтобы залить OCR. А по вычитке может отдельно потом. Ибо работникам надо будет пояснять как установить ДО-раскладку на их ПК, что резко снизит число желающих. Ну и будут тормозить и путаться с ДО-буквами, сложно будет массово проверять. --Vladis13 (обсуждение) 17:49, 9 июня 2018 (UTC)

@Dmitrismirnov: я заметил, что Вы закончили вычитку словников ТСД1? Безусловно, огромный труд!…
Тогда мне готовится к заливке в индекс ТСД1 статей из ТСД2?
У вас в ТСД1 уже закинуты списки ссылок на статьи ТСД2. Их оставить или удалить? И также много где есть сырой OCR. (пример, другой) Ещё кое-где есть страницы, уже вычитанные частично или полностью (пример). Полностью вычитанные я буду пропускать. А как с остальными? Лучше будет заливать, выше этого имеющего там текста, или под ним? --Vladis13 (обсуждение) 18:09, 28 октября 2018 (UT

Еще не полностью готовы буквы С и Т. Займусь в ближайшее время. Я думаю, что "списки ссылок на статьи ТСД2" лучше пока не удалять -- они могут быть полезны, и порядок слов в них точно соответствует словнику ТСД1. Сырой OCR вряд ли понадобится. Его можно удалить. Заливать наверное лучше под имеющимся текстом -- так нагляднее, хотя можно и выше него -- это не принципиально. Делайте так как Вам удобнее. --Dmitrismirnov (обсуждение) 20:12, 29 октября 2018 (UTC)

ТСД2/Долина/ДО[править]

И остальные страницы ТСД в Категория:Страницы с ошибками скриптов. Плюс пустые страницы — ТСД2/Долина, ТСД2/ЛёнRatte (обсуждение) 16:21, 25 августа 2018 (UTC)

Ошибка Lua в словнике[править]

Здесь какая-то ошибка. Не пойму в чём дело:

Страница:Толковый словарь Даля (1-е издание). Часть 2 (1865).pdf/32

1.    И(з)строга / Исстрога      Ошибка Lua: Unmatched open-paren at pattern character 1.|658

2.    И(з)строгать / Исстрогать --Dmitrismirnov (обсуждение) 22:35, 9 июня 2018 (UTC)

  • В слове скобка '()', и там в {{tsdl}} 3-й параметр посылающий слово в функцию расчёта номера страницы по слову. Надо убрать скобку, или добавить их поддержку. --Vladis13 (обсуждение) 02:33, 10 июня 2018 (UTC)
    • Пришлось убрать скобку, хотя это неправильно... Что такое "добавить их поддержку" - я не понимаю... --Dmitrismirnov (обсуждение) 06:19, 10 июня 2018 (UTC)
      • Я пока тоже... Там надо полностью переписать Lua-функции старого модуля, ввиду того что теперь есть Модуль:Отексте/ТСД1. Надо найти время на это. --Vladis13 (обсуждение) 07:30, 10 июня 2018 (UTC)

В статье не показывается содержимое соотв. "section"[править]

Частично вычитав страничку ТСД-3, запилил статью про одно матерное слово, но текст там не показывается. ЧяДНТ? Ain92 (обсуждение) 22:44, 5 января 2019 (UTC)

ТСД-3 в формате словаря для ABBYY Lingvo[править]

К слову, в ноябре прошлого года в интернете был опубликован ТСД-3 в формате словаря для ABBYY Lingvo. В отличие от участника Cinemantique (от которого мне это и стало известно), я не могу им пользоваться, а по привычке обращаюсь к словнику в ВТ и сканам. Никто не хочет залить этот словарь, как это сделали с ВЭ Сытина? Спасибо заранее! Ain92 (обсуждение) 22:44, 5 января 2019 (UTC)

  • Не нашёл ссылки на скачивание словаря Lingvo. Не могли бы вы скачать и мне отправить (почтой или выложив на Яндекс/Гугл диске)? А вообще, у меня большие сомнения, что такой словарь есть, в ввиду титанической сложности его вычитки. Сомневаюсь, что там сохранено оформление текста. И не знаю как распаковать словари Lingvo для извлечения текста. --Vladis13 (обсуждение) 21:42, 14 января 2019 (UTC)
    • @Dmitrismirnov, Ain92: Уч. Cinemantique прислал словарь. (Получилась задержка в 3 месяца, ибо я в Telegram редко захожу, и файл не комментировался т.ч. не понял что это вообще было…) Вот файл. Просмотрел, вроде действительно вычитан. Как я понял, если там текст в тегах «[trn]», то он как в скане. А если нет, то могут быть отличия. Например, там много перенаправлений вроде:
шабашевать
шабашенье
шабашить
шабашка
шабашки
шабашкованье
шабашковать
шабашковый
шабашник
шабашница
шабашничанье
шабашничать
шабашный
	[m1][p]См.[/p] [ref]шабашеванье[/ref][/m]
Таких статей нет в Страница:Толковый словарь. Том 4 (Даль 1909).djvu/697, это термины из разных статей. Ещё текст не везде соответствует, напр. в этом словаре «шабрёнко», а в Страница:Толковый словарь. Том 4 (Даль 1909).djvu/698 «шабрёнка». Заглавные термины в ДО надо смотреть в самом тексте, это первые слова в тегах «[b]». Ещё там нет разделения по страницам, т.ч. если заливать, то получится как ТСД-2, где может быть многостранничное толкование термина только на первой его странице, без переноса на следующие.
В общем просьба посмотреть, стоит ли такой текст заливать вместо текущего ТСД-3? Понятно, заливка будет касаться только ещё невычитанных страниц, теги этого словаря будут викифицированы, использована орфография ДО, заливка только при наличии тегов «[trn]» и при идентичности терминов. Прошу дополнить и поправить. --Vladis13 (обсуждение) 22:58, 19 марта 2019 (UTC)
  • Где текст не соответствует, это наверняка ошибка распознавания, не вижу ничего такого страшного — их надо выявлять и приводить в соответствие с бумагой. Про многостраничные толкования в ТСД-2 слышу впервые за много лет использования словаря, потому что при наличии словарных статей в викитексте к сканам почти никто не обращается; сколько всего таких статей, их ведь наверняка несложно выявить посчитать и по индексам? Что касается заливки: почему вместо текущего, если только ещё невычитанных страниц, и почему орфография ДО? Ain92 (обсуждение) 23:26, 19 марта 2019 (UTC)
Если названия статей не идентичны, то не будут заливаться. В случае заливки сделаю список не залитых.
В ТСД-2, статей не разбитых на страницы немногим меньше чем всего страниц (почти все невычитанные), напр. «Заушать», пример многостраничной «Малый». Многостраничных статей конечно немного, напр. в томе 2 это не созданные страницы.
«почему орфография ДО» — так в .dsl, нам и нужна ДО для скана, она элементарно конвертится в СО. --Vladis13 (обсуждение) 00:47, 20 марта 2019 (UTC)
  • Какова доля разнящихся названий? Может, имеет смысл до заливки составить в проекте список разницы, чтобы участники проверяли вокабулы ручками? Или что мы потом будем делать с упомянутым вами списком? Ain92 (обсуждение) 09:37, 20 марта 2019 (UTC)
  • Полагаю, что ОЧЕНЬ много. ТСД-3 я распознавал, и если вы посмотрите, навскидку на Страница:Толковый словарь. Том 4 (Даль 1909).djvu/698 — треть названий статей плохо распознаны: «ЛШа́йеа́, [Ша́а́ере́нь» и т. п. Вычитанного словника нет. Поэтому невозможно связать словарную статью из .dsl с термином ТСД-3, и вообще с какой-либо страницей. Сложно сказать какая доля. Визуально плохо распознано терминов может процентов 10 (посмотрите по словнику), большая часть статей - это перенаправления, которые, как упоминал выше, вносить не стоит.
Список — это будут викифицированные статьи из .dsl, в порядке этого файла. Редактируя страницу ТСД-3 можно копировать текст из этого списка, т. е. копирование ручное, а не ботом. К сожалению, опыт показывает что подобные списки-заготовки не используются другими редакторами. К тому же, тут даже с этими заготовками работы на десятки лет. Поэтому у меня сомнения. Размер файла 60 Мб, многое не попадёт в ТСД-3 по упомянутой причине, и если выкладывать заготовки в Викитеку как служебные списки по 0.5—1 Мб, это получится от десятка до более 100 огромных страниц, невозможно сказать сколько. Ну или можно текстовый файл сделать. Но если Дмитрий затрудняется открыть текстовый файл… то не знаю… --Vladis13 (обсуждение) 20:54, 20 марта 2019 (UTC)
  • С 2015 года OCR наверняка шагнул далеко вперёд благодаря машинному обучением с нейронкамии и т. п., если распознать заново, лучше не станет? Ain92 (обсуждение) 13:48, 25 марта 2019 (UTC)
  • Однозначно и увы, — нет. Я использовал FineReader 12, 13-й версии не выпускали, 14-я тоже самое что 12, разницы распознавания слов единичны и зачастую хуже, в целом +/- разницы нет. OCR-программ лучше FineReader не существует. Tesseract, единственный конкурент от Гугла, по качеству даже близко не конкурент. В прошлом году вроде вышла его 4 версия на нейросетях, но не уверен, что есть поддержка старой орфографии, и вообще русского языка, и какого качества. --Vladis13 (обсуждение) 14:24, 25 марта 2019 (UTC)
  • Если составить параллельные словники (только словники, без статей) из этого ТСД-3 и нашего плохо распознанного скана, сколько человекочасов потребуется на ручную (полуавтоматическую?) их сверку? Ain92 (обсуждение) 13:44, 25 марта 2019 (UTC)
  • В течении 1 часа на написание скрипта. --Vladis13 (обсуждение) 14:31, 25 марта 2019 (UTC)
    • Простите, недостаточно конкретно выразился: я имел в виду сверку обоих версий словников со сканом. Ain92 (обсуждение) 16:34, 25 марта 2019 (UTC)
  • Сравнить текущий словник ТСД-3, и список викифицированных страниц из файла (которые вроде в верном порядке) — в течении 1 часа на написание скрипта. Потом сверка списков — секунды. Я не понял, как можно сверить словники со сканом?
Вы имеете ввиду порядок и верность написания терминов (названий статей)? Время вычитки словников:
Словники для ТСД-2 я вычитывал недели 2, это если всё свободное время тратить. И насколько помню, вычитывал только расположение переносов страниц по первым статьям на страницах скана, чтобы можно было залить тексты (т.ч. порядок слов, и местами правильность написания, может быть не верен). При этом базовый список слов брался с какого-то сайта. Если полностью вычитывать, то времени займет в разы дольше, как ТСД-1.
Словник ТСД-1 Дмитрий вычитывал месяц или несколько.
Словник ТСД-3 я генерил из распознанного текста. Поэтому в нём до ~10 % опечаток (± в зависимости от качества скана), но порядок слов верный. Вычитывать словник ТСД-3 придётся ОЧЕНЬ долго, поскольку там статей в разы больше чем в ТСД-2 (не помню цифру). --Vladis13 (обсуждение) 17:37, 25 марта 2019 (UTC)
Ещё этот текст не имеет петита (тегов small). Для служебных слов часто также нет курсива. В тексте есть тег [p], им часто обернуты служ.слова, но он поставлен бессистемно, в скане он может соотетсвтовать и курсиву, и петиту, и петиту с курсивом.
Вместо {{акут3}} там просто {{акут}}.
В целом, это похоже на предыдущую заливу ТСД-2, в которой не было оформления (насколько помню отсутствовал курсив, а всё другое оформление я очень долго и сложно реконструировал — сотни тысяч правок ботом и на полуавтомате). Мне кажется, имеющееся распознавание в большинстве случаев лучше, можно не заливать. Но может где-то плохое распознавание и это будет лучше? Скажите если так.
Могу выложить викифицированный текст из этого файла, для копирования. --Vladis13 (обсуждение) 14:05, 22 марта 2019 (UTC)
  • Как бы выяснить, где распознавание самое плохое? Можно было бы туда для начала несколько страниц в экспериментальных целях залить. Ain92 (обсуждение) 13:44, 25 марта 2019 (UTC)
  • Качество распознавания зависело от графического качества каждой из страниц, и самочувствия левой пятки программы распознавания. :-) Где как распозналось я без понятия. Можно попробовать полистать словник, где визуально опечаток много, там наверно статьи ещё хуже. (Словник генерился из статей.) --Vladis13 (обсуждение) 15:33, 25 марта 2019 (UTC)
  • Я файла не видел (он у меня не открывается). Решайте сами, если это имеет смысл, то можно и залить. ---Dmitrismirnov (обсуждение) 10:06, 20 марта 2019 (UTC)
  • Открывать любым текстовым редактором, под Windows рекомендую Notepad++. Файл надо оценить, возможно я что-то упускаю. Потом же будет крайне сложно отменить или переделать заливку. --Vladis13 (обсуждение) 20:32, 20 марта 2019 (UTC)
https://yadi.sk/d/gE_dxMZarL5l6Q — викифицировал. Файл в формате csv («название статьи, текст»), открывать текстовым редактором, например Notepad++ или Sublime. Теги [p] не заменял, ибо не понятно во что. Это только текст статей которые были в тегах [trn]. --Vladis13 (обсуждение) 15:38, 25 марта 2019 (UTC)
  • Что-то обсуждение заглохло( Предлагаю, если никто не против, залить какую-нибудь букву с небольшим количеством статей и уже тогда посмотреть, что из этого получается. Ain92 (обсуждение) 09:40, 15 апреля 2019 (UTC)
    • Получится то что файле. Но пока нет предложений что делать с утерей оформления, и во что конвертировать тег [trn], от заливки стоит воздержаться. Или покажите страницы/буквы, где правка текущей заливки явно более трудоемка чем аналога в файле. --Vladis13 (обсуждение) 16:16, 15 апреля 2019 (UTC)

Категория:ТСД:Многозначные термины[править]

@Dmitrismirnov: Дмитрий, напомните пожалуйста, нужна ли эта категория? Помнится вы говорили, что не видите смысла в пометке многозначных статей, поскольку почти каждый термин многозначный. --Vladis13 (обсуждение) 01:34, 12 мая 2019 (UTC)

Это верно, я и забыл об этом. Можно было бы её убрать. --Dmitrismirnov (обсуждение) 15:16, 12 мая 2019 (UTC)