Обсуждение Викитеки:Проект:ТСД

Содержимое страницы недоступно на других языках.
Материал из Викитеки — свободной библиотеки
Проект:ТСДОбсуждение проектаНовости проектаШаблоны:ТСДКатегория:Толковый словарь В. ДаляСловникТолковый словарь В. Даля
Архив
Архив
Архив обсуждений:
Последнее изменение страницы:
17.08.2023.

Пожалуйста, добавляйте новые темы снизу.


ТСД-3 в формате словаря для ABBYY Lingvo[править]

К слову, в ноябре прошлого года в интернете был опубликован ТСД-3 в формате словаря для ABBYY Lingvo. В отличие от участника Cinemantique (от которого мне это и стало известно), я не могу им пользоваться, а по привычке обращаюсь к словнику в ВТ и сканам. Никто не хочет залить этот словарь, как это сделали с ВЭ Сытина? Спасибо заранее! Ain92 (обсуждение) 22:44, 5 января 2019 (UTC)[ответить]

  • Не нашёл ссылки на скачивание словаря Lingvo. Не могли бы вы скачать и мне отправить (почтой или выложив на Яндекс/Гугл диске)? А вообще, у меня большие сомнения, что такой словарь есть, в ввиду титанической сложности его вычитки. Сомневаюсь, что там сохранено оформление текста. И не знаю как распаковать словари Lingvo для извлечения текста. --Vladis13 (обсуждение) 21:42, 14 января 2019 (UTC)[ответить]
    • @Dmitrismirnov, Ain92 Уч. Cinemantique прислал словарь. (Получилась задержка в 3 месяца, ибо я в Telegram редко захожу, и файл не комментировался т.ч. не понял что это вообще было…) Вот файл. Просмотрел, вроде действительно вычитан. Как я понял, если там текст в тегах «[trn]», то он как в скане. А если нет, то могут быть отличия. Например, там много перенаправлений вроде:
шабашевать
шабашенье
шабашить
шабашка
шабашки
шабашкованье
шабашковать
шабашковый
шабашник
шабашница
шабашничанье
шабашничать
шабашный
	[m1][p]См.[/p] [ref]шабашеванье[/ref][/m]
Таких статей нет в Страница:Толковый словарь. Том 4 (Даль 1909).djvu/697, это термины из разных статей. Ещё текст не везде соответствует, напр. в этом словаре «шабрёнко», а в Страница:Толковый словарь. Том 4 (Даль 1909).djvu/698 «шабрёнка». Заглавные термины в ДО надо смотреть в самом тексте, это первые слова в тегах «[b]». Ещё там нет разделения по страницам, т.ч. если заливать, то получится как ТСД-2, где может быть многостранничное толкование термина только на первой его странице, без переноса на следующие.
В общем просьба посмотреть, стоит ли такой текст заливать вместо текущего ТСД-3? Понятно, заливка будет касаться только ещё невычитанных страниц, теги этого словаря будут викифицированы, использована орфография ДО, заливка только при наличии тегов «[trn]» и при идентичности терминов. Прошу дополнить и поправить. --Vladis13 (обсуждение) 22:58, 19 марта 2019 (UTC)[ответить]
  • Где текст не соответствует, это наверняка ошибка распознавания, не вижу ничего такого страшного — их надо выявлять и приводить в соответствие с бумагой. Про многостраничные толкования в ТСД-2 слышу впервые за много лет использования словаря, потому что при наличии словарных статей в викитексте к сканам почти никто не обращается; сколько всего таких статей, их ведь наверняка несложно выявить посчитать и по индексам? Что касается заливки: почему вместо текущего, если только ещё невычитанных страниц, и почему орфография ДО? Ain92 (обсуждение) 23:26, 19 марта 2019 (UTC)[ответить]
Если названия статей не идентичны, то не будут заливаться. В случае заливки сделаю список не залитых.
В ТСД-2, статей не разбитых на страницы немногим меньше чем всего страниц (почти все невычитанные), напр. «Заушать», пример многостраничной «Малый». Многостраничных статей конечно немного, напр. в томе 2 это не созданные страницы.
«почему орфография ДО» — так в .dsl, нам и нужна ДО для скана, она элементарно конвертится в СО. --Vladis13 (обсуждение) 00:47, 20 марта 2019 (UTC)[ответить]
  • Какова доля разнящихся названий? Может, имеет смысл до заливки составить в проекте список разницы, чтобы участники проверяли вокабулы ручками? Или что мы потом будем делать с упомянутым вами списком? Ain92 (обсуждение) 09:37, 20 марта 2019 (UTC)[ответить]
  • Полагаю, что ОЧЕНЬ много. ТСД-3 я распознавал, и если вы посмотрите, навскидку на Страница:Толковый словарь. Том 4 (Даль 1909).djvu/698 — треть названий статей плохо распознаны: «ЛШа́йеа́, [Ша́а́ере́нь» и т. п. Вычитанного словника нет. Поэтому невозможно связать словарную статью из .dsl с термином ТСД-3, и вообще с какой-либо страницей. Сложно сказать какая доля. Визуально плохо распознано терминов может процентов 10 (посмотрите по словнику), большая часть статей - это перенаправления, которые, как упоминал выше, вносить не стоит.
Список — это будут викифицированные статьи из .dsl, в порядке этого файла. Редактируя страницу ТСД-3 можно копировать текст из этого списка, т. е. копирование ручное, а не ботом. К сожалению, опыт показывает что подобные списки-заготовки не используются другими редакторами. К тому же, тут даже с этими заготовками работы на десятки лет. Поэтому у меня сомнения. Размер файла 60 Мб, многое не попадёт в ТСД-3 по упомянутой причине, и если выкладывать заготовки в Викитеку как служебные списки по 0.5—1 Мб, это получится от десятка до более 100 огромных страниц, невозможно сказать сколько. Ну или можно текстовый файл сделать. Но если Дмитрий затрудняется открыть текстовый файл… то не знаю… --Vladis13 (обсуждение) 20:54, 20 марта 2019 (UTC)[ответить]
  • Однозначно и увы, — нет. Я использовал FineReader 12, 13-й версии не выпускали, 14-я тоже самое что 12, разницы распознавания слов единичны и зачастую хуже, в целом +/- разницы нет. OCR-программ лучше FineReader не существует. Tesseract, единственный конкурент от Гугла, по качеству даже близко не конкурент. В прошлом году вроде вышла его 4 версия на нейросетях, но не уверен, что есть поддержка старой орфографии, и вообще русского языка, и какого качества. --Vladis13 (обсуждение) 14:24, 25 марта 2019 (UTC)[ответить]
  • Если составить параллельные словники (только словники, без статей) из этого ТСД-3 и нашего плохо распознанного скана, сколько человекочасов потребуется на ручную (полуавтоматическую?) их сверку? Ain92 (обсуждение) 13:44, 25 марта 2019 (UTC)[ответить]
  • Сравнить текущий словник ТСД-3, и список викифицированных страниц из файла (которые вроде в верном порядке) — в течении 1 часа на написание скрипта. Потом сверка списков — секунды. Я не понял, как можно сверить словники со сканом?
Вы имеете ввиду порядок и верность написания терминов (названий статей)? Время вычитки словников:
Словники для ТСД-2 я вычитывал недели 2, это если всё свободное время тратить. И насколько помню, вычитывал только расположение переносов страниц по первым статьям на страницах скана, чтобы можно было залить тексты (т.ч. порядок слов, и местами правильность написания, может быть не верен). При этом базовый список слов брался с какого-то сайта. Если полностью вычитывать, то времени займет в разы дольше, как ТСД-1.
Словник ТСД-1 Дмитрий вычитывал месяц или несколько.
Словник ТСД-3 я генерил из распознанного текста. Поэтому в нём до ~10 % опечаток (± в зависимости от качества скана), но порядок слов верный. Вычитывать словник ТСД-3 придётся ОЧЕНЬ долго, поскольку там статей в разы больше чем в ТСД-2 (не помню цифру). --Vladis13 (обсуждение) 17:37, 25 марта 2019 (UTC)[ответить]
Ещё этот текст не имеет петита (тегов small). Для служебных слов часто также нет курсива. В тексте есть тег [p], им часто обернуты служ.слова, но он поставлен бессистемно, в скане он может соотетсвтовать и курсиву, и петиту, и петиту с курсивом.
Вместо {{акут3}} там просто {{акут}}.
В целом, это похоже на предыдущую заливу ТСД-2, в которой не было оформления (насколько помню отсутствовал курсив, а всё другое оформление я очень долго и сложно реконструировал — сотни тысяч правок ботом и на полуавтомате). Мне кажется, имеющееся распознавание в большинстве случаев лучше, можно не заливать. Но может где-то плохое распознавание и это будет лучше? Скажите если так.
Могу выложить викифицированный текст из этого файла, для копирования. --Vladis13 (обсуждение) 14:05, 22 марта 2019 (UTC)[ответить]
  • Качество распознавания зависело от графического качества каждой из страниц, и самочувствия левой пятки программы распознавания. :-) Где как распозналось я без понятия. Можно попробовать полистать словник, где визуально опечаток много, там наверно статьи ещё хуже. (Словник генерился из статей.) --Vladis13 (обсуждение) 15:33, 25 марта 2019 (UTC)[ответить]
https://yadi.sk/d/gE_dxMZarL5l6Q — викифицировал. Файл в формате csv («название статьи, текст»), открывать текстовым редактором, например Notepad++ или Sublime. Теги [p] не заменял, ибо не понятно во что. Это только текст статей которые были в тегах [trn]. --Vladis13 (обсуждение) 15:38, 25 марта 2019 (UTC)[ответить]
  • Что-то обсуждение заглохло( Предлагаю, если никто не против, залить какую-нибудь букву с небольшим количеством статей и уже тогда посмотреть, что из этого получается. Ain92 (обсуждение) 09:40, 15 апреля 2019 (UTC)[ответить]
    • Получится то что файле. Но пока нет предложений что делать с утерей оформления, и во что конвертировать тег [trn], от заливки стоит воздержаться. Или покажите страницы/буквы, где правка текущей заливки явно более трудоемка чем аналога в файле. --Vladis13 (обсуждение) 16:16, 15 апреля 2019 (UTC)[ответить]