Обсуждение Викитеки:Проект:Импорт текстов/Lib.ru

Материал из Викитеки — свободной библиотеки
Перейти к навигации Перейти к поиску

Список импортированных произведений на страницах их авторов[править]

Хотел вас поблагодарить за вашу работу по перенесению текстов из az.lib.ru в ВТ при помощи бота. Я собирался вам помочь, но к сожалению память моего ноутбука постоянно забита приходящими новыми и новыми программными обновлениями, и у меня сейчас нет такой возможности. Хотел спросить, нельзя ли бота настроить таким образом (если конечно он еще не настроен вами в этом режиме), чтобы произведению автора автоматически переносились бы на страницу автора? На эту страницу Петр Анисимович Моисеенко я в ручном режиме перенес два произведения, возможно ли это делать автоматически? Если я ставлю слишком сложную задачу для вас, как для программиста, то тогда пусть остается всё по-прежнему... Wlbw68 (обсуждение) 08:29, 4 июня 2022 (UTC)Ответить[ответить]

  • @Wlbw68. Спасибо что подняли вопрос, как раз я не уверен что с этим делать.
    Мне видится 2 варианта:
    1) Ботом делать подраздел на страницах авторов, с названием вроде «Страницы, импортированные в Викитека:Проект:Импорт текстов/Lib.ru». Под ним добавлять ссылки на залитые страницы произведений. Вида [[викиссылка|название]]; но, наверно, без указания года, поскольку в них много ошибок, особенно у переводных произведений.
    В начале этих подразделов ставить шаблон с текстом, вроде: «Страницы в списке ниже были импортированы автоматически. Вы можете помочь проекту, оформив их и перенеся в списки произведений автора выше на этой странице. Страницы, которые дублируют уже существующие или не соответствуют критериям Викитеки просьба выставлять на удаление.»
    Большие проблемы с этим:
а) Импортированные произведения имеют массу ошибок в названиях, поэтому их страницы переименовываются. Также есть масса ошибок с АП и такие страницы удаляются. В итоге на страницах авторов будут оставаться красные нерабочие ссылки, которые проблематично исправлять, и ещё более проблематично будет удалять.
б) Будут дубли в списках импортированных страниц и уже существующих страниц. — На странице какого-то автора, например Маяковского, будет один список произведений, а ниже — почти дубирующийся список импортированных страниц.
Таких ссылок будет примерно столько сколько залитых текстов — более 50 тысяч, на многих тысячах страницах авторов. Вычистить потом эту помойку будет не реально.
2) Использовать тег «categorytree», который отображает на странице список из категории. (mw:Extension:CategoryTree, w:Шаблон:Дерево категорий.) При переименовании или удалении страниц, на странице автора будет отображаться актуальная версия списка. Пример работы: Николай Николаевич Вентцель#Поэзия, в викикоде страницы стоит тег {{#categorytree:Поэзия Николая Николаевича Вентцеля|depth=1|mode=pages}}.
Но кажется для данной цели это неприменимо. Поскольку, требуется отображаться пересечение как минимум 2 категорий: автора (например, Категория:Петр Анисимович Моисеенко) и проекта (Категория:Импорт/lib.ru). Ведь если отображать только содержимое категории автора, то там будет всё подряд не связанное с данным импортом.
a) Решением видится добавить на все 50 тысяч импортированных страниц подкатегорию, совмещающую категорию автора и проекта. Вида: Категория:Петр Анисимович Моисеенко/Импортированно с lib.ru. Отображаться будет хорошо, но от участников потребуется не только добавлять ссылки на страницы в список на страницах автора выше, но и удалять с оформленных страниц эту категорию, чтобы они убрались из списка.
Как видите, и вариант с добавлением текстовых ссылок с названием произведений на страницы авторов потребует: их переписывания во что-то более читабельное (поскольку бот их оформлять по варианту выше в 1-й строке, и часто будут ошибки), переноса ссылок в другие разделы со списками на странице автора, и адская чистка красных ссылок. И вариант с отображением списков подкатегорий требует ручного указания ссылок на страницах авторов, и удаление категории со страниц произведений.
Каково ваше мнение? Vladis13 (обсуждение) 19:03, 4 июня 2022 (UTC)Ответить[ответить]
  • > нельзя ли бота настроить таким образом (если конечно он еще не настроен вами в этом режиме), чтобы произведению автора автоматически переносились бы на страницу автора?
    Проект очень сложный, тексты и их метаданные с az.lib.ru крайне сложно парсить, там масса ошибок. Полностью автоматической работы (по расписанию и без присмотра) не получится. У меня автоматизируются только рутинные и массовые операции, сделаны скрипты, которые я запускаю вручную под присмотром и постоянными остановками/переделками по мере обнаружения ошибок.
    По данной задаче, реализация отображения актуальной версии списка мне видится только через categorytree. Это должно работать без ограничения срока давности и без необходимости присмотра/обновления кем-либо из участников. Если есть другие идеи, давайте их обсудим. Vladis13 (обсуждение) 19:11, 4 июня 2022 (UTC)Ответить[ответить]
  • Я совсем не программист и поэтому моё мнение имеет нулевой вес в данном вопросе. Прочитав ваше подробное объяснение, думаю, что последнее ваше предложение наиболее предпочтительное.--Wlbw68 (обсуждение) 23:13, 4 июня 2022 (UTC)Ответить[ответить]

Удаление после разбора произведений автора[править]

Удалять ли пустые категории вроде Категория:Импорт/az.lib.ru/Юстинус Кернер после разбора произведений автора? Или они ещё для чего-то нужны? -- Sergey kudryavtsev (обсуждение) 08:24, 12 июля 2022 (UTC)Ответить[ответить]

  • Удаляйте.
    Вообще, я заливал текст с фильтром год издания <= 1917 или > 70 лет pma. О соблюдении АП на сайте az.lib.ru говорить сложно, — это пиратский сайт с фиктивной надписью-пугалом «При финансовой поддержке Федерального агентства по печати и массовым коммуникациям.» в шапке сайта. Скачанные тексты в базе данных на моём ПК содержат много текстов выходящие за этот фильтр. В следующем году (ещё дожить надо, конечно), можно импортировать в Викитеку ещё текстов, перешедших в ОД по 70 лет pma. Отсутствующие категории для них можно будет создать снова. Vladis13 (обсуждение) 19:57, 12 июля 2022 (UTC)Ответить[ответить]