Викитека:Проект:ABBYY

Материал из Викитеки — свободной библиотеки
Перейти к навигации Перейти к поиску

На форуме прошло обсуждение, в рамках которого был поднят вопрос сотрудничества с ABBYY.

Ближайшие планы:

  • Составление списка участников проекта
  • Постановка и формулировка задач
  • Поиск возможных решений
  • Выбор ответственного добровольца
  • Обращение в ABBYY

Мотивация[править]

Для нас:

  • возможность на законных основаниях использовать FineReader;
  • значительно ускорится наша работа по оцифровке (особенно в случае интеграции с ПО MediaWiki);
  • фонд и его русское отделение повысит авторитет в глазах участников проектов Wikimedia;
  • потенциально — увеличится число участников проектов Wikimedia за счёт неявной рекламы среди посетителей сайтов ABBYY.

Для ABBYY:

  • возможность использовать факт соглашения в своих рекламных материалах для улучшения имиджа компании;
  • участники Викитек по всему миру могут проводить бета-тестирование новых версий FineReader и формулировать направления его дальнейшего развития, причём для множества языков;
  • участники Викитек по всему миру познакомятся с этим продуктом и потенциально могут захотеть его купить для домашнего или корпоративного использования;
  • вследствие хороших позиций сайтов Wikimedia в поисковых машинах сайты ABBYY потенциально тоже смогут повысить свою позицию.

Задачи[править]

  • Найти единомышленников внутри проектов Викимедиа
  • Наладить контакт с ABBYY
    • Найти их контакты
    • Установить контакт
      • Думаю, лучше всего встреча в живую (после предварительных согласований) в России (и США, если от имени WMF).
  • Попросить у ABBYY спонсорства в виде лицензий на FineReader для тех участников Викитеки, кто заинтересован в распознавании и вычитке старых текстов
    • Разобраться, существуют ли у ABBYY соответствующие лицензии или им нужно разрабатывать новые
    • Думаю, имеет смысл уточнить стаж участников, чтобы у ABBYY не возникали сомнения по поводу нецелевого использования.
  • ABBYY уже полгода работает над созданием FineReader Online. Планируется также и API нему. Ограничение: бесплатно 10 страниц в день, нет дореформенной орфографии, и кажется, только с файлами, загрудженными локально (т. е. нельзя сослаться на URL).
  • Интегрирование с MediaWiki
    • Импорт из FineReader'а в разметке MediaWiki
    • Кнопка в MediaWiki, общающаяся с модулем FineReader'а
  • Совместное создании словаря для проверки дореформенной орфографии (свободная лицензия, FineReader, Mozilla Firefox) по текстам, вычитанным в Викитеке.

Участники[править]

  • Dr Bug (Владимир² Медейко) (вопросы, связанные с НП "Викимедиа РУ", Wikimedia Foundation, Inc)
  • EugeneZelenko
  • Sergey kudryavtsev (подготовлю обращение к иноязычным участникам Викитеки)
  • Dmitry Rozhkov
  • El1604 08:43, 3 декабря 2009 (UTC)
  • Хотел бы помочь, но не знаю как. --Borealis55 22:06, 3 декабря 2009 (UTC)
  • Был в Abbyy несколько раз - по поводу покупки ПО и на обучении. Знаю путь и телефон :) --Ourcastle 16:49, 14 декабря 2009 (UTC)
  • А почему не использовать свободную OCR cuneiform? И on-line сервис у неё тоже есть, и зависимость не нужна от дяди.Виталий Липатов 21:34, 7 января 2010 (UTC)
    Согласен, что программа с открытым кодом — вариант гораздо лучший. Я немного побаловался с ней, но есть и недостатки: нет поддержки старой орфографии, не поддерживается PDF/DjVu (хотя и у FineReader есть проблемы, если страница состоит из нескольких фрагментов).
    Насколько понял, код довольно старый и не очень активно разрабатывается. Да и документация далеко не полная. Кросс-платформенность тоже не очевидна: для результатов распознавания используется Microsoft Word. Чтобы довести до ума, нужны усилия и, скорее всего, само не сделается. Как показывает практика того же MediaWiki, больше шансов что-то сделать появится при финансировании проекта (MWF или российским отделение). Ввиду состояния кода больше вероятности его улучшить у тех, кто его и создавал/поддерживал. Так что проблема зависимости сама собой не исчезнет.
    EugeneZelenko 15:47, 10 января 2010 (UTC)
    Ответ участников проекта о перспективах поддержки старой орфографии в CuneiForm. --EugeneZelenko 14:40, 14 мая 2010 (UTC)