Плюшевые мысли

Информация за так!

Posted in Information Extraction, NLP by plushloony on Июль 29, 2009

Есть в задачах поиска, индексации и анализа неструктурированных данных неприятный момент, любая попытка обойти который, ведёт к сильному упрощению задачи и грядущей за этим  тривиальности результата. Это NLP ( Nature Language Processing ) – обработка текста произвольной формы  и содержания. Даже не могу, сразу назвать какие не академические ресурсы кроме больших поисковых сервисов всерьёз используют весь спектр NLP технологии, и сомневаюсь, что дело тут в невостребованности.

А ведь есть пакеты, потратив совсем немного времени на изучние которых, можно получить вполне серьёзные результаты. Например, система, разработанная в Шеффилдском университете, GATE (General Architecture for Text Engineering)

Пакет ПО и набор плагинов абсолютно бесплатны, и пусть, возможно, не обладают качеством коммерческих систем, зато  предоставляют богатейший иструментарий по работе с текстами и извлечению из них полезной информации.  Система давольно проста в использовании и обладает неплхой документацией идлинным списком реализованных с её помощию сервисов. GATE продолжает развивается с 2003 года, a последние обновления датированы 29 мая 2009го.

Конечно большая часть функциональности доступна лишь для английского, но благодаря выложенному в общий доступ для некоммерческого использования  MyStem от Yandex, есть возможность и работы с русскоязычными текстами.  Изначально данная информация была доступна на ITBrains, однако сервер постоянно лежит, так что я осмелюсь поделиться заботливо сохранёнными материалами тут … Ru-morph-tagger.zip – плагин, документация (краткий мануал)

Ну и на последок, ещё одна ссылка  – POS tagger без использования технологий Яндекса: Russian POS tagger

Конечно, этот плагин даёт лишь морфологический разбор текста, но согласитесь, это не так и мало,  ведь на базе знаний о частях речи и разметке текста можно создавать собственные грамматические правила,  использовать словари , а тут уже для самосовершенствования нет предела.

Комментариев: 6

Подписаться на комментарии по RSS.

  1. Антон said, on Июль 30, 2009 at 5:23 дп

    Спасибо за интересную информацию!
    А ты с этим всем много работал?
    Мне интересно, есть ли готовое решение для такой задачи: извлечь из текста все даты и названия населённых пунктов или организаций?

    • plushloony said, on Июль 30, 2009 at 7:58 дп

      Много понятие относительное, но скажем так – да, работал. А по поводу вопроса – да, это вообще классическая задача – Named Entity Extraction. В самом GATE есть модуль ANNIE, который этим занимается без всякой настройки, правда справляется хуже коммерческих продуктов, которых можно насчитать наверное более десятка. Ну и опенсорсов тоже куча, проблема с ними лишь в том что они не так удобны, как GATE. Если интересно, можешь пройтись по ссылкам в соответствующей статье википедии.

  2. Алексей said, on Февраль 16, 2010 at 12:30 пп

    Добрый день. Мне интересно был ли удачный опыт работы именно с Ru-morph-tagger.В Developer все ничь, а вот при работе с API возникли проблемы, возможно с кодировкой – либо вообще выдает эксепшины, либо просто нет никаких аннотаций. Если у Вас остались исходники был бы оч благодарен! спасибо)

  3. a8ter said, on Март 16, 2010 at 6:50 пп

    Перезалейте, пожалуйста, ru-morph-tagger.

    • plushloony said, on Март 17, 2010 at 12:22 пп

      хм, попробую найти на диске, к сожалению давно им не занимался


Добавить комментарий

Fill in your details below or click an icon to log in:

Логотип WordPress.com

You are commenting using your WordPress.com account. Log Out / Изменить )

Фотография Twitter

You are commenting using your Twitter account. Log Out / Изменить )

Фотография Facebook

You are commenting using your Facebook account. Log Out / Изменить )

Connecting to %s

Follow

Get every new post delivered to your Inbox.