Информация за так!
Есть в задачах поиска, индексации и анализа неструктурированных данных неприятный момент, любая попытка обойти который, ведёт к сильному упрощению задачи и грядущей за этим тривиальности результата. Это NLP ( Nature Language Processing ) – обработка текста произвольной формы и содержания. Даже не могу, сразу назвать какие не академические ресурсы кроме больших поисковых сервисов всерьёз используют весь спектр NLP технологии, и сомневаюсь, что дело тут в невостребованности.
А ведь есть пакеты, потратив совсем немного времени на изучние которых, можно получить вполне серьёзные результаты. Например, система, разработанная в Шеффилдском университете, GATE (General Architecture for Text Engineering)
Пакет ПО и набор плагинов абсолютно бесплатны, и пусть, возможно, не обладают качеством коммерческих систем, зато предоставляют богатейший иструментарий по работе с текстами и извлечению из них полезной информации. Система давольно проста в использовании и обладает неплхой документацией идлинным списком реализованных с её помощию сервисов. GATE продолжает развивается с 2003 года, a последние обновления датированы 29 мая 2009го.
Конечно большая часть функциональности доступна лишь для английского, но благодаря выложенному в общий доступ для некоммерческого использования MyStem от Yandex, есть возможность и работы с русскоязычными текстами. Изначально данная информация была доступна на ITBrains, однако сервер постоянно лежит, так что я осмелюсь поделиться заботливо сохранёнными материалами тут … Ru-morph-tagger.zip – плагин, документация (краткий мануал)
Ну и на последок, ещё одна ссылка – POS tagger без использования технологий Яндекса: Russian POS tagger
Конечно, этот плагин даёт лишь морфологический разбор текста, но согласитесь, это не так и мало, ведь на базе знаний о частях речи и разметке текста можно создавать собственные грамматические правила, использовать словари , а тут уже для самосовершенствования нет предела.
Спасибо за интересную информацию!
А ты с этим всем много работал?
Мне интересно, есть ли готовое решение для такой задачи: извлечь из текста все даты и названия населённых пунктов или организаций?
Много понятие относительное, но скажем так – да, работал. А по поводу вопроса – да, это вообще классическая задача – Named Entity Extraction. В самом GATE есть модуль ANNIE, который этим занимается без всякой настройки, правда справляется хуже коммерческих продуктов, которых можно насчитать наверное более десятка. Ну и опенсорсов тоже куча, проблема с ними лишь в том что они не так удобны, как GATE. Если интересно, можешь пройтись по ссылкам в соответствующей статье википедии.
Добрый день. Мне интересно был ли удачный опыт работы именно с Ru-morph-tagger.В Developer все ничь, а вот при работе с API возникли проблемы, возможно с кодировкой – либо вообще выдает эксепшины, либо просто нет никаких аннотаций. Если у Вас остались исходники был бы оч благодарен! спасибо)
к сожалению нет
Перезалейте, пожалуйста, ru-morph-tagger.
хм, попробую найти на диске, к сожалению давно им не занимался