Плюшевые мысли

Информация за так!

Публикация в Information Extraction, NLP пользователем plushloony от Июль 29, 2009

Есть в задачах поиска, индексации и анализа неструктурированных данных неприятный момент, любая попытка обойти который, ведёт к сильному упрощению задачи и грядущей за этим  тривиальности результата. Это NLP ( Nature Language Processing ) – обработка текста произвольной формы  и содержания. Даже не могу, сразу назвать какие не академические ресурсы кроме больших поисковых сервисов всерьёз используют весь спектр NLP технологии, и сомневаюсь, что дело тут в невостребованности.

А ведь есть пакеты, потратив совсем немного времени на изучние которых, можно получить вполне серьёзные результаты. Например, система, разработанная в Шеффилдском университете, GATE (General Architecture for Text Engineering)

Пакет ПО и набор плагинов абсолютно бесплатны, и пусть, возможно, не обладают качеством коммерческих систем, зато  предоставляют богатейший иструментарий по работе с текстами и извлечению из них полезной информации.  Система давольно проста в использовании и обладает неплхой документацией идлинным списком реализованных с её помощию сервисов. GATE продолжает развивается с 2003 года, a последние обновления датированы 29 мая 2009го.

Конечно большая часть функциональности доступна лишь для английского, но благодаря выложенному в общий доступ для некоммерческого использования  MyStem от Yandex, есть возможность и работы с русскоязычными текстами.  Изначально данная информация была доступна на ITBrains, однако сервер постоянно лежит, так что я осмелюсь поделиться заботливо сохранёнными материалами тут … Ru-morph-tagger.zip – плагин, документация (краткий мануал)

Ну и на последок, ещё одна ссылка  – POS tagger без использования технологий Яндекса: Russian POS tagger

Конечно, этот плагин даёт лишь морфологический разбор текста, но согласитесь, это не так и мало,  ведь на базе знаний о частях речи и разметке текста можно создавать собственные грамматические правила,  использовать словари , а тут уже для самосовершенствования нет предела.

Слишком много букв…

Публикация в Information Extraction пользователем plushloony от Июль 28, 2009

Вам никогда не казалось, что в мире слишком много бесполезной информации, которую и информацией то назвать нельзя? Террабайты лишних символов. Возьмите хотябы  монографии, дипломые работы,  диссертации  и  учебники. Все они могли бы быть в сотни раз тоньше, излагай авторы только самую суть, не отдавая дань формату и традиции. Даже в областях, где нет места лирике, работы наполнены пустыми рассуждениями и лишёнными фактов пассажами. Да и эта заметка не исключение! Видимо человеку свойственно пустоcловие, а обороты речи скрывают основную мысль от тех, кто не готов продраться сквозь заросли слов и вторичных образов.

Не велика беда, если абсолютно  всё, что Вам нужно, описано в одной,  пусть и толстой книге, или Вы – профессионал, способный быстро найти необходимые факты в любом объёме “воды”. Даже если придётся найти пару-тройку источников – Вы не безнадёжны, спасёт контекстный поиск. А что, если результаты поиска – это сотни страниц, не связанных друг с другом, по незнакомой Вам тематике, часто сомнительного содержания и на разных языках?

За примером далеко ходить не надо – вот обзор нового гаджета. С помощью поиска Вы без труда находите десятки статей, выбираете наиболее авторитетные и полные с Вашей точки зрения источники – и….довольствуетесь субъективным мнением одного  или нескольких человек. Врятли у кого-то хватит терпения прочитать и сравнить больше 3-4 обзоров, да и немногие станут разбираться с иноязычными источниками, которых зачастую больше, а разобраться с их содержанием и релевантностью куда труднее.

Есть компании, которые заявляют, что их продукты  “makes sense from content” и  понимают под этим различные вещи – от традиционного и семантического поиска до data mining и аналитики. Так вот вопросами о том, что или кто может читать тексты за нас, и как сделать существенную информацию более доступной, я бы и хотел посвятить  часть постов этого блога.

А Вы можете привести примеры тех, кто упешно извлекает существенную информацию из контента различных интернет ресурсов? Не агрегирует уже структурированную информацию, что без сомнения, тоже бывает весьма полезно, а именно даёт вторую жизнь фактам зарытым  в пустой болтовне.

Отмечено как:
Follow

Get every new post delivered to your Inbox.