Информация за так!
Есть в задачах поиска, индексации и анализа неструктурированных данных неприятный момент, любая попытка обойти который, ведёт к сильному упрощению задачи и грядущей за этим тривиальности результата. Это NLP ( Nature Language Processing ) – обработка текста произвольной формы и содержания. Даже не могу, сразу назвать какие не академические ресурсы кроме больших поисковых сервисов всерьёз используют весь спектр NLP технологии, и сомневаюсь, что дело тут в невостребованности.
А ведь есть пакеты, потратив совсем немного времени на изучние которых, можно получить вполне серьёзные результаты. Например, система, разработанная в Шеффилдском университете, GATE (General Architecture for Text Engineering)
Пакет ПО и набор плагинов абсолютно бесплатны, и пусть, возможно, не обладают качеством коммерческих систем, зато предоставляют богатейший иструментарий по работе с текстами и извлечению из них полезной информации. Система давольно проста в использовании и обладает неплхой документацией идлинным списком реализованных с её помощию сервисов. GATE продолжает развивается с 2003 года, a последние обновления датированы 29 мая 2009го.
Конечно большая часть функциональности доступна лишь для английского, но благодаря выложенному в общий доступ для некоммерческого использования MyStem от Yandex, есть возможность и работы с русскоязычными текстами. Изначально данная информация была доступна на ITBrains, однако сервер постоянно лежит, так что я осмелюсь поделиться заботливо сохранёнными материалами тут … Ru-morph-tagger.zip – плагин, документация (краткий мануал)
Ну и на последок, ещё одна ссылка – POS tagger без использования технологий Яндекса: Russian POS tagger
Конечно, этот плагин даёт лишь морфологический разбор текста, но согласитесь, это не так и мало, ведь на базе знаний о частях речи и разметке текста можно создавать собственные грамматические правила, использовать словари , а тут уже для самосовершенствования нет предела.
Слишком много букв…
Вам никогда не казалось, что в мире слишком много бесполезной информации, которую и информацией то назвать нельзя? Террабайты лишних символов. Возьмите хотябы монографии, дипломые работы, диссертации и учебники. Все они могли бы быть в сотни раз тоньше, излагай авторы только самую суть, не отдавая дань формату и традиции. Даже в областях, где нет места лирике, работы наполнены пустыми рассуждениями и лишёнными фактов пассажами. Да и эта заметка не исключение! Видимо человеку свойственно пустоcловие, а обороты речи скрывают основную мысль от тех, кто не готов продраться сквозь заросли слов и вторичных образов.
Не велика беда, если абсолютно всё, что Вам нужно, описано в одной, пусть и толстой книге, или Вы – профессионал, способный быстро найти необходимые факты в любом объёме “воды”. Даже если придётся найти пару-тройку источников – Вы не безнадёжны, спасёт контекстный поиск. А что, если результаты поиска – это сотни страниц, не связанных друг с другом, по незнакомой Вам тематике, часто сомнительного содержания и на разных языках?
За примером далеко ходить не надо – вот обзор нового гаджета. С помощью поиска Вы без труда находите десятки статей, выбираете наиболее авторитетные и полные с Вашей точки зрения источники – и….довольствуетесь субъективным мнением одного или нескольких человек. Врятли у кого-то хватит терпения прочитать и сравнить больше 3-4 обзоров, да и немногие станут разбираться с иноязычными источниками, которых зачастую больше, а разобраться с их содержанием и релевантностью куда труднее.
Есть компании, которые заявляют, что их продукты “makes sense from content” и понимают под этим различные вещи – от традиционного и семантического поиска до data mining и аналитики. Так вот вопросами о том, что или кто может читать тексты за нас, и как сделать существенную информацию более доступной, я бы и хотел посвятить часть постов этого блога.
А Вы можете привести примеры тех, кто упешно извлекает существенную информацию из контента различных интернет ресурсов? Не агрегирует уже структурированную информацию, что без сомнения, тоже бывает весьма полезно, а именно даёт вторую жизнь фактам зарытым в пустой болтовне.
Комментарии (6)