Плюшевые мысли

Слишком много букв…

Posted in Information Extraction by plushloony on Июль 28, 2009

Вам никогда не казалось, что в мире слишком много бесполезной информации, которую и информацией то назвать нельзя? Террабайты лишних символов. Возьмите хотябы  монографии, дипломые работы,  диссертации  и  учебники. Все они могли бы быть в сотни раз тоньше, излагай авторы только самую суть, не отдавая дань формату и традиции. Даже в областях, где нет места лирике, работы наполнены пустыми рассуждениями и лишёнными фактов пассажами. Да и эта заметка не исключение! Видимо человеку свойственно пустоcловие, а обороты речи скрывают основную мысль от тех, кто не готов продраться сквозь заросли слов и вторичных образов.

Не велика беда, если абсолютно  всё, что Вам нужно, описано в одной,  пусть и толстой книге, или Вы – профессионал, способный быстро найти необходимые факты в любом объёме “воды”. Даже если придётся найти пару-тройку источников – Вы не безнадёжны, спасёт контекстный поиск. А что, если результаты поиска – это сотни страниц, не связанных друг с другом, по незнакомой Вам тематике, часто сомнительного содержания и на разных языках?

За примером далеко ходить не надо – вот обзор нового гаджета. С помощью поиска Вы без труда находите десятки статей, выбираете наиболее авторитетные и полные с Вашей точки зрения источники – и….довольствуетесь субъективным мнением одного  или нескольких человек. Врятли у кого-то хватит терпения прочитать и сравнить больше 3-4 обзоров, да и немногие станут разбираться с иноязычными источниками, которых зачастую больше, а разобраться с их содержанием и релевантностью куда труднее.

Есть компании, которые заявляют, что их продукты  “makes sense from content” и  понимают под этим различные вещи – от традиционного и семантического поиска до data mining и аналитики. Так вот вопросами о том, что или кто может читать тексты за нас, и как сделать существенную информацию более доступной, я бы и хотел посвятить  часть постов этого блога.

А Вы можете привести примеры тех, кто упешно извлекает существенную информацию из контента различных интернет ресурсов? Не агрегирует уже структурированную информацию, что без сомнения, тоже бывает весьма полезно, а именно даёт вторую жизнь фактам зарытым  в пустой болтовне.

Tagged with:

Добавить комментарий

Fill in your details below or click an icon to log in:

Логотип WordPress.com

You are commenting using your WordPress.com account. Log Out / Изменить )

Фотография Twitter

You are commenting using your Twitter account. Log Out / Изменить )

Фотография Facebook

You are commenting using your Facebook account. Log Out / Изменить )

Connecting to %s

Follow

Get every new post delivered to your Inbox.