<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	xmlns:georss="http://www.georss.org/georss" xmlns:geo="http://www.w3.org/2003/01/geo/wgs84_pos#" xmlns:media="http://search.yahoo.com/mrss/"
	>

<channel>
	<title>Плюшевые мысли</title>
	<atom:link href="http://plushloonyru.wordpress.com/feed/" rel="self" type="application/rss+xml" />
	<link>http://plushloonyru.wordpress.com</link>
	<description>Just another WordPress.com weblog</description>
	<lastBuildDate>Wed, 29 Jul 2009 20:38:30 +0000</lastBuildDate>
	<language>ru</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>http://wordpress.com/</generator>
<cloud domain='plushloonyru.wordpress.com' port='80' path='/?rsscloud=notify' registerProcedure='' protocol='http-post' />
<image>
		<url>http://s2.wp.com/i/buttonw-com.png</url>
		<title>Плюшевые мысли</title>
		<link>http://plushloonyru.wordpress.com</link>
	</image>
	<atom:link rel="search" type="application/opensearchdescription+xml" href="http://plushloonyru.wordpress.com/osd.xml" title="Плюшевые мысли" />
	<atom:link rel='hub' href='http://plushloonyru.wordpress.com/?pushpress=hub'/>
		<item>
		<title>Информация за так!</title>
		<link>http://plushloonyru.wordpress.com/2009/07/29/%d0%b8%d0%bd%d1%84%d0%be%d1%80%d0%bc%d0%b0%d1%86%d0%b8%d1%8f-%d0%b7%d0%b0-%d1%82%d0%b0%d0%ba/</link>
		<comments>http://plushloonyru.wordpress.com/2009/07/29/%d0%b8%d0%bd%d1%84%d0%be%d1%80%d0%bc%d0%b0%d1%86%d0%b8%d1%8f-%d0%b7%d0%b0-%d1%82%d0%b0%d0%ba/#comments</comments>
		<pubDate>Wed, 29 Jul 2009 15:03:36 +0000</pubDate>
		<dc:creator>plushloony</dc:creator>
				<category><![CDATA[Information Extraction]]></category>
		<category><![CDATA[NLP]]></category>
		<category><![CDATA[Entity Extraction]]></category>
		<category><![CDATA[Gate]]></category>
		<category><![CDATA[Linguistic]]></category>
		<category><![CDATA[MyStem]]></category>
		<category><![CDATA[Open Source]]></category>
		<category><![CDATA[Russian POS tagger]]></category>
		<category><![CDATA[Russian Text Analysis]]></category>

		<guid isPermaLink="false">http://plushloonyru.wordpress.com/?p=7</guid>
		<description><![CDATA[Есть в задачах поиска, индексации и анализа неструктурированных данных неприятный момент, любая попытка обойти который, ведёт к сильному упрощению задачи и грядущей за этим  тривиальности результата. Это NLP ( Nature Language Processing ) – обработка текста произвольной формы  и содержания. Даже не могу, сразу назвать какие не академические ресурсы кроме больших поисковых сервисов всерьёз используют [...]<img alt="" border="0" src="http://stats.wordpress.com/b.gif?host=plushloonyru.wordpress.com&amp;blog=8766221&amp;post=7&amp;subd=plushloonyru&amp;ref=&amp;feed=1" width="1" height="1" />]]></description>
			<content:encoded><![CDATA[<p>Есть в задачах поиска, индексации и анализа неструктурированных данных неприятный момент, любая попытка обойти который, ведёт к сильному упрощению задачи и грядущей за этим  тривиальности результата. Это NLP ( Nature Language Processing ) – обработка текста произвольной формы  и содержания. Даже не могу, сразу назвать какие не академические ресурсы кроме больших поисковых сервисов всерьёз используют весь спектр NLP технологии, и сомневаюсь, что дело тут в невостребованности.</p>
<p>А ведь есть пакеты, потратив совсем немного времени на изучние которых, можно получить вполне серьёзные результаты. Например, система, разработанная в Шеффилдском университете,  <a href="http://gate.ac.uk/">GATE</a> (General Architecture for Text Engineering)<a href="http://gate.ac.uk/"><img class="aligncenter" title="Gate logo" src="http://gate.ac.uk/images/gate.gif" alt="" width="61" height="55" /></a></p>
<p>Пакет ПО и набор плагинов абсолютно бесплатны, и пусть, возможно, не обладают качеством коммерческих систем, зато  предоставляют богатейший иструментарий по работе с текстами и извлечению из них полезной информации.  Система давольно проста в использовании и обладает неплхой документацией идлинным списком реализованных с её помощию сервисов. GATE продолжает развивается с 2003 года, a последние обновления датированы 29 мая 2009го.</p>
<p>Конечно большая часть функциональности доступна лишь для английского, но благодаря выложенному в общий доступ для некоммерческого использования  <a href="http://company.yandex.ru/technology/mystem/">MyStem</a> от Yandex, есть возможность и работы с русскоязычными текстами.  Изначально данная информация была доступна на <a href="http://dvsekhvalnov.itbrains.ru/index.php/Russian_PRs">ITBrains</a>, однако сервер постоянно лежит, так что я осмелюсь поделиться заботливо сохранёнными материалами тут &#8230; <a href="http://narod.ru/disk/11416560000/Ru-morph-tagger.zip.html">Ru-morph-tagger.zip &#8211; плагин,</a><a href="http://narod.ru/disk/11416735000/yandbtm.htm.html"> документация (краткий мануал)</a></p>
<p>Ну и на последок, ещё одна ссылка  &#8211; POS tagger без использования технологий Яндекса: <a href="http://rupostagger.sourceforge.net/">Russian POS tagger</a></p>
<p>Конечно, этот плагин даёт лишь морфологический разбор текста, но согласитесь, это не так и мало,  ведь на базе знаний о частях речи и разметке текста можно создавать собственные грамматические правила,  использовать словари , а тут уже для самосовершенствования нет предела.</p>
<br />  <a rel="nofollow" href="http://feeds.wordpress.com/1.0/gocomments/plushloonyru.wordpress.com/7/"><img alt="" border="0" src="http://feeds.wordpress.com/1.0/comments/plushloonyru.wordpress.com/7/" /></a> <a rel="nofollow" href="http://feeds.wordpress.com/1.0/godelicious/plushloonyru.wordpress.com/7/"><img alt="" border="0" src="http://feeds.wordpress.com/1.0/delicious/plushloonyru.wordpress.com/7/" /></a> <a rel="nofollow" href="http://feeds.wordpress.com/1.0/gofacebook/plushloonyru.wordpress.com/7/"><img alt="" border="0" src="http://feeds.wordpress.com/1.0/facebook/plushloonyru.wordpress.com/7/" /></a> <a rel="nofollow" href="http://feeds.wordpress.com/1.0/gotwitter/plushloonyru.wordpress.com/7/"><img alt="" border="0" src="http://feeds.wordpress.com/1.0/twitter/plushloonyru.wordpress.com/7/" /></a> <a rel="nofollow" href="http://feeds.wordpress.com/1.0/gostumble/plushloonyru.wordpress.com/7/"><img alt="" border="0" src="http://feeds.wordpress.com/1.0/stumble/plushloonyru.wordpress.com/7/" /></a> <a rel="nofollow" href="http://feeds.wordpress.com/1.0/godigg/plushloonyru.wordpress.com/7/"><img alt="" border="0" src="http://feeds.wordpress.com/1.0/digg/plushloonyru.wordpress.com/7/" /></a> <a rel="nofollow" href="http://feeds.wordpress.com/1.0/goreddit/plushloonyru.wordpress.com/7/"><img alt="" border="0" src="http://feeds.wordpress.com/1.0/reddit/plushloonyru.wordpress.com/7/" /></a> <img alt="" border="0" src="http://stats.wordpress.com/b.gif?host=plushloonyru.wordpress.com&amp;blog=8766221&amp;post=7&amp;subd=plushloonyru&amp;ref=&amp;feed=1" width="1" height="1" />]]></content:encoded>
			<wfw:commentRss>http://plushloonyru.wordpress.com/2009/07/29/%d0%b8%d0%bd%d1%84%d0%be%d1%80%d0%bc%d0%b0%d1%86%d0%b8%d1%8f-%d0%b7%d0%b0-%d1%82%d0%b0%d0%ba/feed/</wfw:commentRss>
		<slash:comments>6</slash:comments>
	
		<media:content url="http://1.gravatar.com/avatar/d3997ae25afa54f25664de1326fde8f3?s=96&#38;d=identicon&#38;r=G" medium="image">
			<media:title type="html">plushloony</media:title>
		</media:content>

		<media:content url="http://gate.ac.uk/images/gate.gif" medium="image">
			<media:title type="html">Gate logo</media:title>
		</media:content>
	</item>
		<item>
		<title>Слишком много букв&#8230;</title>
		<link>http://plushloonyru.wordpress.com/2009/07/28/%d1%81%d0%bb%d0%b8%d1%88%d0%ba%d0%be%d0%bc-%d0%bc%d0%bd%d0%be%d0%b3%d0%be-%d0%b1%d1%83%d0%ba%d0%b2/</link>
		<comments>http://plushloonyru.wordpress.com/2009/07/28/%d1%81%d0%bb%d0%b8%d1%88%d0%ba%d0%be%d0%bc-%d0%bc%d0%bd%d0%be%d0%b3%d0%be-%d0%b1%d1%83%d0%ba%d0%b2/#comments</comments>
		<pubDate>Tue, 28 Jul 2009 12:17:56 +0000</pubDate>
		<dc:creator>plushloony</dc:creator>
				<category><![CDATA[Information Extraction]]></category>

		<guid isPermaLink="false">http://plushloonyru.wordpress.com/?p=3</guid>
		<description><![CDATA[Вам никогда не казалось, что в мире слишком много бесполезной информации, которую и информацией то назвать нельзя? Террабайты лишних символов. Возьмите хотябы  монографии, дипломые работы,  диссертации  и  учебники. Все они могли бы быть в сотни раз тоньше, излагай авторы только самую суть, не отдавая дань формату и традиции. Даже в областях, где нет места лирике, [...]<img alt="" border="0" src="http://stats.wordpress.com/b.gif?host=plushloonyru.wordpress.com&amp;blog=8766221&amp;post=3&amp;subd=plushloonyru&amp;ref=&amp;feed=1" width="1" height="1" />]]></description>
			<content:encoded><![CDATA[<p>Вам никогда не казалось, что в мире слишком много бесполезной информации, которую и информацией то назвать нельзя? Террабайты лишних символов. Возьмите хотябы  монографии, дипломые работы,  диссертации  и  учебники. Все они могли бы быть в сотни раз тоньше, излагай авторы только самую суть, не отдавая дань формату и традиции. Даже в областях, где нет места лирике, работы наполнены пустыми рассуждениями и лишёнными фактов пассажами. Да и эта заметка не исключение! Видимо человеку свойственно пустоcловие, а обороты речи скрывают основную мысль от тех, кто не готов продраться сквозь заросли слов и вторичных образов.</p>
<p>Не велика беда, если абсолютно  всё, что Вам нужно, описано в одной,  пусть и толстой книге, или Вы – профессионал, способный быстро найти необходимые факты в любом объёме “воды”. Даже если придётся найти пару-тройку источников – Вы не безнадёжны, спасёт контекстный поиск. А что, если результаты поиска – это сотни страниц, не связанных друг с другом, по незнакомой Вам тематике, часто сомнительного содержания и на разных языках?</p>
<p>За примером далеко ходить не надо – вот обзор нового гаджета. С помощью поиска Вы без труда находите десятки статей, выбираете наиболее авторитетные и полные с Вашей точки зрения источники – и&#8230;.довольствуетесь субъективным мнением одного  или нескольких человек. Врятли у кого-то хватит терпения прочитать и сравнить больше 3-4 обзоров, да и немногие станут разбираться с иноязычными источниками, которых зачастую больше, а разобраться с их содержанием и релевантностью куда труднее.</p>
<p>Есть компании, которые заявляют, что их продукты  “makes sense from content” и  понимают под этим различные вещи – от традиционного и семантического поиска до data mining и аналитики. Так вот вопросами о том, что или кто может читать тексты за нас, и как сделать существенную информацию более доступной, я бы и хотел посвятить  часть постов этого блога.</p>
<p>А Вы можете привести примеры тех, кто упешно извлекает существенную информацию из контента различных интернет ресурсов? Не агрегирует уже структурированную информацию, что без сомнения, тоже бывает весьма полезно, а именно даёт вторую жизнь фактам зарытым  в пустой болтовне.</p>
<br />  <a rel="nofollow" href="http://feeds.wordpress.com/1.0/gocomments/plushloonyru.wordpress.com/3/"><img alt="" border="0" src="http://feeds.wordpress.com/1.0/comments/plushloonyru.wordpress.com/3/" /></a> <a rel="nofollow" href="http://feeds.wordpress.com/1.0/godelicious/plushloonyru.wordpress.com/3/"><img alt="" border="0" src="http://feeds.wordpress.com/1.0/delicious/plushloonyru.wordpress.com/3/" /></a> <a rel="nofollow" href="http://feeds.wordpress.com/1.0/gofacebook/plushloonyru.wordpress.com/3/"><img alt="" border="0" src="http://feeds.wordpress.com/1.0/facebook/plushloonyru.wordpress.com/3/" /></a> <a rel="nofollow" href="http://feeds.wordpress.com/1.0/gotwitter/plushloonyru.wordpress.com/3/"><img alt="" border="0" src="http://feeds.wordpress.com/1.0/twitter/plushloonyru.wordpress.com/3/" /></a> <a rel="nofollow" href="http://feeds.wordpress.com/1.0/gostumble/plushloonyru.wordpress.com/3/"><img alt="" border="0" src="http://feeds.wordpress.com/1.0/stumble/plushloonyru.wordpress.com/3/" /></a> <a rel="nofollow" href="http://feeds.wordpress.com/1.0/godigg/plushloonyru.wordpress.com/3/"><img alt="" border="0" src="http://feeds.wordpress.com/1.0/digg/plushloonyru.wordpress.com/3/" /></a> <a rel="nofollow" href="http://feeds.wordpress.com/1.0/goreddit/plushloonyru.wordpress.com/3/"><img alt="" border="0" src="http://feeds.wordpress.com/1.0/reddit/plushloonyru.wordpress.com/3/" /></a> <img alt="" border="0" src="http://stats.wordpress.com/b.gif?host=plushloonyru.wordpress.com&amp;blog=8766221&amp;post=3&amp;subd=plushloonyru&amp;ref=&amp;feed=1" width="1" height="1" />]]></content:encoded>
			<wfw:commentRss>http://plushloonyru.wordpress.com/2009/07/28/%d1%81%d0%bb%d0%b8%d1%88%d0%ba%d0%be%d0%bc-%d0%bc%d0%bd%d0%be%d0%b3%d0%be-%d0%b1%d1%83%d0%ba%d0%b2/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
	
		<media:content url="http://1.gravatar.com/avatar/d3997ae25afa54f25664de1326fde8f3?s=96&#38;d=identicon&#38;r=G" medium="image">
			<media:title type="html">plushloony</media:title>
		</media:content>
	</item>
	</channel>
</rss>
