<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>fun being me &#187; 语义</title>
	<atom:link href="http://www.clfour.com/tag/semantic/feed/" rel="self" type="application/rss+xml" />
	<link>http://www.clfour.com</link>
	<description>it's a colorful day~~</description>
	<lastBuildDate>Thu, 26 Aug 2010 01:54:04 +0000</lastBuildDate>
	<language>en</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>http://wordpress.org/?v=3.0</generator>
		<item>
		<title>ALIPR+ACQUINE:图像自动标注和审美评价推理</title>
		<link>http://www.clfour.com/2009/05/alipr-acquine/</link>
		<comments>http://www.clfour.com/2009/05/alipr-acquine/#comments</comments>
		<pubDate>Mon, 18 May 2009 16:15:17 +0000</pubDate>
		<dc:creator>clfour</dc:creator>
				<category><![CDATA[折腾]]></category>
		<category><![CDATA[资讯]]></category>
		<category><![CDATA[IT]]></category>
		<category><![CDATA[search]]></category>
		<category><![CDATA[语义]]></category>

		<guid isPermaLink="false">http://www.clfour.com/?p=799</guid>
		<description><![CDATA[1. ALIPR(Automatic Linguistic Indexing of Pictures-Real Time)是宾夕法尼亚州立大学的Jia Li和James Wang(据说都是国人)开发的图像标注系统，可以对用户上传的自动识别和标注，通过机器学习的方法，对图像的像素内容如纹理颜色等分析，以期获得图像的语义含义，以改进当前图像手工标注和当前主流检索中基于关键字和图像相关文本内容的检索方法。 在起始阶段，通过大量已标注图像的训练集，使系统学习，在用户上传图片时，系统根据用户图片的内容信息对内容做基于统计学习的判断，给出相关标注，供用户选择或增加，这样就完成了图像的标注和反馈过程。接下来用户根据标注和标题对当前图像库中的图片进行搜索，并可以根据图像找出与之相似的图片。在网站中，你还可以对图片进行评分(不知道是不是和接下来的审美评价有关)，另外还可以根据语言描述故事，来找与之有联系的图片(这个似乎还比较弱。。。) 标注自动识，我们发现一张有猴子头像的咖啡图片，经过识别为以上的关键字，我们选中相关的标签，并可以根据上传内容，增加新的标签。 标注完成后，根据图像内容，会给出图片库中与之相似的图片集。 系统可以根据title和tag检索图片，下面是根据coffee检索到的图片，可以输入多关键字。 其实，就上面的来说，当前看来也不算很有新意的方法，不清楚4，5年前是怎样的状况，在08年获得的专利，06年ACM Multimedia conference上有篇他们的文章(Real-Time Computerized Annotation of Pictures)，现在试试他们的系统，虽然明显还是实验阶段，离商用还有距离了，但是能把产品开发到这种程度，这才是做学问厉害的地方。其实阅读国外的文献的时候，很多情况下，他们做的东西，认真研究研究，也不都是高深莫测，很多都是具有实践性的，甚至看透了理论性似乎也不是那么高不可攀，难得的地方就是能扎实的做下去。反观国内的。。。呵呵，难怪有那么多在国外高校奋斗的华人，当我们在追求指标的时候，却忘了自己起飞的地方是大地。 =========================part 2========================= 2. 在ALIPR上线之后，今年四月，ACQUINE(Aesthetic Quality Inference Engine)也公布于众，这个审美评价推理引擎可以对用户上传的图片基于审美学打分，分数为0-100。它也是对现有的资源机器学习的基础上，对用户图片分析并给出判断。这套系统的好玩之处就是可以让机器评价你的作品，或许以后摄影比赛征选作品就可以用它来筛选了。根据James Z. Wang的描述，这套系统已经达到80%的正确率，接下来还会继续改进。而且他也提到，对图片的审美评价只是人类感情的一方面，在接下来的研究中，他们或许会去努力获取图片激发人们的其他感情。这项研究由国家科学基金(NSF)资助。研究人员之前曾用相似的技术来检测梵高的作品(没说检测结果怎样。。。)，我上传了2张照片，第一张感觉还行，第二章觉得很可以了。可是评价分别是9分和22.2分。哎。。。到底是谁的错 所以大家最好不要拿自己的图片来试，嘿嘿，以防打击过重@@ps：上传图片是记录ip的，可以统计你的上传和分数。 参考：1， 2， 3， 4]]></description>
			<content:encoded><![CDATA[<p style="text-align: center;"><img class="size-medium wp-image-804  aligncenter" title="alipr" src="http://www.clfour.com/wp-content/uploads/2009/05/alipr.jpg" alt="alipr" width="500" height="343" /></p>
<p><strong>1.</strong><a href="http://www.alipr.com/" target="_blank"> ALIPR</a>(Automatic Linguistic Indexing of Pictures-Real Time)是宾夕法尼亚州立大学的Jia Li和James Wang(据说都是国人)开发的图像标注系统，可以对用户上传的自动识别和标注，通过机器学习的方法，对图像的像素内容如纹理颜色等分析，以期获得图像的语义含义，以改进当前图像手工标注和当前主流检索中基于关键字和图像相关文本内容的检索方法。</p>
<p><span id="more-799"></span>在起始阶段，通过大量已标注图像的训练集，使系统学习，在用户上传图片时，系统根据用户图片的内容信息对内容做基于统计学习的判断，给出相关标注，供用户选择或增加，这样就完成了图像的标注和反馈过程。接下来用户根据标注和标题对当前图像库中的图片进行搜索，并可以根据图像找出与之相似的图片。在网站中，你还可以对图片进行评分(不知道是不是和接下来的审美评价有关)，另外还可以根据语言描述故事，来找与之有联系的图片(这个似乎还比较弱。。。)</p>
<p style="text-align: center;"><img class="size-medium wp-image-805  aligncenter" title="test-teache" src="http://www.clfour.com/wp-content/uploads/2009/05/test-teache.jpg" alt="test-teache" width="500" height="343" /></p>
<p style="text-align: left;">标注自动识，我们发现一张有猴子头像的咖啡图片，经过识别为以上的关键字，我们选中相关的标签，并可以根据上传内容，增加新的标签。</p>
<p style="text-align: center;"><img class="aligncenter size-medium wp-image-806" title="test-similar" src="http://www.clfour.com/wp-content/uploads/2009/05/test-similar.jpg" alt="test-similar" width="500" height="343" /></p>
<p style="text-align: center;">标注完成后，根据图像内容，会给出图片库中与之相似的图片集。</p>
<p style="text-align: center;"><img class="size-medium wp-image-807  aligncenter" title="test-search" src="http://www.clfour.com/wp-content/uploads/2009/05/test-search.jpg" alt="test-search" width="500" height="343" /></p>
<p style="text-align: center;">系统可以根据title和tag检索图片，下面是根据coffee检索到的图片，可以输入多关键字。</p>
<p>其实，就上面的来说，当前看来也不算很有新意的方法，不清楚4，5年前是怎样的状况，在08年获得的<a href="http://www.alipr.com/media/docs/US07394947_LI_WANG.pdf" target="_blank">专利</a>，06年ACM Multimedia conference上有篇他们的文章(Real-Time Computerized Annotation of Pictures)，现在试试他们的系统，虽然明显还是实验阶段，离商用还有距离了，但是能把产品开发到这种程度，这才是做学问厉害的地方。其实阅读国外的文献的时候，很多情况下，他们做的东西，认真研究研究，也不都是高深莫测，很多都是具有实践性的，甚至看透了理论性似乎也不是那么高不可攀，难得的地方就是能扎实的做下去。反观国内的。。。呵呵，难怪有那么多在国外高校奋斗的华人，当我们在追求指标的时候，却忘了自己起飞的地方是大地。</p>
<p>=========================part 2=========================</p>
<p style="text-align: center;"><img class="size-medium wp-image-808  aligncenter" title="acquine" src="http://www.clfour.com/wp-content/uploads/2009/05/acquine.jpg" alt="acquine" width="500" height="343" /></p>
<p><strong>2.</strong> 在ALIPR上线之后，今年四月，<a href="http://acquine.alipr.com/" target="_blank">ACQUINE</a>(Aesthetic Quality Inference Engine)也公布于众，这个审美评价推理引擎可以对用户上传的图片基于审美学打分，分数为0-100。它也是对现有的资源机器学习的基础上，对用户图片分析并给出判断。这套系统的好玩之处就是可以让机器评价你的作品，或许以后摄影比赛征选作品就可以用它来筛选了。根据James Z. Wang的描述，这套系统已经达到80%的正确率，接下来还会继续改进。而且他也提到，对图片的审美评价只是人类感情的一方面，在接下来的研究中，他们或许会去努力获取图片激发人们的其他感情。这项研究由国家科学基金(NSF)资助。研究人员之前曾用相似的技术来检测梵高的作品(没说检测结果怎样。。。)，我上传了2张照片，第一张感觉还行，第二章觉得很可以了。可是评价分别是9分和22.2分。哎。。。到底是谁的错 <img src='http://www.clfour.com/wp-includes/images/smilies/icon_question.gif' alt=':qustion:' class='wp-smiley' /> 所以大家最好不要拿自己的图片来试，嘿嘿，以防打击过重@@ps：上传图片是记录ip的，可以统计你的上传和分数。</p>
<p style="text-align: center;"><img class="size-full wp-image-809  aligncenter" title="acquine-my-photo" src="http://www.clfour.com/wp-content/uploads/2009/05/acquine-my-photo.jpg" alt="acquine-my-photo" width="500" height="219" /></p>
<p style="text-align: left;">参考：<a href="http://live.psu.edu/story/20538" target="_blank">1</a>， <a href="http://live.psu.edu/story/35158" target="_blank">2</a>， <a href="http://live.psu.edu/story/39575" target="_blank">3</a>， <a href="http://www.cnbeta.com/articles/84239.htm" target="_blank">4 </a></p>
]]></content:encoded>
			<wfw:commentRss>http://www.clfour.com/2009/05/alipr-acquine/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>[ZZ]网络新时代：Web3.0、关联数据和语义网</title>
		<link>http://www.clfour.com/2009/05/zz-web-30-linked-data-semantic-web/</link>
		<comments>http://www.clfour.com/2009/05/zz-web-30-linked-data-semantic-web/#comments</comments>
		<pubDate>Fri, 15 May 2009 08:42:27 +0000</pubDate>
		<dc:creator>clfour</dc:creator>
				<category><![CDATA[折腾]]></category>
		<category><![CDATA[资讯]]></category>
		<category><![CDATA[google]]></category>
		<category><![CDATA[IT]]></category>
		<category><![CDATA[semantic search]]></category>
		<category><![CDATA[ZZ]]></category>
		<category><![CDATA[语义]]></category>

		<guid isPermaLink="false">http://www.clfour.com/?p=772</guid>
		<description><![CDATA[读写网zz又一篇，原文。 Growthroute Ventures公司创始人Greg Boutin最近撰写了三篇系列文章。这些文章试图把基于结构化数据的三大趋势结合到一起：1) 羽翼渐丰的 “Web 3.0″ ， 2) 结构化网络中的黑马关联数据（Linked Data），3) 以及由来已久的传奇：语义网（Semantic Web）。 以下对其进行简单介绍： Web 3.0: Web 2.0之后轮到谁？ Boutin的第一篇文章认为Web 3.0无法解决信息超载问题。至少现在还不行，因为有很多基础工作要做。尤其是现在网上到处都是非结构化数据，需要很长的时间才能将这些数据结构化。 去年Boutin将Web 3.0宽泛定义为“一个开放网络。Web 3.0可以打破旧藩篱，让所有人随时随地地联系在一起，让整个网络更加智能。” 至少我认为，如果说Web 2.0意味着Youtube和维基百科等UGC和社交网络，那么Web 3.0则意味着开放和结构化数据，让网络更加“聪明”。 关联数据（Linked Data）: 结构化数据，但不一定是语义数据 Greg Boutin第二篇文章谈到了关联数据。他认为关联数据提供了关联结构化数据的新媒介，可以让机器更好地读取这些数据。但是，关联数据本身不会给信息增加任何语义含义，而是更好地携带语义数据，供用户访问。所以，关联数据虽然本身并不具备语义特征，但它可以在数据层面建立关联，为真正的语义网铺平道路。 关联数据这个概念来自W3C,该组织有一个关联开放数据（LOD）项目。以下图表列出了参与该项目的数据集。其中包括著名的Thomson Reuters的Open Calais项目 , Freebase, 和DBpedia。这些数据集是在现有本体论（ontologies）基础之上建立的，如WordNet,FOAF, 和SKOS，然后在它们之间建立关联。 Greg Boutin在其第三篇文章中写道，关联数据格式不会创建智能数据，仅仅是支持。他建议人们集中精力开发把非结构化数据进行结构化的技术。他还建议创业者应该考虑把关联数据和其它技术进行混搭。 语义网：Google唱主角 那些以上这些趋势会如何影响语义网呢？Tim Berners-Lee 认为语义网可以用于商业目的，但现实却是，目前使用资源描述框架（RDF）的实际应用寥寥无几。 但是 RDFa（允许发布者把RDF嵌入到HTML）带来了一线希望。 Google本周宣布将在其“富媒体代码”中支持RDFa，而雅虎早在去年就大胆地推出了搜索猴子（Search Monkey ），达到了同样的目的。 Google将在语义网主流化过程中扮演重要角色。Google目前正在从半结构化和非结构化数据中解析语义结构数据。有人称Google算法远非统计方法论那么简单，它早就在研发语义技术了。 Google也并非没有竞争对手。除了雅虎，微软去年夏天收购 Powerset也是瞄准了这个市场。 结论 Web 3.0是一个没有统一定义的词语，或者根本不应该这么称呼。但是很显然，结构化数据时代已经到来。我们从当前的关联数据热潮中就可以看到它的影子，并且得到了Google和雅虎瞪大公司的支持。谁知道呢，或许语义网也就在隔壁不远处。 [...]]]></description>
			<content:encoded><![CDATA[<p>读写网zz又<a href="http://blog.it.sohu.com/readwriteweb/archives/2182">一篇</a>，<a href="http://www.readwriteweb.com/archives/understanding_the_new_web_era_web_30_linked_data_s.php">原文</a>。<br />
<a href="http://blog.it.sohu.com/readwriteweb/files/2009/05/linked_data_may09.jpg"><img src="http://blog.it.sohu.com/readwriteweb/files/2009/05/linked_data_may09.jpg" alt="" width="150" height="150" align="left" /></a><a href="http://www.growthroute.com/">Growthroute Ventures</a>公司创始人Greg Boutin最近撰写了三篇系列文章。这些文章试图把基于结构化数据的三大趋势结合到一起：1) 羽翼渐丰的 <strong>“Web 3.0″</strong> ， 2) 结构化网络中的黑马关联数据（<strong>Linked Data<span style="font-weight: normal;">），3) 以及由来已久的传奇：<a class="bodytag" href="http://www.yeeyan.com/articles/tag/%E8%AF%AD%E4%B9%89%E7%BD%91" target="_blank">语义网</a>（<strong>Semantic Web</strong>）。 以下对其进行简单介绍：</span></strong></p>
<h4>Web 3.0: Web 2.0之后轮到谁？</h4>
<p>Boutin的第一篇文章认为Web 3.0无法解决信息超载问题。至少现在还不行，因为有很多基础工作要做。尤其是现在网上到处都是非结构化数据，需要很长的时间才能将这些数据结构化。</p>
<p>去年Boutin将Web 3.0宽泛定义为“一个开放网络。Web 3.0可以打破旧藩篱，让所有人随时随地地联系在一起，让整个网络更加智能。”</p>
<p>至少我认为，如果说Web 2.0意味着Youtube和维基百科等UGC和社交网络，那么Web 3.0则意味着开放和结构化数据，让网络更加“聪明”。<br />
<span id="more-772"></span><br />
<h4><a class="bodytag" href="http://www.yeeyan.com/articles/tag/%E5%85%B3%E8%81%94%E6%95%B0%E6%8D%AE" target="_blank">关联数据</a>（Linked Data）: 结构化数据，但不一定是语义数据</h4>
<p>Greg Boutin第二篇文章谈到了<a class="bodytag" href="http://www.yeeyan.com/articles/tag/%E5%85%B3%E8%81%94%E6%95%B0%E6%8D%AE" target="_blank">关联数据</a>。他认为关联数据提供了关联结构化数据的新媒介，可以让机器更好地读取这些数据。但是，关联数据本身不会给信息增加任何语义含义，而是更好地携带语义数据，供用户访问。所以，关联数据虽然本身并不具备语义特征，但它可以在数据层面建立关联，为真正的语义网铺平道路。</p>
<p><a class="bodytag" href="http://www.yeeyan.com/articles/tag/%E5%85%B3%E8%81%94%E6%95%B0%E6%8D%AE" target="_blank">关联数据</a>这个概念来自W3C,该组织有一个关联开放数据（LOD）项目。以下图表列出了参与该项目的数据集。其中包括著名的Thomson Reuters的<a href="http://www.readwriteweb.com/archives/calais_4_linked_data.php">Open Calais项目 </a>, <a href="http://www.readwriteweb.com/archives/freebase_overview.php">Freebase</a>, 和<a href="http://www.readwriteweb.com/archives/where_to_find_open_data_on_the.php">DBpedia</a>。这些数据集是在现有本体论（ontologies）基础之上建立的，如<a href="http://www.w3.org/TR/wordnet-rdf/">WordNet</a>,<a href="http://www.foaf-project.org/">FOAF</a>, 和<a href="http://www.w3.org/TR/skos-reference/">SKOS</a>，然后在它们之间建立关联。</p>
<p><img src="http://www.readwriteweb.com/images/web_data_apr09b.png" alt="" width="610" height="465" /></p>
<p>Greg Boutin在其第三篇文章中写道，<a class="bodytag" href="http://www.yeeyan.com/articles/tag/%E5%85%B3%E8%81%94%E6%95%B0%E6%8D%AE" target="_blank">关联数据</a>格式不会创建智能数据，仅仅是支持。他建议人们集中精力开发把非结构化数据进行结构化的技术。他还建议创业者应该考虑把关联数据和其它技术进行混搭。</p>
<h4><a class="bodytag" href="http://www.yeeyan.com/articles/tag/%E8%AF%AD%E4%B9%89%E7%BD%91" target="_blank">语义网</a>：Google唱主角</h4>
<p><img src="http://farm1.static.flickr.com/147/398950215_8444feeb8e_m.jpg" alt="" align="right" />那些以上这些趋势会如何影响<a class="bodytag" href="http://www.yeeyan.com/articles/tag/%E8%AF%AD%E4%B9%89%E7%BD%91" target="_blank">语义网</a>呢？Tim Berners-Lee 认为语义网可以用于商业目的，但现实却是，目前使用资源描述框架（RDF）的实际应用寥寥无几。</p>
<p>但是 <a href="http://www.w3.org/TR/xhtml-rdfa-primer/">RDFa</a>（允许发布者把RDF嵌入到HTML）带来了一线希望。 Google本周宣布将在其“富媒体代码”中支持RDFa，而雅虎早在去年就大胆地推出了搜索猴子（<a href="http://www.readwriteweb.com/archives/yahoo_searchmonkey_launches.php">Search Monkey </a>），达到了同样的目的。</p>
<p>Google将在<a class="bodytag" href="http://www.yeeyan.com/articles/tag/%E8%AF%AD%E4%B9%89%E7%BD%91" target="_blank">语义网</a>主流化过程中扮演重要角色。Google目前正在从半结构化和非结构化数据中解析语义结构数据。有人称Google算法远非统计方法论那么简单，它早就在研发语义技术了。</p>
<p>Google也并非没有竞争对手。除了雅虎，微软去年夏天收购 <a href="http://www.readwriteweb.com/archives/does_microsoft_powerset_beat_google.php">Powerset</a>也是瞄准了这个市场。</p>
<p><img src="http://www.readwriteweb.com/images/searchmonkey-example.jpg" alt="" /></p>
<h4>结论</h4>
<p>Web 3.0是一个没有统一定义的词语，或者根本不应该这么称呼。但是很显然，结构化数据时代已经到来。我们从当前的<a class="bodytag" href="http://www.yeeyan.com/articles/tag/%E5%85%B3%E8%81%94%E6%95%B0%E6%8D%AE" target="_blank">关联数据</a>热潮中就可以看到它的影子，并且得到了Google和雅虎瞪大公司的支持。谁知道呢，或许语义网也就在隔壁不远处。</p>
<p>（编译：pestwave）</p>
]]></content:encoded>
			<wfw:commentRss>http://www.clfour.com/2009/05/zz-web-30-linked-data-semantic-web/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
	</channel>
</rss>
