<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>fun being me &#187; IT</title>
	<atom:link href="http://www.clfour.com/tag/it/feed/" rel="self" type="application/rss+xml" />
	<link>http://www.clfour.com</link>
	<description>it's a colorful day~~</description>
	<lastBuildDate>Thu, 26 Aug 2010 01:54:04 +0000</lastBuildDate>
	<language>en</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>http://wordpress.org/?v=3.0</generator>
		<item>
		<title>杂</title>
		<link>http://www.clfour.com/2009/10/farrago/</link>
		<comments>http://www.clfour.com/2009/10/farrago/#comments</comments>
		<pubDate>Wed, 28 Oct 2009 14:20:24 +0000</pubDate>
		<dc:creator>clfour</dc:creator>
				<category><![CDATA[折腾]]></category>
		<category><![CDATA[资讯]]></category>
		<category><![CDATA[fun]]></category>
		<category><![CDATA[IT]]></category>
		<category><![CDATA[Life]]></category>
		<category><![CDATA[thinking]]></category>
		<category><![CDATA[社会]]></category>

		<guid isPermaLink="false">http://www.clfour.com/?p=1079</guid>
		<description><![CDATA[社交网络近几年一跃成为互联网上最活跃的舞台，微博客就是其中重要的一员，现在越来越火热，几天前，“万维网之父”蒂姆·伯纳斯·李也开始用起了 T-&#38;w_&#38;itter，很多w3c的成员也是。在中国，新浪的围脖也如火如荼：排名前三的李开复，黄健翔，姚晨，没人都有16万多的跟 随者，而且人数还在增加啊。16万个人在关注你的只言片语，这是多么大的传播效应和话语权。更不用说蕴含的商机了。别的不说，一个半月才发布了22行文字 的李宇春同学，从第6条开始每条都是上千的评论，从第8条，每条都是上千人次的转发。。。当然，这个一个“得永生”的传说分不开。。。一个小小的工具，一 下让所有人有了平等交流的几会，每个人都可以说，当然，不是有平等说的权利就会得到相当的关注，网络中的相当大的一部分还是草**6%根，只能聚众的力 量，而无法引导方向。。。 &#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;- 新浪微博，这个产品据说2年前就开始了，数经磨难，在国内一片维护才中异军突起。今日，某博发布了“两年前的新浪微博第一版设计 内部代号：Tini”的文章，讲述了他的开发过程，不过原博文以删除，大家可以google下，有的网站备份了。新浪微博上面有大量的媒体，IT从业人员，能获得不错的即时信息和行业动态，界面上也清新大方，不错不错~ 虽然digu已活，fan-f-ou据说也要还魂了，但是毕竟元气大 伤，而且没有sina这么有优势的名人资源，不考虑政策因素，要是sina不要太过保守苛刻，那么应该会发展壮大下去的。要是网易有这样的资源就好了，hoho~这里贴几个新浪微博好的句子，共飨之~ 九命猫：Ralph W. Sockman说：当我们是少数时，可以测试自己的勇气；当我们是多数时，可以测试自己的宽容。 如果你不是经常遇到挫折，这表明你做的事情没有很大的创新性-伍迪.艾伦 刘兴亮：打算开创新事业时，十人中有一两人赞成时就可开始，以免太迟。永远不要妄想所有人都赞成。如果真的所有人都赞成，那你就要真考虑下是否开创了。 俞敏洪：网 上流行的原创歌曲《妈呀！中国》，用幽默的语言真实表达了留学生对于祖国的感情，我听了以后很感动，大家如果还没有听到，可以在百度搜索听一下。 “不管怎么样，是你把我养大，即使跑遍了全世界，也忘不了这个家，只希望你更好，原谅我有时乱说话，儿女发点牢骚，当妈的根本不用怕。。。” &#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212; 韩* （）_寒也成了屏蔽词，我很无语。。。不知从什么时候，最大家热捧的东西反而会冷眼相看，或许看多了一股脑而上的不理智吧，周杰伦也是，韩ET#$^寒也是，总会有 一种排斥和怀疑，该不会是炒作的吧。。。从70_*()码的时候，看到韩&#38;R%寒的文章，才发现真的是理智+锐利，敢怒敢言，文章写得犀利，戏谑间又一针见 血，有胆又有才而不走极端。怪不得这个词也被封了。。。-_-!! 另外，白板报上的文章，虽然有些不是认同或者觉得过分，但是写作风格不错，不愧为自己所说的“最近都喷了啥” 偶尔也会在google reader中看到别人转和菜头的文章，一看他的blog标题，“槽边往事——口水白白流淌，板砖为谁乱放？这样美丽而忧伤的胖子，腿毛飘飘，站在山岗上” 文风相像啊 哈哈。 &#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;- 今天看到Mr。6分享了一个案例，关于Crocs的，觉得他的文章大不如从前了。。。不过这个案例讲述的事情还不错，虽然不是很认同他的观点。冠以Fad is Bad？的思索，描述了如何使fad能够长久：第一、不要滿足需求，第二、不應該加入其他的產品，第三、不要讓這個商品四處都買得到，第四、不應該忽略「核心客群」，第五、不應該快速全球發展。不错。 &#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8211; 另外，在几周之前，李开复在学校演讲并宣讲了一次。中午的演讲，蔡奇市长亲自出席并发言，规格很高阿。。。不过，个人感觉下午的宣讲和问答显得效果更好，并经中午场有照本宣科之嫌。晚上重回玉泉，在邵科馆宣讲创新工场。没有带纸笔，就是用手机记录下关键字。下面把回来扩充的笔记贴上来了。因为是自己凭理解又整理的，难免有纰漏和演绎。。。如下： /**start**/ kaifuLee宣讲笔记 下午，紫金港 创业者如何产生 1／3的名额留给大学生 工程师／产品经理 创业者／家 &#8211;&#62;创业工程师 学习创业&#8211;&#62;先作工程师 下两天在杭州挑选简历，面试。 要节约，要平等，所以自身做起。不会给员工很高的待遇，不会像google那样住5星际的 最近11个月不会回答关于baidu的问题。因为不管怎么说，都会被报道产生一些不能想象的影响， 创业者主要是重复创业者 之前未成功的创业者 在企业工作了4，5年的，希望创业的 海外归来创业的 创业要现有经验。 关于那些会成为非常成功的企业，请关注TechCrunch，上面会有每年最cool的50个网站／企业。看了之后没有感觉有很震撼的，未来的几年内会有几个从中脱颖而出，但是现在我还看不出来。 郭 去疾：一个秘密，经济的发展和人口的增长有关系。日本在人口数量到达顶峰后，就出现了经济危机。而美国去年的经济危机也是人口拐点所在，而且在这之后，美 [...]]]></description>
			<content:encoded><![CDATA[<div><img class="alignleft size-full wp-image-1093" title="fun" src="http://www.clfour.com/wp-content/uploads/2009/10/fun.jpg" alt="fun" width="240" height="160" /><br />
社交网络近几年一跃成为互联网上最活跃的舞台，微博客就是其中重要的一员，现在越来越火热，几天前，“万维网之父”蒂姆·伯纳斯·李也开始用起了 T-&amp;w_&amp;itter，很多w3c的成员也是。在中国，新浪的围脖也如火如荼：排名前三的李开复，黄健翔，姚晨，没人都有16万多的跟 随者，而且人数还在增加啊。16万个人在关注你的只言片语，这是多么大的传播效应和话语权。更不用说蕴含的商机了。别的不说，一个半月才发布了22行文字 的李宇春同学，从第6条开始每条都是上千的评论，从第8条，每条都是上千人次的转发。。。当然，这个一个“得永生”的传说分不开。。。一个小小的工具，一 下让所有人有了平等交流的几会，每个人都可以说，当然，不是有平等说的权利就会得到相当的关注，网络中的相当大的一部分还是草**6%根，只能聚众的力 量，而无法引导方向。。。</div>
<p><span id="more-1079"></span></p>
<div>
<p>&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;-</p>
<p>新浪微博，这个产品据说2年前就开始了，数经磨难，在国内一片维护才中异军突起。今日，某博发布了“两年前的新浪微博第一版设计 内部代号：Tini”的文章，讲述了他的开发过程，不过原博文以删除，大家可以google下，有的网站备份了。新浪微博上面有大量的媒体，IT从业人员，能获得不错的即时信息和行业动态，界面上也清新大方，不错不错~ 虽然digu已活，fan-f-ou据说也要还魂了，但是毕竟元气大 伤，而且没有sina这么有优势的名人资源，不考虑政策因素，要是sina不要太过保守苛刻，那么应该会发展壮大下去的。要是网易有这样的资源就好了，hoho~这里贴几个新浪微博好的句子，共飨之~</p>
<div><a href="http://t.sina.com.cn/wangli86"><img title="九命猫" src="http://tt1.sinaimg.cn/1234469312/50/1256700859" alt="" /></a><a title="九命猫" href="http://t.sina.com.cn/wangli86">九命猫</a>：<span>Ralph W. Sockman说：当我们是少数时，可以测试自己的勇气；当我们是多数时，可以测试自己的宽容。</span></div>
<p><span>如果你不是经常遇到挫折，这表明你做的事情没有很大的创新性-伍迪.艾伦</span></p>
<div><a href="http://t.sina.com.cn/liuxingliang"><img title="刘兴亮" src="http://tt6.sinaimg.cn/1455643221/50/1250849085" alt="" /></a><a title="刘兴亮" href="http://t.sina.com.cn/liuxingliang">刘兴亮<img title="新浪认证" src="http://simg.sinajs.cn/miniblog/images/index/vip.gif" alt="" /></a>：<span>打算开创新事业时，十人中有一两人赞成时就可开始，以免太迟。永远不要妄想所有人都赞成。如果真的所有人都赞成，那你就要真考虑下是否开创了。</span></div>
<div>
<div><a href="http://t.sina.com.cn/yuminhong"><img title="俞敏洪" src="http://tt1.sinaimg.cn/1649005320/50/1255749513" alt="" /></a><a title="俞敏洪" href="http://t.sina.com.cn/yuminhong"> 俞敏洪<img title="新浪认证" src="http://simg.sinajs.cn/miniblog/images/index/vip.gif" alt="" /></a>：<span>网 上流行的原创歌曲《妈呀！中国》，用幽默的语言真实表达了留学生对于祖国的感情，我听了以后很感动，大家如果还没有听到，可以在百度搜索听一下。 “不管怎么样，是你把我养大，即使跑遍了全世界，也忘不了这个家，只希望你更好，原谅我有时乱说话，儿女发点牢骚，当妈的根本不用怕。。。”</span></div>
<div><span>&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;<br />
</span></div>
<div>韩* （）_寒也成了屏蔽词，我很无语。。。不知从什么时候，最大家热捧的东西反而会冷眼相看，或许看多了一股脑而上的不理智吧，周杰伦也是，韩ET#$^寒也是，总会有 一种排斥和怀疑，该不会是炒作的吧。。。从70_*()码的时候，看到韩&amp;R%寒的文章，才发现真的是理智+锐利，敢怒敢言，文章写得犀利，戏谑间又一针见 血，有胆又有才而不走极端。怪不得这个词也被封了。。。-_-!!</div>
<div>另外，白板报上的文章，虽然有些不是认同或者觉得过分，但是写作风格不错，不愧为自己所说的“最近都喷了啥”</div>
<div>偶尔也会在google reader中看到别人转和菜头的文章，一看他的blog标题，“槽边往事——口水白白流淌，板砖为谁乱放？这样美丽而忧伤的胖子，腿毛飘飘，站在山岗上” 文风相像啊 哈哈。</div>
<div>&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;-</div>
<div>今天看到<a href="http://mr6.cc/?p=3745#" target="_blank">Mr。6</a>分享了一个案例，关于Crocs的，觉得他的文章大不如从前了。。。不过这个案例讲述的事情还不错，虽然不是很认同他的观点。冠以Fad is Bad？的思索，描述了如何使fad能够长久：第一、不要滿足需求，第二、不應該加入其他的產品，第三、不要讓這個商品四處都買得到，第四、不應該忽略「核心客群」，第五、不應該快速全球發展。不错。</div>
<div>&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8211;</div>
<div>另外，在几周之前，李开复在学校演讲并宣讲了一次。中午的演讲，蔡奇市长亲自出席并发言，规格很高阿。。。不过，个人感觉下午的宣讲和问答显得效果更好，并经中午场有照本宣科之嫌。晚上重回玉泉，在邵科馆宣讲创新工场。没有带纸笔，就是用手机记录下关键字。下面把回来扩充的笔记贴上来了。因为是自己凭理解又整理的，难免有纰漏和演绎。。。如下：</div>
<div>/**start**/</div>
<div>kaifuLee宣讲笔记<br />
下午，紫金港<br />
创业者如何产生<br />
1／3的名额留给大学生</p>
<p>工程师／产品经理<br />
创业者／家 &#8211;&gt;创业工程师<br />
学习创业&#8211;&gt;先作工程师</p>
<p>下两天在杭州挑选简历，面试。</p>
<p>要节约，要平等，所以自身做起。不会给员工很高的待遇，不会像google那样住5星际的</p>
<p>最近11个月不会回答关于baidu的问题。因为不管怎么说，都会被报道产生一些不能想象的影响，</p>
<p>创业者主要是重复创业者<br />
之前未成功的创业者<br />
在企业工作了4，5年的，希望创业的<br />
海外归来创业的</p>
<p>创业要现有经验。</p>
<p>关于那些会成为非常成功的企业，请关注TechCrunch，上面会有每年最cool的50个网站／企业。看了之后没有感觉有很震撼的，未来的几年内会有几个从中脱颖而出，但是现在我还看不出来。</p>
<p>郭 去疾：一个秘密，经济的发展和人口的增长有关系。日本在人口数量到达顶峰后，就出现了经济危机。而美国去年的经济危机也是人口拐点所在，而且在这之后，美 日都没再有以前大型／成功的领导企业出现。而中国的拐点就在2016年，现在对于创业而言，只有7年的时间了。所以同学们毕业了赶紧找工作阿~~</p>
<p>郭去疾：供应链＋recommendation recommendation</p>
<p>kaifu：创新工场的模式是 Google模式＋ideaLab模式＋中国国情</p>
<p>大学期间要有实习经验，一定要去公司实习，接触实际的东西。我面试过的学生，实习过的明显比没有实习经验的要强。</p>
<p>微软亚洲研究员，第一天，》？，google第一天，投的简历4000，创新工场，第一天，简历7000<br />
工程师的质量在提高。<br />
在微软亚洲的时候，勉强20个人。google200是可以的。。。现在。。。。</p>
<p>PC和macintosh的区别<br />
apple 的强在于能够提高高质量的整体，能够独自提供一体化的设计和产品，如iPod，Macintosh，Iphone。而PC则是对资源的优化整合，联合其他 的。PC的优化合作的模式，具有更强的生命力，能够创造良好的生存生态。也此更有竞争力。／／这里讲到的好像是，最成功的不一定是最好的产品。</p>
<p>Kaifu举例问，现在联通退出的iphone，4000－6000，有谁买？那么到了1k，买的举手？大家一篇举手的。他说这个时候会来的，时间问题。移动设备，移动互联网这方面讲了很多，说明他也在关注现在的web2。0，移动应用，sns网络等等行业的热点。。。</p>
<p>开复为天翼作广告，真的没有拿钱，就是一张天翼的卡。 在广西的时候用过了，信号不错，上网也不错～</p>
<p>电子商务促进广告的价值。 中国电子商务有50倍的潜在的增长潜力和价值</p>
<p>年轻 娱乐 转向 消息，中国的互联网用户主要还集中在年轻人的上网娱乐上，随着年龄的增长，会逐步转化为网上消费者。</p>
<p>日本的电子商务有30％的来自日本东京的女性通过手机购物（这里说明了电子商务自阿不同地域的不同特点，例如在美国，在日本。那么在中国会是什么样呢？）<br />
关于运计算，一种比较好的应用就是网络游戏，付费体验不一样的游戏感受。</p></div>
<div>/**end**/</div>
<div>图片来自<a href="http://creativecommons.org/licenses/by/2.0/deed.zh" target="_blank">Song_sing</a> 的所有相片©<a href="http://creativecommons.org/licenses/by/2.0/deed.zh" target="_blank">cc</a></div>
</div>
</div>
]]></content:encoded>
			<wfw:commentRss>http://www.clfour.com/2009/10/farrago/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>即时检索重要吗</title>
		<link>http://www.clfour.com/2009/10/real-time-search/</link>
		<comments>http://www.clfour.com/2009/10/real-time-search/#comments</comments>
		<pubDate>Wed, 28 Oct 2009 13:47:18 +0000</pubDate>
		<dc:creator>clfour</dc:creator>
				<category><![CDATA[折腾]]></category>
		<category><![CDATA[IT]]></category>
		<category><![CDATA[mine]]></category>
		<category><![CDATA[search]]></category>
		<category><![CDATA[thinking]]></category>

		<guid isPermaLink="false">http://www.clfour.com/?p=1088</guid>
		<description><![CDATA[最近社交网络的红火越来越映衬出即时搜索的需求，一时间炒作频起，关于实时搜索，成了IT的一个时髦名词。facebook开放部分数据，bing推出实时搜索，紧接着，google也在昨天有了social search（google之前的很多项目也都反映了实时性）。这不，yahoo也说我们早就在评估了，正在弄着呢。在前段时间的web2.0会上，有专业人士提出，“未来主宰网络的是Twitter、 Facebook、Apple 和 eBay，而不是 Google”。有人解读为了即时搜索，我觉得他们提供的大量无用信息在信息膨胀的时代，是一种对人的迫害。。。 Twitter、Facebook要想独当一面，首先就要解决去噪问题，如何识别并摒除垃圾信息。即时信息显然很重要，但是当前的即时发布平台大多数都是无聊的文字，我们看到某人关注了上百上千个人的信息发布，如果他的关注是真的关注，那他太痛苦了。这种感受大家都会有，要从大量无意义的事物中找到一个亮点，而且需要人工完成。这个问题如果能够很好的解决，不光是即时信息，IT的整个格局都会发生转变。可是，现在牵扯到智能的东西，研究和现实的差距还是很大的。 改进当前闲聊的消息形式。现在的社交网络，如同一个party，大家三五成群的闲聊，如果你听别人说过了某人某事，你也就加进来共话之。这是一种很好的社交模式，但并不是很好的学习和知识获取模式，虽然在庞大的用户中，有能解答我们问题的人。在社会化查询中，我们得到的知识多是浅层的或者非专业的，形象化的描述往往忽略了知识的完备性。传统的检索更能提供对知识的多样性需求，不管是公认的常识，经典的知识描述文章，热门的信息。这些在社交网中很难一步到位，而且信息的准确性也很难判别。 转变过于单一的局域网。或许是因为墙的原因，对facebook的关注越来越少，在国内众多山寨facebook间的争斗也在一定程度上影响了用户体验。他们在Twitter的光芒下有点褪色了。不过从表现形式上，它所能创造的价值或许更多，能有很好的持久性。T简单直观，很容易流行，不过也有可能很快就流行结束了，无用无聊的充斥或许会让人提前厌烦。就像今天Mr。6分析的Crocs案例一样。T单一的形式让处理相对简单，他的优势在于人数的巨多和即时信息量的巨大，但是信息来源过于单一。这就造成了他信息应用的缺陷。而facebook的数据可能会更有价值，当然这要看他的发展计划和投资者的支持度了。就目前而言，facebook没看到进步的地方，除了社交影响力，发挥的作用也大有局限。 上面这些问题其实也都影响了即时搜索，我们能很快的得到消息，但是目前还没有很好的消息处理模式。另外，即时信息的即时性并不能代表信息的重要性。即时信息是人们信息需求急需的一个环节，却不代表是最重要的环节，我们的即时需求不代表即时信息，我们的即时信息需求也是在已有的知识基础上的需求。所以，我认为即时信息是信息搜索的一个有力的补充，会扮演重要的角色，但是却不太可能统领全局。 图片来自suero!的相册© CC]]></description>
			<content:encoded><![CDATA[<p><img class="size-full wp-image-1089 alignleft" title="delivery" src="http://www.clfour.com/wp-content/uploads/2009/10/delivery.jpg" alt="delivery" width="241" height="250" /> 最近社交网络的红火越来越映衬出即时搜索的需求，一时间炒作频起，关于实时搜索，成了IT的一个时髦名词。facebook开放部分数据，bing推出实时搜索，紧接着，google也在昨天有了social search（google之前的很多项目也都反映了实时性）。这不，yahoo也说我们早就在评估了，正在弄着呢。在前段时间的web2.0会上，有专业人士提出，“未来主宰网络的是Twitter、 Facebook、Apple 和 eBay，而不是 Google”。有人解读为了即时搜索，我觉得他们提供的大量无用信息在信息膨胀的时代，是一种对人的迫害。。。</p>
<p>Twitter、Facebook要想独当一面，<strong>首先就要解决去噪问题</strong>，如何识别并摒除垃圾信息。即时信息显然很重要，但是当前的即时发布平台大多数都是无聊的文字，我们看到某人关注了上百上千个人的信息发布，如果他的关注是真的关注，那他太痛苦了。这种感受大家都会有，要从大量无意义的事物中找到一个亮点，而且需要人工完成。这个问题如果能够很好的解决，不光是即时信息，IT的整个格局都会发生转变。可是，现在牵扯到智能的东西，研究和现实的差距还是很大的。</p>
<p><strong><span id="more-1088"></span> 改进当前闲聊的消息形式</strong>。现在的社交网络，如同一个party，大家三五成群的闲聊，如果你听别人说过了某人某事，你也就加进来共话之。这是一种很好的社交模式，但并不是很好的学习和知识获取模式，虽然在庞大的用户中，有能解答我们问题的人。在社会化查询中，我们得到的知识多是浅层的或者非专业的，形象化的描述往往忽略了知识的完备性。传统的检索更能提供对知识的多样性需求，不管是公认的常识，经典的知识描述文章，热门的信息。这些在社交网中很难一步到位，而且信息的准确性也很难判别。</p>
<p><strong> 转变过于单一的局域网</strong>。或许是因为墙的原因，对facebook的关注越来越少，在国内众多山寨facebook间的争斗也在一定程度上影响了用户体验。他们在Twitter的光芒下有点褪色了。不过从表现形式上，它所能创造的价值或许更多，能有很好的持久性。T简单直观，很容易流行，不过也有可能很快就流行结束了，无用无聊的充斥或许会让人提前厌烦。就像今天Mr。6分析的Crocs案例一样。T单一的形式让处理相对简单，他的优势在于人数的巨多和即时信息量的巨大，但是信息来源过于单一。这就造成了他信息应用的缺陷。而facebook的数据可能会更有价值，当然这要看他的发展计划和投资者的支持度了。就目前而言，facebook没看到进步的地方，除了社交影响力，发挥的作用也大有局限。</p>
<p>上面这些问题其实也都影响了即时搜索，我们能很快的得到消息，但是目前还没有很好的消息处理模式。另外，即时信息的即时性并不能代表信息的重要性。即时信息是人们信息需求急需的一个环节，却不代表是最重要的环节，我们的即时需求不代表即时信息，我们的即时信息需求也是在已有的知识基础上的需求。所以，我认为即时信息是信息搜索的一个有力的补充，会扮演重要的角色，但是却不太可能统领全局。</p>
<p>图片来自<a href="http://www.flickr.com/photos/suero_estudio/3937773744/" target="_blank">suero!</a>的相册© <a href="http://creativecommons.org/licenses/by-nc-nd/2.0/deed.zh" target="_blank">CC</a></p>
]]></content:encoded>
			<wfw:commentRss>http://www.clfour.com/2009/10/real-time-search/feed/</wfw:commentRss>
		<slash:comments>2</slash:comments>
		</item>
		<item>
		<title>[zz]雅虎与微软达成搜索引擎合作协议</title>
		<link>http://www.clfour.com/2009/07/zz-microsoft-yahoo/</link>
		<comments>http://www.clfour.com/2009/07/zz-microsoft-yahoo/#comments</comments>
		<pubDate>Wed, 29 Jul 2009 15:10:27 +0000</pubDate>
		<dc:creator>clfour</dc:creator>
				<category><![CDATA[资讯]]></category>
		<category><![CDATA[bing]]></category>
		<category><![CDATA[IT]]></category>
		<category><![CDATA[ms]]></category>
		<category><![CDATA[search]]></category>
		<category><![CDATA[yahoo]]></category>
		<category><![CDATA[ZZ]]></category>

		<guid isPermaLink="false">http://www.clfour.com/?p=1013</guid>
		<description><![CDATA[雅虎和微软从合并，到合作，终于熬出头，于今天签下合作协议。 跟我们之前预测的一样，微软将为雅虎提供搜索引擎，同时雅虎成为两家公司在全球广告业务的独家代理商。 合作的重点包括： 合作期长达10年 微软将购买10年的雅虎核心搜索技术授权，并将其与自家的搜索平台（就是Bing）整合在一起 微软的Bing搜索引擎将成为雅虎网站独家搜索算法和点击付费搜索独家平台 雅虎也可以继续使用自己的技术和数据，以使自家业务更好的显示广告 雅虎将成为两家公司在全球广告业务的独家代理商 两家公司的自助广告业务都将在微软的AdCenter平台进行，所有搜索广告的价格由AdCenter自动拍卖流程决定 两家公司都可保留各自独立的显示广告业务和销售队伍 即便雅虎使用了微软的搜索技术，但将依然改进搜索的用户体验和创新 在前5年，微软需要为雅虎网络旗下品牌网站和由雅虎运营的网站为其Bing搜索带来的流量支付88%的流量费用 微软要补偿部分雅虎网络旗下品牌网站和由雅虎运营的网站搜索带来的收入 微软保证合作的前18个月里，雅虎网络旗下品牌网站和由雅虎运营的网站按点击搜索的广告收入在各个国家都保持合作前的水平 好复杂的合作，不过希望雅虎和微软可以稍微的挑战一下Google一家独大的搜索市场。 Via TechCrunch ps:现在微软的搜索业务更加强大了。bing＋powerset＋searchmonkey？语义方面足够牛了吧。微软很赢阿。。。可怜的yahoo ＠＠ 文章转载自：谷奥——探寻谷歌的奥秘 [http://google.org.cn] 原文地址：http://google.org.cn/posts/microsoft-yahoo-search-deal.html]]></description>
			<content:encoded><![CDATA[<p><img class="aligncenter size-full wp-image-1014" title="microsoft-yahoo" src="http://www.clfour.com/wp-content/uploads/2009/07/microsoft-yahoo.png" alt="microsoft-yahoo" width="299" height="91" /></p>
<p>雅虎和微软从合并，到合作，终于熬出头，于今天签下合作协议。</p>
<p><a href="http://google.org.cn/posts/yahoo-and-microsoft-become-partner-on-search-this-week.html" target="_blank">跟我们之前预测的一样</a>，微软将为雅虎提供搜索引擎，同时雅虎成为两家公司在全球广告业务的独家代理商。</p>
<p>合作的重点包括：</p>
<ul>
<li>合作期长达10年</li>
<li>微软将购买10年的雅虎核心搜索技术授权，并将其与自家的搜索平台（就是Bing）整合在一起</li>
<li>微软的Bing搜索引擎将成为雅虎网站独家搜索算法和点击付费搜索独家平台</li>
<li>雅虎也可以继续使用自己的技术和数据，以使自家业务更好的显示广告</li>
<li>雅虎将成为两家公司在全球广告业务的独家代理商</li>
<li>两家公司的自助广告业务都将在微软的AdCenter平台进行，所有搜索广告的价格由AdCenter自动拍卖流程决定</li>
<li>两家公司都可保留各自独立的显示广告业务和销售队伍</li>
<li>即便雅虎使用了微软的搜索技术，但将依然改进搜索的用户体验和创新</li>
<li>在前5年，微软需要为雅虎网络旗下品牌网站和由雅虎运营的网站为其Bing搜索带来的流量支付88%的流量费用</li>
<li>微软要补偿部分雅虎网络旗下品牌网站和由雅虎运营的网站搜索带来的收入</li>
<li>微软保证合作的前18个月里，雅虎网络旗下品牌网站和由雅虎运营的网站按点击搜索的广告收入在各个国家都保持合作前的水平</li>
</ul>
<p>好复杂的合作，不过希望雅虎和微软可以稍微的挑战一下Google一家独大的搜索市场。</p>
<p>Via <a href="http://www.techcrunch.com/2009/07/29/microsoft-yahoo-search-deal-the-most-important-facts-and-some-opinion/" target="_blank">TechCrunch</a></p>
<div>ps:现在微软的搜索业务更加强大了。bing＋powerset＋searchmonkey？语义方面足够牛了吧。微软很赢阿。。。可怜的yahoo ＠＠</div>
<div>文章转载自：<strong>谷奥——探寻谷歌的奥秘</strong> [<a href="http://google.org.cn/">http://google.org.cn</a>]<br />
原文地址：<a href="http://google.org.cn/posts/microsoft-yahoo-search-deal.html">http://google.org.cn/posts/microsoft-yahoo-search-deal.html</a></div>
]]></content:encoded>
			<wfw:commentRss>http://www.clfour.com/2009/07/zz-microsoft-yahoo/feed/</wfw:commentRss>
		<slash:comments>2</slash:comments>
		</item>
		<item>
		<title>对SaaS的用户调查</title>
		<link>http://www.clfour.com/2009/07/survey-of-saas/</link>
		<comments>http://www.clfour.com/2009/07/survey-of-saas/#comments</comments>
		<pubDate>Sat, 11 Jul 2009 05:34:21 +0000</pubDate>
		<dc:creator>clfour</dc:creator>
				<category><![CDATA[资讯]]></category>
		<category><![CDATA[IT]]></category>
		<category><![CDATA[SaaS]]></category>
		<category><![CDATA[ZZ]]></category>

		<guid isPermaLink="false">http://www.clfour.com/?p=969</guid>
		<description><![CDATA[SaaS 软件即服务，被炒作了有一段时间了，从技术曾上似乎不太容易提出什么新东西，基本上是里理念了一种体现，在开发中，大家的感觉也是还汤不换药，像是用个新名词忽悠下市场。觉得炒作的有点过了。。。国外也有些大公司做这个，好现技术上提出的东西也没有很多，但是做得效果增样，感觉应该比国内好吧。可这下看到这篇RWW的文章，似乎实际应用起来，国外也没有像吹呼的那么夸张了。不过，Gartner的分析还是证明了SaaS的发展还是有进步的，也是一种趋势，只是有些东西吹呼的过于猛烈反而更容易让用户产生落差。下面这个是直接Copy中文版的RWW了，遵循 创作共用 版权协议，署名－非商业。 Via 1, 2, 3 ＝＝＝＝＝＝＝＝＝＝＝＝＝＝ 眼高手低的SaaS（软件在线服务）令用户大失所望 Gartner公司在对300多家企业进行调查后发现，软件在线服务（software as a service，SaaS）未能得到全体企业用户的青睐。受调查的美国和英国用户对SaaS的体验远不能用“钟爱”来形容。 大多数情况下，用户都对厂商许诺最多的领域给出了最糟糕的评价：低成本、高性能。调查表示，尽管用户对安全和可靠性的态度发生了改变，但在关键指标上，SaaS提供商的高保证、低产出却让他们自讨苦吃。 SaaS的败因是什么？ 受访用户出奇一致地对SaaS的性能表示无动于衷：所有16项的得分都不到5分（满分7分）。但这些用户表达了最多不满的领域却是SaaS公司一直大肆宣传的对象。 成本：很少有公司会预料到年开销会如此之大。这一点并不奇怪，因为低价是销售商的第一承诺。然而在使用后，42%的受访者称SaaS的成本过高，且经常冒出突如其来的成本，这一点便是用户不接受SaaS的头号原因。 易于集成：易与原有应用程序进行互操作是公司采用SaaS前的首要考虑因素，但这也是用户的第二大失望理由。据我们猜测，SaaS提供商已经敏感地意识到应对该方面进行改进；有无数的开发团队正在努力提高他们的应用程序与SharePoint和其他公司软件的合作能力。 大多数公司都在改善SaaS快速调度能力，试图让软件即使在极端情况下也能在几天或几小时内完成调度。但缓慢的运行速度却在各方面满意度中名列倒数第三。 销售商能做什么？ 企业销售商的挑战在于：利用SaaS正在提高的接受度，但切忌过于热心。IT企业预算的持续走低。但兜售高效节省成本的概念并不是将SaaS变成万灵药，自卖自夸只是搬石头砸自己的脚。 （译者:pavel）]]></description>
			<content:encoded><![CDATA[<p>SaaS 软件即服务，被炒作了有一段时间了，从技术曾上似乎不太容易提出什么新东西，基本上是里理念了一种体现，在开发中，大家的感觉也是还汤不换药，像是用个新名词忽悠下市场。觉得炒作的有点过了。。。国外也有些大公司做这个，好现技术上提出的东西也没有很多，但是做得效果增样，感觉应该比国内好吧。可这下看到这篇RWW的文章，似乎实际应用起来，国外也没有像吹呼的那么夸张了。不过，Gartner的分析还是证明了SaaS的发展还是有进步的，也是一种趋势，只是有些东西吹呼的过于猛烈反而更容易让用户产生落差。下面这个是直接Copy中文版的RWW了，遵循 <a rel="external" href="http://creativecommons.org/licenses/by-nc-sa/2.5/" target="_blank">创作共用</a> 版权协议，署名－非商业。</p>
<p>Via <a href="http://blog.it.sohu.com/readwriteweb/archives/4181" target="_blank">1</a>, <a href="http://news.idg.no/cw/art.cfm?id=65CFAE45-1A64-67EA-E4B4A6DAA9CFE998" target="_blank">2</a>, <a href="http://www.gartner.com/it/page.jsp?id=1062512" target="_blank">3</a></p>
<p><span id="more-969"></span><br />
＝＝＝＝＝＝＝＝＝＝＝＝＝＝</p>
<p><strong>眼高手低的SaaS（软件在线服务）令用户大失所望</strong></p>
<p><a href="http://blog.it.sohu.com/readwriteweb/files/2009/07/gartner136-thumb-150x35-6485.gif" target="_blank"><img src="http://blog.it.sohu.com/readwriteweb/files/2009/07/gartner136-thumb-150x35-6485.gif" alt="" width="90" height="21" /></a><a href="http://www.gartner.com/" target="_blank">Gar</a><a href="http://www.gartner.com/" target="_blank">tner</a>公司在对300多家企业进行<a href="http://www.gartner.com/it/page.jsp?id=1062512" target="_blank">调查</a>后发现，软件在线服务（software as a service，SaaS）未能得到全体企业用户的青睐。受调查的美国和英国用户对SaaS的体验远不能用“钟爱”来形容。</p>
<p style="margin: 5px 0px; padding: 0px; font-family: Verdana,arial,sans-serif;">大多数情况下，用户都对厂商许诺最多的领域给出了最糟糕的评价：低成本、高性能。调查表示，尽管用户对安全和可靠性的态度发生了改变，但在关键指标上，SaaS提供商的高保证、低产出却让他们自讨苦吃。</p>
<p style="margin: 5px 0px; padding: 0px; font-family: Verdana,arial,sans-serif;"><strong>SaaS的败因是什么？</strong></p>
<p style="margin: 5px 0px; padding: 0px; font-family: Verdana,arial,sans-serif;">受访用户出奇一致地对SaaS的性能表示无动于衷：所有16项的得分都不到5分（满分7分）。但这些用户表达了最多不满的领域却是SaaS公司一直大肆宣传的对象。</p>
<p style="margin: 5px 0px; padding: 0px; font-family: Verdana,arial,sans-serif;"><strong>成本：</strong>很少有公司会预料到年开销会如此之大。这一点并不奇怪，因为低价是销售商的第一承诺。然而在使用后，42%的受访者称SaaS的成本过高，且经常冒出突如其来的成本，这一点便是用户不接受SaaS的头号原因。</p>
<p style="margin: 5px 0px; padding: 0px; font-family: Verdana,arial,sans-serif;"><strong>易于集成：</strong>易与原有应用程序进行互操作是公司采用SaaS前的首要考虑因素，但这也是用户的第二大失望理由。据我们猜测，SaaS提供商已经敏感地意识到应对该方面进行改进；有无数的开发团队正在努力提高他们的应用程序与SharePoint和其他公司软件的合作能力。</p>
<p style="margin: 5px 0px; padding: 0px; font-family: Verdana,arial,sans-serif;">大多数公司都在改善SaaS快速调度能力，试图让软件即使在极端情况下也能在几天或几小时内完成调度。但缓慢的运行速度却在各方面满意度中名列倒数第三。</p>
<p style="margin: 5px 0px; padding: 0px; font-family: Verdana,arial,sans-serif;"><strong>销售商能做什么？</strong></p>
<p style="margin: 5px 0px; padding: 0px; font-family: Verdana,arial,sans-serif;">企业销售商的挑战在于：利用SaaS正在提高的接受度，但切忌过于热心。IT企业预算的持续走低。但兜售高效节省成本的概念并不是将SaaS变成万灵药，自卖自夸只是搬石头砸自己的脚。</p>
<p>（译者:pavel）</p>
]]></content:encoded>
			<wfw:commentRss>http://www.clfour.com/2009/07/survey-of-saas/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>&#8220;Page’s Law&#8221;—佩奇定律</title>
		<link>http://www.clfour.com/2009/06/page-s-law/</link>
		<comments>http://www.clfour.com/2009/06/page-s-law/#comments</comments>
		<pubDate>Tue, 02 Jun 2009 10:24:31 +0000</pubDate>
		<dc:creator>clfour</dc:creator>
				<category><![CDATA[资讯]]></category>
		<category><![CDATA[google]]></category>
		<category><![CDATA[IT]]></category>

		<guid isPermaLink="false">http://www.clfour.com/?p=872</guid>
		<description><![CDATA[Page’s Law:It says software gets twice as slow every 18 months. 佩奇定律:软件性能每18个月会变慢一倍。 摩尔定律认为每隔18个月，处理器性能将提升一倍；而Google创始人之一的Larry Page提出的佩奇定律认为，每隔18个月，软件的性能将会下降一半。 在Google I/O开发者会议上，另一位创始人Sergey Brin讲述了Google如何努力的抵御佩奇定律，他表示硬件性能提升抵消了软件性能下降的趋势，他开玩笑的说，“我们愿意打破佩奇定律，让我们的软件在同样的硬件上运行得越来越快。”Brin指出编程工具的进步，尤其是JavaScript上的性能改进，令更快的梦想成真。他称Google正在努力的提升Chrome浏览器和本地搜索工具的性能。 来源：1，2，3 其实，大家用电脑久了都会有类似的感受把，越来越慢，直至重装@@]]></description>
			<content:encoded><![CDATA[<p>Page’s Law:It says software gets twice as slow every 18 months.<br />
佩奇定律:软件性能每18个月会变慢一倍。</p>
<p>摩尔定律认为每隔18个月，处理器性能将提升一倍；而Google创始人之一的Larry Page提出的佩奇定律认为，每隔18个月，软件的性能将会下降一半。 在Google I/O开发者会议上，另一位创始人Sergey Brin讲述了Google如何努力的抵御佩奇定律，他表示硬件性能提升抵消了软件性能下降的趋势，他开玩笑的说，“我们愿意打破佩奇定律，让我们的软件在同样的硬件上运行得越来越快。”Brin指出编程工具的进步，尤其是JavaScript上的性能改进，令更快的梦想成真。他称Google正在努力的提升Chrome浏览器和本地搜索工具的性能。<br />
来源：<a href="http://it.solidot.org/article.pl?sid=09/06/02/0725251&amp;from=rss" target="_blank">1</a>，<a href="http://google.org.cn/2009/06/02/pages-law-is-google-founders-next-best-shot-at-immortality/" target="_blank">2</a>，<a href="http://valleywag.gawker.com/5272300/pages-law-is-google-founders-next+best-shot-at-immortality" target="_blank">3</a><br />
其实，大家用电脑久了都会有类似的感受把，越来越慢，直至重装@@</p>
]]></content:encoded>
			<wfw:commentRss>http://www.clfour.com/2009/06/page-s-law/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>微软:kumo to bing</title>
		<link>http://www.clfour.com/2009/05/ms-kumo-to-bing/</link>
		<comments>http://www.clfour.com/2009/05/ms-kumo-to-bing/#comments</comments>
		<pubDate>Sat, 30 May 2009 15:20:16 +0000</pubDate>
		<dc:creator>clfour</dc:creator>
				<category><![CDATA[折腾]]></category>
		<category><![CDATA[资讯]]></category>
		<category><![CDATA[bing]]></category>
		<category><![CDATA[IT]]></category>
		<category><![CDATA[kumo]]></category>
		<category><![CDATA[ms]]></category>
		<category><![CDATA[semantic search]]></category>

		<guid isPermaLink="false">http://www.clfour.com/?p=837</guid>
		<description><![CDATA[好几天没有上网，也没有关注消息，昨晚突然在电视里听到微软发布搜索引擎bing的小时，这才意识到，kumo被正式易名了。这个月对搜索届似乎有太多的消息，知识计算型引擎Wolfram Alpha之前被视为google杀手，结果却可能 更大的影响wikipedia，google也不失时机的推出百宝箱，给用户更多的搜索体验，而月尾微软也宣布了livesearch的后继者bing，和此前的传言相同，是bing而不是kumo。 Bing要在6.3号才正式对大众开放，不过现在已经有许多邀请体验的测评文章。如1，2. 看兴趣的可以先睹为快。 ps：今天一看，很多访问都来自关键字being+微软，其实，微软的新搜索叫bing~~ hoho  现在微软有bing，有powerset，看下一步怎么优势整合和google竞争 了~]]></description>
			<content:encoded><![CDATA[<p><img title="bing" src="http://www.clfour.com/wp-content/uploads/2009/05/bing.png" alt="bing" width="150" height="59" align="left" />好几天没有上网，也没有关注消息，昨晚突然在电视里听到微软发布搜索引擎bing的小时，这才意识到，kumo被正式易名了。这个月对搜索届似乎有太多的消息，知识计算型引擎Wolfram Alpha之前被视为google杀手，结果却可能 更大的影响wikipedia，google也不失时机的推出百宝箱，给用户更多的搜索体验，而月尾微软也宣布了livesearch的后继者bing，和此前的传言相同，是bing而不是kumo。</p>
<p>Bing要在6.3号才正式对大众开放，不过现在已经有许多邀请体验的测评文章。如<a href="http://blog.it.sohu.com/readwriteweb/archives/2640" target="_blank">1</a>，<a href="http://livesino.net/archives/2068.live" target="_blank">2</a>. 看兴趣的可以先睹为快。</p>
<p>ps：今天一看，很多访问都来自关键字being+微软，其实，微软的新搜索叫bing~~ hoho  现在微软有bing，有powerset，看下一步怎么优势整合和google竞争 <img src='http://www.clfour.com/wp-includes/images/smilies/icon_razz.gif' alt=':razz:' class='wp-smiley' /> 了~</p>
]]></content:encoded>
			<wfw:commentRss>http://www.clfour.com/2009/05/ms-kumo-to-bing/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>ALIPR+ACQUINE:图像自动标注和审美评价推理</title>
		<link>http://www.clfour.com/2009/05/alipr-acquine/</link>
		<comments>http://www.clfour.com/2009/05/alipr-acquine/#comments</comments>
		<pubDate>Mon, 18 May 2009 16:15:17 +0000</pubDate>
		<dc:creator>clfour</dc:creator>
				<category><![CDATA[折腾]]></category>
		<category><![CDATA[资讯]]></category>
		<category><![CDATA[IT]]></category>
		<category><![CDATA[search]]></category>
		<category><![CDATA[语义]]></category>

		<guid isPermaLink="false">http://www.clfour.com/?p=799</guid>
		<description><![CDATA[1. ALIPR(Automatic Linguistic Indexing of Pictures-Real Time)是宾夕法尼亚州立大学的Jia Li和James Wang(据说都是国人)开发的图像标注系统，可以对用户上传的自动识别和标注，通过机器学习的方法，对图像的像素内容如纹理颜色等分析，以期获得图像的语义含义，以改进当前图像手工标注和当前主流检索中基于关键字和图像相关文本内容的检索方法。 在起始阶段，通过大量已标注图像的训练集，使系统学习，在用户上传图片时，系统根据用户图片的内容信息对内容做基于统计学习的判断，给出相关标注，供用户选择或增加，这样就完成了图像的标注和反馈过程。接下来用户根据标注和标题对当前图像库中的图片进行搜索，并可以根据图像找出与之相似的图片。在网站中，你还可以对图片进行评分(不知道是不是和接下来的审美评价有关)，另外还可以根据语言描述故事，来找与之有联系的图片(这个似乎还比较弱。。。) 标注自动识，我们发现一张有猴子头像的咖啡图片，经过识别为以上的关键字，我们选中相关的标签，并可以根据上传内容，增加新的标签。 标注完成后，根据图像内容，会给出图片库中与之相似的图片集。 系统可以根据title和tag检索图片，下面是根据coffee检索到的图片，可以输入多关键字。 其实，就上面的来说，当前看来也不算很有新意的方法，不清楚4，5年前是怎样的状况，在08年获得的专利，06年ACM Multimedia conference上有篇他们的文章(Real-Time Computerized Annotation of Pictures)，现在试试他们的系统，虽然明显还是实验阶段，离商用还有距离了，但是能把产品开发到这种程度，这才是做学问厉害的地方。其实阅读国外的文献的时候，很多情况下，他们做的东西，认真研究研究，也不都是高深莫测，很多都是具有实践性的，甚至看透了理论性似乎也不是那么高不可攀，难得的地方就是能扎实的做下去。反观国内的。。。呵呵，难怪有那么多在国外高校奋斗的华人，当我们在追求指标的时候，却忘了自己起飞的地方是大地。 =========================part 2========================= 2. 在ALIPR上线之后，今年四月，ACQUINE(Aesthetic Quality Inference Engine)也公布于众，这个审美评价推理引擎可以对用户上传的图片基于审美学打分，分数为0-100。它也是对现有的资源机器学习的基础上，对用户图片分析并给出判断。这套系统的好玩之处就是可以让机器评价你的作品，或许以后摄影比赛征选作品就可以用它来筛选了。根据James Z. Wang的描述，这套系统已经达到80%的正确率，接下来还会继续改进。而且他也提到，对图片的审美评价只是人类感情的一方面，在接下来的研究中，他们或许会去努力获取图片激发人们的其他感情。这项研究由国家科学基金(NSF)资助。研究人员之前曾用相似的技术来检测梵高的作品(没说检测结果怎样。。。)，我上传了2张照片，第一张感觉还行，第二章觉得很可以了。可是评价分别是9分和22.2分。哎。。。到底是谁的错 所以大家最好不要拿自己的图片来试，嘿嘿，以防打击过重@@ps：上传图片是记录ip的，可以统计你的上传和分数。 参考：1， 2， 3， 4]]></description>
			<content:encoded><![CDATA[<p style="text-align: center;"><img class="size-medium wp-image-804  aligncenter" title="alipr" src="http://www.clfour.com/wp-content/uploads/2009/05/alipr.jpg" alt="alipr" width="500" height="343" /></p>
<p><strong>1.</strong><a href="http://www.alipr.com/" target="_blank"> ALIPR</a>(Automatic Linguistic Indexing of Pictures-Real Time)是宾夕法尼亚州立大学的Jia Li和James Wang(据说都是国人)开发的图像标注系统，可以对用户上传的自动识别和标注，通过机器学习的方法，对图像的像素内容如纹理颜色等分析，以期获得图像的语义含义，以改进当前图像手工标注和当前主流检索中基于关键字和图像相关文本内容的检索方法。</p>
<p><span id="more-799"></span>在起始阶段，通过大量已标注图像的训练集，使系统学习，在用户上传图片时，系统根据用户图片的内容信息对内容做基于统计学习的判断，给出相关标注，供用户选择或增加，这样就完成了图像的标注和反馈过程。接下来用户根据标注和标题对当前图像库中的图片进行搜索，并可以根据图像找出与之相似的图片。在网站中，你还可以对图片进行评分(不知道是不是和接下来的审美评价有关)，另外还可以根据语言描述故事，来找与之有联系的图片(这个似乎还比较弱。。。)</p>
<p style="text-align: center;"><img class="size-medium wp-image-805  aligncenter" title="test-teache" src="http://www.clfour.com/wp-content/uploads/2009/05/test-teache.jpg" alt="test-teache" width="500" height="343" /></p>
<p style="text-align: left;">标注自动识，我们发现一张有猴子头像的咖啡图片，经过识别为以上的关键字，我们选中相关的标签，并可以根据上传内容，增加新的标签。</p>
<p style="text-align: center;"><img class="aligncenter size-medium wp-image-806" title="test-similar" src="http://www.clfour.com/wp-content/uploads/2009/05/test-similar.jpg" alt="test-similar" width="500" height="343" /></p>
<p style="text-align: center;">标注完成后，根据图像内容，会给出图片库中与之相似的图片集。</p>
<p style="text-align: center;"><img class="size-medium wp-image-807  aligncenter" title="test-search" src="http://www.clfour.com/wp-content/uploads/2009/05/test-search.jpg" alt="test-search" width="500" height="343" /></p>
<p style="text-align: center;">系统可以根据title和tag检索图片，下面是根据coffee检索到的图片，可以输入多关键字。</p>
<p>其实，就上面的来说，当前看来也不算很有新意的方法，不清楚4，5年前是怎样的状况，在08年获得的<a href="http://www.alipr.com/media/docs/US07394947_LI_WANG.pdf" target="_blank">专利</a>，06年ACM Multimedia conference上有篇他们的文章(Real-Time Computerized Annotation of Pictures)，现在试试他们的系统，虽然明显还是实验阶段，离商用还有距离了，但是能把产品开发到这种程度，这才是做学问厉害的地方。其实阅读国外的文献的时候，很多情况下，他们做的东西，认真研究研究，也不都是高深莫测，很多都是具有实践性的，甚至看透了理论性似乎也不是那么高不可攀，难得的地方就是能扎实的做下去。反观国内的。。。呵呵，难怪有那么多在国外高校奋斗的华人，当我们在追求指标的时候，却忘了自己起飞的地方是大地。</p>
<p>=========================part 2=========================</p>
<p style="text-align: center;"><img class="size-medium wp-image-808  aligncenter" title="acquine" src="http://www.clfour.com/wp-content/uploads/2009/05/acquine.jpg" alt="acquine" width="500" height="343" /></p>
<p><strong>2.</strong> 在ALIPR上线之后，今年四月，<a href="http://acquine.alipr.com/" target="_blank">ACQUINE</a>(Aesthetic Quality Inference Engine)也公布于众，这个审美评价推理引擎可以对用户上传的图片基于审美学打分，分数为0-100。它也是对现有的资源机器学习的基础上，对用户图片分析并给出判断。这套系统的好玩之处就是可以让机器评价你的作品，或许以后摄影比赛征选作品就可以用它来筛选了。根据James Z. Wang的描述，这套系统已经达到80%的正确率，接下来还会继续改进。而且他也提到，对图片的审美评价只是人类感情的一方面，在接下来的研究中，他们或许会去努力获取图片激发人们的其他感情。这项研究由国家科学基金(NSF)资助。研究人员之前曾用相似的技术来检测梵高的作品(没说检测结果怎样。。。)，我上传了2张照片，第一张感觉还行，第二章觉得很可以了。可是评价分别是9分和22.2分。哎。。。到底是谁的错 <img src='http://www.clfour.com/wp-includes/images/smilies/icon_question.gif' alt=':qustion:' class='wp-smiley' /> 所以大家最好不要拿自己的图片来试，嘿嘿，以防打击过重@@ps：上传图片是记录ip的，可以统计你的上传和分数。</p>
<p style="text-align: center;"><img class="size-full wp-image-809  aligncenter" title="acquine-my-photo" src="http://www.clfour.com/wp-content/uploads/2009/05/acquine-my-photo.jpg" alt="acquine-my-photo" width="500" height="219" /></p>
<p style="text-align: left;">参考：<a href="http://live.psu.edu/story/20538" target="_blank">1</a>， <a href="http://live.psu.edu/story/35158" target="_blank">2</a>， <a href="http://live.psu.edu/story/39575" target="_blank">3</a>， <a href="http://www.cnbeta.com/articles/84239.htm" target="_blank">4 </a></p>
]]></content:encoded>
			<wfw:commentRss>http://www.clfour.com/2009/05/alipr-acquine/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>[ZZ]网络新时代：Web3.0、关联数据和语义网</title>
		<link>http://www.clfour.com/2009/05/zz-web-30-linked-data-semantic-web/</link>
		<comments>http://www.clfour.com/2009/05/zz-web-30-linked-data-semantic-web/#comments</comments>
		<pubDate>Fri, 15 May 2009 08:42:27 +0000</pubDate>
		<dc:creator>clfour</dc:creator>
				<category><![CDATA[折腾]]></category>
		<category><![CDATA[资讯]]></category>
		<category><![CDATA[google]]></category>
		<category><![CDATA[IT]]></category>
		<category><![CDATA[semantic search]]></category>
		<category><![CDATA[ZZ]]></category>
		<category><![CDATA[语义]]></category>

		<guid isPermaLink="false">http://www.clfour.com/?p=772</guid>
		<description><![CDATA[读写网zz又一篇，原文。 Growthroute Ventures公司创始人Greg Boutin最近撰写了三篇系列文章。这些文章试图把基于结构化数据的三大趋势结合到一起：1) 羽翼渐丰的 “Web 3.0″ ， 2) 结构化网络中的黑马关联数据（Linked Data），3) 以及由来已久的传奇：语义网（Semantic Web）。 以下对其进行简单介绍： Web 3.0: Web 2.0之后轮到谁？ Boutin的第一篇文章认为Web 3.0无法解决信息超载问题。至少现在还不行，因为有很多基础工作要做。尤其是现在网上到处都是非结构化数据，需要很长的时间才能将这些数据结构化。 去年Boutin将Web 3.0宽泛定义为“一个开放网络。Web 3.0可以打破旧藩篱，让所有人随时随地地联系在一起，让整个网络更加智能。” 至少我认为，如果说Web 2.0意味着Youtube和维基百科等UGC和社交网络，那么Web 3.0则意味着开放和结构化数据，让网络更加“聪明”。 关联数据（Linked Data）: 结构化数据，但不一定是语义数据 Greg Boutin第二篇文章谈到了关联数据。他认为关联数据提供了关联结构化数据的新媒介，可以让机器更好地读取这些数据。但是，关联数据本身不会给信息增加任何语义含义，而是更好地携带语义数据，供用户访问。所以，关联数据虽然本身并不具备语义特征，但它可以在数据层面建立关联，为真正的语义网铺平道路。 关联数据这个概念来自W3C,该组织有一个关联开放数据（LOD）项目。以下图表列出了参与该项目的数据集。其中包括著名的Thomson Reuters的Open Calais项目 , Freebase, 和DBpedia。这些数据集是在现有本体论（ontologies）基础之上建立的，如WordNet,FOAF, 和SKOS，然后在它们之间建立关联。 Greg Boutin在其第三篇文章中写道，关联数据格式不会创建智能数据，仅仅是支持。他建议人们集中精力开发把非结构化数据进行结构化的技术。他还建议创业者应该考虑把关联数据和其它技术进行混搭。 语义网：Google唱主角 那些以上这些趋势会如何影响语义网呢？Tim Berners-Lee 认为语义网可以用于商业目的，但现实却是，目前使用资源描述框架（RDF）的实际应用寥寥无几。 但是 RDFa（允许发布者把RDF嵌入到HTML）带来了一线希望。 Google本周宣布将在其“富媒体代码”中支持RDFa，而雅虎早在去年就大胆地推出了搜索猴子（Search Monkey ），达到了同样的目的。 Google将在语义网主流化过程中扮演重要角色。Google目前正在从半结构化和非结构化数据中解析语义结构数据。有人称Google算法远非统计方法论那么简单，它早就在研发语义技术了。 Google也并非没有竞争对手。除了雅虎，微软去年夏天收购 Powerset也是瞄准了这个市场。 结论 Web 3.0是一个没有统一定义的词语，或者根本不应该这么称呼。但是很显然，结构化数据时代已经到来。我们从当前的关联数据热潮中就可以看到它的影子，并且得到了Google和雅虎瞪大公司的支持。谁知道呢，或许语义网也就在隔壁不远处。 [...]]]></description>
			<content:encoded><![CDATA[<p>读写网zz又<a href="http://blog.it.sohu.com/readwriteweb/archives/2182">一篇</a>，<a href="http://www.readwriteweb.com/archives/understanding_the_new_web_era_web_30_linked_data_s.php">原文</a>。<br />
<a href="http://blog.it.sohu.com/readwriteweb/files/2009/05/linked_data_may09.jpg"><img src="http://blog.it.sohu.com/readwriteweb/files/2009/05/linked_data_may09.jpg" alt="" width="150" height="150" align="left" /></a><a href="http://www.growthroute.com/">Growthroute Ventures</a>公司创始人Greg Boutin最近撰写了三篇系列文章。这些文章试图把基于结构化数据的三大趋势结合到一起：1) 羽翼渐丰的 <strong>“Web 3.0″</strong> ， 2) 结构化网络中的黑马关联数据（<strong>Linked Data<span style="font-weight: normal;">），3) 以及由来已久的传奇：<a class="bodytag" href="http://www.yeeyan.com/articles/tag/%E8%AF%AD%E4%B9%89%E7%BD%91" target="_blank">语义网</a>（<strong>Semantic Web</strong>）。 以下对其进行简单介绍：</span></strong></p>
<h4>Web 3.0: Web 2.0之后轮到谁？</h4>
<p>Boutin的第一篇文章认为Web 3.0无法解决信息超载问题。至少现在还不行，因为有很多基础工作要做。尤其是现在网上到处都是非结构化数据，需要很长的时间才能将这些数据结构化。</p>
<p>去年Boutin将Web 3.0宽泛定义为“一个开放网络。Web 3.0可以打破旧藩篱，让所有人随时随地地联系在一起，让整个网络更加智能。”</p>
<p>至少我认为，如果说Web 2.0意味着Youtube和维基百科等UGC和社交网络，那么Web 3.0则意味着开放和结构化数据，让网络更加“聪明”。<br />
<span id="more-772"></span><br />
<h4><a class="bodytag" href="http://www.yeeyan.com/articles/tag/%E5%85%B3%E8%81%94%E6%95%B0%E6%8D%AE" target="_blank">关联数据</a>（Linked Data）: 结构化数据，但不一定是语义数据</h4>
<p>Greg Boutin第二篇文章谈到了<a class="bodytag" href="http://www.yeeyan.com/articles/tag/%E5%85%B3%E8%81%94%E6%95%B0%E6%8D%AE" target="_blank">关联数据</a>。他认为关联数据提供了关联结构化数据的新媒介，可以让机器更好地读取这些数据。但是，关联数据本身不会给信息增加任何语义含义，而是更好地携带语义数据，供用户访问。所以，关联数据虽然本身并不具备语义特征，但它可以在数据层面建立关联，为真正的语义网铺平道路。</p>
<p><a class="bodytag" href="http://www.yeeyan.com/articles/tag/%E5%85%B3%E8%81%94%E6%95%B0%E6%8D%AE" target="_blank">关联数据</a>这个概念来自W3C,该组织有一个关联开放数据（LOD）项目。以下图表列出了参与该项目的数据集。其中包括著名的Thomson Reuters的<a href="http://www.readwriteweb.com/archives/calais_4_linked_data.php">Open Calais项目 </a>, <a href="http://www.readwriteweb.com/archives/freebase_overview.php">Freebase</a>, 和<a href="http://www.readwriteweb.com/archives/where_to_find_open_data_on_the.php">DBpedia</a>。这些数据集是在现有本体论（ontologies）基础之上建立的，如<a href="http://www.w3.org/TR/wordnet-rdf/">WordNet</a>,<a href="http://www.foaf-project.org/">FOAF</a>, 和<a href="http://www.w3.org/TR/skos-reference/">SKOS</a>，然后在它们之间建立关联。</p>
<p><img src="http://www.readwriteweb.com/images/web_data_apr09b.png" alt="" width="610" height="465" /></p>
<p>Greg Boutin在其第三篇文章中写道，<a class="bodytag" href="http://www.yeeyan.com/articles/tag/%E5%85%B3%E8%81%94%E6%95%B0%E6%8D%AE" target="_blank">关联数据</a>格式不会创建智能数据，仅仅是支持。他建议人们集中精力开发把非结构化数据进行结构化的技术。他还建议创业者应该考虑把关联数据和其它技术进行混搭。</p>
<h4><a class="bodytag" href="http://www.yeeyan.com/articles/tag/%E8%AF%AD%E4%B9%89%E7%BD%91" target="_blank">语义网</a>：Google唱主角</h4>
<p><img src="http://farm1.static.flickr.com/147/398950215_8444feeb8e_m.jpg" alt="" align="right" />那些以上这些趋势会如何影响<a class="bodytag" href="http://www.yeeyan.com/articles/tag/%E8%AF%AD%E4%B9%89%E7%BD%91" target="_blank">语义网</a>呢？Tim Berners-Lee 认为语义网可以用于商业目的，但现实却是，目前使用资源描述框架（RDF）的实际应用寥寥无几。</p>
<p>但是 <a href="http://www.w3.org/TR/xhtml-rdfa-primer/">RDFa</a>（允许发布者把RDF嵌入到HTML）带来了一线希望。 Google本周宣布将在其“富媒体代码”中支持RDFa，而雅虎早在去年就大胆地推出了搜索猴子（<a href="http://www.readwriteweb.com/archives/yahoo_searchmonkey_launches.php">Search Monkey </a>），达到了同样的目的。</p>
<p>Google将在<a class="bodytag" href="http://www.yeeyan.com/articles/tag/%E8%AF%AD%E4%B9%89%E7%BD%91" target="_blank">语义网</a>主流化过程中扮演重要角色。Google目前正在从半结构化和非结构化数据中解析语义结构数据。有人称Google算法远非统计方法论那么简单，它早就在研发语义技术了。</p>
<p>Google也并非没有竞争对手。除了雅虎，微软去年夏天收购 <a href="http://www.readwriteweb.com/archives/does_microsoft_powerset_beat_google.php">Powerset</a>也是瞄准了这个市场。</p>
<p><img src="http://www.readwriteweb.com/images/searchmonkey-example.jpg" alt="" /></p>
<h4>结论</h4>
<p>Web 3.0是一个没有统一定义的词语，或者根本不应该这么称呼。但是很显然，结构化数据时代已经到来。我们从当前的<a class="bodytag" href="http://www.yeeyan.com/articles/tag/%E5%85%B3%E8%81%94%E6%95%B0%E6%8D%AE" target="_blank">关联数据</a>热潮中就可以看到它的影子，并且得到了Google和雅虎瞪大公司的支持。谁知道呢，或许语义网也就在隔壁不远处。</p>
<p>（编译：pestwave）</p>
]]></content:encoded>
			<wfw:commentRss>http://www.clfour.com/2009/05/zz-web-30-linked-data-semantic-web/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Wolfram Alpha计算型知识引擎</title>
		<link>http://www.clfour.com/2009/05/wolfram-alpha-computational-knowledge-engine/</link>
		<comments>http://www.clfour.com/2009/05/wolfram-alpha-computational-knowledge-engine/#comments</comments>
		<pubDate>Thu, 14 May 2009 17:44:44 +0000</pubDate>
		<dc:creator>clfour</dc:creator>
				<category><![CDATA[折腾]]></category>
		<category><![CDATA[资讯]]></category>
		<category><![CDATA[IT]]></category>
		<category><![CDATA[mine]]></category>
		<category><![CDATA[search]]></category>
		<category><![CDATA[semantic search]]></category>
		<category><![CDATA[ZZ]]></category>

		<guid isPermaLink="false">http://www.clfour.com/?p=766</guid>
		<description><![CDATA[关于Wolfram Alpha的报道，随着最终发布日期的到来(5.18)，越来越多，大家对这个新一代搜索引擎也充满了期待。本来想写一下相关内容，又觉得不是那么容易@@。。。幸好读写网中文版遵循共创原则，这里就直接拿来主义了，中文链接1，2，英文原文链接1，2。读写网不错，IT同胞们可以关注下，嘿嘿。总的来说，和现有的流行搜索引擎很不一样，也不同于当前的语义搜索引擎，属于知识搜索的范畴，通过用户的提问根据计算直接给出相关的答案，在查询处理和信息检索基础上的问答式系统。 1. Wolfram&#124;Alpha：Google 终结者？ Wolfram&#124;Alpha，号称“Google 终结者”，这个由计算机科学家 Stephen Wolfram 创建的搜索引擎，在过去一段时间，一直在被大家热炒；5 月份将推出正式版。 它所谓的终结者称号，不过是他人慷慨的馈赠，事实上，创始人更愿意将其称为计算型知识引擎。与提供链接的 Google 搜索不同，对于这个知识搜索引擎，你提交一个问题，可得到相应的答案。 Alpha 不是搜索网络获取信息，而是通过公共和授权资源获取大量的经过组织的数据，并利用高级的自然语言处理算法进行计算，得出结果。 在产品演示中，Stephen Wolfram 搜索了“internet users in europe”，当然你也可以使用 Google 或其他搜索引擎来获得这个问题的结果。 但 Alpha 不同在于，它如何显示搜索结果。比如上述搜索，Alpha 不仅返回互联网用户数量，而且还提供了每个国家的用户数量和各种图表（从结果中我们得知，梵蒂冈只有 93 个网民）。 如果使用 Google 搜索“uncle’s uncle’s brother’s son（堂叔的舅父的哥哥的儿子）”，你会得到这样一个结果，很明显，Google 不懂基本的血缘关系。而 Alpha 可提供一份家谱，包括血缘关系系数等信息。对于该示例，该值为 3.125%。 对于 Alpha 与 Mathematica 之间的关系，Stephen Wolfram 并没有遮遮掩掩。根据他的说法，Alpha 利用了 500 百万行 Mathematica 代码，而后者当前使用了大约 1 万颗 CPU。为了 [...]]]></description>
			<content:encoded><![CDATA[<p>关于Wolfram Alpha的报道，随着最终发布日期的到来(5.18)，越来越多，大家对这个新一代搜索引擎也充满了期待。本来想写一下相关内容，又觉得不是那么容易@@。。。幸好<a href="http://blog.it.sohu.com/readwriteweb/" target="_blank">读写网中文版</a>遵循<a href="http://creativecommons.org/licenses/by-nc-sa/2.5/" target="_blank">共创原则</a>，这里就直接拿来主义了，中文链接<a href="http://blog.it.sohu.com/readwriteweb/archives/1774" target="_blank">1</a>，<a href="http://blog.it.sohu.com/readwriteweb/archives/2067" target="_blank">2</a>，英文原文链接<a href="http://www.readwriteweb.com/archives/wolframalpha_our_first_impressions.php" target="_blank">1</a>，<a href="http://www.readwriteweb.com/archives/see_wolfram_alpha_in_action_-_video_and_screenshots.php" target="_blank">2</a>。读写网不错，IT同胞们可以关注下，嘿嘿。总的来说，和现有的流行搜索引擎很不一样，也不同于当前的语义搜索引擎，属于知识搜索的范畴，通过用户的提问根据计算直接给出相关的答案，在查询处理和信息检索基础上的问答式系统。<br />
<span id="more-766"></span></p>
<p><strong>1.</strong><br />
<strong>Wolfram|Alpha：Google 终结者？</strong></p>
<div class="entry-meta"><a title="作者: 译言" href="http://blog.it.sohu.com/readwriteweb/archives/author/yeeyan/"></a></div>
<div class="entry-body">
<p><img src="http://www.readwriteweb.com/images/alpha_logo_apr09.png" alt="alpha_logo_apr09.png" /><a href="http://www.wolframalpha.com/">Wolfram|Alpha</a>，号称“Google 终结者”，这个由计算机科学家  <a href="http://www.crunchbase.com/person/stephen-wolfram">Stephen Wolfram</a> 创建的搜索引擎，在过去一段时间，一直在被大家热炒；5 月份将推出正式版。</p>
<div style="text-align: left;"><img style="width: 586px; height: 130px;" src="https://docs.google.com/File?id=dc8k7fhp_174d7swzpf2_b" alt="" /></div>
<p>它所谓的终结者称号，不过是他人慷慨的馈赠，事实上，创始人更愿意将其称为计算型知识引擎。与提供链接的 Google 搜索不同，对于这个知识搜索引擎，你提交一个问题，可得到相应的答案。</p>
<p>Alpha 不是搜索网络获取信息，而是通过公共和授权资源获取大量的经过组织的数据，并利用高级的自然语言处理算法进行计算，得出结果。</p>
<p>在产品演示中，Stephen Wolfram 搜索了“internet users in europe”，当然你也可以使用 Google 或其他搜索引擎来获得这个问题的结果。</p>
<p>但 Alpha 不同在于，它如何显示搜索结果。比如上述搜索，Alpha 不仅返回互联网用户数量，而且还提供了每个国家的用户数量和各种图表（从结果中我们得知，梵蒂冈只有 93 个网民）。</p>
<p>如果使用 Google 搜索“uncle’s uncle’s brother’s son（堂叔的舅父的哥哥的儿子）”，你会得到这样一个<a title="结果" href="http://www.google.com/search?q=uncle%27s+uncle%27s+brother%27s+son&amp;ie=utf-8&amp;oe=utf-8&amp;aq=t&amp;rls=org.mozilla:en-GB:official&amp;client=firefox-a">结果</a>，很明显，Google 不懂基本的血缘关系。而 Alpha 可提供一份家谱，包括血缘关系系数等信息。对于该示例，该值为 3.125%。</p>
<p>对于 Alpha 与 <a href="http://www.wolfram.com/products/mathematica/index.html">Mathematica</a> 之间的关系，Stephen Wolfram 并没有遮遮掩掩。根据他的说法，Alpha 利用了 500 百万行 Mathematica 代码，而后者当前使用了大约 1 万颗 CPU。为了 Alpha 的正式推出，他再在扩建服务器农场。</p>
<p>Alpha 可以处理很多 Mathematica 能够计算的数学问题，Mathematica 也将是 Alpha API 的第一个使用者，因此，Mathematica 用户将能够访问 Alpha 的数据。</p>
<p><strong>专业版</strong></p>
<p>Alpha 将以免费方式推出，当同时提供付费版，它将为用户提供数据下载和上传。对于专业用户，将不仅能够查看图表，还可以下载生成这些图表的数据，并可以在用户的电脑上或 Mathematica 中使用。</p>
<p><strong>嵌入和通知</strong></p>
<p>很明显，Wolfram 非常了解互联网的游戏规则。用户将不仅可以在自己的页面上嵌入 Wolfram|Alpha 搜索框，还将能够在网站上嵌入搜索结果以及定制的 Alpha 的接口。此外，结果变化时，用户还可以收到电邮通知。</p>
<p><strong>有关该搜索引擎的注释</strong></p>
<blockquote>
<ul>
<li>Alpha 的每个搜索结果页面提供计算结果所用的资源链接</li>
<li>如果结果存在争论，Alpha 将在脚注中提供说明</li>
<li>目前 Alpha 仅提供英文版</li>
<li>资金：Alpha 将在侧边栏中显示广告，并与其他公司合作，其中包括其他搜索引擎</li>
<li>Wolfram 将发布  FF 和 IE 工具栏，以及 <a href="http://www.ieaddons.com/en/accelerators/">IE8 accelerator</a></li>
<li>Alpha 还将显示来自传统搜索引擎的搜索结果（Google、Live、Yahoo），并提供相关的维基百科链接</li>
</ul>
</blockquote>
<p><strong>它是 Google 终结者？</strong></p>
<p>不是！Wolfram|Alpha 将会一个令人惊奇的产品，但它与 Google 和其他搜索引擎很不同。事实上，将其称为搜索引擎都是一个误解，Wolfram 更乐意“computational knowledge engine”这个名称。如果你想知道去纽约要看哪些景点，据我们了解，对此 Alpha 并不是一个有用的工具。</p>
<p>如果不是查看那些基本的百科式信息，用户可以求助于 Alpha，它会直接给出问题的答案，并提供一系列的图片和相关信息。</p>
<p>在精心准备的演示中，每个产品都会看起来很不错。5 月份推出的正式版 Alpha 将如何面对用户真刀实枪的拷问，让我们拭目以待…</p>
<p><strong>2.</strong><br />
<strong>Alpha首测结果：喜忧参半</strong></p>
<div class="entry-meta"><a title="作者: 译言" href="http://blog.it.sohu.com/readwriteweb/archives/author/yeeyan/"></a></div>
<div class="entry-body">
<p style="font-size: 10.5pt;"><a href="http://blog.it.sohu.com/readwriteweb/files/2009/05/wolfram_alpha_logo_may09.png"><img class="alignleft size-medium wp-image-2065" src="http://blog.it.sohu.com/readwriteweb/files/2009/05/wolfram_alpha_logo_may09.png" alt="" width="150" height="29" /></a>Wolfram Alpha这款被视为“谷歌杀手”的搜索引擎将会在5月18日正式发布（<a title="link" href="http://blog.wolframalpha.com/2009/05/08/so-much-for-a-quiet-launch/">link</a>）。但是我们今天可以提前访问这项服务，因此也就有机会测试一下这款搜索引擎的表现</p>
<p style="font-size: 10.5pt;">我们就不罗嗦了：Wolfram Alpha不是针对主流互联网用户的，对于这类人群而言，谷歌就已经够用了。当然，将Alpha与谷歌做比较有些不妥，但是多数用户还是会把它当成谷歌来 对待，然后这其中的多数可能会极其失望的离开。然而，从目前来看，Alpha会成为学生，工程师和学者们手中的得力工具。任何需要快速获得数据并知道相应 解释的人都会将Alpha视为好的帮手。学会如何最佳的使用Alpha需要花点时间，它还有些瑕疵，但是总来说，它给我们的印象非常深刻，不过，偶尔我们 也有些失望。</p>
<p style="font-size: 10.5pt;">正如我们所设想的那样，Alpha表现出色的领域是数学，工程，化学，物理以及生命科学。但是当涉及人文科学时，Alpha给的结果就不那么有意思了。当你输入作者名称时，你会得到一个基本的履历资料，而非作者的书目列表。</p>
<p style="font-size: 10.5pt;">用户需要记住的是Alpha只会给你数据，但是不会提供数据背后的意义。用户需要自己解读数据。</p>
<p><strong>试用结果：Alpha某些领域非常出色——其他一些领域难有作为。</strong></p>
<p><a href="http://blog.it.sohu.com/readwriteweb/files/2009/05/alpha_span_germany_gdp.png"><img class="alignright size-medium wp-image-2066" src="http://blog.it.sohu.com/readwriteweb/files/2009/05/alpha_span_germany_gdp-254x300.png" alt="" width="254" height="300" /></a></p>
<p style="font-size: 10.5pt;">有时，Alpha的数据集并不是很规整。比如，你 可以得到国家的失业人数数据，但是如果你想得到特定城市的数据，Alpha就无能为力。Alpha也可以回答一些杂七杂八的问题，像“B-29超级空中堡 垒轰炸机的翼展是多少”，美国有多少药剂师？（以及他们的平均薪水是多少？），以及《星际迷航2：可汗的愤怒》的票房收入是多少？（系统会自动将 7，891万美元转换成日元，英镑和欧元。）</p>
<p style="font-size: 10.5pt;">它也可以做一些非常出色的计算（虽然我们做的一些 复杂查询出现超时情况），像画谢尔宾斯基三角形（Sierpinski gasket）（译者注：一个分形），以及告诉25岁时，人锻炼时的安全心率是多少。但是虽然它知道1984年的德国总统是谁，但是它却拒绝告诉我们那年 的德国总理是谁。而且有关第一， 二次世界大战的信息都是一些基本的数据，不过与此同时，Alpha也会告诉我们今天德国每一分钟期间有多少人死去(1.698个)，并将其与当前的出生率 做比较。Alpha也可以给你提供营养方面的数据，然而你没办法计算得到不同体重下的数据。</p>
<p><strong>一些幽默诙谐的地方</strong></p>
<p style="font-size: 10.5pt;">有时，你会在结果中看到一些幽默诙谐的闪光点。比 如，当我们搜索”5千克“时，Alpha会提供你一个基本的单位转换关系。但是它也会在结果里告诉你5千克大约等于两本《新新科学》（ A New Kind of Science）（此书的作者是： Stephen Wolfram）的重量。</p>
<p><strong>局限性</strong></p>
<p style="font-size: 10.5pt;">毫无疑问，Alpha数据集存在空白的地方。而这 些空白的地方都是属于非技术领域，从许多方面来看，这是可以理解的，因为让Wolfram Alpha这样的系统理解此类信息非常难（不过Alpha对字谜非常在行），每个结果页面的Alpha广告所连接的都是维基百科上的相关文章。</p>
<p><strong>缺乏互动性</strong></p>
<p style="font-size: 10.5pt;">Alpha也缺乏互动性，这点很快让人有些沮丧。 Alpha上的所有图片都是静态图像，你无法放大或缩小，或者当你搜索人物的生平资料，结果中没有任何链接，因此你无法通过简单点击这个人的出生地链接以 获得更多信息。这意味着深入挖掘某个主题下的信息可能很难，因为你必须持续不断地进行新的查询。</p>
<p><strong>有关大写的问题</strong></p>
<p><a href="http://blog.it.sohu.com/readwriteweb/files/2009/05/khan_wolfram_small.png"><img class="alignright size-medium wp-image-2068" src="http://blog.it.sohu.com/readwriteweb/files/2009/05/khan_wolfram_small-248x300.png" alt="" width="248" height="300" /></a></p>
<p style="font-size: 10.5pt;">Alpha对查询词的要求有些过于苛刻。当你输入 ”pdx“时，aplha不知道如何处理，但是你将它大写后，它会返回Pursuit Dynamics公司的信息（公司的商标是pdx），以及一个有关波兰国际机场的信息选项（而这是我们所要查找的东西）。而谷歌则是完全忽视掉字母的大 写，Alpha对此是做区分的。</p>
<p style="font-size: 10.5pt;">Alpha也会为新用户提供许多搜索实例。这些实例对于你如何规范的查询是非常有帮助的，而这种规范则可以帮助你从Alpha上获得更多有用信息。</p>
<p><strong>开发者和Alpha</strong></p>
<p style="font-size: 10.5pt;">Alpha将会为第三方开发者提供丰富的API。 我们对于开发文档只做了一个快速的浏览，但是从我们看到的内容来讲，开发者可以完全访问Wolfram Alpha的数据集。但是对于开发者们如何将这一数据源与其他Alpha并不擅长领域里的数据源混搭使用，想必我们会看到一些有意思的创新。</p>
<p><strong>这一款不错的工具——但并不适合所有人</strong></p>
<p style="font-size: 10.5pt;">最后，Wolfram Alpha是一款工具，你需要花些时间来学习，但是它也可以成为一款非常强大的工具。许多媒体将Alpha与谷歌做比较，我们认为这是一个毫无意义的比 较。Alpha并不想成为谷歌杀手，而且以它目前的形式来看，它是无法从谷歌手中抢去很多市场份额的。正如我们一周前在有关Alpha的报道中所说的那 样，Alpha会从维基百科手中抢走一些用户，因为它可以让用户快速便捷的获得各种数据。</p>
<p style="font-size: 10.5pt;">但是目前Alpha最大的问题就是对搜索查询词的解释执行，通常查询词的一个小小改动就会导致无法找到结果或者十分精确的找到你想找的内容。</p>
<p style="font-size: 10.5pt;">我们也希望Wolfram能找到一个把其他更多数据和搜索结果连接起来的方法。当你在搜索结果中找到一些感兴趣的内容，但是却不得不手动输入进行一次查询时，我们感觉相当的失望。Alpha在结果页面只要加一个简单的链接就可以解决的。</p>
<p><strong>对于工程师而言非常棒——但是主流群体可能不会这么觉得</strong></p>
<p style="font-size: 10.5pt;">到目前为止，我们还是觉得Alpha仍然是一个小众的参与者。对于一小部分潜在用户，它是一个价值极高的工具。不过，希望随着时间的推移，开发团队会添加更多更好的数据集，这样Alpha对于主流群体也会变得更加实用。</p>
<p style="font-size: 10.5pt;"><strong>注意</strong>：读者如果想查看更多截图，可以前去这个页面（<a href="http://www.readwriteweb.com/archives/see_wolfram_alpha_in_action_-_video_and_screenshots.php" target="_self">link</a>）</p>
<p style="font-size: 10.5pt;">
<p style="font-size: 10.5pt;">（译者：Moon.Wong）</p>
</div>
<p>（译者：     <a href="http://www.yeeyan.com/space/show/ITAQ">挨踢狂人</a>）</div>
]]></content:encoded>
			<wfw:commentRss>http://www.clfour.com/2009/05/wolfram-alpha-computational-knowledge-engine/feed/</wfw:commentRss>
		<slash:comments>1</slash:comments>
		</item>
		<item>
		<title>[ZZ]机器学习（Machine Learning）大家</title>
		<link>http://www.clfour.com/2009/04/machine-learning-big-master/</link>
		<comments>http://www.clfour.com/2009/04/machine-learning-big-master/#comments</comments>
		<pubDate>Fri, 03 Apr 2009 15:57:09 +0000</pubDate>
		<dc:creator>clfour</dc:creator>
				<category><![CDATA[FunFun]]></category>
		<category><![CDATA[干活]]></category>
		<category><![CDATA[IT]]></category>
		<category><![CDATA[Study]]></category>
		<category><![CDATA[ZZ]]></category>

		<guid isPermaLink="false">http://www.clfour.com/?p=650</guid>
		<description><![CDATA[据说是N年前南大小百合上的帖子，不过风格挺好的，转来仰慕下吧。不知牛人们现在干啥了都。 闲着无事，想写点一些我所了解的machine learning大家。由于学识浅薄，见识有限，并且仅局限于某些领域，一些在NLP及最近很热的生物信息领域活跃的学者我就浅陋无知，所以不对的地方大家仅当一笑。 Machine Learning 大家(1)：M. I. Jordan 在我的眼里，M Jordan无疑是武林中的泰山北斗。他师出MIT，现在在berkeley坐镇一方，在附近的两所名校（加stanford）中都可以说无出其右者，stanford的Daphne Koller虽然也声名遐迩，但是和Jordan比还是有一段距离。 Jordan身兼stat和cs两个系的教授，从他身上可以看出Stat和ML的融合。 Jordan 最先专注于mixtures of experts，并迅速奠定了自己的地位，我们哈尔滨工业大学的校友徐雷跟他做博后期间，也在这个方向上沾光不少。Jordan和他的弟子在很多方面作出了开创性的成果，如spectral clustering， Graphical model和nonparametric Bayesian。现在后两者在ML领域是非常炙手可热的两个方向，可以说很大程度上是Jordan的lab一手推动的。 更难能可贵的是， Jordan不仅自己武艺高强，并且揽钱有法，教育有方，手下门徒众多且很多人成了大器，隐然成为江湖大帮派。他的弟子中有10多人任教授，个人认 为他现在的弟子中最出色的是stanford的Andrew Ng，不过由于资历原因，现在还是assistant professor，不过成为大教授指日可待；另外Tommi Jaakkola和David Blei也非常厉害，其中Tommi Jaakkola在mit任教而David Blei在cmu做博后，数次获得NIPS最佳论文奖，把SVM的最大间隔方法和Markov network的structure结构结合起来，赫赫有名。还有一个博后是来自于toronto的Yee Whye Teh，非常不错，有幸跟他打过几次交道，人非常nice。另外还有一个博后居然在做生物信息方面的东西，看来jordan在这方面也捞了钱。这方面他有一个中国学生Eric P. Xing(清华大学校友)，现在在cmu做assistant professor。 总的说来，我觉得 Jordan现在做的主要还是graphical model和Bayesian learning，他去年写了一本关于graphical model的书，今年由mit press出版，应该是这个领域里程碑式的著作。3月份曾经有人答应给我一本打印本看看，因为Jordan不让他传播电子版，但后来好像没放在心上（可见美国人也不是很守信的），人不熟我也不好意思问着要，可以说是一大遗憾. 另外发现一个有趣的现象就是Jordan对hierarchical情有独钟，相当多的文章都是关于hierarchical的，所以能 hierarchical大家赶快hierarchical，否则就让他给抢了。 用我朋友话说看jordan牛不牛，看他主页下面的Past students and postdocs就知道了。 Machine Learning大家（2）：D. Koller D. Koller是1999年美国青年科学家总统奖(PECASE)得主，IJCAI 2001 Computers and [...]]]></description>
			<content:encoded><![CDATA[<p>据说是N年前南大小百合上的帖子，不过风格挺好的，转来仰慕下吧。不知牛人们现在干啥了都。</p>
<p>闲着无事，想写点一些我所了解的machine learning大家。由于学识浅薄，见识有限，并且仅局限于某些领域，一些在NLP及最近很热的生物信息领域活跃的学者我就浅陋无知，所以不对的地方大家仅当一笑。</p>
<p>Machine Learning 大家(1)：M. I. Jordan</p>
<p>在我的眼里，M Jordan无疑是武林中的泰山北斗。他师出MIT，现在在berkeley坐镇一方，在附近的两所名校（加stanford）中都可以说无出其右者，stanford的Daphne Koller虽然也声名遐迩，但是和Jordan比还是有一段距离。</p>
<p><span id="more-650"></span> Jordan身兼stat和cs两个系的教授，从他身上可以看出Stat和ML的融合。</p>
<p>Jordan 最先专注于mixtures of experts，并迅速奠定了自己的地位，我们哈尔滨工业大学的校友徐雷跟他做博后期间，也在这个方向上沾光不少。Jordan和他的弟子在很多方面作出了开创性的成果，如spectral clustering， Graphical model和nonparametric Bayesian。现在后两者在ML领域是非常炙手可热的两个方向，可以说很大程度上是Jordan的lab一手推动的。</p>
<p>更难能可贵的是， Jordan不仅自己武艺高强，并且揽钱有法，教育有方，手下门徒众多且很多人成了大器，隐然成为江湖大帮派。他的弟子中有10多人任教授，个人认</p>
<p>为他现在的弟子中最出色的是stanford的Andrew Ng，不过由于资历原因，现在还是assistant professor，不过成为大教授指日可待；另外Tommi Jaakkola和David Blei也非常厉害，其中Tommi Jaakkola在mit任教而David Blei在cmu做博后，数次获得NIPS最佳论文奖，把SVM的最大间隔方法和Markov network的structure结构结合起来，赫赫有名。还有一个博后是来自于toronto的Yee Whye Teh，非常不错，有幸跟他打过几次交道，人非常nice。另外还有一个博后居然在做生物信息方面的东西，看来jordan在这方面也捞了钱。这方面他有一个中国学生Eric P. Xing(清华大学校友)，现在在cmu做assistant professor。</p>
<p>总的说来，我觉得 Jordan现在做的主要还是graphical model和Bayesian learning，他去年写了一本关于graphical model的书，今年由mit press出版，应该是这个领域里程碑式的著作。3月份曾经有人答应给我一本打印本看看，因为Jordan不让他传播电子版，但后来好像没放在心上（可见美国人也不是很守信的），人不熟我也不好意思问着要，可以说是一大遗憾. 另外发现一个有趣的现象就是Jordan对hierarchical情有独钟，相当多的文章都是关于hierarchical的，所以能 hierarchical大家赶快hierarchical，否则就让他给抢了。</p>
<p>用我朋友话说看jordan牛不牛，看他主页下面的Past students and postdocs就知道了。</p>
<p>Machine Learning大家（2）：D. Koller</p>
<p>D. Koller是1999年美国青年科学家总统奖(PECASE)得主，IJCAI 2001 Computers and Thought Award(IJCAI计算机与思维奖，这是国际人工智能界35岁以下青年学者的最高奖)得主，2004 World Technology Award得主。</p>
<p>最先知道D koller是因为她得了一个大奖，2001年IJCAI计算机与思维奖。Koller因她在概率推理的理论和实践、机器学习、计算博弈论等领域的重要贡献，成为继Terry Winograd、David Marr、Tom Mitchell、Rodney Brooks等人之后的第18位获奖者。说起这个奖挺有意思的，IJCAI终身成就奖（IJCAI Award for Research Excellence），是国际人工智能界的最高荣誉; IJCAI计算机与思维奖是国际人工智能界35岁以下青年学者的最高荣誉。早期AI研究将推理置于至高无上的地位; 但是1991年牛人Rodney Brooks对推理全面否定，指出机器只能独立学习而得到了IJCAI计算机与思维奖; 但是koller却因提出了Probabilistic Relational Models 而证明机器可以推理论知而又得到了这个奖，可见世事无绝对，科学有轮回。</p>
<p>D koller的Probabilistic Relational Models在nips和icml等各种牛会上活跃了相当长的一段时间，并且至少在实验室里证明了它在信息搜索上的价值，这也导致了她的很多学生进入了 google。虽然进入google可能没有在牛校当faculty名声响亮，但要知道google的很多员工现在可都是百万富翁，在全美大肆买房买车的主。</p>
<p>Koller的研究主要都集中在probabilistic graphical model，如Bayesian网络，但这玩意我没有接触过，我只看过几篇他们的markov network的文章，但看了也就看了，一点想法都没有，这滩水有点深，不是我这种非科班出身的能趟的，并且感觉难以应用到我现在这个领域中。</p>
<p>Koller 才从教10年，所以学生还没有涌现出太多的牛人，这也是她不能跟Jordan比拟的地方，并且由于在stanford的关系，很多学生直接去硅谷赚大钱去了，而没有在学术界开江湖大帮派的影响，但在stanford这可能太难以办到，因为金钱的诱惑实在太大了。不过Koller的一个学生我非常崇拜，叫 Ben Taskar，就是我在（1）中所提到的Jordan的博后，是好几个牛会的最佳论文奖，他把SVM的最大间隔方法和Markov network结合起来，可以说是对structure data处理的一种标准工具，也把最大间隔方法带入了一个新的热潮，近几年很多牛会都有这样的workshop。 我最开始上Ben Taskar的在stanford的个人网页时，正赶上他刚毕业，他的顶上有这么一句话：流言变成了现实，我终于毕业了！可见Koller是很变态的，把自己的学生关得这么郁闷，这恐怕也是大多数女faculty的通病吧，并且估计还非常的push！</p>
<p>Machine learning 大家（3）:J. D. Lafferty</p>
<p>大家都知道NIPS和ICML向来都是由大大小小的山头所割据，而John Lafferty无疑是里面相当高的一座高山，这一点可从他的publication list里的NIPS和ICML数目得到明证。虽然江湖传说计算机重镇CMU现在在走向衰落，但这无碍Lafferty拥有越来越大的影响力，翻开AI兵器谱排名第一的journal of machine learning research的很多文章，我们都能发现author或者editor中赫然有Lafferty的名字。</p>
<p>Lafferty给人留下的最大的印象似乎是他2001年的conditional random fields，这篇文章后来被疯狂引用，广泛地应用在语言和图像处理，并随之出现了很多的变体，如Kumar的discriminative random fields等。虽然大家都知道discriminative learning好，但很久没有找到好的discriminative方法去处理这些具有丰富的contextual inxxxxation的数据，直到Lafferty的出现。</p>
<p>而现在Lafferty做的东西好像很杂，semi－supervised learning， kernel learning，graphical models甚至manifold learning都有涉及，可能就是像武侠里一样只要学会了九阳神功，那么其它的武功就可以一窥而知其精髓了。这里面我最喜欢的是semi－ supervised learning，因为随着要处理的数据越来越多，进行全部label过于困难，而完全unsupervised的方法又让人不太放心，在这种情况下 semi－supervised learning就成了最好的。这没有一个比较清晰的认识，不过这也给了江湖后辈成名的可乘之机。到现在为止，我觉得cmu的semi－ supervised是做得最好的，以前是KAMAL NIGAM做了开创性的工作，而现在Lafferty和他的弟子作出了很多总结和创新。</p>
<p>Lafferty 的弟子好像不是很多，并且好像都不是很有名。不过今年毕业了一个中国人，Xiaojin Zhu(上海交通大学校友)，就是做semi－supervised的那个人，现在在wisconsin-madison做assistant professor。他做了迄今为止最全面的Semi-supervised learning literature survey，大家可以从他的个人主页中找到。这人看着很憨厚，估计是很好的陶瓷对象。另外我在（1）中所说的Jordan的牛弟子D Blei今年也投奔Lafferty做博后，就足见Lafferty的牛了。</p>
<p>Lafferty做NLP是很好的，著名的Link Grammar Parser还有很多别的应用。其中language model在IR中应用，这方面他的另一个中国学生ChengXiang Zhai(南京大学校友，2004年美国青年科学家总统奖(PECASE)得主)，现在在uiuc做assistant professor。</p>
<p>Machine learning 大家（4):Peter L. Bartlett</p>
<p>鄙人浅薄之见，Jordan比起同在berkeley的Peter Bartlett还是要差一个层次。Bartlett主要的成就都是在learning theory方面，也就是ML最本质的东西。他的几篇开创性理论分析的论文，当然还有他的书Neural Network Learning: Theoretical Foundations。</p>
<p>UC Berkeley的统计系在强手如林的北美高校中一直是top3，这就足以证明其肯定是群星荟萃，而其中，Peter L. Bartlett是相当亮的一颗星。关于他的研究，我想可以从他的一本书里得到答案：Neural Network Learning: Theoretical Foundations。也就是说，他主要做的是Theoretical Foundations。基础理论虽然没有一些直接可面向应用的算法那样引人注目，但对科学的发展实际上起着更大的作用。试想vapnik要不是在VC维的理论上辛苦了这么多年，怎么可能有SVM的问世。不过阳春白雪固是高雅，但大多数人只能听懂下里巴人，所以Bartlett的文章大多只能在做理论的那个圈子里产生影响，而不能为大多数人所广泛引用。</p>
<p>Bartlett在最近两年做了大量的Large margin classifiers方面的工作，如其convergence rate和generalization bound等。并且很多是与jordan合作，足见两人的工作有很多相通之处。不过我发现Bartlett的大多数文章都是自己为第一作者，估计是在教育上存在问题吧，没带出特别牛的学生出来。</p>
<p>Bartlett的个人主页的talk里有很多值得一看的slides,如Large Margin Classifiers: Convexity and Classification；Large Margin Methods for Structured Classification: Exponentiated Gradient Algorithms。大家有兴趣的话可以去下来看看。</p>
<p>Machine learning 大家（5): Michael Collins</p>
<p>Michael Collins (<a class="contentlink" href="http://people.csail.mit.edu/mcollins/" target="_blank">http://people.csail.mit.edu/mcollins/</a>)<br />
自然语言处理(NLP)江湖的第一高人。出身Upenn，靠一身叫做Collins Parser的武功在江湖上展露头脚。当然除了资质好之外，其出身也帮了不少忙。早年一个叫做Mitchell P. Marcus的师傅传授了他一本葵花宝典-Penn Treebank。从此，Collins整日沉迷于此，终于练成盖世神功。</p>
<p>学成之后，Collins告别师傅开始闯荡江湖，投入了一个叫AT&amp;T Labs Research的帮会，并有幸结识了Robert Schapire、Yoram Singer等众多高手。大家不要小瞧这个叫AT&amp;T Labs Research的帮会，如果谁没有听过它的大名总该知道它的同父异母的兄弟Bell Labs吧。</p>
<p>言归正传，话说Collins在这里度过了3年快乐的时光。其间也奠定了其NLP江湖老大的地位。并且练就了Discriminative Reranking， Convolution Kernels，Discriminative Training Methods for Hidden Markov Models等多种绝技。然而，世事难料，怎奈由于帮会经营不善，这帮大牛又不会为帮会拼杀，终于被一脚踢开，大家如鸟兽散了。Schapire去了 Princeton， Singer 也回老家以色列了。Collins来到了MIT，成为了武林第一大帮的六袋长老，并教授一门叫做的Machine Learning Approaches for NLP(<a class="contentlink" href="http://www.ai.mit.edu/courses/6.891-nlp/" target="_blank">http://www.ai.mit.edu/courses/6.891-nlp/</a>) 的功夫。虽然这一地位与其功力极不相符，但是这并没有打消Collins的积极性，通过其刻苦打拼，终于得到了一个叫Sloan Research Fellow的头衔，并于今年7月，光荣的升任7袋Associate Professor。</p>
<p>在其下山短短7年时间内，Collins共获得了4次世界级武道大会冠军(EMNLP2002, 2004, UAI2004, 2005)。相信年轻的他，总有一天会一统丐帮，甚至整个江湖。</p>
<p>看过Collins和别人合作的一篇文章，用conditional random fields 做object recogntion。还这么年轻，admire to death！</p>
<p>Machine learning 大家（6): Dan Roth</p>
<p>Dan Roth (<a class="contentlink" href="http://l2r.cs.uiuc.edu/~danr/" target="_blank">http://l2r.cs.uiuc.edu/~danr/</a>)<br />
统计NLP领域的众多学者后，我得出了一个惊人的结论，就是叫Daniel的牛人特别多: 大到MT领域成名已久的Prof. Dan Melamed，小到Stanford刚刚毕业的Dan Klein，</p>
<p>中间又有Dan jurafsky这种牛魔王，甚至Michael Collins的师弟Dan Bikel (IBM Research)，ISI的Dan Marcu，获得过无数次TREC QA评比冠军的Prof. Dan Moldovan (UTexas Dallas)，UC Berkeley毕业的Dan Gildea (U Rochester)。但是，在众多的Dan中，我最崇拜的还是UIUC的Associate Professor，其Cognitive Computation Group的头头Dan Roth。</p>
<p>这位老兄也是极其年轻的，Harvard博士毕业整十年，带领其团队撑起了UIUC Machine Learning以及NLP领域的一片灿烂天空。其领导开发的SNoW工具可谓是一把绝世好剑，基本达到了&#8221;又想马儿跑，又想马儿不吃草&#8221;的境界，在不损失分类精度的条件下，学习和预测速度空前。什么？你不知道SNoW？它和白雪公主有什么关系？看来我也得学学&#8221;超女&#8221;的粉丝们，来一个扫盲了: SNoW是Sparse Network of Winnows的简称，其中实现了Winnow算法，但是记住Sparse Network才是其重点，正是因为有了这块玄铁，SNoW之剑才会如此锋利。</p>
<p>近年来Roth也赶时髦，把触角伸向了Structured Data学习领域，但与其他人在学习的时候就试图加入结构化信息(典型的如CRF)不同，Roth主张在预测的最后阶段加入约束进行推理，这可以使的学习效率极大的提高，同时在某些应用上，还取得了更好的结果。还有就是什么Kernel学习，估计他也是学生太多，安排不下了，所以只好开疆扩土。</p>
<p>Harvard出身的Roth，理论功底也极其深厚，好多涉及统计学习理论的工作就不是我这种学工科的人关心的了。</p>
<p>个人补充一点：南京大学的一个Machine Learning的牛人网名也叫Daniel是不是跟文中的叙述有关呢，呵呵～</p>
]]></content:encoded>
			<wfw:commentRss>http://www.clfour.com/2009/04/machine-learning-big-master/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
	</channel>
</rss>
