| zhe's profilePhD突击PhotosBlogLists | Help |
|
|
8/31/2006 Days in MSRA(7)Farewell~~~~~~~~~~~~~~~~~ 时光荏苒犹如白驹过隙,四个月前满怀对MSRA的崇拜来到这里,然而就到了说Farewell的时候。 四个月的时间到底有多长?一年的1/3,如果我能活80岁,那么就是生命的1/240。幸运的是,这1/240在MSRA度过,在NLC度过。这样,将来,当我回首往事的时候,不会因为虚度年华而悔恨,也不会因为碌碌无为而羞愧,我为大家感到自豪 J 感谢周明老师,感谢您给予了我这次实习机会,作为我们的Manager,您渊博的学识、严谨的态度、对工作的细致和对学生的关心都让我折服,您的指导和教诲让我受益非浅。 请允许我将深深的敬意献给Mentor林钦佑老师。您做学问的严谨态度是我的榜样,您在研究中对我悉心指导,和您的每一次讨论都让我对问题有新的认识。 感谢思维敏锐、谦虚和善的建涛,从你身上我领略到了在微软文化下成长起来的优秀研究人员的风采。 三位都是学术界的大牛,当你们从万人景仰的publications中走到我的面前时,你们的平易近人、对学生的淳淳教导和对工作的热情使我非常感动。非常幸运,在NLC的日子里有幸得到你们的点拨,你们研究问题的思路和中肯的建议我都会铭记在心,这些将使我在学术之路上受益终身。
在这里有幸认识了许多优秀的VS,与你们一起学习和工作,这段日子真的很开心。 感谢陈伟,你是我来到MSRA认识的第一个人J,全靠你我才熟悉了MSRA的环境。非常荣幸能和你做了这么久的室友。唯一的意见是你应该少喝点H2CO3饮料J。 感谢已经Check out的袁伟、蒋松和向伟,你们是我在MSRA认识的第一批人,大家一起去吃大骨头、武昌鱼的情景犹在昨日。祝愿你们在大洋彼岸、在Baidu、在香港一切顺心,早日拿到Ph.D. J 感谢赵青,和你一起做项目、讨论、做研究实在是很开心的事情,你总是能有非常好的一些ideal,让我在受益之余感叹于小女生的不简单J 感谢小蜜蜂,崔晓源,张永华,大家一起踢毽子的时候总是那么High,晓源总是那么的敏捷,永华总是那么的cool,以致被认为是Beckham J 感谢马少东,你的程序总是那么的有意思,更重要的是,你给我和小蜜蜂的业余生活带来了不少乐趣,北邮的StarCraft果然名不虚传J 感谢赵海、李天、蒋龙、法洲,每周与你们的篮球赛总是那么的尽兴,那么的开心J 感谢叶小扬给我们cubicle带来的活力,希望将来能够再听到你那银铃般的笑声,赏心悦耳J 感谢徐小琳同学给大家名字里面加的“小”字,这样大家都年轻了不少J 感谢石磊、Henry、张东东、刘晓华、苏昊、John Lee等等,大家一起将NLC营造成为了一个幸福温馨的大家庭,(music~ chorus~)大家是相亲相爱的一家人J 好朋友是一辈子的财富,能够认识你们是我一辈子的荣幸。 感谢Eileen JJ和UR为我们组织了精彩的Winedown和BBQ,你们的辛勤工作为我们带来了无尽的欢乐。 感谢Shirley和HR、行政部的辛勤工作,使得我们无后顾之忧,能够安心工作。
太多的人值得感谢,这里没法列出他们中的每一个。再次感谢所以关心和支持过我的朋友,祝你们今后的人生无限精彩。大家如果去上海,一定要来交大找我,I miss you all J 8/30/2006 Days in MSRA(6)Sigma Center.
3F.
Lounge Room.
Final Research Report on my project.
Fortunately, I get some promising results in the interesting direction.
I am checking out tomorrow. I will never forget the exciting summar in Microsoft Research Asia.
BBQ犹在昨日。
Slogan “Our Passion, Our Dream”。
果然是一年一度的热闹场面。
“Work hard, Play harder!”
Harry Shum切蛋糕。
6/18/2006 Days in MSRA(5) 今天是到MSRA的第38天,将来北京的一些片断列一列,和前面几篇相对的专题辉映一下。
1. 北京的天气
北京确实太干燥了。虽然这样不会像南方一样夏天空气里面的水分都被加热了,人就像呆在蒸笼里面一样;虽然站在树下会比较凉快,不会像南方的树下那么热。但是静电太多了。每天要接触金属物体的时候,先要下意识的先放电,比如按电梯,比如开房间的门,比如翻城铁的栏杆......这一个月放电的次数超过了过去二十几年的总次数!现在对放静电已经有了心理阴影。
2. MS的高校访问
上周Manager去上海交大和复旦进行了访问。Niu Sir惊叹于交大老师的待遇,“现在高校教师居然开这么好的车啊!”,“交大的闵行校区太漂亮,太壮观了,大楼盖得比国外的大学还好!”,“世界一流的大学需要两个条件:其一是大楼,其二是大师。现在大楼已经有了,就等着大师来了,这样世界一流就指日可待了!”和袁伟同学讲的一样,交大就是不缺钱!和武连书同志讲的一样,鉴于经济条件因素,交大成为国际一流大学的步伐甚至可能超过清华和北大。
3. 从MS的产品说开去
最近MSN的Cartoon系统开放了(http://cartoon.msn.com.cn),据说这个项目的DEMO早在两年前就已经在到处秀了,据说是MSRA的Visual Computing组的杰作。其实,这一人脸识别技术已经是相当成熟的了,包括用于保安系统都是没有问题的,然而VC组给这一技术找到了一个有趣的应用。就像我们组的对联系统一样,不了解计算机科学的人,认为这个很神奇,自动对对联啊,人还不一定能对出来呢,这个比机器自动翻译系统强多了,机器翻译人都会。可是,外行看热闹,内行看门道,这个对联系统,其实就是个翻译系统,而且还没有单词对齐的问题呢。其实,我最终想下的结论是,作为科学家,用技术来创造神奇的应用,改变用户的生活体验,是非常重要的。当然,我期待着我们组同时的对联系统早日变成MSN Chinese Couplet Beta。 6/17/2006 Days In MSRA (4) 今天是到Micorsoft Research Asia的第37天。本来在30天的时候想记录一笔的,可是AIMS项目的Evaluation的数据迟迟不出来。现在,这个也告一段落了。
目前,最大的感受是研究方法已经在MSRA的大牛们的影响下被潜移默化。在这里,研究的Related work的调研、baseline的选择和evaluation metrics的确定具有非常重要的地位,而这些,是原来在研究过程中经常被忽视的部分。做真正world class的research,必须在这些方面也要打到world class的水准。
Manager Ming Zhou说的好,项目应该分成两类:工程和研究(其实可能叫工程研究和计算机科学研究更贴切)。那么在做论文的时候,应该首先定位好这一点。
如果是做工程研究,那么就应该不惜一切代价来提高程序的效率、准确度等等指标。这些代价更多的是指使用比别人更多的资源或者细节的features。比如一个机器翻译系统,使用牛津英汉词典作为系统预料库,显然比使用四级词典作为系统预料库要性能好得多的多。再比如搜索引擎系统,Google对每个网页使用1000个feature来进行ranking,就肯定要比使用500个feature的搜索系统的performance要好很多。事实上,工程研究的目的就是在使用相同算法的情况下,使得我的系统和别人的系统不站在一条起跑线上。
如果是做科学研究,那么就应该focus on algorithm。应该和别人使用同样的预料库,同样的features,但是,使用不同的算法来改善系统的complexity和precision。这就意味这不能使用投机的方法来获得性能改进,应该“正大光明”的竞争。比如,在Natural Language Computing中,仅tagging,使用HMM模型、最大熵模型等等就是算法上的不同。
Baseline的重要性再次被强调,你做一个机器翻译系统,如果拿去和一个小网站上面的机器翻译系统去比precision,那么是毫无意义的,就像大人和小孩比力气一样没有意义。因此,要做world class的研究,应该和world class的人和系统去比,文章也应该发到world class的conference和journal上面。
其实,对于是否可以一项研究同时包括工程研究和科学研究两个内容我仍然没有被Ming Zhou说服。比如98年Brin和Page的那篇剖析Google架构的文章,既包括了Google的细节实现(crawler, index, barrals, search甚至存储结构的细节),也包括了Google的PageRank算法(这一算法是Google能开创Search 2.0的根本)。可以说前者是工程,后者是科学研究。
其实,我一直认为,除了工程和科学研究之外,计算机领域还存在数学和理论研究这一领域,这是计算机科学的最基本领域。限于Microsoft要盈利的公司模式,这一短期内没什么效益的领域在Microsoft中不怎么吃香。然而,这是推动计算机发展的最基础的源泉。当今的计算机研究,自然语言处理、机器翻译几乎都是基于概率统计数学,图像处理基于小波分析,还有在人工智能领域曾经红极一时的数理逻辑学派,现代计算机的原型Turing机、有限自动机,还有可以证明某一问题是否计算机有限时间内可解的计算理论(包括可计算性、计算复杂性,以致model checking等等),是许多计算机科学的根本基础。
所以,从下之上应该将计算机领域的研究问题归结为三个层次:
Math and Theory --> Algorithm, Principle and Concept --> Application
本人正在痛苦而举步为坚的从上往下进化和返朴归真中........... 5/26/2006 Days in MSRA(3) 今天是on board微软亚洲研究院的第15天。
最近终于将AIMS项目(Automatic Instruments of MSN Search)的前一阶段完成了,也就是大数据量自动收集阶段,一个程序跑好久才出来结果数据。
最近的两个会议,值得写一下。其一是NLC组的内部会议,Dr.Ming Zhou (My mentor & manager)介绍了一下微软亚洲研究院NLC组的光辉历史,谈到了最近三篇ACL论文的发表,鼓舞了一下全组的士气。中间对论文和研究的经验和教训进行了总结,其中Chin-Yew Lin (My Project Leader) 做为一名论文“老手”谈 了一下做研究的经验,我将其归纳如下:
1.为什么要做? 研究是不是有意义?没有意义的研究不应该做。 2.要做什么?别人已经做了什么?我的目标和预期成果是什么? 这一阶段,调研非常重要,虽然比较繁琐。对于现阶段研究的baseline的了解不同会直接影响research的direction。我们应该站在业界和研究的角度,根据人力的配置来选题(比如有人善于coding,有人善于math model等等)。 解决了这个问题,那么paper的Introduction和conclusion section就可以了。 3.做实验来验证你的想法,并拿到足够的data。 这是paper中最重要的部分,data和实验是别人承认研究成果的保证。 4.Evaluation非常重要。 大家都做研究,为什么你的比别人的结果好?好在哪里?为什么会好?valuation section应该给出信服的答案。 Chin-Yew一直都是做Evaluation,无论是QA也好,Automatic Summarization也好,可以说是"NLC研究评论专家",所以他非常重视Evaluation也不足为怪了。事实上,在稍后的5月17日,微软剑桥研究院高级研究员Tony Hoare博士在亚洲研究院的报告也谈到了这个问题。他认为: We should focus on basic questions of computer science. When we start research on a product, we should know: 1. What does product do? 2. How does it works, including components etc.? 3. Why does it works? What scientific theory des it rely on?
4. How we know answers are correct? So, we need experiments, evaluation, proof or check by computer. 事实上,Tony Hoare和Chin-Yew Lin在研究方向和论文撰写上很多意见都是英雄所见略同的。他们的总结对研究非常有指导意义。 Appendix: Biography of Tony Hoare
Tony Hoare博士是资深的计算机科学家,他在计算机语言、软硬件架构、操作系统研究以及科研成果转化等诸多方面均有极高的造诣。1959年,Tony Hoare 博士毕业于俄罗斯莫斯科国立大学,获得语言机器翻译专业学士学位。随后就职于Elliott Brothers公司,领导了Algol 60第一个商用编译器的设计和开发。由于其出色成绩,最终成为该公司首席科学家。1968年,Tony Hoare 博士被聘任为英国贝尔法斯特女王大学计算机科学系的教授,从事有关计算机操作系统方面的研究。从1977年开始,Tony Hoare博士任职于牛津大学,投身于计算系统的精确性的研究、设计及开发。因其对Algol 60程序设计语言理论、互动式系统及APL的贡献,Tony Hoare 博士于1980年被美国计算机协会授予“图灵奖”。1999年在牛津大学退休后,Tony Hoare博士被微软剑桥研究院聘请担任高级研究员,从事微软剑桥研究院研究成果的工业化应用的工作,以及协助其它研究人员进行服务于软件产业及用户的长期基础研究项目。他是计算机主要课程《数据结构》中Quick Sort(快速排序)的发明人,将排序时间复杂度降低到了O(n*logn)。 今天下午参加了来MSRA的第一个Winedown,Xiao'ou Tang确实非常幽默,一个小时的report下面笑声不断,做为一名MIT毕业的大牛Ph.D.,还是个笑星实在难能可贵啊:-)
上次NLC组吃饭的照片也传一张,呵呵。 5/15/2006 Days In MSRA(2) 今天开了两个meeting,其一是和mentor们的project meeting,感觉对于项目的进行更加明确了。下午将Google的API弄了一下,现在可以使用Google的引擎了,就等着把MSN的数据copy过来然后对MSN的数据库进行对比分析了。MSN Search超过Google指日可待,至少我们Group是这样自信的,哈哈。另外,Chin-Yew Lin老师说,他也是交大毕业的,只不过是台湾新竹交大,而且,我是他的第一个弟子,开门弟子(要是晚来几天就差点排第二了。。。)。
其二是一个Report,Microsoft Research Redmond的Gina Venolia过来了Microsoft Research Asia一趟,她是the Human Interactions of Programming team的,主要讲了对程序员编程的一些研究和开发辅助工具的研究。有几个有趣的东西,一个Code Thumbnail,就是代码缩略图,可以很清晰的讲一个大文件中的代码的样子缩略出来,便于查找。另外,还有个code map,将代码的调用地图给可视化出来,很beautiful。由于是American,所以说的都是英语,这时候才发现自己的听力有多烂,得努力才行了啊。 5/14/2006 Days In MSRA(1) 到微软亚洲研究院已经有那么几天了,目前感觉还是不错的。机器不错,Pentium IV 3G/1G DDR还是很快的,正版Microsoft系列也比较放心,特别是Drink Room很爽,各式饮料一应俱全,加上饼干,某些人恐怕不吃饭也可以过活了。个人认为,这些东西容易发胖,是个大陷阱。
上周五下午见到了我的Mentor 周明和Chin-Yew Lin, 这次主要是要做MSN搜索的自动评测平台,用做MSN开发研究的改进指导,看来Microsoft这次是和Google横上了。据这里的人说,Google搜索倒是没什么威胁,主要是他野心太大,想吞MS的其它业务,这是MS无法容忍的。不过,我觉得,MSN超过Google倒是比Google做一个OS容易多了。
下周一就有一个Project meeting,本来想好好准备一下,些个summarization的,可是看来现在还没有进入research 的状态。昨天写了一些,想了个简单的数学模型,可是不满意。今天没状态。慢慢来吧,哎。 |
|
|