Evan さんのプロフィールEvan's spaceフォトブログリストその他 ツール ヘルプ

天気

読み込み中...

カスタム HTML

全 8 枚中 1 枚目

Xiang Evan

Evan's space

2009年7月

拿下华富阁顶楼600尺无敌海景露台房

华富阁位于玛丽医院和黄竹坑中间位置

 
大体位置在港岛西南侧,以后去HKUST返工需要穿香港仔隧道了
 

户型是一厅2房卫生间厨房,因为是顶楼,所以还有露台

不说了,直接上片片。手机拍的,不太清楚
先是厨房
 
厨房外是老婆指示要的大露台,还可以上天台
 
从厨房往客厅看,右边是大门
 
从大门看大厅,左边是厨房,右边是卧室
 
卫生间
 
小卧室,左窗靠山,右窗临海
 
大卧室有2个壁柜加一个立柜,所以显得有些挤
 
大卧室的无敌海景
 
最后补一张铜锣湾的大巴图
 
房东是一对老人,就住在同一个小区里,人很热情。
我也感觉很幸运能找到一位很nice的室友一起合租。
2009年6月

Intel X25-M Test

再来一张极品Intel X25-M! 10通道果然不是盖的, 同时BT,考电影图片音乐完全不卡
 
HDTune - 升固件之前: 045C8610
 
HDTune - 升固件之后: 045C8820
 
ATTO - 升固件之前: 045C8610
 
ATTO - 升固件之后: 045C8820
 
 
 
2009年4月

Windows 7 RC Test

用X200T测了下Windows7 RC x86
 
这张是HDD320G的
 
这张是HDD320G+2G Turbo Memory
这张是MLC SSD120G+2G Turbo Memory
上次在Windows7 Beta版测MLC SSD120G居然有6.8分,看来现在这个bug已经被fix了
 

2008年12月

脂肪肝的饮食

  1、绝对禁酒。
  2.选用去脂牛奶或酸奶。
  3.每天吃的鸡蛋黄不超过2个。
  4.忌用动物油;植物油的总量也不超过20克。
  5.不吃动物内脏(即下水、下货)、鸡皮、肥肉及鱼籽、蟹黄。
  6.忌食煎炸食品。
  7.不吃巧克力。
  8、常吃少油的豆制品和面筋。
  9.每天食用新鲜绿色蔬菜500克。
  10.吃水果后要减少主食的食量,日吃一个大苹果,就应该减少主食50克。
  11.山药、白薯、芋头土豆等,要与主食米、面粉调换吃,总量应限制。
  12.每天摄入的盐量以5-6克为限。
  13.葱、蒜,姜、辣椒等“四辣”可吃,但不宜多食。
  14.经常吃鱼、虾等海产品。
  15、降脂的食品有:燕麦、小米等粗粮,黑芝麻、黑木耳、海带、发莱以及菜花等绿色新鲜蔬菜。
  16.晚饭应少吃,临睡前切忌加餐。
2008年8月

连末节翻盘都让我猜中了

下午赶工没看比赛,但是照上一场输球的模式,这场被翻盘也是很正常地;
工作区完全没人了,我想如果不是全场领先,也不会有这么多人去看球吧;
同学们不要吵了,谁比较拚,谁没带大脑,谁用兵不当,看一看技术统计,
一目了然。
2008年7月

北京铁通。。。

装个电话而已,先后被电信和网通踢皮球。。。。。。最后终于被铁通收留。。。。。。可是“营业厅”在。。。。。。西直门火车站售票厅!?。。。。。。旁边小巷子50米深处,只有2个店员,一个负责填表兼卖上网卡一个负责打字兼客服电话。呃,店面大小。。。。。。估计比一般卖雪糕的小卖铺。。。。。。小一点吧

北京的派出所。。。

只想办个暂住证而已,被4家派出所踢皮球。。。
2008年4月

记ESCA第一次被拒

其实paper的目的并不是为了某一个问题提出一个解决方案,其真正的目的是向读者阐述自己对于这个问题从某个角度的理解,而解决方案仅仅是论据而已。
2008年3月

鞋~

新入手TS Lightspeed T-MAC~
 
 
  
 
 
2008年2月

离京

第二次MSRA的Intern又结束了,虽然只有短短的3个月,但是挺提神的,毕竟在学校里待长了,就不知不觉会有种惰性。这次做paper,终于体会到Teamwork的作用,众人的智慧的确能弥补个人思维的局限性。
 
昨天回到学校,路上居然花了1整天,9点出门,18点才到。虽然有些疲惫,但是心情还是不错地。先谢谢香港的兄弟姐妹们为我接风,小昊哥帮我解决了房子问题,studentship问题也摆平了,电话卡也恢复了。还有北京的兄弟姐妹们,虽然我走了,但是我还是会想你们地,你们饭还是要搓地,球还是要打地,队伍是不能散地。
2007年12月

C# vs Perl

刚才拿C#和Perl做了一组对比小实验,发现二者性能差距甚远。
C#每秒大约能做1G次加法。
Perl每秒只能做5M次加法。
同样易于处理文本实验,看来以后跑巨型实验得多用C#了。
2007年10月

鞋~

最近猛然发现宿舍已经囤积了5双鞋了,想想家里还有5双躺着睡觉。
 
年底打算把Answer IV, V, Francis III 退役。
 
可是年底又要有Answer XI 和Question III, DMX vs HEX 踌躇阿~
 
 
2007年8月

Ajax...

又要洗脑了,现在不会Ajax没法写网页了。。。
找到一个Ajax教程网站,demo video和code都很全,给大家分享一下
2007年4月

復活節

復活節(主復活日)是一個西方的重要節日.他象徵著重生與希望,為紀念耶穌基督於公元30到33年之間被釘死在十字架之後第三天復活的日子。通常與耶穌受難日一起放假。今天,許多與復活節相關的民間風俗都不是起源於基督教的。耶穌基督只吩咐門徒要記念自己的死亡

復活節原本是古代異教的「春節」,是慶祝春回大地一切恢復生機的節日。復活節可追溯到古巴比倫的愛情、生育和戰爭女神『伊什塔爾』(Ishtar)。後來,此女神變成了西歐的黎明和春天女神 Eastre(證據之一是兩個名字相似的讀音)。另一證據是 Eastre 此字有東方(即 East)的含義,因太陽是從東方升起的

亞歷山大·希斯洛普著的《兩個巴比倫》說「Easter」『音譯『伊斯特爾』,即復活節』這個詞是什麼意思呢?Easter是個名字。源自迦勒底,跟基督教沒有關係。Easter其實就是『阿斯塔特』,即天后『貝爾斯特』的頭銜之一。考古學家萊亞德在亞述的碑銘上發現,『貝爾特斯』這個名字就是指古巴比倫的生育和戰爭女神『伊什塔爾』。這就是『復活節』(Easter)的來歷

復活節會在每年春分月圓之後第一個星期日舉行,因為春分之後便開始日長夜短——光明大過黑暗,月圓的時候,不但在日間充滿光明,就連漆黑的夜晚也被光輝(月光)照耀。由此,這正好是耶穌復活——光明戰勝黑暗的寫照。

羅馬帝國君士坦丁大帝在公元325年召開第一次尼西亞公會議,訂明了復活節是星期日,因星期日被教會視作為安息日,即耶穌死而復活的日子,所以復活節就在每年春分月圓後第一個星期日舉行。

此後每年3月21日以後,出現月圓後的第一個星期日,就是復活節,惟計算復活節的方法,自古以來均十分複雜,拉丁文Computus(計算)一字更專指計算復活節的方法,而羅馬教會及東正教會的計算亦略有差異,令東西方復活節可在不同日子出現。

1997年,國際普世教會協會在敘利亞召開會議時,曾建議改革計算復活節的方式,並建議統一東、西教會的復活節,但至今絕大部分國家仍沒有跟隨。

復活節前日即復活節前的星期六。在基督徒心中,是等待耶穌基督自死中復活的日子。當日羅馬天主教會不舉行彌撒,直到晚上才慶祝基督戰勝罪惡和死亡,為人類帶來救恩和希望

在西方,與復活節相關的物品有復活節兔和復活節彩蛋。傳說復活節彩蛋都是兔子的蛋(但事實上,兔子其實是不下蛋的,所以復活節彩蛋其實都是雞蛋),有些人喜歡在蛋上畫各種各樣的鬼臉或花紋。而這些民間風俗都是起源於非基督教的。

《天主教百科全書》指出「復活節吸納了許多慶祝春回大地的異教習俗。」蛋象徵初春一切恢復生機。兔子是個異教象徵,代表多產。如今依然流行的復活節慶祝活動,充分證明了歷史所反映的事實,那就是復活節含有濃厚的巴比倫色彩。今天人們在耶穌受難日吃十字包和在復活節吃彩蛋,這些宗教習俗可見於迦勒底的宗教儀式中。

2007年1月

维多利亚湾夜景

开ICDM顺手拍了几张维多利亚湾的夜景
 
 
 
 
 
 
 
2006年11月

HTML字符編碼大全

往網頁中輸入特殊字符,需在html代碼中加入以&開頭的字母組合或以&#開頭的數字。例如,版權標誌符©即是用©或©表示。 
常用符號“<”、">"、"&"、"空格"分別用“&lt;”、“&gt;”、“&amp;”、“&nbsp;”表示,注意這些符號對大小寫是敏感的。
下面就是以字母或數字表示的特殊符號大全。

字母編碼 數字編碼 效果 說明
&#00;- &#08; 沒被使用
  &#09; horizontal tab
  &#10; line feed
&#11; 沒被使用
&#32; 空格
&#33; !    
&quot; &#34; "    
  &#35; #    
&#36; $    
&#37; %    
&amp; &#38; &    
  &#39; '    
  &#40; (    
  &#41; )    
  &#42; *    
  &#43; +    
  &#44; ,    
  &#45; -    
  &#46; .    
  &#47; /    
  &#48;- &#57;   數字從0到9
  &#58; :    
  &#59; ;    
&lt; &#60; <    
  &#61; =    
&gt; &#62; >    
  &#63; ?    
  &#64; @    
  &#65;- &#90;   大寫字母從A到Z
  &#91; [    
  &#92; \    
  &#93; ]    
  &#94; ^    
  &#95; _    
  &#96; `    
  &#97;-&#122;   小寫字母從A到Z
  &#123; {    
  &#124; |    
  &#125; }    
  &#126; ~    
  &#127;   
  &#128;- &#129;   沒被使用
  &#130;  
  &#131; ƒ  
  &#132;  
  &#133;  
  &#134;  
  &#135;  
  &#136; ˆ  
  &#137;  
  &#138; Š  
  &#139;  
  &#140; Œ  
  &#141;- &#144;   沒被使用
  &#145;     
  &#146;     
  &#147;     
  &#148;     
  &#149;     
  &#150;     
  &#151;     
  &#152; ˜    
  &#153;     
  &#154; š    
  &#155;     
  &#156; œ    
  &#157;- &#158;   沒被使用
  &#159; Ÿ    
&nbsp; &#160;     不換行空格
  &#161; ¡    
  &#162; ¢    
  &#163; £    
  &#164; ¤    
  &#165; ¥    
  &#166; ¦    
  &#167; §    
  &#168;     
&copy; &#169; ©    
  &#170; ª    
  &#171; «    
  &#172; ¬    
  &#173; ­    
&reg; &#174; ®    
  &#175; ¯    
  &#176; °    
  &#177; ±    
  &#178; ²    
  &#179; ³    
  &#180; ´    
  &#181; µ    
  &#182;     
  &#183; ·    
  &#184; ¸    
  &#185; ¹    
  &#186; º    
  &#187; »    
  &#188; ¼    
  &#189; ½    
  &#190; ¾    
  &#191; ¿    
&Agrave; &#192; À    
&Aacute; &#193; Á    
&Acirc; &#194;     
&Atilde; &#195; à   
&Auml; &#196; Ä    
&Aring; &#197; Å    
&AElig; &#198; Æ    
&Ccedil; &#199; Ç    
&Egrave; &#200; È    
&Eacute; &#201; É    
&Ecirc; &#202; Ê    
&Euml; &#203; Ë    
&Igrave; &#204; Ì    
&Iacute; &#205; Í    
&Icirc; &#206; Π   
&Iuml; &#207; Ï    
&ETH; &#208; Р   
&Ntilde; &#209; Ñ    
&Ograve; &#210; Ò    
&Oacute; &#211; Ó    
&Ocirc; &#212; Ô    
&Otilde; &#213; Õ    
&Ouml; &#214; Ö    
  &#215; ×    
&Oslash; &#216; Ø    
&Ugrave; &#217; Ù    
&Uacute; &#218; Ú    
&Ucirc; &#219; Û    
&Uuml; &#220; Ü    
&Yacute; &#221; Ý    
&THORN; &#222; Þ    
&szlig; &#223; ß    
&agrave; &#224; à    
&aacute; &#225; á    
&acirc; &#226; â    
&atilde; &#227; ã    
&auml; &#228; ä    
&aring; &#229; å    
&aelig; &#230; æ    
&ccedil; &#231; ç    
&egrave; &#232; è    
&eacute; &#233; é    
&ecirc; &#234; ê    
&euml; &#235; ë    
&igrave; &#236; ì    
&iacute; &#237; í    
&icirc; &#238; î    
&iuml; &#239; ï    
&eth; &#240; ð    
&ntilde; &#241; ñ    
&ograve; &#242; ò    
&oacute; &#243; ó    
&ocirc; &#244; ô    
&otilde; &#245; õ    
&ouml; &#246; ö    
  &#247; ÷    
&oslash; &#248; ø    
&ugrave; &#249; ù    
&uacute; &#250; ú    
&ucirc; &#251; û    
&uuml; &#252; ü    
&yacute; &#253; ý    
&thorn; &#254; þ    
&yuml; &#255; ÿ    
  &#8217;    老版本瀏覽器不支援
  &#8220;    老版本瀏覽器不支援
  &#8221;    老版本瀏覽器不支援
&euro; &#8364; ?   老版本瀏覽器不支援
2006年9月

颱風

台风热带气旋的一种。气象学上,按世界氣象組織定義:熱帶氣旋中心持續風速達到級12級及以上(即每秒32.7米)稱為颶風或本地近義字(local synonym),其中北太平洋西部(國際日期線以西,包括南中國海)使用的近義字是颱風。

據美國軍方聯合颱風警報中心統計1959年至2004年間西太平洋及中國南海海域的颱風發生的個數與月份,平均每年有17.7個颱風生成,出現最多颱風的月分是八月,其次是九月和十月。

名稱

根據世界氣象組織規定,於北太平洋西部及南中國海發生的熱帶氣旋,分為熱帶低氣壓熱帶風暴強烈熱帶風暴颱風;連同可能發展成為熱帶氣旋的低壓區,共五級。各地向外公佈的分級和名稱有時略有不同。以下為中國大陸、港澳、台灣及美國氣象機構使用的分級方法:

名稱 中心持續風力 中國大陸 台灣 香港/澳門 美國
聯合颱風警報中心
低壓區(熱帶擾動
熱帶低氣壓 8級以下,即≤17.1米/秒,
每小時不足33海里/62公里
熱帶低壓 熱帶性低氣壓 熱帶低氣壓 熱帶低壓
熱帶風暴 8至9級,即17.2至24.4米/秒
每小時34至47海里/62至88公里
熱帶風暴 輕度颱風 熱帶風暴 熱帶風暴
強烈熱帶風暴 10至11級,即24.5至32.6米/秒
每小時48至63海里/89至117公里
強熱帶風暴 強烈熱帶風暴
颱風 12級以上,即≥32.7米/秒
每小時64海里/118公里或以上
颱風 颱風 颱風 颱風
12級至13級,即32.7至41.5米/秒
每小時64海里至81海里
颱風 中度颱風
14級至15級,即41.5至50.9米/秒
每小時81海里至99海里
强颱風
16級以上,即≥51米/秒
每小時100海里以上
超强颱風 強烈颱風
每小時130海里以上1 超級颱風

1美國聯合颱風警報中心採用一分鐘平均風速計算中心持續風力,其他氣象機構使用十分鐘平均。在美國標準之下的颱風中心風速會較為高。

命名及編號

因為海洋上可能同時出現多個颱風(在西北太平洋,最高記錄是5個同時存在,這也是全球的記錄),美國軍方於關島上設置的聯合颱風警報中心(現已移至夏威夷),在二次大戰習慣對各颱風給予名字,方便識別。最初的名字全為女性,後來在1979年加入男性名字。從1947年1999年北太平洋西部及南海區域的熱帶氣旋非正式地採用上述名字。

早在20世紀初至中期,中國大陸台灣日本已自行為區內的颱風編配一個4位數字編號,編號首2位為年份,後2位為該年順序號。例如0312,即2003年第12號熱帶氣旋。而美國海軍則為整個太平洋內的熱帶低氣壓編配一個兩位數字編號(後來改成兩位數字加上英文字母)。

為減少混亂,日本在1981年獲委託為每個西北太平洋及南海區域內的達到熱帶風暴強度的熱帶氣旋編配一個國際編號,但容許其他地區繼續自行給予編號。自此,在大部分國際發布中,發布機構會把國際編號放在括號內(JTWC除外)。

2000年開始,日本氣象廳會同時根據一套新名單為這些熱帶氣旋命名。這些名字及編號除了用於為國際航空航海界發放的預測和警報外,亦是向國際媒體發放熱帶氣旋消息時採用的規範名稱。

現在西北太平洋及南中國海熱帶氣旋的名字,由國際氣象組織颱風委員會的14個東亞區內的會員提供,各交十個名字,分為五組,循环使用(即用完140个后名称,回到第一个重新开始)。

命名的删除: 如当前被命名的熱帶氣旋对生命或财产造成重大伤亡和损失的。国际气象组织会讨论决定,是否将其从循环名单中删除,再由原来这个名称的国家重新提交新的名称,而提供名字的地區亦可自行要求更換名字。新的名字必須獲國際氣象組織颱風委員會全體通過。

來源 I II III IV V
柬埔寨 達維 康妮 娜基莉 科羅旺 莎莉嘉
中國 龍王 玉兔 風神 杜鵑 海馬
北韓 鴻雁 桃芝 海鷗 彩虹 米雷
中國香港 啟德 萬宜 鳳凰 彩雲 馬鞍
日本 天秤 天兔 北冕 巨爵 蝎虎
老撾 布拉萬 帕布 巴蓬 凱薩娜 洛坦
中國澳門 珍珠 蝴蝶 黃蜂 芭瑪 梅花
馬來西亞 杰拉華 聖帕 鸚鵡 茉莉 苗柏
密克羅尼西亞 艾雲尼 菲特 森垃克 尼伯特 南瑪都
菲律賓 碧利斯 丹娜絲 黑格比 盧碧 塔拉斯
南韓 格美 百合 薔薇 銀河 奧鹿
泰國 派比安 韋帕 米克拉 妮妲 玫瑰
美國 瑪莉亞 范斯高 海高斯 奧麥斯 洛克
越南 桑美 利奇馬 巴威 康森 桑卡
柬埔寨 寶霞 羅莎 美莎克 燦都 納沙
中國 悟空 海燕 海神 電母 海棠
北韓 清松 楊柳 紅霞 蒲公英 尼格
中國香港 珊珊 玲玲 白海豚 獅子山 榕樹
日本 摩羯 劍魚 鯨魚 圓規 天鷹
老撾 象神 法茜 燦鴻 南川 麥莎
中國澳門 貝碧嘉 琵琶 蓮花 瑪瑙 珊瑚
馬來西亞 溫比亞 塔巴 浪卡 莫蘭蒂 瑪娃
密克羅尼西亞 蘇力 米娜 蘇迪羅 凡亞比 古超
菲律賓 西馬侖 海貝思 莫拉菲 馬勒卡 泰利
南韓 飛燕 浣熊 天鵝 鮎魚 彩蝶
泰國 榴槤 威馬遜 莫拉克 暹芭 卡努
美國 尤特 麥德姆 艾濤 艾利 韋森特
越南 潭美 夏浪 環高 桑達 蘇拉

================================ 

颱風信號

香港天文台澳門地球物理暨氣象局採用兩套相當類似的熱帶氣旋警告系統,於熱帶氣旋逼近香港澳門時發出。

信號名稱 標誌 意義
1號戒備信號 Image:Tc1.gif 熱帶氣旋集結在香港澳門800公里之內,稍後可能影響香港或澳門。
3號強風信號 Image:Tc3.gif 維多利亞港內或澳門正吹強風,或預料會吹強風,持續風力每小時41至62公里,陣風可能達每小時110公里。
8號烈風或暴風信號 Image:Tc8ne.gif
Image:Tc8nw.gif
Image:Tc8se.gif
Image:Tc8sw.gif
維多利亞港內或澳門正吹烈風暴風,或預料會吹烈風或暴風,風將從信號所指方向吹來,持續風力每小時63至117公里,陣風可能達每小時180公里。
9號烈風或暴風風力增強信號 Image:Tc9.gif 烈風或暴風將顯著加強。
10號颶風信號 Image:hktc10.gif 風力現正或將加強至颶風程度,持續風力每小時118公里以上,陣風可能達每小時220公里。

同一個熱帶氣旋對香港及澳門的影響不盡相同,因此兩地不一定會同時發出相同的警告。

================================

中國

沿海

  • 警报:预计未来48小时内将影响本责任区的沿海地区或登临时发布警报。
  • 紧急警报:预计未来24小时内将影响本责任区的沿海地区或登临时发布紧急警报。

(影响是以沿海开始出现8级风或暴雨为标准。)

陸上

  • 台风蓝色预警信号:24小时内可能受热带气旋影响,平均风力可达6级以上,或阵风7级以上;或者已经受热带气旋影响, 平均风力为6~7级,或阵风7~8级并可能持续。
  • 台风黄色预警信号:24小时内可能受热带气旋影响,平均风力可达8级以上,或阵风9级以上;或者已经受热带气旋影响, 平均风力为8~9级,或阵风9~10级并可能持续。
  • 台风橙色预警信号:12小时内可能受热带气旋影响,平均风力可达10级以上,或阵风11级以上;或者已经受热带气旋影响, 平均风力为10~11级,或阵风11~12级并可能持续。
  • 台风红色预警信号:6小时内可能或者已经受热带气旋影响,平均风力可达12级以上,或者已达12级以上并可能持续。

(廣東繼續設立台风白色预警信号,表示熱帶氣旋可能於48小時內影響本地。)

2006年7月

数据挖掘中分类算法小结

    数据仓库,数据库或者其它信息库中隐藏着许多可以为商业、科研等活动的决策提供所需要的知识。分类与预测是两种数据分析形式,它们可以用来抽取能够描述重要数据集合或预测未来数据趋势的模型。分类方法(Classification)用于预测数据对象的离散类别(Categorical Label);预测方法(Prediction )用于预测数据对象的连续取值。

分类技术在很多领域都有应用,例如可以通过客户分类构造一个分类模型来对银行贷款进行风险评估;当前的市场营销中很重要的一个特点是强调客户细分。客户类别分析的功能也在于此,采用数据挖掘中的分类技术,可以将客户分成不同的类别,比如呼叫中心设计时可以分为:呼叫频繁的客户、偶然大量呼叫的客户、稳定呼叫的客户、其他,帮助呼叫中心寻找出这些不同种类客户之间的特征,这样的分类模型可以让用户了解不同行为类别客户的分布特征;其他分类应用如文献检索和搜索引擎中的自动文本分类技术;安全领域有基于分类技术的入侵检测等等。机器学习、专家系统、统计学和神经网络等领域的研究人员已经提出了许多具体的分类预测方法。下面对分类流程作个简要描述:

训练:训练集——>特征选取——>训练——>分类器

分类:新样本——>特征选取——>分类——>判决

最初的数据挖掘分类应用大多都是在这些方法及基于内存基础上所构造的算法。目前数据挖掘方法都要求具有基于外存以处理大规模数据集合能力且具有可扩展能力。下面对几种主要的分类方法做个简要介绍:

(1) 决策树

决策树归纳是经典的分类算法。它采用自顶向下递归的各个击破方式构造决策树。树的每一个结点上使用信息增益度量选择测试属性。可以从生成的决策树中提取规则。

(2) KNN法(K-Nearest Neighbor)

    KNN法即K最近邻法,最初由Cover和Hart于1968年提出的,是一个理论上比较成熟的方法。该方法的思路非常简单直观:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。

    KNN方法虽然从原理上也依赖于极限定理,但在类别决策时,只与极少量的相邻样本有关。因此,采用这种方法可以较好地避免样本的不平衡问题。另外,由于KNN方法主要靠周围有限的邻近的样本,而不是靠判别类域的方法来确定所属类别的,因此对于类域的交叉或重叠较多的待分样本集来说,KNN方法较其他方法更为适合。

    该方法的不足之处是计算量较大,因为对每一个待分类的文本都要计算它到全体已知样本的距离,才能求得它的K个最近邻点。目前常用的解决方法是事先对已知样本点进行剪辑,事先去除对分类作用不大的样本。另外还有一种Reverse KNN法,能降低KNN算法的计算复杂度,提高分类的效率。

    该算法比较适用于样本容量比较大的类域的自动分类,而那些样本容量较小的类域采用这种算法比较容易产生误分。

 (3) SVM法

    SVM法即支持向量机(Support Vector Machine)法,由Vapnik等人于1995年提出,具有相对优良的性能指标。该方法是建立在统计学习理论基础上的机器学习方法。通过学习算法,SVM可以自动寻找出那些对分类有较好区分能力的支持向量,由此构造出的分类器可以最大化类与类的间隔,因而有较好的适应能力和较高的分准率。该方法只需要由各类域的边界样本的类别来决定最后的分类结果。

    支持向量机算法的目的在于寻找一个超平面H(d),该超平面可以将训练集中的数据分开,且与类域边界的沿垂直于该超平面方向的距离最大,故SVM法亦被称为最大边缘(maximum margin)算法。待分样本集中的大部分样本不是支持向量,移去或者减少这些样本对分类结果没有影响,SVM法对小样本情况下的自动分类有着较好的分类结果。

(4) VSM法

    VSM法即向量空间模型(Vector Space Model)法,由Salton等人于60年代末提出。这是最早也是最出名的信息检索方面的数学模型。其基本思想是将文档表示为加权的特征向量:D=D(T1,W1;T2,W2;…;Tn,Wn),然后通过计算文本相似度的方法来确定待分样本的类别。当文本被表示为空间向量模型的时候,文本的相似度就可以借助特征向量之间的内积来表示。

    在实际应用中,VSM法一般事先依据语料库中的训练样本和分类体系建立类别向量空间。当需要对一篇待分样本进行分类的时候,只需要计算待分样本和每一个类别向量的相似度即内积,然后选取相似度最大的类别作为该待分样本所对应的类别。

    由于VSM法中需要事先计算类别的空间向量,而该空间向量的建立又很大程度的依赖于该类别向量中所包含的特征项。根据研究发现,类别中所包含的非零特征项越多,其包含的每个特征项对于类别的表达能力越弱。因此,VSM法相对其他分类方法而言,更适合于专业文献的分类。

(5) Bayes法

    Bayes法是一种在已知先验概率与类条件概率的情况下的模式分类方法,待分样本的分类结果取决于各类域中样本的全体。

    设训练样本集分为M类,记为C={c1,…,ci,…cM},每类的先验概率为P(ci),i=1,2,…,M。当样本集非常大时,可以认为P(ci)=ci类样本数/总样本数。对于一个待分样本X,其归于cj类的类条件概率是P(X/ci),则根据Bayes定理,可得到cj类的后验概率P(ci/X):

    P(ci/x)=P(x/ci)·P(ci)/P(x)(1)

    若P(ci/X)=MaxjP(cj/X),i=1,2,…,M,j=1,2,…,M,则有x∈ci(2)

    式(2)是最大后验概率判决准则,将式(1)代入式(2),则有:

    若P(x/ci)P(ci)=Maxj[P(x/cj)P(cj)],i=1,2,…,M,j=1,2,…,M,则x∈ci

    这就是常用到的Bayes分类判决准则。经过长期的研究,Bayes分类方法在理论上论证得比较充分,在应用上也是非常广泛的。

Bayes方法的薄弱环节在于实际情况下,类别总体的概率分布和各类样本的概率分布函数(或密度函数)常常是不知道的。为了获得它们,就要求样本足够大。另外,Bayes法要求表达文本的主题词相互独立,这样的条件在实际文本中一般很难满足,因此该方法往往在效果上难以达到理论上的最大值。

(6) 神经网络

神经网络分类算法的重点是构造阈值逻辑单元,一个值逻辑单元是一个对象,它可以输入一组加权系数的量,对它们进行求和,如果这个和达到或者超过了某个阈值,输出一个量。如有输入值X1, X2, ..., Xn 和它们的权系数:W1, W2, ..., Wn,求和计算出的 Xi*Wi ,产生了激发层 a = (X1 * W1)+(X2 * W2)+...+(Xi * Wi)+...+ (Xn * Wn),其中Xi 是各条记录出现频率或其他参数,Wi是实时特征评估模型中得到的权系数。神经网络是基于经验风险最小化原则的学习算法,有一些固有的缺陷,比如层数和神经元个数难以确定,容易陷入局部极小,还有过学习现象,这些本身的缺陷在SVM算法中可以得到很好的解决。