1997-98年的金融危机中马哈蒂尔曾经说,我们辛苦工作了三四十年,而有人拿了几十亿美元来晃了一趟,就要套走我们半个世纪积累的财富。在一些政治家眼中,东亚被索罗斯等人变成了一台街头的取款机。
本文以香港为例,用简化的版本谈谈量子基金和夥伴们(以下用量子基金/索罗斯泛指国际对冲基金和炒家)是怎样把东亚市场变成取款机的。先打个预防针,这么复杂的问题要全说明白基本上不可能。
背景
香港从1983年10月开始实施联系汇率制度(PEG),考虑到香港经济依赖进出口贸易以及受政治前途的影响,货币固定在美元上利大於弊。何谓PEG?央行 通过市场维持港币兑换美元汇率不变化。香港金融管理局的责任是监管和汇率,而美联储的责任是监管和利率,差一个字,差一万里。
这世上没有免费的午餐。这种制度有益于进出口贸易,但放弃了央行最重大的权力:利率调整。如果外汇大量涌入或者出逃,央行必需进场干预以维持汇率不变,於是迅速增加或减少当地货币供应,从而改变利率,PEG是以利率做为人质的调控体系。
PEG带来的另外一个问题是,由于汇率不是市场决定的,政府维持的汇率水平可能远远偏离经济的基本面。东亚的国家包括泰国,马来西亚,印尼等等大多使用这一制度以促进外向型的经济。
从体制上说,整个东亚没有比香港的经济基本面和法治更扎实的经济体了。然而95-97年两年间,香港地产市场升值80%,恒生指数翻了1.4倍,在1997年8月7日到达顶峰16673点。刘明康曾经评价:香港经济何德何能如此涨法?香港挨骂是应该的,不过泰国马来亚印尼涨得不比香港慢。
这些就是对冲基金们的机会。大凡索罗斯们能下嘴的地方,叫“ARBITRAGETRADING”, 套利交易。简单地说,索罗斯发现这东亚经济运行得跟经济学教课书上的公式不一样呢,他选择了相信教科书而不是东亚经济。中国社会向来就看不起书呆子,我借此机会在这儿顺便帮书呆子正一下名。索罗斯问了同一个问题:东亚何德何能涨成了这副样子呢?它不可能长远维持下去,一定要回归到基本面!
现在的市价和基本面之间的差别就是索罗斯同学要赚取的。东南亚PEG体制和发烧的股市给他提供了下嘴的地方。索罗斯同学常说自己的行为是在做善事
,帮助市场回到基本面上去。
入场
1997年7月,东南亚已经在五十年繁荣的暖被窝中进入了一场恶梦。
六 月底有谣传说泰币会贬值,市场顿时闻风而动,泰国央行动用了70亿美元在现汇市场,230亿美元套在远期合同货币市场以期稳住泰株币值。1997年7月2 日,泰国中央银行所有美元储备全部告罄未能够阻止对泰株的抛售,被迫放弃固定汇率制度,泰株一泄千里。七月中旬的时候,菲律宾,马来西亚和印尼都感受到了 强地震的到来,然后是南韩和台湾,东亚大部分的货币和股票交易市场在鬼哭狼嚎摇摇欲坠。
索罗斯们进场了,在这场比赛中,量子基金和它的夥伴们把自己看成AC米兰队
,东亚大多数金融业组成的球队和它们终於断兵相接。
刚看到东亚四周金融雪崩时,香港象一个旁观者,保持距离欣赏自己的坚强经济基础,在它回过神来的时候,这雪崩已经冲到它的脚下。10月21日MORGAN STANLEY建议它的客户抛售其持有的亚洲资产,这话打个比方就象一个***常委在某日说广东爆发SARS了,北京也估计控制不住,大家撤吧
。人们惊慌失措的时候,索罗斯的弟兄们早就等在场边了。
如果香港股市过热,恒生指数一定应该降下来;如果其他东南亚国家货币都贬值,香港经济靠的是出口,港币必需贬值才能维持竞争力。基於这两个简单的道理,SHORTSELL(做空)就该获利,这是索的基本判断。
归 功于美国人的惊人创造性,SHORT SELL就是卖你手头没有的东西。你可以借1百万股按今天的市价10元每股卖出去,半年之后再从市场上买1百万股还给我。如果港股半年后萧条或者崩盘,你 可以从市场上以每股2元价格买一百万股回来还给我,中间净赚8百万港币,当然如果升值你就亏了。感谢金融衍生工具的发达,用不着麻烦索罗斯一支一支股票的买卖,直接买卖整个市场,就是恒生指数。把恒生指数今天先以目前市价卖了,几个月之后以那时的市价再买回来还给人。
对 冲基金干套利这行一定要隐蔽,如果大夥儿都发现鬼子进城了,也就没有多少机会了,第一件事是要手头掌握大量的港币。虽说港币自由兑换,如果有人几天之内天 天在市场上伸手就掏出来几十亿美元要换港币,除了吓死一大堆人,也会把警察招来(HKMA),一天三顿饭悄悄监视起来是肯定的。不能暴露目标是个关键。再次感谢金融衍生工具, 索罗斯们使用了SWAP。SWAP也不复杂,比如说你买了一百万美元十年国债支付利息6%,我买了一千万人民币十年国债,支付利息5%,我后来需要美元, 而你又需要人民币。我倆把利息收益互相换了,发现都没有亏本而满足了各自需求。量子基金们把美元债权通过SYNDICATE银行悄悄就换成了港币的债权, 这只需要一纸合同过手,真是悄悄的我来了,不打扰任何人,手里就拽着源源不断的港币现金。
开练
说香港股市过热会降下来是容易的。对于量子基金们来说,重要的是怎么保证股市在规定的时间和规定地点狂泄下来!索罗斯们的金融工程师们开始他们跨世纪的杰作。
他 们买下大量的恒生指数SHORTSELL合同,不完全数据显示那段时间签了关于恒生指数有80000个合同,10月21日当天约400亿港元的港股被 SHORT SELL。这只是冰山一角,因为他们的影响力和透出的风声,跟随在大户后面的其他基金和散户们累积起来就是数千亿,所有的人开始卖的时候,谁卖得便宜谁才 能跑掉,这变成了自我实现的预言。
更加狠的是,他们同时在现金和远期货币市场上疯狂抛售港币。金管局为了维持汇率开始大量抛出美元收购港币,导致港币供应总量迅速减少,利率狂升。10月23日不到中午,香港同业拆借利率HIBOR升到280%。
经 济学101课程里的内容说,因为利率的狂升,股票市场对利率会立即做出反应,股市狂泄。原因很简单,如果能够买MONEYMARKET上给你500%的利 息,你把钱留在股票市场上干什么。高利率意味这大量资金从股市退出,转到债市和MONEYMARKET上。同时,长时间高利率导致企业成本剧增,会引发经 济萧条,股票无论如何要下跌。
这在股市和汇市上的同时动手,叫做DOUBLEPLAY。
10月23日一天之内股市狂泄,400亿美元的股票市值烟消云散。
如果股票市场持续崩溃,量子基金拿着那上万个SHORTSELL的合同兑换成现金,拍拍屁股就回家了,股东大会上受一通表扬大家分红。
每每回顾索罗斯们这一招时,心里不由暗叹:狠啊!小平同志说的“两手抓,两手都要硬”怎么就让索罗斯学得这么得心应手
。股市和汇市总会失守一个地方,而他们哪里都能赢钱。当时的财政司长曾荫权和金融管理局长任志刚简直就是二十世纪末香港的哈姆雷特,保股市,还是保汇市?这是个天大的问题。
10月28日一天之内恒生指数跌了1428点,降到9060点。别忘了8月7日是16673点。到1998年的8月13日,恒生指数已经是6660点。
这座风雨飘摇中的危城!
生活在这种危城中的小民百姓是什么心态呢?
1988 年通货飞胀期间已经记事的朋友还记得人们是怎么囤积油盐酱醋和所有市场上有的东西。我手头有一篇旧的《经济学人》文章,题目是《逃,逃,逃》讲1997年 11月24日,有风声说日本人投资的香港YAOHAN百货商场很快要垮了,而这家商场里有一个蛋糕店,港人喜把蛋糕券送人做礼物,当日听到商店要倒闭的消 息,数千人闻风而动,挤在店前几欲破门而入,要把礼券兑换成蛋糕。其声势之浩大,以至於职员藏匿,警察驻守。
在谈及港府如何回应这场半个世纪未曾见过的危机之前,有必要回顾港府的基本经济理念。
近百年来人类作为一个群体其内部冲突从某种意义上说是围绕着平等和自由两大理念分成了左右阵营。共产主义和资本主义世界半个世纪的较量已经悲壮地落幕,而这场理念之争在各个社会内部仍然在以相对文明的方式在继续进行。这场争论不乏智慧、机敏、情绪甚至仇恨。
左方的人对右方的人说:你们要的不过是富人的自由。
右方的人对左方的人说:你们要的不过是奴隶的平等。
很少人比马克思的《资本论》把市场经济中的“罪恶”批判得更加体无完肤。很少人比哈耶克的《通往奴役之路》把政府权力扩张带来的“人祸”谈得更加悲悯痛彻。
考 虑到这场辩论的全球范围是西方语境,有必要对一些被滥用的术语进行定义。为免于英语翻译混乱而造成的歧义,我把左派的liberal / progressive 称为进步主义者,把右派的conservative称为保守主义者。这两者的基本分野是,进步主义者主张通过政府积极干预;规范各种行业;增加税收转移支 付来实现平等和自由,其现代的精神领袖是英国经济学家凯恩斯,在政治上的代表人物是美国的罗斯福和林登约翰逊。
保 守主义认为政府在人类可知的历史中是个人自由最大的威胁,扩大政府干预成事不足,败事有余,无异于引狼入室。基本主张是放松管制;还市场自由;税收越低越 好政府越小越好。它的思想来源远可以追溯到亚当斯密“看不见的手”,在现代的精神领袖则是诺贝尔经济学奖得主哈耶克,在政治上的代表人物是英国的撒切尔和 美国刚刚过世的里根。
在世界经济的版图上,五六十年代的香港尚是一个名不见经传的小岛,因为它的经济决策人对自由经济政策和保守主义理念坚定的支持,香港成为了保守主义的一只小白鼠,自由经济的实验场。
近半个世纪以来,港府奉行的基本政策包括以下主要措施:
--对市场近乎零干预的政策;
--低税收政策,最高的个人所得税率15%,最高公司赢利税为16%;
--对外国资本的流动和投资没有任何限制;
--外国公司利润自由回流;
--市场来设置工资和价格;
--没有对外贸的本地内容的限制;
--严格限制政府开支的增长低于经济增长的速度,政府预算历来赢余没有赤字;
--维护分权与治衡的体制,保障透明公开的法治,激励竞争;
这 一政策为香港赢得了一个世界上最自由的经济体的称号。半个世纪的保守主义政策取得了骄人的成绩,一个弹丸之地创造了惊人的财富。虽然有不少巨富阶层的存 在,却并没有产生自由经济体制下通常产生的大面积的贫困。人均收入为24000美元左右,GDP增长保持在5%,失业率长期低于3%。这些是西方任何一个 财长和央行行长梦寐以求而不可企及的高度。
这个昔日荒岛成了亚洲最耀眼的明珠,一只小白鼠长成了一只蛟龙,一个空白的实验场上建起了保守主义理念的一座灯塔。如果这是一个欧美的城市,它已成了保守主义者的麦加。
1997-1998年的香港面对着金融危机最严峻的考验。
保守主义的经济学家们为香港捏了一把汗,出于对市场逻辑和香港基本面的信心,期望香港用审慎的保守主义原则处理这一危机。
就在东南亚金融市场已经尸横遍野,香港风雨飘摇的时候。朱容基出任总理,在记者招待会上关于香港讲了一句话:中央政府将不惜一切代价保卫香港!
这话在西方社会里是不太敢讲的,有点没头没脑,纳税人的钱凭什么你可以不惜一切代价。这话在东南亚的小国里,威权的领袖诸如马哈蒂尔倒是喜欢随便讲,可是讲完了没有作用。
而这却是一场在华山顶上的论剑。
只可惜高手过招的时候普通观众大多听不出所以然,听明白了的是电视机前面的索罗斯和他的伙伴们,有谣传说索当时茶喝到一半的时候杯子掉在地上,
他感觉到朱的话里寒光闪闪的杀气,但是马上镇静地说了一句:他那些钱能做什么?中国当时的外汇储备大约一千四百亿美元,如果要是香港股票和货币市场象泰国一样全民大逃亡,这点钱也是够在市场上支撑两三周用,所以这个谣传编的也不是全离谱。
香港的报纸传统对中国大陆的领导人有诸多非正面的看法,但是朱却是在香港口碑最好的政治人物,有着无人可比的影响和魅力。多年以后我听到一个港人说:1998年听到朱的那句话,他周围的人眼睛中都闪着泪光。因为香港人对他的信任,朱在此时此地是东亚金融市场上唯一一个还有credibility的人。此时的香港,真是象一个在梦魇中哭泣的孩子,终于感觉到母亲怀抱的温暖,慢慢地开始平静下来。
然而从1997年8月7日的16673点,到1998年的8月13日,此时的恒生指数已经是6660点。单凭朱的不时喊话还不够,曾荫权和任志刚同学终于决定要配合朱的喊话,逞着月黑风高的时候他们悄悄摸进了股市,就象几个月前索罗斯们悄悄摸进汇市一样。在随后的日子里,开始大规模收购股票。
应该说很少人想到,肯定是出乎了索罗斯的想象,这个奉行零干预保守主义经济政策的港府,在面对是守汇市还是股市的艰难决定的时候,携带980多亿美元的外汇储备(和1400亿朱老板承诺的不惜一切代价的后盾),决定同时进入两个市场进行大规模的保卫战。
战 斗过程基本是惨烈的,可比做辽沈战役的塔山阻击战。这是一场智力的较量,更是一场民间意志和精神的较量。1998年8月14日港府入市,半个月之内港府与 国际炒家较量了十个回合。8月27日一天投入200亿港元,承接炒家抛出的期货,把恒生指数推上88点到7923点。8月28日港府一天动用了280亿港 元托市,交易量达到创记录的790亿港元,几乎是前一天229亿港元交易量的3倍,同时也是一年前1997年8月29日所创下的460亿港元最高记录,但 是在炒家和从众心理的夹攻下,恒生指数退守93.23点,闭市为7829.74点。这场拉据战中,才两个星期,港府入市干预就投入股票现货与期货市场的资 金至少达970亿港元(约合125亿美元),相当于香港外汇储备的13%。
剩下的故事只是坊间的传说了,港府大 规模入市,据说一度持有整个股市的10%以上的股份,最重大的因素是香港市民的神经和心理也从崩溃的边缘渐渐回到平和。与此同时,曾荫权和任志刚同学发现 了一系列的对冲基金的在汇市和股市上的double play并摸出了他们的痕迹,考虑到金融衍生工具的复杂交易量的浩如烟海,至于怎么发现的,至今还是个奇迹。索罗斯们原来的如意算盘是:如果港府守汇市, 则利率狂升,他们可以在狂跌的股市用SHORT SELL的恒生指数合同挣钱。如果港府弃守汇市而保股市,港币狂跌,他们SHORT SELL的远期港币合同则可以稳稳当当地挣钱。因为发现了索罗斯们的SHORT SELL合同的到期时间,在索罗斯同规定的时间,指数没有降到他规定的点上,坊间传说索罗斯和伙伴们损失了约十亿美金在香港市场上。因为对冲基金没有向公 众公布财务的义务,除了索罗斯等亲自的参与者,无人能确认。我一直希望能看索本人写出自传,他是二十世纪金融舞台上的一个重大的角色,看他怎么看待这场风暴一定是个独特的角度。
这场万圣节才放的惊险电影终于渐渐落幕,东亚开始在残墙断壁中重新修复。
这 场香港保卫战多年以后要是拍成金融版的斯大林格勒保卫战,可歌可泣之处之多,一定让人赞叹。这个世界历次金融危机中导致政府破产例子比比皆是,大者如阿根 廷,巴西,墨西哥、韩国等,近的如马来西亚等等则除了拒绝还债宣告破产以外,还冻结了私人帐户。而香港却成功地保卫了自己,反观历次金融危机,这是一个了 不起的成就。
但是从理念的角度,保守主义经济学家们却痛心疾首,香港大规模干预方式背离了保守主义的重大原则, 在保守主义经济学家的眼中,港府基本上一夜之间变成了一个巨大的国有企业,政府炒股炒成了最大的股东。在几个月之内比英国工党政府在五六十年代十多年间国 有化的程度还大。如果股票长期低迷,下一步就变成新加坡,再走下去很快变成了中国大陆的全民所有制。“一国两制”也用不着吵了,几个月之后就成了“一国一 制”……这江畔的灯塔,怎么能够如此慢慢地熄灭?
后来的故事世人皆知,股市恢复元气,1999年恒生回到10000点以上,港府的从股市上全部退出,赚了数十亿美金。
港府所做是否是最佳选择,至今在经济学界分歧很大,尚未能有结论。而保守主义和进步主义的争论,似乎人类还没有看到可以超越的智慧。
但是从量子基金们进场,到港府的全面退出,作为一个金融案例,却有前无古人的精彩。
今天怎么也登陆不上WordPress,还以为被盗了。每次输完密码,等着缓冲进控制板页面却进不去。刷新完就停在登陆页面不动了。然而如果输入错误的密码,登陆页面会提示密码不正确。解决方法是使用ftp工具登陆后台,将“/wp-includes/pluggable.php”这个文件中的两处
setcookie($auth_cookie_name, $auth_cookie, $expire, ADMIN_COOKIE_PATH, COOKIE_DOMAIN, $secure, true);
改为:
setcookie($auth_cookie_name, $auth_cookie, $expire, SITECOOKIEPATH, COOKIE_DOMAIN, $secure, true);
我解决此问题参考:此处
Produits dérivés de taux méthodes d'évaluation et de couverture Antonin Chaix, 好书,好老师。
其参考书目如下:
- Interest Rate Models - Theory and Practice, Springer Verlag. Brigo D. and Mercurio, F. (2006)
- Managing Smile Risk, Wilmotte Magazine, november 2002, Hagan P. Kumar D. Lesniewski A. and Woodward D.
- Hull的书
- Interest Rate and Credit Models, excellent support d'un cours donné à NYU, disponible en ligne à l'adresse 我擦我干嘛写法语快点我进去
- Produits de taux d'intérêt: méthodes dynamiques d'évaluation et de couverture, Economica. Martellini L. et Priaulet P. (2000)
- Fixed-Income Securities: Valuation, Risk Management and Portfolio Strategies, Wiley. Martellini L., Priaulet P. et Priaulet S. 俩兄弟?(2003)
- Martingale Methods in Financial Modelling, Springer. Musiela M. and Rutkowsky M. (2005)
- Interest Rate Option Models, Wiley. Rebonato R. (2005)
这样这本书就可以丢了。
Zhan Shi 的课(Stochastic Calculus)的笔记 T_T, 没办法了,扔了,留了个概要。
Monte Carlo的可以扔了,然后其他的大概心中也有数了。
这么久没有来更新这里了,实在对不住。我的实习快结束了,得开始考虑下家的事情。站在这种命运的转折点,总是让人深感惶恐不安。我是比较想回国的。
昨天听小强说“老子不把你打醒·你个X还在幻想明年回来可以顺利找到工作”。我今天就改了下中文简历投了几家银行神马的。在chinahr上居然同样的申请表,每个公司要重填一次,哥泪流满面。这些银行券商的笔试面试神马的都是在十二月,收到通知也很难赶上。况且我对能否收到回信还是持极其谨慎的乐观态度。大约今天一天花在这上面的时间算是浪费掉了,这让我很累。我被小强说年底校园招聘结束,我明年回来只能社招,然后一辈子就毁了神马的。
小强 17:37:38
老子不担心你·老子只是担心叔叔阿姨而已·你个X这么大了·还要他们为你工作操心·
特别是这句话,让我根本不能不以为然。我该怎么办?
我们实验性的用BP算法来解决XOR这样一个简单的问题。这两周一直在看Faussett的Fundamentals of Neural networks, architectures, algorithms and applications这本书。
书上第300页的数据如下:使用2-4-1的拓扑结构,学习速率为0.02,如果使用momentum,mu=0.9,当平方误差(欧氏距离的平方)小于0.05时停止学习。我们不考察0,1这种binary的数据表示,因为-1,+1这种bipolar的数据表示在各种神经网络模型中已经被证实明显优于binary。当使用Nguyen-Widrow的初始化,作者做了8次实验,收敛次数分布从224到285,8次中只有一次不收敛。如果用随机的初始化,收敛次数为387,并没有提到不收敛的几率。如果随机初始化+带动能的训练,收敛次数为38。不知道为什么到308页的时候作者给的参数(alpha=0.75,mu=0.9+binary)根本无法收敛,可能是印刷错误,之前某页也说到“学习速率还是取0.2(跟以前一样)”,可是以前明明是0.02。这让我非要自己做实验探求一番不可:
2-4-1,alpha=0.02,mu=0.9,括号中是收敛步数,NA表示发散:
| Random | Nguyen-Widrow | Random+momentum | Nguyen-Widrow+momentum |
| 3250 | 549 | 344 | 109 |
| 4079 | 545 | 323 | 59 |
| 2572 | 568 | 407 | 40 |
| 3091 | 8785 | 328 | 50 |
| 3556 | 512 | 466 | 47 |
| 2949 | 560 | 437 | 56 |
| 4220 | 450 | 384 | 43 |
| 3846 | 460 | 381 | 46 |
| 3506 | 541 | 297 | 48 |
| 4229 | 364 | 336 | 25 |
| 3631 | 453 | 441 | 58 |
| 3314 | 589 | 316 | 44 |
| 4221 | 682 | 283 | 40 |
| 3976 | 450 | 593 | 65 |
| 3143 | 481 | 375 | 37 |
每一次实验都收敛了,而且结果显而易见,Nguyen-Widrow和动能学习有着明显的优势。下面研究一下拓扑结构对收敛速度的影响,(m,n)表示2-m-1的拓扑结构,每个隐藏层有n个元,以下结果均基于bipolar+Nguyen-Widrow+Momentum,alpha=0.02,mu=0.9:
| 第一次试验 | 第二次试验 | 第三次试验 | |
| (1,10) | 15 | 15 | 17 |
| (1,15) | 10 | 8 | 16 |
| (1,30) | 4 | 7 | 5 |
| (1,60) | NA | NA | 4 |
| (2,5) | 15 | 14 | 19 |
| (2,10) | 16 | 8 | 12 |
| (2,20) | 7 | 10 | 6 |
| (2,40) | 5 | 10 | 12 |
| (2,60) | 5 | 6 | 4 |
| (2,100) | 5 | 4 | 3 |
| (5,5) | 17 | 27 | 15 |
| (5,20) | 7 | 6 | 8 |
| (5,60) | 5 | 6 | 5 |
| (5,100) | 5 | 6 | 4 |
| (20,5) | NA | NA | NA |
| (10,5) | 106 | 18 | 6346 |
| (10,20) | 22 | 17 | 17 |
如同上篇文章所说,训练对数应该是权重总数的10倍才好,这里只有4对数据对。单层隐藏层足够解决这个问题,2层的结果更鲁棒,这是可以想象的,因为第二层所引入的值都是-1到+1的值。层数更多也无意义。每层的元数稍稍要多一点,这样每次训练改变的权值也就多一点,收敛也许更快。我这最后一句话太不科学了。谁叫我这篇博客的题目就是一个目前没有说法的一个问题。只能靠实验了。
点我阅读更多
算我后知后觉,神经网络的BP算法原来是这么简单的东西。它是用梯度递降法来减小输出平方误差的方法。多隐藏层可以学习任意连续的映射直到任意精度,但通常一个隐藏层就足够了。它使用的激活函数必须满足以下几个条件:连续,可微,单调非减,有渐进的最小最大值,函数还要相对容易计算。比如
等。
算法描述
- 输入层输出层权重均赋值为小随机数例如unif(-0.5,0.5)。
- 当停止条件为false时,执行3-10
- 对每对训练数据x:t执行4-9
- 每个输入层给数据到隐藏层,也就是发出一个输入向量x
- 输入向量x和输入权重向量v作内积,得到的向量z_in被激活函数f映射到隐藏层上,隐藏层广播该隐藏层向量z
- 该向量和输入权重向量w作内积,得到的向量y_in被激活函数映射输出,得到结果向量y
- 计算输出权重向量w的改变向量delta_y为学习速率alpha,绝对误差(t-y),f'(y_in)还有z的乘积。(以向量的component来看)
- 计算输入权重向量v的改变向量delta_z等于学习速率alpha,w与delta_y的内积,f'(z_in),还有x的乘积。
- 修正w与v
- 检验停止条件
初始权重的选择
这会影响到收敛速度,更甚会导致收敛以致误差是局部最小值而不是全局最小值。初始权重要很小,以免求导得到的值几乎为零。另一方面,权重太小,输出值会很小,也会导致学习速度很慢。
Nguyen_Widrow方法
以输入权重向量为例,随机赋值后,不看biais的权重,使用欧式范数归一化,然后乘以0.7*隐藏层元数的输入层元数分之一次方,biais的权重取正负以上乘积之间的一个随机实数。注意此方法使用tanh(x)作为激活函数。
何时停止
Hecht-Nielsen(1990)建议
数据对分为两个部分,一部分用来训练,一部分用算误差来测试停止。如果误差递减就继续,如果误差增加了,则停止。
需要多少训练对
Baum-Haussler(1989)
假设一共有W个权重,为了使得(1-e)这个比例的同样本空间的结果正确,需要使用W/e对训练数据对得到(1-e/2)的正确率。
修改版BP算法
带动量的BP算法
权重的更改不是用朝着梯度的方向改,而是朝着现梯度和前梯度的方向张成的平面上的一个方向来改,具体的就是在老方法中权重改变量的基础上加上mu乘以上次的改变量。mu的取值是0到1的随机数,不取0和1。带动量的Momentum的BP算法可以避免错误的数据对的影响。如果训练数据对有小部分和其他的很不一样,需要使用小的学习速率,而训练数据对如果相对相似,快速的训练也是可以的。
广义学习速率
每个权值有自己的学习速率alpha,而且学习速率会随着时间改变。简单说来就是,如果改对了方向,学习速率就变大,改错了方向,学习速率就变小。比如Delta-Bar-Delta方法。但是不能保证这种方法一定会起作用。
