跳到主要內容

程式尋寶分析年報用字助炮製跑贏大市投資組合長青網文章

2019年06月08日
檢視個人資料
Submitted by 長青人 on 2019年06月08日 06:35
2019年06月08日 06:35
新聞類別
財經
詳情#
【蘋果日報】【數碼金魚缸】運算法、大數據、程式買賣,這些聽來好high tech的術語,令人以為都是上落億億聲的投資大行與對沖基金的專利,其實隨着數據的普及,編寫程式的門檻越來越低,要掌握這些技術,都可以好平民化。
本欄旨在推廣利用數據及編程,來獲取一些另類投資心法,提供基本因素及技術分析以外的觀點,甚至一些實戰的體驗,隨着程式編寫的普及,投資的天空可以變得更廣闊。
撰文:尼奧
早前與IT友人閒聊,他說曾接到對沖基金基理的委託,編寫程序分析社交媒體對某隻股份的樂觀悲觀情緒,試圖從這些轉變預測股價的走勢,這類時興技術準繩度有多高不得而知,如果work的話亦只會悶聲發大財,不過,最近有學者提出看年報炒股,聲稱可以跑贏大市,就相當別開生面,而且不難操作。
字眼有變多數負面
兩名哈佛商學院與一名伊利諾大學芝加哥分校學者早前發表研究*,分析年報及季報內的管理層用字變化,發現竟然可以炮製跑贏大市的投資組合,而且有關效應不會隨着資訊公佈便即時消散,而是可以用幾個月的時間慢慢體現,認為是很多人忽略的資訊金礦。
學者認為,一般人看年報都聚焦於數字,卻少有細看文字,遑論會與去年度的業績用字比較,尋找管理層口脗變化的蛛絲螞迹。論文以一家美國生物科技公司Baxter為例,指該公司的年報年年用字差不多,但2009年的一份提到「美國食品藥品監管局(FDA)」、「回收」以及一隻產品的次數大增,幾個月後FDA果真要求公司回收該產品,導致股價急跌。
研究認為,以上事件不是個別例子,而分析年報用字變化有助尋寶。他們於是下載了1995至2014年間所有美國上市公司的季度及年度報告,並取出當中的管理層討論業務及風險因素等篇幅,然後與上一季度或年度的報告用字比較,若有突變的,86%都是傾向負面的用語,通常不是好事,千篇一律的反而是一切安好的訊號,他們選用的模擬投資策略,是摘取同期年報字眼變動最大的頭20%公司沽空,變動最少的20%公司則購入,每月調整組合,結果發現真的可以跑贏大市,甚至跑贏高達22%。
pdf格式難取數據
既然這樣神奇,而論文亦將部份程式公開,我於是依樣葫蘆,到港交所下載年報,看看是否可以將這投資策略,應用在香港的上市公司身上,不過一開始便碰壁,港交所的公司中期或年度報告只有pdf格式,並非如美國般有網上文字版,於是人家可以用程式在數十萬份報告中擷取文字,我只能用最原始的copy & paste,這大大限制了我取得數據的能力,最後即使抄取30隻恒指成份股過去5年的主席報告,亦花費了不少時間,但本文主要是示範如何應用這投資策略,故此姑且用來小試牛刀。
Jaccard similarity的計算方法不理字詞在報告中出現的頻率,只要同時在兩篇文章中出現便一視同仁,而另一個量度法cosine similarity則連頻率亦考慮在內,限於篇幅,讀者可找回該論文詳看。
香港的上市公司一般在翌年的3、4月間公佈業績及發出年報,而中期報告則在同年的8、9月間,由於不少公司的中期報告均沒有主席報告,故此我只是重點抽取年報的主席報告,剔除掉不是12月結的公司以及主席報告少於1,000字的(字數越少會扭曲相似度),然後與對上一年的報告比較,計算其字眼相似度,再抽取最低的20%及最高的20%,用以製造一個模擬組合,沽空相似度低的股份、購入相似度高的,並於5月初入市計算6個月回報。
程式以Python編寫,報告均為文字檔,而股價表現則來自讀取yahoo finance提供的股價總回報(包括股息收入),程式不難編寫,有興趣的讀者可電郵在下索取原始碼,自行修改。
當然,由於我的樣本太少(僅26隻成份股5年的全年報告),雖然看起來成績好像很理想,但不可以對結果太認真。表中可見,4個年度有3個跑贏大市,而不同時期上榜買入及沽空的股份組合都出奇地相似,如買入者較多為地產股,而沽空榜則多為金融股,是否反映香港地產股的年報較千篇一律,而銀行股面對的環境多變,故此年報所用的字眼每年有較大出入?這值得進一步的探討。
主席報告篇幅較少
當中不乏股份的主席報告出現字眼突變,如長和2015年度的年報,便較2014年度差了一截,引用上述研究提供的情緒字眼分析★,長和該年度的主席報告英文版的正面用語,由對上一年的3.5%下降至2.1%,而負面字眼則由0.74%上升至1.24%,涉及前景不確定的用語,亦由0.39%上升至0.5%,故此被納入沽空名單之中。結果如何,在5月至10月間長實股份回報率為7.8%,並不算差,這亦可能與公司該年宣佈架構重組,由長實分拆出長和及長江地產有關。
另一項要留意的是,與上述的研究不同,主席報告的篇幅一般較管理層討論的字數少得多,意味可供分析的字數較少,而我的感覺是內容越長越好,樣本太少反而會扭曲相似度。
同時,美國公司有集體訴訟,管理層生怕日後出事會被股東指控隱瞞,因此總會在年報中為公司面對的風險漏些少口風,留作日後傍身之用,香港公司似乎便沒有這種需要,或會因而影響輸出的結果。
無論如何,這是以程式分析年報內容來訂定投資策略的一個嘗試,若能有整個港股的數據作輸入,結果應會更有趣。不可不提的是,港交所上刊載的公司年報仍然是pdf格式,這對於從事這類大數據的研究,絕對是一個障礙,希望口口聲聲重視金融科技的李小加,能改善這問題。
作者簡介:一個有IT背景的交易員,遇上由財經轉戰編程的IT初哥,大家都信投資的未來要靠科技,人機合一必有所得。
作者電郵:mailto:leothecoder2019@gmail.com
*Cohen, Lauren and Malloy, Christopher J. and Nguyen, Quoc, Lazy Prices (September 2018). NBER Working Paper No. w25084 ★ https://sraf.nd.edu/textual-analysis/resources/
長青網 - 一站式長者及護老者生活資訊網站
0
0
0
書籤
回應 (0)
  • 分享至facebook
  • 分享至電郵

舉報留言

  • 確認舉報
確定