社交媒体与股市(3)早期探索

悄然一笑 (2026-04-10 07:13:07) 评论 (0)

在 2000 年之前,人们普遍认为网上的投资讨论价值不大,可以忽略。然而,一些学者研究发现,尽管网络讨论嘈杂,却对股市有显著的预测能力,包括预测股价(或股票收益,即股价的变化)、成交量、以及股价波动。

Antweiler & Frank(2004)是这方面的经典研究之一。作者收集了雅虎财经(Yahoo! Finance)和Raging Bull两个股票讨论区中在2000年全年发布的帖子(messages),并对道琼斯工业平均指数和互联网商务指数中的45家企业进行分析。

对于这两个讨论区的帖子,他们着眼于三个方面。第一是讨论数量(帖子的多少)。当某只股票突然成为热点,被大量讨论,它可能会吸引投资者关注,从而影响成交量甚至价格。同时,大量讨论中也会掺杂许多噪声交易者(noise traders)的帖子,导致股价波动扩大。

第二是帖子中的观点(看涨、看跌),因为人们在做投资决策时往往会受到他人看法的影响。

第三是帖子中的意见分歧(有看涨的,也有看跌的)。根据意见分歧理论,分歧越大,成交量越高。

来看看作者的发现。讨论数量与股票收益(负相关)、成交量(正相关)、波动(正相关)都有关联;帖子对某一股票总体看涨,则其股票收益增加;意见分歧加大,则成交量增多。

不过,这些关联都是短期的。长期看,股票收益、成交量、股价波动会回落。

这些结论符合你的想像吗?可能有一个例外:讨论数量与股票收益竟然是负相关。

考虑到研究的样本包含互联网企业,且数据来自2000年,而那一年正逢互联网泡沫破裂,所以文章的结论是否适用于其他时期还有待验证(其实在阅读这篇文章时,我一直不理解为什么作者要选择2000年,这一特殊年份的数据)。

讨论“情绪与股市”离不开Tetlock (2007)。作者考察《华尔街日报》中一个与股市有关的专栏“Abreast of the Market”,分析专栏中呈现的“悲观语气”(pessimism) 是否可以预测道琼斯工业平均指数的表现。研究的时间跨度从1984年到1999年。

作者发现,《华尔街日报》上的消极、悲观语气对股票价格产生向下压力,但这个影响只是暂时的,随后股价又会逆转。他还发现,过度的悲观语气会使成交量大增。

作者进一步指出,专栏内容本身并没有提供新的信息,只是反映了投资者的悲观或厌恶风险的情绪,却仍能影响投资决策,即情绪驱动交易。文章对情绪与市场之间关系的分析,为后续研究社交媒体情绪效应指出了方向。

如何衡量投资者对某只股票的关注程度(注意力)呢?不同于Antweiler & Frank(2004)用“发帖数量”来表示,Da 等三位学者(2011)提出使用“Google 搜索量”这个指标,这一做法后来被广泛沿用。

三位学者考察2004年至2008年间投资者的注意力与Russell 3000中企业的股票收益是否有关联。结果显示,注意力的上升会伴随着未来两周的股价上涨。而且这种现象在散户多,分析师覆盖少的小企业股票上表现得尤为明显。

然而,这种影响只是短期的,随后股价出现逆转,在一年之内此前上涨的部分会完全消失。这种股市上短期的热度与Barber & Odean的有限注意力理论相符。

我用一张图来概括平台与股市的实证研究:平台用户/投资者的关注度(注意力)、情绪、不同观点是否能预测股价(或股票收益)、成交量和股价波动等股市变量。



看到这里,有人会问:如何从平台、新闻媒体的发帖与讨论中提取情绪和其他内容,即如何对它们进行量化呢?

得益于AI算法的进步,我们可以采用文本分析(textual analysis)的方法。也就是用算法去“阅读”文字,从中找出所需要的内容,将其转化成指标,并作为变量放入模型当中。

举个例子,要研究发帖人的情绪是乐观还是悲观。首先制作一个词典,里面有两类词汇:表示乐观的与表示悲观的。然后让算法去阅读文字,找出反映乐观的词和反映悲观的词各有多少,据此做成指标。最简单的做法是:如果发帖人用的乐观词多于悲观词,那他就是乐观的,反之亦然。

这种在文本中寻找单个词汇并加以统计的方法,属于最基础的文本分析。一些早期的情绪分析,如Tetlock (2007),采用的就是这种方法。而Antweiler & Frank(2004)提取发帖人的看法也采用了类似的方法。

随着文本分析在金融学中的使用不断增多,Loughran & McDonald(2011)提出,一般的情绪词典并不适用于金融领域,因此他们专门编写了用于金融文本的词典,在后来的金融、财会、经济文本分析中被广泛使用。

可以想见,如果没有AI算法,光靠人工从海量的文字中提取所需信息,该是多么艰难。

严格来讲,这些早期文章并不是研究如今的社交媒体,而是当时的互联网讨论区和传统新闻媒体。但它们首次证明了网上投资讨论与股市之间的关联,并提出了后来研究广泛采用的指标。因此,尽管平台不同,依然把它们当作这一领域实证方面的起点。

随着社交媒体的兴起、数据规模的扩大、AI技术的进步,研究也从这些早期探索走向了更细致、更前沿的分析。

主要参考文献:

Antweiler, W., Frank, M.Z. 2004. Is all that talk just noise? The information content of internet stock message boards. The Journal of Finance 59(3), 1259–1294.    

Da, Z., Engelberg, J., Gao, P. 2011. In search of attention. The Journal of Finance 66(5), 1461-1499.

Loughran, T., McDonald, B. 2011. When is a liability not a liability? Textual analysis, dictionaries, and 10-Ks. The Journal of Finance 66(1), 35–65.

Tetlock, P.C. 2007. Giving content to investor sentiment: The role of media. The Journal of Finance 62(3), 1139–1168.