开源信息情报——个体智能闪光的大舞台

信息是决策的基础。连幼儿园的小朋友抢玩具,都要先观察一下哪儿玩具多,Ta心仪的玩具是在“硬女子”还是“弱汉子”手中。没有信息就决策,纯粹是冲着撞大运去的;被屏蔽了准确的信息,或者被笼罩在虚假的信息中,哪怕是再英明的领导,也会出昏招。

假设普京先生没有任何可以访问互联网的计算机和手机,他所有的手下都精心配合好了说辞,跟他汇报说:目前我们节节胜利,就差一点攻下基辅了。你猜后续他会怎样引领俄罗斯?(这是我的愚蠢假设,你也会觉得太离谱。但按照福山最近在大西洋月刊上的文章《这依然是历史的终结》,这种高层信息屏蔽就是俄罗斯的现状)

上面的假设确实有点太不可思议,那再假设:我在中国的大街上随便找十个路人问一下,你知道现在的俄乌局势怎样了?你估计明年会是怎么个走势?我猜十个中有九个说不准确——我们又不是普京,才不关心那里的事儿,合情合理;但十个人中有九个人能根据自己朋友圈🐑了的数量推测出这个城市的奥密克戎的感染率。有信息和没信息的差别清楚的很。

对比3月份和12月份的战局图,就是不关心俄乌未来对世界巨大影响的中国小老百姓也能看出一些趋势。能不能引发高质量的思考和预判不强求,但决策者至少要知道发生了什么。原图引自开源信息组织Critical Threats

我们生活在一个恰恰比较尴尬的时代——机器的决策能力还不足以让人完全依赖:我们还是想要听专家的,但专家居然出尔反尔,前后矛盾,Ta们之间还互相攻击,甚至到人身攻击那种,因为Ta们有逃不开的人性;我们想去自己找信息,自己做判读,但信息多到让人头昏眼花,辨不清虚实,信息又窄到把我们困在茧房里,媒体用算法只给我们投喂我们想关注而且“甚合我意”的信息。而且大媒体、大平台有当前阶段略显强大的人工智能,而小平民却没一个趁手的机器助手帮助判断信息的真伪。

我们每个成年人“理应”有获取信息、甄别信息的能力,从而对自己的决策负责,就如同“每个人都是自己健康的第一责任人”一样,自己的迷惘怨不得政府。但我们人类又有那么根深蒂固的进化烙印,锚定效应,禀赋效应,从众效应。。。一堆无形的心理缺陷操纵着我们的大脑。这个时候,我们唯一能破解决策难题的法门就是一点点的积累,从广泛的源头获取信息,多看就好。

不仅如此挽救自己,从开放的互联网环境中找到有用的信息,将其转换为某种价值输出,是信息时代留给人类个体最后的闪光机会——未来所有产品的高附加值几乎确定无疑就是信息的价值,而人工智能会强大到抛开人类独自完成信息的归类、甄别、输出工作。

从数据到信息要上台阶,从信息到情报还得再上一级。情报这个词的英文是Intelligence,这个词在英文语境里更多时候是智能、才智的意思。我们可以想象,英语作为母语或者官方语言的人,在说到“我有情报”的时候,大脑会暗示自己“我也有才能”。我的才能从哪儿来?就是从信息的解读中来,将信息加工成有决策价值的高阶产品。

看卡塔尔世界杯,会让你觉得卡塔尔是个值得旅游、生活、投资的好地方吗?怎么一听到中东国家就是觉得不安全呢?你有什么有关卡塔尔的“情报”?

看看这五年,从新闻媒体、社交网站解读提炼的冲突信息。做成一张地图,别说是中东了,欧洲也不安全啊。地图得看细,都是哪些类别的公众事件?这些全部都是公开信息,你和我一样都可以处理、提取和分析。不见得一说到情报就是谍战,就是泄密,情报对企业、对个人都有“非军事”的意义。

从新闻、社交媒体中将事件结构化,地理化,制作成地图。宏观面上一眼能看出西欧,巴尔干,中东,阿拉伯半岛,非洲,印巴,不同类型的公众事件分布规律
五年来,卡塔尔才发生五起抗议活动(为准备世界杯产生的劳工待遇纠纷,国际劳工组织发起的抗议),三起官方的非暴力执法行动。不用看更远的地方,就对比旁边的巴林吧。卡塔尔绝对是世界上最和谐的国家

从互联网上找上面示例的信息形成情报,制作地图,费事儿吗?在几年前,难!在当下,那就看你的“调用力”怎样了。

“调用力”是我跟万维刚老师借用的词,是指调用工具的能力,特别是指调用信息化工具的能力。其实什么时代的人,都需要操作工具的本领,在前工业时代,使用工具的能力比拼的是对工具的熟练程度(天才抛开不谈),信息时代比拼的是找工具的能力。调用信息工具的能力说的是:就是从来没干过的活儿,我也知道并且能快速找到用什么流行工具完成之,而且我是现学现用的。

万老师讲了一个故事:

2018年爱尔兰一个16岁的女高中生叫做劳拉·奥沙利文 (Laura O’Sullivan) ,她听说宫颈癌筛查因为涂片检验的过程中出现了一个事故,就觉得AI做宫颈癌图像的识别不是更可靠吗?劳拉虽然只会一点基本的编程,但她知道如何一点点分解这个任务:她联系丹麦一家医院找到宫颈涂片的开源数据集,从github上搜索“生成对抗网络”库来解决样本太少的问题,再找最新的神经网络python代码调试训练。就用她老爸的家用电脑,做出来的AI对宫颈癌早期判断的准确率就超过了人类医生。2019年劳拉获得了爱尔兰青年科学家大奖。

稚气未脱的劳拉,从基础的编程经验起步,就能完成伟大的工作。其中的窍门就是调用工具的能力,这是这个时代送给年轻人的礼物

劳拉的调用力需要一点程序基础和一些数学基础,但绝对不需要对神经网络的数据原理细节搞得明明白白。但你觉得这些都对你来说门槛还是太高了,想做点简单的:

你假设俄乌战事明年会结束,美国有更多的精力放在中美竞争上。你判断美国会更加坚定的认为卡脖子好使啊。不方便直接对抗的,也不用武装封锁,就光明正大的把别人对他的依赖武器化——美国学者称为武器化的互相依赖(weaponized interdependence)就是卡脖子的文绉绉同义词。目前来看,中美竞争就在人工智能的算力上,制造高端芯片的全球依赖,妥妥的被美国人武器化了。你就想看看美国的芯片生产工厂都在哪里,台积电还会去哪儿投资,哪些城市会成为美国的芯片制造“芯硅”?你打算调用什么工具来获取这个情报?

现在,你可以有更加简单的工具:OpenAI的ChatGPT啊,直接问问她好了:

但是ChatGPT拒绝回答你,说这是商业机密

调用力得有一点钻研精神。你需要调研,调用点别的。你了解到ChatGPT只不过是OpenAI最近推广的小玩意,更加“好用”的智能是已经推出好长时间的达芬奇3模型,网站上直接就能调用啊。果然达芬奇3老老实实的回答了50个芯片厂商的位置。

抛给达芬奇3的问题是芯片厂(包括芯片设计厂商)位置,但你想知道类似台积电那样需要重度资产投入的芯片制造的工厂在哪儿,你得试试达芬奇会不会明白?
我试过了,达芬奇3给出来的制造厂名称都对,但坐标绝大部分都是错误的,所以现在的AI还不能完全信赖

你还是想去挨个判断一下正确的位置,你就得祭器搜索的大旗。虽然效率会慢点,也会更有意思。

台积电在亚利桑那州新投产的工厂,计划再投资几百亿美元保证与母厂同样的技术和生产水平。目前在台湾工厂的高精尖技术人员大部分都来这里参与新厂的产能建设,这也是被逼无奈啊
你可以从卫星影像和街景图上获取公开信息,判断基建力度,投资水平,引发的连锁效应

因为做这样的情报收集工作,因此而解锁额外的技能,你学会了从卫星影像中看城市的变化和扩张态势。你看看你的家乡20年都是怎么发展而来今天的地理形状的。

20年成都的变化,你觉得哪个方向的土地更有前景值得提前布局?

在这个过程中,你会有这样的一个感觉:知道一个工具的存在,约等于你会调用这个工具;你会调用这个工具,约等于你会学习使用这个工具;你会学习这个工具,约等于你已经会用这个工具;所以,如果上面的三个“约等于”之间不至于有太大的障碍,那么“你知道工具的存在,约等于你能把这件事做出来”。这个时代,比拼的就是你知道不知道。

我为什么说,一个渺小的个体 ,就用你的信息见识,就可以在这个时代舞台上发光发热,因为在这个数据技术迅速进步、新事物新工具急剧涌现的当下,搜索高于学习,学习高于熟练。“我知道”比“我会”更有用,哪怕我这个知道只是一定初级的了解。模模糊糊的观念比对细节的熟悉更能给你掌控感,广泛调用信息化工具的能力比一两个熟练技能更能帮你把事情办成。

情报有什么价值,用不着再多唠叨了。从开源情报中遨游,可不是就为了愉悦自己玩玩而已,这是一个明确方向的大行当,英文单词是Open Source Intelligence,简写为OSINT。它的官方定义是,从可收集、可利用的公开信息中产生的任何情报,并及时传播给适当的受众,以满足特定的情报需求。传统上对情报机构来说,这可能意味着从外国新闻媒体中获得的信息。而当下对大多数人来说,它就是从互联网上获得的公开内容。这些内容大体上可以分为人、事、地,就是哪些人,哪些事儿在空间上的哪些地物中组合,及其意味着什么。从哪儿找这些内容?无非是新闻媒体、社交平台、在线地图以及政府非政府组织发布的各种文档、视频、数据集中。只不过这些内容浩瀚如烟,而且是加速浩瀚。

没有人和组织能全覆盖的经营开源信息,我和极海的小伙伴只专注在地理位置这一个维度,即便如此,也已经觉得地理位置信息是宇宙级的巨量了。好在我们有兴趣,有热情,更加关键的是,我们对自己的调用力信心十足。开源信息的宝藏不一定那么容易快速挖掘的到,但成为舞台上一个亮眼的角色,我们一定会出彩。