品牌数据从下载到自动化:你也行!

今天凌晨,OpenAI放出的新模型(GPT-4o)和产品,让人觉得惊艳的地方,有。但前期吊足了大家胃口的GTP-5和与Google竞争的智能化搜索,还是继续待字闺中。

也对,让更多的大众使用,尤其是大家想象着能进入苹果这样巨大用户群体的生态,细无声的成为大家日常生活中随时可以调用的个人助理。这样,在占领广阔市场认知方面,效率最高。的确,我们看看周边的情况,风光无比的perplexity,秘塔,LLama3啊,乃至红得发紫的kimi,现在看来还是很小众的。上网找个东西,还不是顺手就敲入了个baidu?使用习惯呐,得一点点一天天的滋润。

对话唠嗑,画图唱歌,这些看似不太解决提升工作水平的应用,能深入人心。更别说OpenAI这次提出的情感化、人性化的方向,乃至要做到“全民免费计算”(universal basic compute)的未来畅享,使得AI更加普适化。

这么看来大佬们不太看重在专业道路上继续花大力气,可能产出的市场占有率太低了,大佬们也都压力巨大啊!尤其是数据方面的计算、统计、洞察,按照目前的判断,AI的改进不大,用的人也不多。那也好,去处理这些工作中的难题,咱们工程师们暂时就不容易被替代。只要AI不能保证数据的查、算准确和秒出,甚至在逻辑上不能保证严谨,那数据工程师的手艺还是不怕被淘汰。

数据手艺的进化也刻不容缓!不能放着这些好用的,免费的模型和工具弃之不理,还走过去的老路。这显然是和自己过不去。专业的数据工程师,比起来一个AI加持下的数据小白,恐怕竞争力也不是那么强,举一个小例子:

极海品牌监测跟踪的很多品牌,因为开店非常『狠』,每天都会有门店的更新。我们的客户每天都会下载Ta们关注的品牌数据。需要每天统计的数据也许会很简单,一个市场部门的小伙伴,就是想每天出一个列表加一个总结,提醒相关部门的主管。既然这样的工作是重复性的,那就让它自动执行。

假设这个小伙伴是瑞幸的『品牌监测』员。Ta要将最新开的库迪的门店提取出来,找出来离这些门店最近的那些瑞幸门店,计算一下最近距离,从而总结竞争压力和形势。

我们一步一步来分解:

一、数据下载是最简单的。来https://stores.geohey.com 注册以后,搜索库迪,点击数据下载,选择最近的日期。同样,也把瑞幸的数据下载下来,格式为Excel;

虽然说Excel文件中有『开业日期』字段,你完全可以用这个字段排序、筛选,但这样做就得你来『手动操作』了,无法实现自动化。所以一定是要写一点点代码去执行。无论是在Excel中用VBA,还是离开Excel环境去用python,都得换一个使用习惯。我严重推荐在python中练习和大模型配合交互的经验。

二、选一个大模型发送指令,一点一点来,将每一个步骤要解决的问题说清楚,拆的细比粗好,执行一步看看结果(用notebook),然后再继续:

1、分别读取两个Excel文件;

2、用开业日期这个字段将最近一个月的库迪门店提取出来,输出成一个GeoJSON的文件;

3、用经度和纬度两个字段作为位置信息,计算这些库迪门店周边500米范围内所有的瑞幸门店,保存瑞幸门店为单独的一张表,也输出为一个GeoJSON的文件;

4、计算一下范围内每家瑞幸门店,距离其最近的库迪门店的距离;

5、统计一下每一个新开库迪门店500米范围内的瑞幸门店的数量;

6、读取两个GeoJSON文件,截图显示门店的相对位置关系。

保存成的GeoJSON,可以快速的让你看一眼在地图上的位置,也可以不必写代码(VS Code有插件,也可以在QGIS、极海上图中查看),上图位置为重庆观音桥附近:库迪五月份新开的『观音桥远东城店』附近有四家瑞幸门店

三、将你关注的数据字段保存成一个数据库表格,可以自动调用大模型读取,并用于问答或者自动总结:

1、存储到一个可以被大模型读取的『库』中,示例为Notion。Notion有比较完善的API,并且可以通过Notion的云端同步到公有云大模型向量数据库中,减少本地部署的麻烦;

借助notion的API,写入页面中的一个数据库

2、用一个流程化的工具同步这个数据库,构建知识库,并按照自己的喜好选择大模型来实现知识库的提取和对话。示例中,我用的是Dify:

至此,从数据下载后的步骤实现都可以是自动化的。你的工作成果,是每周(天)都会可以将最近的库迪门店与最近的瑞幸门店对应起来,并用对话的方式提取这些门店的信息。你可以自动生成一份模板化的报告,也可以类似的,将其它数据的计算统计结果,发布为一个全公司都可以访问的聊天机器人,请同事们根据自己的关注点自行与机器人交流。

在这过程中,大模型(本次操练,我试验的是上周新进网红deepseek2)生成的代码,你可以不必细究,完成任务就好。在有新的工作场景促使你去做改进时,水到渠成的为你带来新的认知。所以,这背后的AI既是一个工作助手,也是一个潜在默默支持你提升技能的导师。

总结: 不管OpenAI、苹果还是谷歌将来为个人的日常生活场景提供多么强大的助手,正如前文所见,数据分析的未来在于AI与人类智慧的协同,暂时看起来AI还无法不通过特定任务的程序处理数据。AI的能力在于自动化重复性任务、快速运算以及提供初步洞察。然而,人类的专业知识、批判性思维和对业务的深刻理解仍然至关重要。数据工程师需要利用AI工具来增强Ta们的技能,而不是被取代。

通过将AI整合到数据分析工作流程中,我们可以:

  • 开心工作: 自动化繁琐的任务,例如数据清理和准备,使数据工程师能够专注于更具战略意义的工作。
  • 增强洞察力: AI可以帮助我们发现数据中的隐藏模式和趋势,从而提供更深入的洞察。
  • 快速更新数据: 通过提供更准确和及时的信息,AI可以支持更明智的决策。

最终目标是创建一个人机协作的环境,在这个环境中,AI和人类可以相互补充,以实现最佳结果。数据工程师的角色正在发生变化,但他们的技能仍然至关重要。通过拥抱AI并不断学习新技能,数据工程师可以确保Ta们在未来几年保持领先地位。

AI时代的数据分析充满了机遇和挑战。除了通过将AI视为强大的盟友,并专注于培养我们的技能和专业知识,我们目前最紧迫的进步空间在于分解问题,表述清楚,以及熟悉机器语言,你就会发现,总有一股能量支撑着你对抗这股挥之不去的时代焦虑。·