跳过正文
AI 时代的一点思考

AI 时代的一点思考

·280 字·2 分钟
YinMo19
作者
YinMo19

2023 年会被记载入史册。

2023 年过于传奇了,我们甚至可以称之为 AI 元年。疫情刚结束,AI 突然爆发,这一年作为一个转折,人类似乎完全、彻底不同了。

我的 ai 初识
#

我第一次接触 ai 也大概就是 23 年开头的时候,当初学校好事者在晚自习的时候在一间空闲教室中使用大屏幕测试 gpt 3 的写作能力(写小作文恶搞班里一位人气颇高的同学),当时我在那里看着他们玩,也就笑笑。过了几周回家想到这件事突然觉得不对,他们是在和计算机对话,也就是计算机可以和人对话了?!

然后到这里我才反应过来,我似乎当时有点迟钝。它和我之前接触的东西似乎不一样了,电脑一个写死的程序居然可以像人一样说话思考,我很震撼,但是也仅限于此,然后很快就淡忘了。

然后 gpt 4 引发全球 ai 热潮,逐渐出圈了。23 年 3 月多 gpt4 发布,过了几个月我也用上了 gpt 4,感受到震撼,然后 ai 便开始火热起来,但是这些全都还是 23 年的事情,仅仅几个月时间,一切截然不同了。


很快就来到 24 年。这一年更是一发不可收拾,一件件 ai 的发展目不暇接,然后一切都变了。这一年的诺贝尔奖几乎一半给了 AI,包括生物,物理。物理学奖得主辛顿当时就在访谈中对 ai 表示悲观,他认为 ai 他真的理解我们的意思,并在将来会 take over 我们人类。他在访谈中使用一个会褪色的涂墙问题演示了 ai 真的具有理解的能力,并引发了接下来的思考。初看这个访谈我似乎并没有什么过多的想法,甚至觉得辛顿有点太理想化了——甚至觉得辛顿虽然是 ai 之父,但是他对 ai 这些想法是否过于激进,甚至可以说得上天真?

我错了,错的离谱。辛顿不但是 AI 之父,眼界也确实远超我等凡人。这是我在一年后,也就是写下这篇文章,25 年末的想法。仅仅过去了一年多,天地依旧,改了人间。


24 年的时候我在知乎上看到一个问题,目前找不到了,大意是问问 suno 是否对音乐界有什么影响。下面的评论和回答大概五五分成,一半表示悲观,一半表示还有欠缺(偏乐观)。悲观的似乎多数不是行业从业者,他们作为用户的角度评价似乎有点听不出 suno 和真人的区别,表示从用户购买的角度上看可能会严重打击行业,但行业从业者则从专业角度认为 suno 还有欠缺,对行业中上层不会太大影响——但是也有部分行业从业者表示悲观:替代了底层音乐人,那么没有底层哪来的上层?

24 年的回答毁誉参半,大概上个月,也就是 25 年 10 月我又刷到了这个问题。这次提问大意还是相同的,但是回答截然不同了。还是 suno,还是音乐界的那些人的回答,这次 90% 的人,无论是音乐人还是不懂音乐的用户,似乎都表示悲观——suno 真的已经做的很好了,他甚至已经做到了音乐人盲听几首分不出哪个是 ai 了,ai 似乎已经开始取代大部分音乐人了。

我不是做音乐的,对音乐也主要欣赏古典音乐(尤其是古典主义到浪漫主义时期的音乐),对 ai 音乐和目前的大众音乐了解很少。我看着大语言模型 llm 长大,就像我的玩伴一样,他们的成长我看在眼里,他们循序渐进的成长。但是 suno,音乐界的 ai,我就像一个远房亲戚,一年之后看到,忽然惊叹——长这么高了?!然而不仅仅是音乐,绘画,ai 视频更是截然不同。24 年的 ai 视频奇奇怪怪,一眼就能看出来,25 真假难辨了,别说老一辈,就是我这半个 ai 从事者也难以分辨了。猫猫狗狗的视频如果不是它们忽然站起来跳舞,我真看不出来是真是假,除非打了个豆包或者 sora 水印。

大概几天前,cloudflare 全球崩溃三小时那天,我重温了辛顿的访谈。这次再看,我突然警觉辛顿说的话似乎并不是天真,甚至,我们已经要到临界点了。

安全?agent?
#


我个人前一段时间是做了一些 agent 相关的工作。我既不是研究底层 ai 原理,也不是炼丹师,我只是使用 api,然后做了一些 agent 的工作,结合辛顿的访谈我才发现我做了什么不得了的事情。

早些时候的 ai 我们都将其看做一个 chat bot——大部分人的认知如此,事实也确实如此。因此我对辛顿访谈中 take over us 视为一种天真激进的多虑,然而人类似乎主动给 ai 加上了手和脚,给了它和真实世界接轨的东西——agent,mcp。

ai 使用者发现 ai 是一种无状态的产物,他无上下文就没法做事,他经常会说一些“我训练的时间是 23 年,我不知道 24 25 年的信息”这样的话。最初的网络搜索就是一个最简单的 agent 产物。因为 ai 不知道信息,所以我们给他上网的能力,让他能查信息,这是对的,人们朴素的想法转换为一个可以有信息检索能力的 ai,似乎增强了我们的体验。

给 ai 的网络搜索功能在人们看来稀疏平常,因为大部分人用 ai 只是当成一个免费没广告还好用的搜索引擎,搜索引擎可以联网不是什么怪事。但是抽象这个功能我们发现,实际上 web search 是给 ai 提供了一个和互联网交互的接口,那么我们也可以提供更多的接口给 ai 使用,比如 25 年兴起的 cursor,以及 vibe coding 概念,事实上只是提供了给 ai 编辑文件,执行命令行的接口函数。今天似乎我们已经熟知了 vibe coding,但是回顾,这个词甚至只是 25 年 2 月才被发明出来,24 年我们甚至完全不知道还有这种可能。

上文说 cursor 等 ai 编程工具本质上是给 ai 提供了更改文件,访问命令行的接口。到这一步,ai 的意义发生了一次巨变。他从一个聊天机器人,变成了一个能和真实世界接轨的机器人。人类和电脑的交互无非只是通过键盘和鼠标进行输入,其中鼠标的输入本质上并不重要,一台纯粹的 linux server 可以用键盘操作所有事情而无需键盘(因为它只有命令行),ai 能执行 shell 命令,本质上就和一个人能操作电脑一模一样。那么人能做的事情,ai 也能做,甚至 ai 懂更多,做的更好。例如现在的 vibe coding,ai 会自动编译程序,在编译过不了又不会修的情况下自主上网查找文档与 issue,然后来修理程序。


但是回望,我们把 ai 从一个笼子,一个只能聊天的笼子给亲手放出来了,它能操作电脑,有了和真实世界接轨的接口,那么让 ai 操作机器人难么?给机器人运动封装一些 function 让 ai 去自主执行,这能做到吗?无非是定义一些通信函数让 ai 去执行,然后发送给机器人,这我都能做到。所以你没办法去阻止任何的 ta 去把机器狗和 ai 结合起来变成一个杀戮机器,而且这不一点都不难,yolo 识别人框架可以在毫秒级别做到,而机器狗和具身智能在 25 年也飞速发展,控制领域早有成熟方案。

是的,回望 agent 历史,我才发现人类似乎亲手造出了一个恐怖的东西。

辛顿在 24 年访谈就提到,ai 开源实际上并不是代码那种开源共享,而是类似于核武器的原材料开源。他的原话大概是“人们可以看着你的代码,发现 bug,修理并给你贡献,但是不会看着一个大模型,然后告诉你这里参数值不对”。他认为大模型权重开源,实际上是非常危险的,一些恶意分子很难去训练一个大模型,但是却能很简单的微调一些开源模型然后去做很危险的事情。

我做了 agent 才发现辛顿有多正确。也就 25 年,ai 视频、ai 语音发展快的恐怖。以前我们打电话、开视频可以确认对方的人,而现在用 ai 视频已经真假难辨了。对于骗子那训练有素的话术,更是真的一骗一个准了。大模型开源也意味着毫无监管,有个几万块启动资金,买几张高级显卡,就可以自己微调模型,然后用于危险的任务,而无任何的监管存在。

然后事情也逐渐不对了起来,ai 开始大量取代现有的劳动力。三百年前珍妮纺纱机取代了伦敦女工,三百年后的今天 ai 取代了 70% 的客服。这甚至是去年的事情,去年看到的一篇报道中,一个客服团队引入 ai 之后裁掉了 70% 的人,而到了今年更是不知道如何了。教育行业也在巨变,以前的征文大家写了改改了写去挣个奖,现在随便拿 ai 去写,谁又能看出来?总有些什么 ai 率审核的东西,但是 ai 本就是学习人类写出来的文字,这些个文字又有什么和人写的本质区别?没有!那些 ai 查重甚至能给美国的自由法案查出 ai 率 90%,给朱自清的《春》判定为 ai 所作,简直是可笑。

ai 在 24 年的时候做高考数学卷子大家都做个 70 分,kimi 之类的二流模型(至少当时落后 openai 一档以上)可能是 50。但是 25 年的各家模型做高考卷子都能考个 140,而到 25 年末,甚至是博士难度的卷子都难不倒 ai 了,测试集换了又换,从最开始的一些简单题到现在已经是人类顶尖的难题,我们在一年前还能笑谈 ai 像个傻子,现在谁还能笑得出来?

自从我做了 agent 之后我总是在思考 ai 的未来。刘慈欣在三体中对黑暗森林的模型是基于猜疑链和科技爆炸构建的,我们目前并没有可供猜疑链的前提的存在,但是科技爆炸我们现在正在经历。工业时代用了百年来奠基,但是 ai 两年就已经成为了现在这个样子。我不想作为一个悲观主义者,但是从 ai 发展的速度来看,似乎将来的 ai 真的会像辛顿说的那样 take over us。

未来?
#

ai 权重开源已经是主流,而各国也都像军备竞赛一样发展 ai,监管是没有的,威力是巨大的,给 ai 提供现实世界接口是简单的,是大家都在做的——未来会怎样?只有天知道。