·
Basecamp 现已通过全新的、功能全面的命令行界面(CLI)向客服代表全面开放,该界面由一款出色的技能所封装,并依托经过全面升级且大幅扩充的 API。这是一种绝佳的方式,既能让客服代表访问 #Basecamp 中的所有内容,又能将其集成到任何地方。 #cli #ai https://x.com/dhh/status/2036860598785356219
0:00
有一整批消费者已经把人工智能等同于产品
0:07
攻击,跟扯淡一样。
0:09
人们并不是讨厌人工智能。
0:11
他们讨厌的是因为你想留住你的
0:16
产品而搞出的糟糕人工智能。
0:17
欢迎收听 Rework,这是 37signals 关于更好工作方式和企业管理的播客。
0:21
你的
0:21
业务。
0:21
我是 Kimberly Rhodes,来自 37signals 团队,与我一同的是 Jason Frieden 和 David
0:26
Heinemayer Hanson。
0:28
我们将谈论科技和人工智能相关的内容。
0:31
Basecamp 最近已支持智能代理。
0:35
这样你的 AI 代理就可以在 Basecamp 内工作了。
0:38
我不是专家。
0:39
接下来由你们来说。
0:40
David,你想先说吗?
0:41
当然。
0:43
我先挑剔一下这个词,就像我们刚开录之前讨论的那样。
0:47
“代理友好”这个词不错,不过对我来说更
0:53
关乎无障碍性。
0:54
在传统网页设计中,这就是我们对无障碍性的争论,意味着
0:58
让视障或
1:05
视力有限、色盲等人群更容易使用网站
1:05
那些特殊因素可能让他们难以使用未考虑这些的应用程序。
1:11
所以我们做无障碍工作。
1:15
进行对比测试。
1:20
如果某两种颜色放在一起,效果不佳。
1:22
色弱者看低对比度内容会很困难。
1:24
所以需要调整。
1:28
引入不同的颜色,增加对比度,
1:31
针对完全失明的用户做这些优化。
1:32
确保键盘访问性很高,能完全用键盘操作。
1:36
在不同元素间切换时,有合适的流程和节奏,
1:39
不会跳来跳去让人摸不着头脑。
1:43
我就是这么看待我们为代理无障碍做的工作。
1:44
这些 AI 代理在许多事情上非常聪明,
1:50
但在使用网站时却还会笨拙。
1:51
它们勉强能用,但速度很慢。
1:55
一个月前我们开始做这项工作时,我做了个大测试,
1:55
想着我们是不是根本不用改进。
1:59
目前的代理、现成模型,云端代码和开源代码等,
2:00
它们能不能直接做到?
2:07
它们到底需不需要帮助?
2:10
我惊讶于这些代理仅用浏览器操作竟然如此成功。
2:15
我能让其中一个代理注册 Basecamp,
2:21
在 Campfire 自我介绍,
2:23
Vizzy 和 Hey 代理也能做到,尽管速度非常慢。
2:29
那种感觉是,我能看到未来,但不知道未来何时到来。
2:33
看起来至少还有一年。
2:33
可能是两年,五年也说不准。
2:35
如果我们今天想让 Basecamp 成为使用代理的好地方,
2:42
得让它速度快起来。
2:46
没人会有耐心等代理在聊天界面慢吞吞地处理任务。
2:47
它们只是机械地输出信息,对吧?
2:52
然而这个速度必须适合在 Basecamp 中使用它们。
2:58
这就是所有代理无障碍工作的意义。
2:59
就像是铺了条小斜坡一样,
3:02
轮椅无障碍,你本可以用别的方法上去,
3:05
但很麻烦甚至有点危险,
3:09
有了斜坡就能轻松滑上去。
3:12
这就是我们给 Basecamp 做的事,
3:15
创建了命令行界面(CLI),
3:21
AI 代理可以用这个工具。
3:24
过去六到九个月中,我们发现给 AI 这些终端工具时,
3:26
它们变得超级强大。
3:29
这就是最近三四个月代理加速开发热潮的原因,
3:31
程序员和设计师突然能做更多事了,
3:34
不仅仅是向训练有素的 LLM 提问,
3:37
然后得到答案。
3:40
而是让代理去执行操作,代理会尝试完成任务。
3:44
就像人一样,有时不会做,
3:48
调用错误工具,犯各种错,
3:49
但如果能持续反馈,反复尝试调整,
3:52
不断试错,最终成功,
3:58
就能快速前进。
4:04
但这需要工具使用快速。
4:09
虽然我很佩服代理能用浏览器,且用得不错,
4:14
但了解它们为何这么慢后就明白了,
4:18
现在它们实际上是在截图,
4:22
通过图像分析分解界面元素和字段,尝试理解,
4:23
非常厉害,但非常繁琐且慢,
4:30
相比之下如果用命令行界面。
4:30
只需要文本。
4:35
这正是这些大语言模型被训练的内容,数万亿的文本数据。
4:39
它们读文本,预测下一个命令,
4:43
下一段文本。
4:43
and then succeed, it can really quickly move on.
4:47
But that loop requires that the tools are fast to use.
4:51
And as impressed as I was that the agents could use a browser and could use a
4:56
browser really well, you also realize that when you know how they do it, why it
5:02
's so
5:02
slow, right now the agents are literally taking like a screenshot of the screen
5:08
and then running it through this image analyze to break down what are all the
5:13
elements, what are all the fields and then trying to reason about it.
5:16
Very impressive, as I said, but also very cumbersome and very slow versus if
5:22
they
5:22
do all this work through a CLI, a command line interface, that's just text.
5:26
Literally what these LLMs have been trained, like trillions of tokens.
5:32
They've gone through text, text, text, what's the next command?
5:35
What's the next token?
5:36
他们在这方面又快又好。
5:39
所以如果它们能保持在那个小循环里,你就能得到每秒的标记数,
5:43
对吧?
5:44
这很接近就像是在写你的傻故事时的速度。
5:47
而这些之间的差别就是一切,对吧?
5:52
速度,正如我们常说,是一个特性。
5:56
当代理能为你做事,而你又有一些
5:59
耐心去等待时,速度就是一切。
6:02
这是“我懒得做”和
6:04
“让我让代理去做更容易”之间的差别。
6:07
我一直在试验我们新代理在 REMC 或 CLI 上的可访问性。
6:14
尤其是最近用的最快的代理之一,
6:20
Kimmy K25,一个超级快的开放式等待模型,真的让我震惊,
6:26
如果你让它写故事或解决逻辑问题,
6:30
可以达到每秒200个标记的速度。
6:32
也就是每秒100多个词。
6:36
超级快,对吧?
6:38
然后我出于好玩,让它帮我设计一个基地营项目,
6:43
规划基地营五号的发布活动。
6:47
当然,我并没有给它所有背景资料。
6:49
所以它不会给我完整的发布计划。
6:53
但它列出待办事项的速度,拆解得很细致,
6:59
加了备注,加了信息,还添加了日程项目。
7:04
比如说如果你四周后要发布,你得提前一周开始做这个。
7:07
你得在前一周做那个。
7:09
我当时简直惊呆了,这太不可思议了。
7:13
很有趣的是,当你想为什么这感觉特别时,
7:19
如果我18个月前问 ChatGPT 3 给我出一个基地营发布计划的文本,
7:25
它也能做出来。
7:29
我当时可能也会觉得挺不错的。
7:32
但我拿到它后,接下来该怎么办呢?
7:34
这就是代理可访问性的魔力。
7:36
你把所有的智慧、洞察、总结,还有我们
7:42
喜欢的大型语言模型的特点,
7:46
变成可用的东西。
7:49
它不仅仅是一堆文本块。
7:51
不,它是一个完整的项目。
7:54
这里有一些待办事项,有些分配给你,
7:56
有些分配给代理,
8:00
有些分配给 Jason 或者其他参与这项工作的团队成员。
8:05
突然间,所有的智能都变得可执行了。
8:08
说这些话的时候真的得小心,别听起来像是 Salesforce 的机场广告。
8:13
智能变得可执行,砰!但有时候这些
8:18
惊奇的发现确实让你感叹,“哇,真是太棒了”。
8:24
就像我用这些代理进行编程一样。
8:30
我曾经很长时间非常好奇,
8:33
也非常着迷。
8:35
我喜欢问它各种问题。
8:36
然后我又自己动手写了点代码。
8:39
就是用我这两只小手,突然一切都变了,因为
8:44
代理开始能做事了。
8:45
它们能用终端,
8:46
能运行代码,
8:47
能运行测试,
8:49
能重写测试失败的代码,
8:51
能进入那个循环。
8:53
我从“哦,这挺不错”
8:56
变成了“这真是太疯狂了”。
9:00
你去做,我需要时会介入。
9:03
如果我们能把这种能力推广到其他一切上,比如项目设置,
9:09
分工,进度检查
9:13
和回访,
9:14
当这些超能力触手可及时,
9:19
因为所有内容都在基地营共享,
9:23
这不仅仅是我和代理的私人对话。
9:26
整个公司,整个项目,每个人都能围绕这些工作
9:30
协作,且不止用一个代理,
9:34
而是多个代理。我们已经在基地营大量实践了,
9:40
它们驱动着一些内部流程。
9:42
我们有很多不同的代理。
9:44
有些是个人人工代理,代表他们行动,
9:48
还有一些自动代理也做这些事情,并进行跟进和提醒。
9:52
我知道这种爆炸式发展在许多先行公司的
9:53
领域内正在发生,
9:57
但还有剩下98%的世界,
10:01
他们或许用过 ChatGPT,但未用过代理。
10:07
他们没用过命令行界面(CLI)。
10:09
如果你很活跃在 X、推特等平台,看到大家高速发现、分享这些,
10:15
你可能会觉得整个世界已经这样在运作了,
10:20
其实不是,完全不是。
10:22
我们现在所做的工作,比如代理可访问版的
10:25
基地营,使用 CLI、技能等,
10:29
甚至还
10:29
没能覆盖
10:33
广大群众。
10:34
我们还差一步,让它像用 ChatGPT 那样简单,
10:35
而 ChatGPT 几亿人都使用了,
10:42
并很快变得主流。
10:44
我们得跑向冰球会去的方向。
10:46
我觉得这就是这项工作令人兴奋的地方,
10:49
近两年来我们内部做了不少 AI 混合特性实验,
10:55
就是那些把 AI 融入产品
11:02
本身的尝试,比如说,它可能帮你总结,
11:06
给你建议,或以其他方式辅助你。
11:06
大多数公司的这类工作
11:10
成绩可以说是不太稳定。
11:11
如果不那么宽容的话,可以说是完全失败了。
11:18
事实上,情况糟糕到一部分消费者
11:22
已经把 AI 等同于产品退化和胡扯。
11:28
这是事实。
11:34
微软上周刚不得不公开道歉,说抱歉,
11:39
我们把AI乱塞进了画图、记事本,还有Windows的各个角落。
11:46
我们听到了,你们不想要那个。
11:50
当然你们不想要,因为这只是附加上去的,实际上
11:54
并不
11:54
够有用。你把它和消费者对明显有用的东西的兴奋感对比一下,
11:59
比如ChatGPT和其他基于聊天的界面,
12:04
几亿人在用它。
12:07
他们认为它是日常生活不可或缺的一部分,并且为此付费,
12:12
这些东西都说明人们不是讨厌AI。
12:15
他们讨厌的是被乱塞进来的糟糕AI,只因为你想把它
12:20
套进你的产品里,对吧?当然有好的方法。
12:24
有技术可以把AI嵌入产品,让它
12:29
完全
12:30
原生且不可或缺,人们不会拒绝,但这很难。
12:35
正如我说的,我们试了几年,看能不能找到很多
12:40
切入点,尝试了很多方法,但几乎没发布任何成果。
12:45
因为没达到最终标准,我们不想像记事本、画图那样发出烂产品遭到反弹。
12:49
所以我们继续努力,我相信我们会成功。
12:53
我们会找到它真正合适的位置,且非常合理的方式。但在那之前,
12:56
我们可以给大家提供一个简约且易用的Basecamp版本,
12:59
一个他们可以用现有喜爱工具操作的友好版Basecamp。
13:06
比如没有人在每天用Plot代码或Open代码时会说我不想要那个。
13:10
没人会说我不想能用指尖控制Basecamp,
13:14
不想把它连接到GitHub或Sentry或者其他任何东西。
13:17
他们会说想,因为这是显而易见的胜利。
13:21
这也是一种建议。
13:24
我想说的是,任何想搞清楚AI在产品中作用的人,
13:28
但你知道吗?
13:31
在你弄明白之前,如果还没弄明白,就先让它易用。
13:36
让代理更容易使用它。
13:38
这就是解锁我们向客户承诺了二十年的API所有潜能的粘合剂。
13:42
但99.9%的人从未使用我们的API,因为那需要程序员,
13:44
还得做各种准备,太贵了。
13:49
让代理易用,CLI,技能,这一整套把所有承诺带了过来,
13:53
虽然不能完全端到桌上,
14:00
但我们差不多了,不那么麻烦
14:03
的一盒子,很多人都能打开。
14:05
我猜年底前
14:11
这实际上会成为主流,因为会以大家都用的界面批量发出。
14:14
好了,现在代理可以用Basecamp了。
14:17
其他产品有什么打算?
14:18
嘿,Fizzy,那些会推出吗,还是只限Basecamp?
14:20
哦,全部都会推出。
14:23
实际上Fizzy的无障碍做得挺好,因为我们的朋友Rob发布了一个开源CLI。
14:27
其实我们还雇了Rob Salkas来帮我们做Basecamp CLI,
14:27
因为他做Fizzy CLI做得很棒。
14:31
我们会应用很多经验,继续打磨Basecamp CLI。
14:35
这是个AI的启发时刻,我们想让Basecamp更易用,
14:37
于是我们做了CLI,
14:42
而代理实际上写了大部分CLI代码。
14:42
CLI绝大多数代码都是代理写的,
14:43
他们很快就完成了65%。
14:51
然后我们花了几周时间把完成度提高到97%,虽然不是100%。
14:55
现在我们可以把学到的经验,应用到Rob做的Fizzy上,
15:01
推出官方完整打磨的Fizzy CLI和技能。
15:04
接着,百分之百我要这个,
15:08
我要让它支持我的邮箱。
15:09
当我用Fizzy或Basecamp时,把邮箱和它们连接起来,
15:14
把所有东西串联,配一个可以听我指令的执行代理。
15:17
比如我经常用的旅行,就是让代理直接去查信息,
15:20
我只想拿邮件里的一个信息,
15:24
不想翻邮件。
15:25
不想看邮件内容,
15:31
只想要邮件里的事实。
15:35
我很期待给邮箱和日历都全面无障碍,
15:36
把它们串联起来。
15:39
我们会全部做到。
15:42
今后这都会是默认配置。
15:47
代理的无障碍不仅适用于直接使用应用,
15:52
也适用于连接更大的生态系统。
15:57
很多成功应用,比如Slack,一个很好的例子。
15:57
Slack之所以成功,是因为它有一个封闭的生态系统和集成。
16:04
代理无障碍正在让这一切变得开放给所有人。
16:07
所有壁垒都被打破了,
16:11
只在一个应用里有什么优势都不存在了。
16:13
实际上,游戏的关键是你的代理能和你用的任何东西对话,
16:17
访问任何数据,
16:18
不管数据在哪里,都能把它调回来或散布到各处,
16:19
把所有东西连接起来。
16:21
I just want the fact that's in the email.
16:23
I'm really excited for having full accessibility for, hey, both on the email
16:29
side
16:29
but also on the calendar side and tying all these things together.
16:32
So we'll do it for all of it.
16:33
And I think anything going forward, this is going to be baked in.
16:36
This is going to be table stakes that your application is, agent accessibility
16:41
accessible,
16:42
both for the direct use with that application, but just as much because it
16:47
kind of plugs in to this broader ecosystem.
16:50
So many successful applications over the year Slack is a good example.
16:54
We're successful because they ended up with this ecosystem that was kind of
16:58
proprietary to Slack and integrations with it.
17:00
What the agent accessibility is doing is basically bringing that to everyone.
17:03
Like all those moats just come tumbling down because there's no specific
17:08
advantage
17:08
to just having something inside of one application.
17:11
In fact, the whole game here is that your agent can talk to anything you use,
17:17
can access anything you use, wherever your data is, it can move it back here or
17:23
everywhere and tie it all together.
17:24
这真令人兴奋。
17:25
好的,你可以在 Basecamp.com/agents 上了解我们正在做的事情。
17:31
这是 37 Signals 的一部作品。
17:33
你可以在我们的网站 37signals.com/podcast 找到单元内容和文字记录。
17:38
视频
17:38
剧集在 YouTube 上。
17:39
如果你有关于更好的工作方式和管理的提问给 Jason 或 David,
17:43
台词是什么?
17:47
正要说那个。
17:48
我想,等等,我需要代理帮我说这句话。
17:52
如果你有关于更好的工作方式和管理的提问给 Jason 或 David,
17:56
业务。
17:57
给我们留言语音,网址是 37signals.com/podcast question。
18:01
或者你可以发邮件到 [email protected]。
18:05
那不是。
18:05
是这样吗?
18:06
你们,这就结束了。
18:08
是邮箱地址,对吧?
18:09
我想是的。
18:10
哦,天哪。
18:11
让代理检查一下。
18:12
真的,我需要代理来做结尾。
18:17
(欢快的音乐)
Repost this post?
Share with your followers.
Reply