文章来源:FounderPark
AI语言学习的第一个独角兽来了。
近日,口语学习应用Speak 宣布完成了 7800 万美金的 C 轮融资,估值 10亿美元。
今年 6 月,Speak 才刚完成 B-3 轮 2000 万美元融资,估值 5 亿美元,仅仅半年时间,Speak 的估值就翻了一倍。
而来自投资实习所的信息,目前 Speak 的 ARR 已经接近 5000 万美金,年增长率达到了 100%。
2017年Speak在韩国创立,2023 年之前韩国市场的收入占比一直超过 90%。在韩国市场验证了 PMF,近 6%的韩国人正在使用 Speak 学习英语,这也是 Speak 之前能够获得融资的一个重要原因,在 2022 年底的 B-1 轮融资之后,Speak 开始开拓日本市场,除了日韩两大传统市场,今年下半年,Speak 在中国台湾市场的收入开始快速增长。
最近,Redpoint AI播客主持人Jacob Effron及Patrick Chase对Speak的创始人Connor Zwick进行了一次访谈,对于Speak的商业模式、产品交互设计以及如何运用AI等,进行了深度讨论,Founder Park 对播客进行了编译。
一些值得关注的点:
在 AI 能力的加持下,Speak让每个人都能在很低成本下拥有有一个 1 对 1 个性化语言学习导师,这在之前需要付出非常大的成本。
AI 辅导的核心是个性化,这里的个性化包含了课程的个性化、学习模式的个性化以及导师的个性化。这和传统由人工设计课程统一给所有人使用的模式完全不同了,不只是课程内容的不同,另一个最大的不同是背后的成本结构完全不同了。
在Conner看来,任何形式的工具提示、用户教育或功能解释,都意味着我们的设计还不够完善,还没有办法让用户凭直觉来使用它。
垂直场景的模型评估很难,如果你能提炼出一个完美的评估标准,你基本上就提炼出了你要优化的问题,然后优化就变得直接了当了。
多邻国的核心是提供一个非正式的学习体验,Speak专注于帮助那些之前已经花了10多年学习英语、试图提高流利度,但缺乏与真人交流机会的人。
Speak向用户提供的、他们从根本上追求的是人与人之间的连接。他们试图在全球范围内,无论是从专业、文化还是社交的角度,与更多的人建立联系。他们想要与那些不仅仅说他们自己语言的人建立联系。
两千年前最好的学习方式,是像亚历山大大帝从苏格拉底那里学习一样,现在这仍然是最好的学习方式。这显然会随着AI和教育的发展而改变。
01
Speak 的核心功能
是让人流利地说外语
Patrick: 能简要介绍一下你们的产品吗?
Connor:当然可以。Speak 是一个能够让人流利地说外语的解决方案,特别是学习如何用这门语言在现实中与他人交流。我会把这与其他学习方法进行对比,比如别的方法可能更注重语法或背诵,或专注于用记忆卡片。实际上我们也看到了很多基于记忆卡片的语言学习应用。所以简而言之,这就是我们的核心理念。
我们在实际的学习过程中,有一套完整的教学法和方法论。当然其中也融入了技术。但从根本上说,从一开始我们就教人们词汇组合,然后让他们学习那些在日常对话中经常一起出现的高频词汇。接着,我们教你如何说出这些词汇,然后让你不断练习,直到能够信手拈来。然后你就掌握了这些词汇模式和组合,我们会让你在模拟对话中练习这些词汇,在这些对话中,你会去实现自己学习这门语言的真实目标。所以,如果我想学西班牙语是为了去墨西哥城和朋友们一起玩,那么我可能会练习与此相关的内容,并且我可以真正地去应用这门特定的语言。
而所有这些都是极度个性化的,针对每个用户。所以无论人们的动机是什么,兴趣是什么,水平如何,一切都是课程的一部分,一切都是为了实现用户的个人目标服务。
Jacob:我觉得你们的产品很酷的一点是,除了学习词汇等基础知识外,你们还帮助人们改善说话方式。我认为这其中包括口音问题,这可以帮助人们更清晰地表达自己。你们是如何构建这一功能的?
Connor:Speak 有不同的模式可以选择,可以非常专业。至少从短期到中期来看,我们可以继续自己进行建模,比如为某些任务开发自己的内部模型。比如我们可以做一些比通用模型更专业、更小众的事情。
从长远来看,大型的基础模型将继续取代很多东西。但从短期来看,以具体例子来说,我们已经开发了自己的内部语音识别系统,它对于口音很重的人来说非常好用,能够理解他们想说的话,还能理解他们犯的具体错误,并确保这一切都非常快速、可靠,并且能够以快速可靠的方式将信息反馈给我们的客户,从而提升我们的产品体验。
我们还有一个基于所有数据构建的语音识别系统,能够检测学习者在发音和其他个性化方面犯的错误。可能有一天一个非常好的多模态语音模型能够做到这一点,但这不是明天就能实现的。所以,即使我们只会使用这些模型几年,它们仍然对我们的业务发展有着巨大的价值。这不一定是我们长期核心专长或战略支点,但至少在接下来的几年里,它肯定是非常有价值的。
Jacob:因为在构建这些模型时,你首先会得到一个现在就用的东西,然后在围绕着它去开发其它东西的过程中,你就会获得新的知识。
Connor:确实是这样。去建立一个拥有更多用户、规模更大的业务能让我们收集更多数据,然后在其基础上构建其他模型,并有更多资源来进行更大的投资以及所有这些其他东西。就像我认为在某个阶段,这真的就像把球发出来到球场上,而这是你首要专注的事情。你不能想太多过于抽象的事。
02
语言学习 App
应该如何设计交互?
Jacob:目前你们正在尝试一种不同的语言学习方式。我觉得我们过去都有过这样的经历,比如找家教或大声朗读,但这不是人们第一次打开这个应用时所期望的。那么,产品的用户教育真的很难吗?还是人们从一开始就能直观地掌握使用方法?这几年你们有什么心得?
Connor:在与我们的产品和设计团队合作时,我一直坚持的一个观点是,任何形式的工具提示、用户教育或功能解释,都意味着我们的设计还不够完善,还没有办法让用户凭直觉来使用它。但这真的很具挑战性,因为我们在招聘设计师时经常谈到,我们真的在围绕以音频为核心的体验,探索新的界面范式。就像人们在技术上以一种根本不熟悉的方式交流一样,他们之前从未这样与技术互动过,同样,这种开放式的特性也是如此。
例如,在新用户引导流程中,当你打开应用时,就只出现一个麦克风按钮。我们会问你一个简单的问题:「你为什么想学英语?」你只需按下按钮,然后直接开始说话。但人们可能会想,我应该说什么呢?我应该用什么语气说呢?我应该给出一个一分钟长的回答,还是简单地说几个字呢?用户对此感到惊讶,虽然不是完全被吓到,但确实出乎他们意料。这是一个很好的例子,说明如何使这样的体验变得更好。因为我们想让他们用自己的话说出他们的动机,然后在他们提供这些信息后,为他们提供高度个性化的体验。
我们当然想在一开始就向用户展示应用的使用方法。但同时我们也知道这是一个全新的领域。那么如何设计一种既直观又能适应未来发展的方式呢?这就是一个典型的挑战。
但我认为,尽可能减少用户教育是一个目标。考虑到这个功能,它就是一个很好的例子。我们可能几个季度前就推出了第一个版本。由于像 ChatGPT 这样的应用在全球范围内如此普及,用户对这种对话范式的理解已经发生了显著的变化。所以我确实认为所有这些都在迅速发展,这又是另一个值得思考的设计挑战。
Patrick:你如何看待 UI 随时间的发展变化呢?例如,它是否会逐步向音频转变,最终变成一个可以与我们交谈的智能体?或者你认为目前这种 UI 始终有其独特价值?或许,我们先是从菜单中选择所需,再进行转换,并围绕此展开结构化对话。
Connor:我猜测,未来的 UI 将变得更加流畅自然,且能同时兼顾这两种功能,使用起来也将更加直观。这是我们经常思考的一个问题,我们用「混合」这个词来描述它。但如何构建一个混合界面,让我们可以随时选择说话或打字呢?
我们正处于这种范式发展的初级阶段。虽然语音并不总是最佳选择,但在某些情况下,它确实更为便捷。随着语音模型的不断进步,这将会是一个巨大的转变。然而,在某些情况下,我们可能更倾向于打字或点击,特别是当我们有键盘时,这实际上是一种更快速的输入方式。因此,这是我的猜测,也是我们正在思考的方向。
Patrick:语音领域的进步太大了。现在,我们可以打断模型正在说的话,而它们听起来也更加自然生动。过去几十年里,我们一直处于适应技术的阶段。而现在,我认为技术将会逐渐适应我们的交互方式,这真的很酷。语音领域无疑是最令人感兴趣的领域之一。
Connor:我完全同意上述观点。与此相关的另一个问题是关于你究竟是去推送信息给用户,还是通过对用户的深入了解来吸引他们。过去我们想要获得有价值的信息都要自己主动去搜索,而那些被推送过来的信息 99% 都毫无价值,比如垃圾邮件和推送通知。它们只是简单地发来一些消息。
而现在,一个全新的界面解锁方式出现了,那就是在后台常驻时想着我们的需求。它可能会观察我们的信息或数据,并在后台为我们处理任务。这是我们在语音领域一直思考的一个重要问题。虽然它最终会如何发展还不得而知,但我们可以预见的是,未来的界面将会发生翻天覆地的变化。
Patrick:在真实世界中,这意味着什么呢?比如你在巴黎旅行,你的设备会说:「嘿,你有没有想过或者需不需要在这家咖啡馆点餐「之类的?
Connor:它当然可以做一些像这样积极主动的事情。不过我们在这里思考的很多事情实际上需要相当多的计算能力,而且会有延迟,所以并不一定是我们想要马上就呈现给用户的。例如,如果你今天已经使用 Speak 一个小时了,那么对我们来说,也许在用户所在的韩国,当该用户群体正在睡觉时,我们利用夜间运行那些 GPU,并开始分析用户,看看他们今天都做了什么事情。这样我们就可以知道什么样的要点解析和课程他们会感兴趣,明天就可以发送给他们,以便开始下一课的学习。
Jacob:第二天用户一打开应用就会收到这些。
Connor:没错。就是要提前做这些事情。而且思维模型是即使在你没有使用它时,它也在思考你的需求。关于用户的信息越多,我们能做的事情就越多。但这就像一个全新的领域。我认为目前并没有太多人在涉足,但这将是一个深刻的转变。
03
尽可能多的人付费,
或者取代线下的辅导课
Jacob:你们的课程设置都是提前规划好的吗?还是说随着学习的深入,你们会改变课程设置?设置课程的时候,你会不会坚持某种准则,提前设定好学习的路径?还是说存在不同的路径,可以根据每天的情况来围绕一个有趣的话题展开课程?
Connor:在考虑课程设置时,我认为这两种方式之间并不矛盾,所以可以结合起来。
以学习语言为例。学习语言有一定的正确顺序。比如你需要从最基本的单词和词汇开始,因为我们有 100 个常用词,使用频率达到 20%;接下来 500 个词的使用频率达到 80%。所以你应该先学习一套特定的单词。但是,也许在语言学习的最初阶段,这些单词的具体顺序可以针对用户进行个性化和定制,也许你应该先学的 500 个单词与另一个人的完全不同。所以我们会比较灵活。
不过在很长一段时间内,人类都需要参与到设置课程的过程中来,让课程设置更符合需求,去把控细节,特别是总体的学习策略和方法论层面。但现在其实越来越多的工作实际上是由我们的课程团队以外的团队完成的,比如机器学习团队。这是一个有趣的挑战,因为机器学习团队现在需要理解我们的学习方法论的原理,以及我们如何教授人们语言,这是非常跨职能的。
所以,回到你的问题上来,我认为理想的情况是两者兼有。最酷的是当用户稍微偏离了常规路径,开始以一种非常规的、个性化的方式来学习时。
Jacob:是的,我不知道你们的AI是否有过像 AlphaGo 下棋那样,就是走了出其不意的一步,让用户很意外,但效果却出奇地好。
Connor:我不知道你们有没有读过 Neil Stephenson 这位科幻作家的书,他写了一本叫《钻石时代》(Diamond Age)的书,基本上讲的就是这个。书中讲的是一个女孩找到了一本书,这本书基本上是由 AI 驱动的,它是一个包罗万象的启蒙读物,可以教她任何东西。整个故事都是围绕这个展开的。它实际上给了我很大的启发,尤其是书中描述的那本书如何以一种独特而富有创意的方式为个体提供全面的指导。这是我们经常内部讨论的话题,我觉得这是一个非常酷的想法。
Jacob:现在我很好奇的是,模型调用的成本似乎每隔几个月都会下降。所以,我总是很好奇,大家是否觉得在产品开发上受到了什么限制,比如有些想做的事情,但因为成本太高而无法实现。或者你们是否觉得模型推理成本根本就不那么重要?
Connor:我觉得我们并没有因此受到太大的限制。显然与企业服务相比,我们这种更大规模的公司,每个用户的成本更低。我们并没有免费用户,但对于我们的订阅用户,我们并没有感到受限。
但即使真的感到受限,我们可能也会无论如何都要开发出来,并在短期内承担这些成本,因为我们相信成本会随着时间的推移而降低。这确实感觉像是 OpenAI 的策略,成本越低,需求就越大。如果降低成本,需求就会一对一地增加,这些公司就能赚更多的钱。
Patrick:你们是如何考虑产品的定价的?
Connor:定价确实很重要。我觉得我们还没有足够的时间去深入思考这个问题,至少没有我想要的那么深入。但总的来说,我们正在考虑两个极端的情况。
一方面,我们如何让 Speak 对任何想要它的人都极具吸引力?因为说到底,我们正在针对一个传统上无法以如此低的边际成本来解决的问题提供软件解决方案。所以我们有机会为数百万人提供价值。我认为把生意做大的方式就是让产品能够覆盖所有这些人群,并长时间向他们收费。这只是一个方面。
另一方面,我认为这里其实有一个非常有趣的机会,就是可以对消费者产品收取更高的费用,因为我们真正提供的东西,目前有数百万人作为消费者每月支付数百美元来购买,比如线下辅导或课外班。所以,这里的问题是,是否有可能也提供这种高端体验,并收费?不一定要像课外班那么贵,但一定物超所值。
如果我们能提供与众不同且真正有价值的东西,那么就不会陷入价格战。但这还处于非常早期的阶段。而且定价往往是违背直觉的,还总是在变化。
Jacob:那么在模型评估方面呢?比如,当一个新的模型出现时,我显然有一个高层次的目标,那就是让学习语言变得更容易,但你怎么知道你正在测试的新模型是否真的好呢?
Connor:我认为评估是人们往往低估其难度和重要性的一件事。对于我们的机器学习团队,我经常说,也许评估是最重要的。因为如果你能提炼出一个评估标准,尤其是当我们谈论大语言模型经常执行的开放式任务时,其实在语音方面也一样,如果你能提炼出一个完美的评估标准,你基本上就提炼出了你要优化的问题,然后优化就变得直接了当了。
举个具体的例子,在语音方面,我们先不考虑那些模糊的任务。对于语音,它不仅仅关乎我们有多少错词率,以及我们误标了多少词,更关键是我们是否捕捉到了用户的每个错误。有时用户说了一个词,但别人根本无法理解,而我们现在可以训练一个模型来理解人类在交流中无法理解的词。那么我们该如何评估呢?什么是正确的,什么是不正确的?我们的评估可能会变得非常复杂。
Patrick:是的,关于评估,我一直都很好奇。所以,当 GPT-4 发布时,Speak 团队内部会发生什么?你们会用它运行所有的评估,然后决定:「好吧,我们要发布这个」?你们是怎么做的?当你看到外界对于 GPT 的反响很好时,你会不会说:「我们听说它很棒,我们今天就要向用户开放」?
Connor:不,我们有一个完整的流程。幸运的是,我们通常与 OpenAI 保持着密切的关系,我们通常能很快对他们的模型有一个很好的了解。比如我们现在有很多内部工具和技术,有 40 个不同的主要任务要完成,我们有这些任务的所有不同的评估循环,包括人工评估,所有这些基本上都被提炼成了一个操作手册。这是必要的,否则每次发生变化时,组织内部都会产生很多混乱。所以,这是我们在过去一年里逐渐完善并受益匪浅的事情。
Jacob:最近播客上有一些人提议:与其自己去做评估,不如制作一个完美的测试数据集,先将它发布给你的部分客户,并跟踪你关心的产品指标。你的客户会很快告诉你这是否可行。
Connor:是的,我刚才忘记说了。追踪和实验绝对是很重要的,去看看我们所关心的指标和防护性指标是否都正常。这同样是一个非常重要的环节。
04
Speak 和多邻国,
解决的是完全不同的问题
Jacob:很多人会说,生成式AI是非常酷的技术,但主要惠及的是现有的头部企业。而在你的领域,Duolingo 现在融入了很多这样的新东西。所以我很好奇,你总体上对此有什么看法,以及在 AI 技术这一具体背景下的看法。
Connor:广义上,人工智能确实帮助了现有的头部企业,维持了他们的地位。如果之前你能够比别人更好地解决某个问题,而现在这个问题可以利用 AI 来解决,比如说用于客服,如果你解决的问题是让管理一群客服人员变得更加高效,并且你有一个非常好的软件来管理和评估这些人员。而现在有了提供全自动解决方案的 LLM。我认为那其实并不会有多大帮助。它可能会帮助你更好地评估每个客服人员,但这里的变化并不是让客服人员更高效。而如果能够把整个流程完全自动化,那样才是极具颠覆性的。
举个例子,我认为在谈论语言学习和 Duolingo 时,我们从根本上解决的是非常不同的问题。
Duolingo 的绝大多数订阅者主要是来自美国、英国、澳大利亚的以英语为母语的人。我听到过最令人震惊的事情之一是,大多数 Duolingo 的订阅者之前都没有学习过语言。而他们现在使用 Duolingo 来学习,这真的很酷。Duolingo 让这些人本来不会去学语言的人开始学习语言了。
Jacob:他们肯定是在 TikTok 上看到别人在用 Duolingo,所以也开始用吧。
Connor:这里肯定有大部分是 TikTok 的功劳。重点是他们创造了一个非常好的产品,就像一个休闲的、几乎像大脑训练程序一样,让你觉得自己在做一些有意义的事情,而不是在 Instagram 上闲逛或其他什么。我认为这是一个了不起的成就。他们当然也关心用户是否说得流利。但他们构建的核心是提供一个非正式的学习体验。但我不确定 AI 是否一定能帮助你构建一个更好的非正式学习体验。可能会,也可能不会。
但我认为,对于我们来说,我们的客户群体实际上非常不同,我们的用户通常不使用 Duolingo。我们的专长是让那些不会说英语的人学习英语。我们非常专注于帮助那些之前已经花了 10 多年学习英语、试图提高流利度,但缺乏与真人交流机会的人。所以人们使用 Speak 的目的和 Duolingo 完全不同。
我认为在这种情况下,人工智能显然对我们的用例非常有帮助。这再次证明了,理解你的实际核心产品市场契合度以及你正在为哪些用户解决什么问题的重要性。所以我喜欢区分技术带来的维持性和颠覆性变革。
Jacob:如果我们拥有实时翻译工具,并且能够改变口音,这是否意味着你的一些用户就不需要学习英语了呢?
Connor:可能有一部分用户会这样吧。但我认为这里可能还有其他一些因素。
首先,我认为世界上最好的翻译是什么样的呢?当两位世界领导人交谈时,如果你看他们实际交流的非编辑版本,你会发现一个人说话到另一个人回应之间,存在着巨大的延迟和滞后。这是因为语言从根本上就是不同的,对吧?比如单词的顺序就不同。因此,翻译本身就存在固有的延迟和不完美。
但我认为真正重要的是,如果我把我们的服务提炼一下,我们向用户提供的、他们从根本上追求的是人与人之间的连接。他们试图在全球范围内,无论是从专业、文化还是社交的角度,与更多的人建立联系。他们想要与那些不仅仅说他们自己语言的人建立联系。我认为,对于大多数人来说,他们花了很多时间学习这门语言,其背后的原因是根本性的,不会改变。即使最好的 AI 实时翻译,比如 Babelfish 这样的,也无法解决这个问题。我认为它确实能解决游客随意去某个国家时遇到的沟通问题,这会很酷。但我认为,对于我们的用户群体,那些从根本上追求流利口语的人,他们学习的原因是非常重要的。
Jacob:我记得当 GPT-4o 发布时,Duolingo 的股票立刻就下跌了。我不知道这是否是因为AI的炒作太过头,这是否理性。
Connor: 嗯,我不知道,现在的市场感觉很嘈杂,所以我真的不确定。我在这方面没有特别强烈的看法。但 4o 的语音到语音功能让我们非常兴奋。我认为 Duolingo 股价跌了可能是存在这样的推测:人们现在会用 ChatGPT 来学习语言了。但对我们来说,我们对整合了多模态的语音模型感到非常兴奋。毕竟我们的应用叫 Speak。
Jacob:但至少 speak.com 将是一个非常有价值的域名。
Connor :是的,也许这最终会我们只剩下这个。但我认为更广泛的一点是,实际上会有更多的人使用 ChatGPT。很多人会开始用 ChatGPT 学习语言并练习。这将是一个非常有趣的工具。但我认为人们使用 ChatGPT 并意识到他们可以用 AI 来学习语言,这从根本上来说是一件好事。
然后,如果他们真的想要深入学习的话,就会去寻找更专业的解决方案,去寻找那些更有效的学习手段。因为说到底,如果你愿意花时间和金钱去学习一门语言,这不是 10 个小时就能完成的事情。这是一个需要持续数月,甚至数年的习惯。你会想要找到最有效的解决方案。
所以就有了这样的市场空间,让我们去专业化并构建更有效的学习方案。我们专注于占领这个细分市场,就像 Airbnb 占领房屋共享,Uber 占领拼车服务一样。我们认为这是一个类似的机会。而且在很多方面,这将增加使用 AI 学习语言的人数,这是相当可观的。
Jacob:这样的话,当他们看到你的第一个提示词时,就不会那么困惑了。
Connor :他们会了解这些与 AI 互动的范式。
Jacob:随着 GPT-4o 的发布,人们一直有这样的疑问,比如,只有音频的模型是否仍然有其一席之地,或者是否多模态模型可以做到这一点,并且拥有最复杂的推理引擎。但似乎至少在语音克隆和其他一些 OpenAI 不会涉足的领域边缘,肯定存在套利空间。但你是否认为这些只有音频的模型仍然有胜出的可能呢?
Connor:我打赌是有的。我在这方面也不是非常有信心,但我想说,即使是对于 Speak,我们正在构建自己的语音识别技术,因为我们有一个特定的用例。我们相信这个用例在不久的将来不会被这些大型音频模型完全解决。
所以我认为这将会发生在像需要对其语音数据具有特定安全性、或者需要本地化部署、或者需要一套非常特殊的词汇集(而这些词汇并不在互联网上)这样的通用场景上。所以我觉得这里仍然存在着机会。而且除此之外,初创公司还具备一个优势,那就是它们比大公司更愿意承担更多的风险。
05
AI的目标
是完全取代学习过程中的人类角色
Patrick:我很好奇你在这些模型上投入了多少?在算力、团队或资源方面的投资有多大?
Connor:这绝对是一项非常大的投资,但这只是我们许多投资中的一项。要完全为了某种特定的任务去构建模型是很难的,因为你需要数据,需要专业知识才能做到这一点。
与此同时,就像你之前有提到的,人们经常会问究竟在什么情况下我们可以直接使用那些现有的大模型和基座模型,而不是自己去构建一个模型。
这里有一个很好的类比,就像在 80 年代,有来自不同公司的 10 或 12 种不同的个人电脑,包括像 IBM 或 Atari 这样的公司。苹果就是一个很好的例子,他们当时没有使用自己的处理器,而是使用了英特尔的处理器。这样做有充分的理由。有专门的公司在做处理器,他们花费了巨额资金来构建这些东西,做得比世界上任何人都好。然后,这并不是说苹果没有在技术层面上构建真正有价值的东西。今天我们处于同样的情况,就像当时不仅仅要构建 MacOS,还要构建所有直接用于处理器之上的固件。
同样地,现在的 AI 固件是机器学习框架。我们目前正在做的事就是要让这些不同的模型相互配合,来赋能不同的任务,还有后端和产品等等,并且还表现得非常好,这在技术上是很不容易的。因此这部分技术也颇具复杂性和深度。对我来说,在谈论投入时,我认为建模只是其中之一,而像我刚才说的这些才是更大的投入。而且,如果我要说我们的长期技术模式是什么,那我觉得这些才是比建模更大的投入。
Jacob:随着我们获得了越来越好的模型,你们在产品方面能有哪些进步?
Connor:从一开始我们就知道,技术上还有很长的路要走,而我们无法完美预测未来。但我们现在所做的是,在接下来的五到十年里,随着数据的增多和计算能力的提升,模型会变得越来越好,最终它们会在各种任务上超越人类。最终,这意味着我们可以完全取代学习过程中人类的角色。
只要我们始终把这一点作为指引方向,明确目标。我们所做的所有产品决策都不是为了短期优化,而是与我们的长期愿景保持一致。所以,我们总是这样思考:想想今天能做什么,想想我们希望明天能做什么,并确保自己正在朝着那个方向进行研发。我们把它想象成一系列步骤,就像一段楼梯一样。所以,每过一两年,我们就会一步一步地向上攀登,产品也在进化,但都是沿着一个一致和连贯的愿景。
我认为这就是我们能够在基于 AI 的学习领域如此领先的原因,因为整个产品,甚至在早期,它的解锁功能就更多地围绕着非常准确的语音识别,让人们可以对着应用说话,并获得良好的学习体验,这个应用能够准确理解人们想要说的话。然后添加语音识别,再添加基本的语言理解,并以此为基础不断发展。
Jacob:现在很多创始人都在思考的一个问题是:你们究竟会在多大程度上围绕当今模型的一些缺陷进行构建,又或者什么也不做,等着AI模型在两年后技术大升级,一些问题都迎刃而解,于是就没必要在边缘功能和语音识别上投入那么多,因为 AI 在语音识别方面已经取得了巨大进步。
所以我很想知道,现在你们是如何看待这些问题的?显然,你们现在可以为用户解决实际问题,但同时也能从底层模型的改进中免费获得很多好处,你们是如何看待这个问题的?
Connor:是的,这确实是当下的问题。我觉得对于很多公司来说,如果你们是在这些技术的基础上进行构建的,那么你们确实需要对它们今天的工作方式以及未来的工作方式有深刻的技术直觉。比如,技术进展的时间表,这是我们在战略层面一直在思考的问题,以便了解应该在哪里进行投资。
不过,我也认为,商业中极其重要的一部分是能够更好地理解和阐述你正在为人们解决什么问题。即使今天技术还不成熟,但理解和解决这个问题,即使几年后你可能需要替换掉整个技术体系,仍然是非常值得的。
我认为 Speak 有着巨大的领先优势,即便还有很多目前做不到但希望将来能做到的事情。我们一直在研究学习方法论,并且一直在思考如何吸引用户并保持他们的积极性等问题。所以,我认为某些技术确实需要找到一种平衡。但总体上,我认为技术只会越来越好,重要的是要确保你在核心技术之外构建有价值的东西。
Patrick:你在机器学习框架中构建的大型基础设施是什么,是评估?还是把不同模型链接在一起或是用于推理的基础设施?
Connor:这些都是。而且还有更多。现在的趋势是有许多公司会提供这些方面的服务,而通常我们需要构建的东西是非常专业化和独特的,而且有点硬核,以至于不能使用现成的工具。所以我们必须自己来构建它。
我们关注的是如何让这些模型在单个任务上表现得更好,然后我们如何协调这些模型?然后如何持续收集新数据?何时进行微调?如何评估?然后一般来说,就会开始考虑如何围绕这些模型来建设大型基础设施,然后是怎样投入于实现对语言的真实表征,而后可以提取和构建,但不是知识图谱,而是理解用户在什么时候说得流利,什么时候不流利。这只是其中一个例子,但现在我们用于产品开发的时间中至少有 50% 是花在与这些系统相关的事情上。所以,这对我们来说绝对是一项巨大的投入。
Jacob:其中最让你感到痛苦的是什么?我想当你正在研究早期技术时,你会想到 10 年后,当你告诉其它工程师:「我以前不得不这样做。」他们就会笑,我确信会有很多这样的事情。但现在最让你痛苦的是什么?
Connor:从技术角度来说吗?
Jacob:包括所有的事情,为了让项目运转起来你需要做的所有事情。
Connor:我确实觉得有些做法挺笨的,比如我们还在不停地对提示词进行优化。我觉得这只是个短暂的阶段,10 年后人们可能会想,为什么要这样做?有必要吗?
06
不打算自研基础模型,
成本太高
Patrick:在音频模型方面,你们内部显然正在构建很多功能,但你们是否正在等待市面上出现某些特定的功能,并说:「如果这个功能出现,那么我们就可以尝试更多新鲜的事情?」或者你们是否正在等待模型层出现某些特定的功能?
Connor :当然,我认为这些通用认知模型、这些 LLM 还处于非常早期的阶段。我甚至会将与 LLM 相连的多模态音频也归入这一类。就像之前提到的观点,我们认为不应该在公司内部构建这些功能,因为这些模型的训练和开发成本将高达数亿美元,甚至数十亿美元。所以这是最关键的。而且我们主要关注的是多模态音频。对我们来说,这真的是圣杯。要让它变得真正出色还需要一些时间。而且还存在有很多可能性,可以在其基础上构建专业化的东西。但随着它不断变得更好,我认为可能性是无限的。
Jacob :所以你在等待哪些具体的技术出现呢?比如 GPT-6?到那时候也许能够构建带有口音的语音智能体。
Connor:是的,在音频方面肯定有很多改进可以提高多模态能力、多语言能力,并且能够产生一些感觉更接近真人教师的东西,虽然并不总是需要这样,但有时这非常有用。这意味着要有一个更加自然且延迟更低的技术。
因为与在 LLM 中先使用语音识别模型再进行语音合成不同,你现在有一个连续模型可以在一次操作中完成所有这些任务。而且它并不会造成很大的信息损失,因为它不会将你的语音的复杂性简化为一段小文本,然后将其输入到 LLM 中,再试图将其扩展回具有正确细微差别和语调的合成语音。
更不用说它还能更深入地理解你说了什么、你怎么说的、你是否自信、你的情绪,以及你犯的所有错误。所以这是正在崭露头角的一项非常重要的技术。我们仍处于早期阶段,还有很多需要证明的地方。但就认知模型而言,我认为其在推理和一般能力方面,比如能够有始有终地完成一项任务,并保证质量且具有可靠性方面,显然还有很多改进的空间。至于这些具体该怎么实现,现在还没有定论。
Jacob:如果有了这样的技术,你会用它来做什么?
Connor:我认为这意味着在课程规划方面会更加智能。我认为这对于我们来说,现在最大的缺失部分就是如何做得很好且可靠。
Jacob:目前这仍然需要某种人工干预。
Connor :对。我认为与大多数用例相比,我们在推理方面受到的限制并不多。语言学习领域一个真正令人兴奋和特别的地方是,我们可以利用当前的技术构建出非常实用且具有颠覆性的东西,而并不需要很多推理能力。我们可以基本上完全排除人为干预,构建出既酷又有用的东西。现在很多行业仍然发现自己需要人类,因为仅仅依靠技术还不够好。
所以,在语言学习之外的其他任何风险稍高的领域,你都需要更高水平的推理和一致性,以及更低的幻觉率。我认为这是我们行业的一个特别值得注意的地方,这是我们相对于其他领域的优势。
Jacob :当你在看那些 OpenAI 的演示,比如让AI解答数学题,正弦、余弦函数之类的,你会想,我们将来也会做那样的东西吗?还是那些领域不在你的关注范围内?你们会打造一个科幻般的学习平台,让人可以在一个地方学到所有东西吗?
Connor :我认为那里有很大的机会。我们会看看自己在哪里能够发挥作用,但我认为,除了语言学习之外,还有很多其他的机会。会有很多其它企业进入这个赛道。
这些领域有很多其他的复杂性,但从根本上说,我们主要关注三个领域。一个是学校。显然,人们会在学校里花大量时间学习。第二个是我之前提到的,企业和专业技能,这是一个巨大的机会,能够为企业进行认证、评估、开发和技能发展。第三个是个人学习。我认为个人学习是人们现在忽略的,但它是一个巨大的群体。
Jacob :我觉得大多数人都在使用 ChatGPT 这样的工具。
Connor :很多人都在用。我认为个人学习将是改变人类活动的最大领域之一。人们没有意识到这个领域有多广阔,但我们每天做的很多事情,比如读书、听播客、在 YouTube 上看视频,所有这些都可以归类为学习或与学习相关。这背后都是想要了解更多信息的欲望,人们都是为了成为更好的自己。
在互联网出现的早期,有人预测大家会在网上浪费大量时间。但事实证明,YouTube 或搜索引擎的出现,改变了人们获取信息的方式,但在早期,并没有人真正意识到搜索引擎是什么,以及它在 2020 年或 2025 年可能是什么样子的。我认为个人学习也会是这样。所以仅仅在消费者方面,就有可以构建一个更专业、更先进的信息获取平台。但会有很多不同的企业进入这个赛道,竞争会很激烈,到时候就会知道谁的切入角度是正确的。
07
语言学习模式 2000 年没变了,
AI有可能会改变它
Jacob :你个人认为在未来 10 到 15 年之后人们会怎样学习?
Connor :我认为这真的是高度个性化的东西。就像电影《Her》中的场景,AI 有长期记忆,对一切都有完整的心理映射。它知道你的兴趣、个性和想知道的东西,然后它会利用这些信息,在你需要的时候为你提供正确的信息。
我认为这会有不同的层次,就像 Google 或 YouTube 这样的平台,它们是使用非常广泛的平台,功能非常强大。也会有更非正式的信息渠道,比如聊天平台,也许是 ChatGPT,也许是其他的东西。但我确实认为也会有更多的专业解决方案。我认为问题是,如何将其变现?用户的使用模式是什么?是会有更多小众的东西,还是会专业化?
Jacob :这些 AI 会共享关于你的记忆和知识吗?它们什么都知道了?
Connor :对,这一点你只要看看 web2.0 就知道了。
Jacob :我之前曾经认为加密技术可以解决关于隐私的问题。
Connor :我们拭目以待吧。但也许最后会变成更像电子邮件那样的东西。我不知道。但从广义上讲,大家都不否认 AI 会改变一切。人们只是对事情变化的速度过于乐观了。
Patrick :确实如此。
Jacob :科技创业者就是需要过度乐观。
Connor:对,你需要信念并感到兴奋。我觉得教育领域将出现颠覆性的重大变革。
如果我们放大视角来看,就像之前有人说「软件吞噬世界」,软件确实在过去几十年里几乎占领了世界,但教育呢?即便现在我们每个教室都有 Chromebook,但教育的质量改变了吗?从根本上说,人们仍然在做小测验,但他们是在笔记本电脑上做,而不是在纸上。他们仍在学习。他们可能正在观看课程直播,教师正在向一百万人授课。
Jacob :他们会用电子记忆卡片,而不是纸质的记忆卡片。
Connor :他们使用电子记忆卡片。但所有这些的质量、效率,我真的认为并没有太多改变。就像两千年前最好的学习方式,是像亚历山大大帝从苏格拉底那里学习一样,这仍然是最好的学习方式。这显然会随着 AI 和教育的发展而改变。学习是人类最主要的行为之一。教育领域将发生巨大的变化,这种变化目前难以预测,且难以窥其全貌。
Patrick :你认为这种变化多久会发生?五年、十年,还是更早?
Connor :有个说法是几年内不会发生什么大事,但十年内发生的事情会比你预想的要多得多。我认为通常会是这样。
人们现在会炒作所有东西。可能会有大量的新技术部署。但长期来看,我认为很多事情都会改变。但我也担心的是,在研究方面,在技术方面,人们对 Transformer 非常兴奋。我希望这不会让我们过于痴迷,还有许多其他事情需要研究。Transformer 能把我们带向什么地方还是个未知数。
Jacob :在AI教育方面,你还关注哪些其他领域?比如是否在数学和其他科目上有所进展,或者你考虑的其他领域是什么?现在语言学习已经有所成效。我很好奇其他领域是否也真正有所突破。
Connor :我认为在其他科目上优势会少一些,直到哪一天 AI 的性能大幅提升。因为语言学习的问题在于,它确实需要一个 1 对 1 的教师课堂模式,30 个学生的效果并不好。
Jacob :关于这一点,我有亲身经历。
Connor :对。所以 AI 需要大幅提升性能,这要花很长的时间。我不确定目前的技术是否能够胜任其他科目。我们可能需要更多针对某些科目的能力,比如数学的推理能力。我还不完全确定。但我认为无论如何,要创造出一个人们会真正喜欢使用的东西,门槛要高得多。相比之下,用 AI 学语言则明显比其它方法更有效。
所以这其实在于时机。对于语言学习来说,即使 AI 在未来没有更多进展,我们仍然可以在现有技术的基础上创造许多其它的东西,并构建更好的体验。但这需要时间。
Patrick :我不知道你是否看到了 GPT-4o 的数学演示,那真是让人叹为观止,他们直播解答数学问题的视频,人们都在谈论它。但你的观点是,人类现场教学和AI教学之间仍然存在差距,即使能够知道 AI 知道你在做什么,并可以实时提供指导。
Connor :是的,可能会有数以百万计的人使用 ChatGPT 来帮助完成作业。所以我不太确定我现在是否会去开发一个作业辅助工具,但如果我们试图从根本上改进数学教学的方式,而不仅仅是帮助完成作业,那是一个更深层次的解决方案。这个方案可能不是技术上的限制,而是更多地取决于你是否能真正创造出一些有质的飞跃的工具,让人们愿意去采用它。
而且人们不是在业余时间随便学学数学的。所以要求就更高了,因为你需要向学校推销你的数学产品。也许你还可以面向家长推销辅导课程或其他产品。但我认为很多时候,开发一个真正好的产品并找到合适的市场才是最困难的。关键问题在于这不是一个技术问题,而是一个产品和市场匹配的问题。
Jacob :接下来你会为语言学习开发什么工具?
Connor :我们将在一段时间里专注于语言学习。我们还有很多工作要做。接下来要开发的将是与此相关的一些工具。然后我们需要仔细考虑在面向学校、个人和企业的产品上进行哪些投资。