【GET2025】与爱为舞王琳:爱与AI帮助每个人成为更好的自己
发布时间:2025-11-22 12:18:55 浏览量:44
11月17日至18日,芥末堆在北京举办以“教育有AI,学习无界”为主题的GET2025教育科技大会。与爱为舞联合创始人王琳就《从单向输出,到万人互动—“爱学”的AI落地实践》进行了主题分享。这是与爱为舞成立两年多以来,第一次在GET大会上正式亮相,因此这次分享也吸引了业内很多从业者和媒体的关注。王琳通过拆解一个好的AI老师所需要的必要条件,对与爱为舞的产品以及大模型、数字人、语音等技术进展做了介绍,同时也分享了在AI应用的创业过程中的一些底层思考。
以下为演讲实录,经编辑:
大家好,今天我分享的主题叫从单向输出到万人互动:爱学的AI落地实践。
首先给大家介绍一下公司的情况,与爱为舞是一个刚成立两年多的新公司。从公司成立第一天开始,就有很多朋友去问我们为什么叫与爱为舞。这里最主要有两层含义:
第一,教育的本质是爱,而公司在刚成立的最早期,定下的价值观,就是爱自己,爱伙伴,爱世界。
第二,爱是AI的谐音,我们希望AI能够协助教育,同时也希望我们是一个人文跟科技结合的公司。公司在2023年5月份成立,现在已经在北京和上海有研发中心,我们希望通过AI技术探索出一些教育的新范式,这就是我们公司成立的背景。
我们成立的初心是希望人人都有一个适合自己的AI老师。这个AI老师能够去了解每一个学生的兴趣,根据每一个学生的优点和不足因材施教,可以24小时在线、即时响应。此外,我们希望AI老师能够让千家万户更多孩子用到,他的成本比现在一对一的成本降低一个数量级甚至更多。最后我们希望这个老师不仅传授知识,更重要的是全方位的帮助学生,做到终身陪伴。这就是我们创业的初心。
这个初心在我们创业第一天就建立了,过去的两年多时间,我们一直在为这个初心努力。接下来给大家介绍一下,与爱为舞所推出的产品。
如何创造一个好的AI老师
首先我们来思考一下,一个好老师,需要哪些能力:
第一,好老师首先需要有专业的教学能力。他能够掌握名师讲法,把知识点清晰的讲出来,同时可以针对学生的问题做出合理回复,并实现个性化教学,针对不同的学生有不同的讲解方法。因此我们做了自己的大模型。
第二,好老师需要有非常亲切的、有真人感的形象。因此,我们组建了数字人团队,研发实时交互的数字人,可以精准复刻名师形象,做到低延时互动。
第三,好老师需要有表现力的声音。他能够识别学生的说话,并指导学生成长,我们也做了语音识别模型和语音合成模型。
第四,我们希望产品可以走进千家万户。因此在AI工程上做了大量优化,可以支持几万人同时在线并发,做到低延时。
接下来给大家看一个真实的初中课程的场景。
简单总结一下,这个场景有四个特点,第一,有专业的名师讲法,不能照本宣科讲题目,而是有丰富的讲课经验和技巧;第二,可以在关键点上和学生互动,引导学生问出关键问题,检测到学生是不是回答对关键问题,学生自己答对才有效果;第三,要能够接住学生各种各样个性化问题,并能做好承接;第四,老师无论从形象到声音,到说话的口头禅,都是比较像真人的。
为什么我们要做这么一个AI教学产品,为什么要这么设计互动?最主要思考是我们认为,在教学场景中,高质量的一对一互动,是能够很好的拉回学生的注意力,只有拉回学生注意力,完成互动,才可以让学生得到学习效果的提升。
我们可以看到这几张图中,传统的在线大班课程里,老师和学生的互动是比较少的。而在我们场景中,一个小时老师会和学生有40多次互动,过程中老师会知道学生关键点掌握没有,同时也通过一步一步引导,让学生把正确答案说出来。这是提升我们教学效果非常关键的一点。
从数据中可以看到,当老师第一次问学生问题的时候,有59%的学生可以答对,当他一步一步引导,跟学生多轮交流后,最终可以达到83%的准确率。这24%的准确率的提升,就是AI一对一的互动带来的。除了准确率,我们的有效听课率也得到了相应提升。
为了实现AI老师,我们在技术上出了非常多的工作,也有一些突破。首先,为了让AI老师有很好的教学效果,我们自研了讲课Agent,它可以让AI老师完整的引导学生完成一节课的复杂讲解。无论学生顺着你回答,还是不顺着你回答,都能够保证一两个小时课程完整讲下来,这是非常关键的。我们还实现了多个维度个性化,包括内容、交互方式和讲法的个性化,最终,希望每个学生都有不一样的体验。
除了在算法上的优化,还有一个非常重要的工作,就是在AI工程上,公司投入非常多。我们未来需要给几万、几十万甚至更多人提供服务,每个人都是面对一个独立的AI老师,这个和大班课场景不一样,每一个人要实时跟AI老师做语音、视频、和大模型的互动,如果延时、成本不做优化是不可接受的。我们在过去半年中,把单位学生的成本下降了一个数量级,也通过多个手段的端到端优化,大幅降低了学生延时。
自研数字人技术
有了大模型,AI老师就有了智慧的大脑,接下来我们希望AI老师能够有一个亲切的形象,因此我们在数字人技术上投入非常多。为什么我们需要在数字人场景做很多自研模型?
因为在教育场景中,对数字人是有非常高的要求,最主要有两点:第一,我们要做实时互动的数字人。数字人的技术在做实时互动和离线生产视频两个场景的挑战是不一样的,即使是在实时互动里面,教育场景对实时性也要求非常高。例如我们在看一些直播的数字人,晚几秒钟回复也没有什么,但是教育场景数字人必须秒级回复,如果数字人不及时回复,体验是非常差的。第二,教学场景下对老师的口型、面部、肢体动作的一致性要求非常高。一旦没有做好一致性,对学生体验就有很大影响。因此,我们在以下几个维度进行了数字人研发。
第一是口型和面部同步,视频中下面一排是真实美国新闻的播音视频,上面是两张照片,我们通过新闻的音频驱动照片,使之实时生成数字人。
有了口型和面部控制之后,我们还希望数字人有更好的表现力,可以加上肢体动作。在部分场景,我们需要老师拍摄素材,第一批拍摄完之后,隔了几个月或者半年,我们又希望能够加入一些新的动作,这个时候就会出现比较大的问题。
第一是老师可能不太方便拍摄,第二是老师在几个月后或者半年后,即使想拍摄,他的形象和状态,跟几个月前也不一样,同一个人即使一周后和一周前的拍摄状态都不一样,这种情况就无法生成一模一样的数字人。因此我们创新性的做了跨ID的动作生成,用第三方来做动作,通过骨骼重定向的方向来驱使原来的数字人,就可以给原来的数字人加一些新的动作。有了肢体动作之后,我们下一步希望做到360度沉浸的数字人,希望在未来课堂上的老师,真的能够走出三分屏,走到学生面前,实现一个沉浸式的互动。
今年我们也把一些核心的技术进行了公开发表,在全球AI顶会IJCAI上发表语音驱动的数字人论文,同时在今年的9月1日跟央视合作,把左权将军照片复原,并做出一个敬礼的动作。
教育场景的语音技术
我们在语音技术上也做了一些深入的工作,大家可能会问,语音的技术在过去一段时间已经发展的非常好,业界也有非常多顶尖的语音提供商,什么我们要在语音上花费这么大精力?因为在教学过程中语音跟业务场景是非常紧密结合的,具体有几个原因:
第一,我们的学生有很多低龄的,随时可能说出两三个字,这对语音识别的挑战是非常大的。比如我现在在讲话,我的讲话是连贯的,有很多上下文,语音识别会很好理解。但是如果随时随地出来两三个字,甚至有一些咬舌音等单音素的发音,对语音识别挑战是非常大的。
第二,学生上课场景,可能有噪音,或者多人声音的干扰。在刚开始快速启动的时候,我们使用了第三方的语音识别技术,但随着我们用户量增大,我们发现语音识别准确率有一些瓶颈,第三方技术有20%的错误率。
这意味着什么呢?当学生说100个句子,有20句是错误的,这是不可接受的。因此我们把多模态理解引入到ASR模型中,同时加入了强化学习,让模型可以持续做自我进化。最终我们在真实场景中,把语音识别的准确率,从80%多提升到95%,这样学生会得到比较好的体验。
我们在语音降噪和声纹分离上也做了一些工作。真实的上课中,很多学生有背景噪音,在做识别的时候容易出现问题,如果我们用开源的降噪的技术,容易在降噪的同时把原来的声音做变形或者掩盖,特别是对孩子的声音影响较大,略微的声音变化就会造成识别错误。所以我们自研了降噪的模型,可以做到在降噪的同时把童声精准还原。
除语音识别之外,我们在语音合成上,自研了基于多Token融合的TTS大模型,基于上万小时的语音数据做重新预训练,而且除了建模语意相关的信息,还能够建模非常细粒度声学信息,包括老师的停顿、呼吸等,这样可以去尽可能提升模型的表现力,同时,我们还实现了多情感表达,让老师在不同场景下有不同的情感表现,实现教学的个性化。最后,我们也在算法和工程上也做了很多联合的优化。
为什么我们要在语音合成上做这么多细节,一个很重要的原因是,当我们人去听几十秒、一两分钟的说话时,可能听不出来声音的好坏,或者都差不多。但是学生需要面对一个老师,他要听一两个小时,未来要听几十、上百个小时,老师的表现力、抑扬顿挫对讲课非常关键,否则学生很容易感觉到疲惫。
以上就是我们在大模型、语音、数字人方面的一些进展,有了这些工作之后,我们还想问自己一个问题,我们的AI老师,到底能不能给学生带来真实的价值,能不能教会学生,我们也跟踪了上课的学生,记录了这些学生的变化。一开始这些学生不会自然拼读,经过一段时间学习之后,他们可以直接拼读一些高级的词汇,有了很大的进步。
这给了我们非常大的激励,以及去持续优化的动力。未来希望我们的产品,能够是一个终身陪伴的AI产品。在幼儿语音启蒙、青少年思维提升、成年职场以及老年反诈上,希望能够陪伴全年龄段的人终身学习进步。
AI应用创业思考
以上我们的产品跟技术的介绍。今天也跟大家分享一下我们公司在过去两年多,在创业过程中有一些简单的沉淀和思考。
刚才我讲了很多的技术,我自己负责技术研发。在技术上核心是两个点:
第一,我们不要去在一些非常通用的技术上跟大厂比拼,或者跟大厂卷一些通用指标。我们更应该做好业务问题的定义,要做与业务结合最好的技术。我们要持续的思考,在什么点上你的业务需要突破,在什么能力上,你必须要自研技术,在什么能力上你是可以用第三方的。
在大模型方面,有很多创业公司,有公司用开源大模型可以用得很好,有的公司做自研大模型也很好。我们如果做自研模型要想清楚为什么要做,它能提升什么点,同时要做好全面测评,你都不能测评一个指标,你也很难优化它。
我们也建议重视AI工程,未来工程和算法需要联合一块优化,我们有很多工作都是工程和算法联合优化的。
另外,我们可以让产品尽早上线,这样可以收集到用户的真实反馈,通过数据驱动的方式去优化,并尽早开始构建数据飞轮。
第二,我们要坚定的相信技术的发展,提前为技术的成熟做准备。刚才主持人也说,20年前有一本书《奇点临近》讲了一个观点,就是技术的发展是指数级的,早期的技术发展非常缓慢,一旦突破奇点的时候,技术会快速发展。人类二十世纪一百年的技术成就超过了之前2000年所有技术的成就,而这些成就在二十一世纪只需要25年的时间。所以我们往往以为要很多年才会成熟的技术,会经常大幅度超出我们预期更早的实现,我们要相信很多技术快于想象,并站在这个假设上,来做很多业务决策。
关于组织,我们的公司非常重视企业文化和人才密度,我自己也花了大量精力吸引行业里面顶尖的人才。一个公司的发展,当你不确定他的业务怎么样的时候,你只需要看一点,看这个公司是否有源源不断的优秀人才能够流入,这一点非常关键,在过去几个时代一直被验证。比如在PC互联网时代, 2005-2013年全球很多优秀人才去了百度,那个时候百度一度成为中国最大的互联网公司;之后移动互联网时代,大量的优秀人才去腾讯,去阿里,他们也一度成为中国最大的互联网公司。之后大量人才去字节,它也成长为最优秀的公司之一。现在在美国硅谷,大量人才去OpenAI、Anthropic等全球最顶尖的AI公司,他们的发展也非常快。我们要用组织的确定性来对抗未来创业的不确定性,创业会面临很多困难,这个时候有一个优秀的组织,可以保证在很多事情上做得更好。
同时,我们做事也要首先考虑AI能不能做,把硅基生命当成组织的必要成员,把人机协同作为工作的基本范式,很多事情需要AI和人一块来做。我们需要组织里面的每个人都要能够站在未来看现在,否则的话,不换脑子就换人。
最后,我觉得这一届GET大会有非常好的主题:教育有AI,这也非常契合的是我们公司的使命,爱与AI帮助每个人成为更好的自己。我们希望通过大模型技术,用一个智慧的大脑来实现因材施教;通过数字人技术,用一个亲切的指导提升学生的自信;通过语音的技术,用一个温暖的声音激励学生成长;通过工程的技术,用一套的坚固系统为学生保驾护航。
我们的产品过去几个月上线以来,收到了大家很多的反馈、建议以及批评,在这里非常感谢大家,我们会不高估短期收益,不低估长期积累,继续乐观而坚定走下去,也希望和大家一块加油,谢谢大家!
