我们当时快被作业批改逼疯了
我们在苏州和无锡开了8家校区,主要教Scratch和Python,学生小一千人。看着规模还行,但内部的苦只有自己知道。
最头疼的就是作业批改。每个孩子每周交一份编程作业,可能是段代码,也可能是个小项目。高峰期,一个资深老师一晚上要改四五十份。
老师累,家长催,口碑有风险
我们的老师,白天上课,晚上改作业是常态。改一份Scratch作业,你得运行程序,看逻辑对不对,角色动作是不是按题目要求来,有时候一个bug要调试半天。Python作业更复杂,语法、逻辑、算法都得看。经常搞到晚上十一二点。
家长那边也催得紧。孩子做完作业就想知道对错,等一两天才反馈,学习热情都凉了。有些家长直接在群里问,搞得我们很被动。
最怕的是忙中出错。老师疲劳的时候,一些细节问题容易漏过去,或者反馈写得不够具体。家长觉得我们不专业,口碑这东西,坏起来比建起来快多了。
招人难,成本高,根本解不了渴
我们也想过加人。但懂编程又懂教学、还有耐心跟孩子沟通的老师,一个月没八千一万根本留不住。就算招来了,培训上岗也要时间,而且作业量是波动的,旺季忙死,淡季养闲人,算下来根本不划算。
当时我们就想,能不能用技术解决这个重复劳动?
第一次尝试:自己搞和买现成的都栽了
🚀 实施路径
一开始我们挺乐观,觉得不就是自动运行代码看结果嘛。技术合伙人拍胸脯说能搞定,我们就自己折腾了。
自己开发,掉进了无底洞
我们让两个技术老师抽时间搞,想做一个自动测试系统。想法很简单:学生提交代码,服务器自动运行,对比输出结果。
做起来才发现全是坑。
首先,孩子的代码千奇百怪。同样的功能,有写十行的,有写五十行的。路径、变量命名乱七八糟,系统经常跑不起来。
其次,Scratch这种图形化编程,你怎么自动评判?一个“小猫走迷宫”的作品,路线走对了,但用了笨办法,或者代码结构一团糟,系统根本判断不了。它只能告诉你“到达终点”,但没法评价“代码写得好不好”。
折腾了三四个月,投入了差不多十个人力月,做出来的东西只能用在我们自己出的、答案极其标准的练习题上,稍微灵活点就废了。投入的时间成本,都够请个老师干半年了。
买现成方案,发现水土不服
自己搞不成,就想着买。市面上找了几家做教育AI的公司,有做大语的,有做K12题库的。我们一看Demo都觉得挺炫酷。
第一家,系统是围绕选择题、填空题设计的,对编程这种需要运行和逻辑判断的作业,基本就是“不支持”。pass。
第二家,倒是说能做。签了合同,买了他们的“AI编程批改模块”。一用起来,问题来了。他们的模型是在公开的、规范的代码库上训练的,面对孩子那些充满语法错误、天马行空的代码,识别率低得可怜。经常把正确的判成错的,或者给一堆看不懂的错误提示。
更麻烦的是,定制化太难。我们有自己的教学体系和评分标准,比如我们鼓励孩子加注释、用有意义的变量名。但这些细微的要求,对方的系统根本加不进去,说“模型不支持”。
花了小十万,用了两个月,老师抱怨比手动改还累——先得看懂AI给的胡言乱语,再重新改一遍。这笔钱算是打了水漂。
怎么找到对的路子?关键想通了一件事
连续踩坑,我们停下来了。几个合伙人开了个长会,核心讨论一个问题:我们到底要AI干什么?是让它完全替代老师,还是帮老师干活?
定位变了:从“替代”到“辅助”
之前我们总幻想有个AI老师,能全自动搞定一切。这是不现实的。孩子的创造力、独特的解题思路,机器很难理解。
我们调整了目标:不让AI做“裁判”,让它做“助教”。它的任务是帮老师完成那些重复、机械、耗时的初级工作,把老师的时间解放出来,去做更有价值的个性化反馈和引导。
想通了这点,选型思路就清晰了。
选择方案:要灵活,能跟着我们走
我们不再找那些大而全的“智慧教育平台”,转而寻找专注在编程领域、技术扎实、愿意配合我们调整的团队。
最后选的这个供应商,规模不大,但创始人就是做编译器出身的,懂技术底层。他们没吹嘘能100%自动批改,而是展示了他们的系统如何工作:
-
语法检查与运行:能自动识别常见语法错误,并安全地运行代码(包括Scratch项目),给出运行结果。这一步能过滤掉至少50%的明显错误。
-
代码结构分析:能分析代码的复杂度、重复率,有没有用死循环之类的糟糕写法。这能帮老师快速定位“写得差但能运行”的作业。
-
关键点匹配:我们可以自定义“考察点”。比如本次作业重点是“会用循环语句”,系统会重点扫描这部分代码,并标注出来。
最重要的是,他们同意把系统部署在我们自己的服务器上,并且承诺可以根据我们的评分规则进行一定程度的定制训练。
价格也不贵,一年服务费相当于一个初级老师的年薪,但能覆盖我们所有校区。我们算了笔账,哪怕只把老师20%的批改时间省下来,也值了。
上线这一年:老师轻松了,但人不能撤
💡 方案概览:少儿编程 + AI智能批改
- 老师批改负担重
- 反馈不及时遭投诉
- 人工批改易出错
- 定位AI为辅助而非替代
- 选懂业务的灵活供应商
- 分阶段实施逐步推进
- 批改效率提升超50%
- 实现零漏检与快反馈
- 节约扩招的人力成本
实施过程比较顺利,用了大概一个半月。主要时间花在把我们历年的作业和评分数据整理出来,给他们的系统做训练,让它更懂我们的“口味”。
现在的使用流程
现在学生交作业后,流程是这样的:
作业先过一遍AI系统。系统会生成一份“初检报告”,包含:
-
语法有没有错误,错误在哪一行。
-
程序运行是否成功,输出结果截图。
-
代码结构评分(比如复杂度、规范性)。
-
匹配到的“考察点”完成情况。
老师拿到的是“作业+AI报告”。老师快速浏览报告,重点看AI标红或存疑的地方,结合自己的判断,给出最终评分和评语。对于优秀的、有创意的、或者问题典型的作业,老师会亲自写更详细的反馈。
效果怎么样?数字和感受
效率上:现在批改一份作业的平均时间,从过去的15-20分钟,降到了5-8分钟。老师们晚上基本能在10点前收工了。
质量上:因为AI把基础错误都筛出来了,老师批改的漏检率几乎为零。反馈给家长的时效性也大大提高,大部分作业能在当天或第二天上午就返回。家长满意度明显提升。
成本上:去年秋季班扩招了大概15%的学生,但我们没有增加专职的批改老师。省下的人力成本,我们给老师们涨了课时费,大家干劲更足了。
哪些地方还得靠人?
AI不是万能的,有几类问题它处理不了:
-
创意评价:一个游戏设计得好不好玩,代码有没有巧思,AI看不懂。
-
边缘解法:孩子有时会用一种极其奇怪但又能实现功能的方法,AI可能因为没见过而判错,需要老师复核。
-
学习轨迹:AI只看单次作业,但老师能看到这个孩子连续几次作业的进步、反复犯的错误,从而给出长期的学习建议。
我们现在的心态很平和:AI能把老师从繁琐中解放70%,我们已经谢天谢地了。剩下30%需要人性化判断的工作,恰恰是老师价值的体现,不能丢。
如果重来,我会这么搞
回顾这一年多,如果重新做一次,有几件事我会做得不一样。
别贪大求全,从一个点突破
一开始就别想着做或买一个“全能AI老师”。就针对你最痛的一个点,比如“Scratch作业的自动运行与结果验证”,先解决它。效果立竿见影,团队也有信心。然后再慢慢扩展功能。
数据是黄金,早做积累
我们早期没刻意留存结构化的作业数据,导致后期训练AI时素材不够。现在我们有意识地建立自己的“作业-评分”数据库,这是未来任何AI系统发挥价值的基础。
供应商看“软实力”,别光看PPT
技术方案都差不多。关键看对方团队是否懂教育、是否愿意深入你的业务场景、沟通是否顺畅。能不能快速响应你的调整需求,这点太重要了。
一定要让老师参与进来
我们初期是管理层在推,老师有抵触,觉得AI是来抢饭碗的。后来我们调整了,让骨干老师参与选型和测试,听取他们的意见。系统上线后,省下的时间变成了他们的休息时间或绩效奖金,大家就从抗拒变成主动使用了。
给想尝试的朋友
如果你也在被批改作业困扰,想试试AI,我的建议是:
先别急着满世界找供应商。坐下来,把你们过去一个月的作业随机抽100份出来,和老师们一起分析一下,批改时间到底花在哪了?是花在找语法错误上,还是花在思考创意评语上?
如果大部分时间是在做重复性的查找和验证工作,那AI确实能帮上大忙。如果时间主要花在个性化的引导上,那AI的作用可能就有限。
想清楚自己的核心需求,是降本、增效,还是提升服务质量?不同的目标,选的方案和投入都不一样。
准备动手之前,建议先用“索答啦AI”做个初步评估,了解一下投入产出比,再决定要不要上。别像我们一样,凭着一股热情就跳进去,容易白花钱。
这条路值得走,但得一步一步,稳着点来。