斯坦福HAI:大模型可以扮演儿童“言语治疗师”吗?
语言是学习、社会交往、个性发育中的重要能力,言语障碍的早期发现、早期诊断和及时治疗尤为关键。
根据美国国立卫生研究院(NIH)的数据,美国存在 340 万需要临床干预的言语障碍(speech disorders)儿童,这些孩子可能出现口吃、舌齿不清、发音困难,或音节遗漏与插入现象,还可能伴随认知、听觉或吞咽问题,在学业、社交和情感方面面临着困境。
然而,儿童护理领域的临床医生存在着巨大的缺口。在美国,言语语言病理学家的数量仅为患病儿童数量的 1/20,亟需技术支持来提升临床医生的工作效率。
人工智能(AI)技术,特别是多模态语言模型(MLM)的发展,为这一问题的解决带来了更大的想象力。
日前,来自PG电子通信斯坦福大学、新加坡国立大学的研究团队及其合作者针对这一问题进行了探索。
研究发现,包括GPT-4、Whisper、Gemini 在内的 15 种主流模型,对言语障碍的识别准确度尚未达到临床标准,但微调技术有望改变这一情况。
该研究成果展现出多模态语言模型在临床实践中的发展潜力,为言语病理学领域的 AI 应用指明了技术发展路径。
本研究基于 4 个公开儿童语音数据集,合计样本量约 3 万条,涵盖了典型与非典型儿童语音。研究团队与言语语言病理学家合作,推出了言语病理学领域首个多模态语言模型的基准测试,该基准包括多种环境下的稳健性与敏感性测试,以及不同语言、性别、年龄、噪音条件。
接着,他们让包括 GPT-4o、Gemini、Qwen 在内的 15 个语言模型扮演言语语言病理学家,对儿童PG电子通信语音样本进行评估,具体包括以下5 大核心任务:
值得一提的是,研究采用了两种主要的语言模型样式:一种是具备多模态能力的可直接处理音频的模型,另一种则是通过自动语音识别(ASR)系统先转录音频后再进行分析的模型。
研究结果表明,当前模型虽然“聪明”,但不够“临床可靠”。该论文的共同一作、斯坦福大学计算机科学博士 Sang T. Truong 表示,美国食品药品监督管理局(FDA)要求临床应用工具准确率需达 80-85%,而本次测试的 15 种语言模型中,表现最佳的模型准确率仅 55%,多数模型错误率超过 50%,均未达到临床可用的标准。
此外,在些模型中,没有模型在所有任务上始终保持领先,不同模型在不同任务上呈现互补性与家族性优势;直接进行语音分析的模型在更精细的言语病理学任务(如症状诊断)上普遍优于依赖自动语音识别转录的模型。
与此同时,微调成为突破口。尽管模型在未经过任何训练的情况下表现欠佳,但研究团队利用儿童语音的小型数据集对模型进行微调后,其性能准确率提升了 10%。这表明,多模态语言模型在言语病理学的应用中具备较大的潜力。
第一,存在性别、年龄和语言偏见。研究团队发现,这些模型对男性语音的识别能力表现优于女性语音;在英语使用者中的表现优于其他语言使用者;在年长儿童中的表现优于幼龄儿童。解决模型中观察到的偏见同样需要进一步探索。
第二,儿童语音样本数据集难以获取。虽然微调技术前景可期,但微调依赖高质量数据,而儿童语音数据的收集面临重大隐私问题。对此,Truong 提出一种可能的解决方案:即生成模拟不同语言障碍儿童发声方式的合成数据,以此为基础提升语言模型的性能。
第三,当前的多模态语言模型主要针对英语和法语等高资源语言训练,难以准确识别非英语的语音障碍特征。
目前,研究团队针对言语病理学任务建立的大语言模型(LLM)性能基准已集成至 HELM 基准测试框架,这是推动临床有效工具研发进程的关键一步。
Truong 表示,下一步将在真实医疗环境中部署 AI 辅助的言语治疗工具,配合临床医生使用以验证其能否实现常规工作流程简化。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
比亚迪 10 月各车型销量明细公布:秦 7.1 万台、海豹 5.8 万台等
女生发明“咯噔字体”,被老师0分警告:别用个性挑战考试的底线岁指挥官赚大了:天赋满满却格外谦逊,莫德里奇都在夸
致力于学术传播和科学普及,重点关注AI4Science、大模型等前沿科学进展。
科技昨夜今晨1102:苹果第五款 AirPods 有望 2026 年登场
Doogee Fire 7 Pro 三防手机曝光,背面提供双 LED 露营灯




