首页
解决方案
业务领域
新闻中心
- 公司新闻
- 行业新闻
加入我们
关于PG

400-0050-928

您的位置: 首页 > 新闻中心 > 公司新闻

斯坦福HAI：大模型可以扮演儿童“言语治疗师”吗？

　　语言是学习、社会交往、个性发育中的重要能力，言语障碍的早期发现、早期诊断和及时治疗尤为关键。

　　根据美国国立卫生研究院（NIH）的数据，美国存在 340 万需要临床干预的言语障碍（speech disorders）儿童，这些孩子可能出现口吃、舌齿不清、发音困难，或音节遗漏与插入现象，还可能伴随认知、听觉或吞咽问题，在学业、社交和情感方面面临着困境。

　　然而，儿童护理领域的临床医生存在着巨大的缺口。在美国，言语语言病理学家的数量仅为患病儿童数量的 1/20，亟需技术支持来提升临床医生的工作效率。

　　人工智能（AI）技术，特别是多模态语言模型（MLM）的发展，为这一问题的解决带来了更大的想象力。

　　日前，来自 PG电子通信斯坦福大学、新加坡国立大学的研究团队及其合作者针对这一问题进行了探索。

　　研究发现，包括GPT-4、Whisper、Gemini 在内的 15 种主流模型，对言语障碍的识别准确度尚未达到临床标准，但微调技术有望改变这一情况。

　　该研究成果展现出多模态语言模型在临床实践中的发展潜力，为言语病理学领域的 AI 应用指明了技术发展路径。

斯坦福HAI：大模型可以扮演儿童“言语治疗师”吗？(图1)

　　本研究基于 4 个公开儿童语音数据集，合计样本量约 3 万条，涵盖了典型与非典型儿童语音。研究团队与言语语言病理学家合作，推出了言语病理学领域首个多模态语言模型的基准测试，该基准包括多种环境下的稳健性与敏感性测试，以及不同语言、性别、年龄、噪音条件。

　　接着，他们让包括 GPT-4o、Gemini、Qwen 在内的 15 个语言模型扮演言语语言病理学家，对儿童PG电子通信语音样本进行评估，具体包括以下5 大核心任务：

　　值得一提的是，研究采用了两种主要的语言模型样式：一种是具备多模态能力的可直接处理音频的模型，另一种则是通过自动语音识别（ASR）系统先转录音频后再进行分析的模型。

斯坦福HAI：大模型可以扮演儿童“言语治疗师”吗？(图2)

　　研究结果表明，当前模型虽然“聪明”，但不够“临床可靠”。该论文的共同一作、斯坦福大学计算机科学博士 Sang T. Truong 表示，美国食品药品监督管理局（FDA）要求临床应用工具准确率需达 80-85%，而本次测试的 15 种语言模型中，表现最佳的模型准确率仅 55%，多数模型错误率超过 50%，均未达到临床可用的标准。

　　此外，在些模型中，没有模型在所有任务上始终保持领先，不同模型在不同任务上呈现互补性与家族性优势；直接进行语音分析的模型在更精细的言语病理学任务（如症状诊断）上普遍优于依赖自动语音识别转录的模型。

斯坦福HAI：大模型可以扮演儿童“言语治疗师”吗？(图3)

　　与此同时，微调成为突破口。尽管模型在未经过任何训练的情况下表现欠佳，但研究团队利用儿童语音的小型数据集对模型进行微调后，其性能准确率提升了 10%。这表明，多模态语言模型在言语病理学的应用中具备较大的潜力。

斯坦福HAI：大模型可以扮演儿童“言语治疗师”吗？(图4)

　　第一，存在性别、年龄和语言偏见。研究团队发现，这些模型对男性语音的识别能力表现优于女性语音；在英语使用者中的表现优于其他语言使用者；在年长儿童中的表现优于幼龄儿童。解决模型中观察到的偏见同样需要进一步探索。

斯坦福HAI：大模型可以扮演儿童“言语治疗师”吗？(图5)

　　第二，儿童语音样本数据集难以获取。虽然微调技术前景可期，但微调依赖高质量数据，而儿童语音数据的收集面临重大隐私问题。对此，Truong 提出一种可能的解决方案：即生成模拟不同语言障碍儿童发声方式的合成数据，以此为基础提升语言模型的性能。

　　第三，当前的多模态语言模型主要针对英语和法语等高资源语言训练，难以准确识别非英语的语音障碍特征。

　　目前，研究团队针对言语病理学任务建立的大语言模型（LLM）性能基准已集成至 HELM 基准测试框架，这是推动临床有效工具研发进程的关键一步。

　　Truong 表示，下一步将在真实医疗环境中部署 AI 辅助的言语治疗工具，配合临床医生使用以验证其能否实现常规工作流程简化。

　　特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

　　比亚迪 10 月各车型销量明细公布：秦 7.1 万台、海豹 5.8 万台等

　　女生发明“咯噔字体”，被老师0分警告：别用个性挑战考试的底线岁指挥官赚大了：天赋满满却格外谦逊，莫德里奇都在夸

　　致力于学术传播和科学普及，重点关注AI4Science、大模型等前沿科学进展。

　　科技昨夜今晨1102：苹果第五款 AirPods 有望 2026 年登场

　　Doogee Fire 7 Pro 三防手机曝光，背面提供双 LED 露营灯

联系我们

总部地址：

广州市天河区黄村三联路20号A2层210-12

联系电话：13698586692

服务邮箱：service@gzamzc.com

官方网站：www.gzamzc.com

微信公众号：广州PG平台

PG（平台电子）中国-官方网站

400-0050-928

斯坦福HAI：大模型可以扮演儿童“言语治疗师”吗？

最新资讯

解决方案

业务领域

新闻中心

联系我们

微信公众号