AI医疗冲刺千亿市场 高质量数据集成破题密钥
AI医疗浪潮奔涌,行业融资活动持续活跃,AI医疗服务日益普及。《中国 AI 医疗产业研究报告》数据显示,2023 年中国 AI 医疗行业规模已达到 973 亿元,其预计到 2028 年将进一步增长至 1598 亿元,2022-2028 年间的年复合增长率为 10.5%。
“医疗成为人工智能博弈的核心行业。”在2025中国联通合作伙伴大会·数智医疗论坛上,这成为与会者的共识。
不过,会上也提出,医疗领域高质量数据集不足成为AI医疗发展过程中的掣肘之处,训练语料不足增大大模型应用错误风险, “幻觉”以及推理过程不透明等问题,导致面向诊断建议等场景风险增加;并且,大模型的硬件本地部署方式导致算力分散浪费。
与会专家建议,通过临床数据的收集、脱敏和标注,构建高质量数据,以高质量数据的确定性,应对模型的不确定性。中国联通副总经理郝立谦提出倡议:共同推动与各医疗机构、科研单位、产业伙伴共同建立专病标注联盟,构建从数据治理到标注的数据工程能力,共同打造高质量数据集,并在此基础上共同研发专病智能辅助诊断模型、手术规划等人工智能的应用。
从电子病历到人工智能辅助诊断、远程医疗,科技已经深刻改变了医疗服务模式。
其实,医疗领域一直是拥抱科技的前沿领域,此前医疗领域的信息化建设构建了数字医疗的基础,伴随着ChatGPT、DeepSeek等生成式人工智能的发展,为医疗领域发展再次注入动力。
当前,AI 已广泛应用于医疗全流程,包括健康管理、诊前诊中诊后服务、影像分析、药物研发和手术机器人等。AI 助力医疗机构提升效率、优化流程,并改善患者体验。
《中国 AI 医疗产业研究报告》数据显示 2023 年 规模 973 亿元,预计 2028 年达 1598 亿元。东吴证券指出,细分赛道中,AI 影像、病理、医疗系统、健康管理、终端应用、制药等领域各具特点,规模增长、 政策支持、竞争格局逐渐明晰,未来发展趋势向好。
但是,关键技术不断突破,面临风险也在增加。会上,国家卫健委规划发展与信息化司信息统计一级调研员沈剑锋直陈当前面临的四大风险。
第一,专业训练语料不足增大大模型应用错误风险。沈剑锋指出,医疗卫生领域短期内大模型应用爆发式增长,短时间无法提供足够的高质量训练语料,无法有效消除 幻觉, 推理过程不透明等问题,导致面向诊断建议、用药指导等场景风险增加。
这一点亦是行业普遍提及的痛点。高质量训练数据直接决定AI大模型的性能,其不仅用于模型的训练,还用于模型的验证和优化。数据是人工智能的基石,高质量数据保障模型准确性。
此前有报道指出,中国约有5000家医院具有病理科,但不足5%的医院将数字化应用于日常的诊断过程当中,导致数据的规模小,影响了智慧化的发展。在算法的层面上,传统的模式数据标注依赖于病理学的专业知识,导致非常的昂贵而费时,并且具有个人的主观性。
而大模型自带的“幻觉”缺陷,在医疗领域这一高风险场景中将面临更多的挑战。
第二,沈剑锋提及,多模态处理能力不足导致大模型应用场景受限。“大语言模型擅长语言交互能力对图像、视频等多模态数据的处理能力不足,对于图文混合或文字加视频的应用能力不足,难以有效支撑临床复杂场景应用。”他提到。
第三,国产大模型的崛起显著增加大模型应用, 基于少数大模型底座集中开发应用,面临恶意攻击,单点突破等安全风险
第四,沈剑锋指出,大模型的硬件本地部署方式导致算力分散浪费。他提到,调研发现大多数医疗机构采用本地部署方式,客观加快了 DeepSeek 的快速应用扩大,但导致算力硬件分散、资源无法发挥集中效力,存在重复投入、算力浪费等问题。
“医疗卫生语料和公共服务平PG电子网站台成为关键。”沈剑锋提到,这也成为与会者的共识。
“要以高质量数据的确定性,应对模型的不确定性。”北京卫健委副主任严进指出,要通过临床数据的收集、脱敏和标注,构建高质量数据,利用数据来驱动人工智能的研发,不断优化人工智能的产品性能,提高模型的准确率、准确性。
“特别是在医疗场景下,高精度模型依赖于高质量的数据。”严进表示,他提到了北京的探索案例:依托北京安贞医院建设心脏病的高质量的数据。
据其透PG电子网站露,该数据集整合了160万例成人心脏数据和30万胎儿心脏数据,上千例的妊娠合并心脏病以及上千例出生病例。数据覆盖了160种成人心脏病和108种胎儿心脏病,还包含超声心动图影像、超声结构化参数以及临床病例等,确保数据的准确性与全面性。
郝立谦提及,中国联通联合首都医科大附属北京胸科医院建立了17种征象、2万例肺结核CT高质量数据集。
当前,医疗机构普遍采用“大模型基座+小样本微调+专业知识融合”的方式落地部署大模型,本地化部署导致算力分散等问题。
对此,郝立谦指出,将充分发挥算网优势,全面降低医疗机构使用门槛;并且,联手合作伙伴共建医疗MCP服务体系,推动医疗人工智能应用规模化落地并运营服务。