2024年4月15日发(作者:)
第28卷第8期
201 1年8月
计算机应用与软件
Computer Applications and Software
Vo1.28 NO.8
Aug.201l
一
个医保基金风险防控平台中的数据挖掘技术
高臻耀 张敬谊 林志杰。 熊 赘。 朱扬勇
(上海市医疗保险信息中心
(万达信息股份有限公司
上海200040)
上海201112)
上海200433) (复旦大学计算机科学技术学院
摘要 针对医保基金管理的关键环节和基金风险的主要因素,从医保业务出发,开发了相应的数据挖掘算法,构建医保基金风
险防控的模型库和方法库,实现政策风险、运营风险、供需矛盾风险和违规欺诈风险防控。通过实施验证,不断修正并应用,从而全
面建立与医保改革和管理相适应的医保基金风险防控机制,与日常运行的医保业务系统共同构成了基金运营、监控的良性循环,为
医保基金风险防控系统的建设、实施奠定基础并提供借鉴意义。
关键词
中图分类号
数据挖掘
医保
TP311
风险防控
文献标识码A
A DATA MINING TECHNIQUE ON THE MEDICAL INSURANCE FUND RISK
PREVENTIoN AND CoNTROL PLATFoRM
Gao Zhenyao Zhang Jingyi。Lin Zhijie Xiong Yun Zhu Yangyong
(Shanghai Medical Insurance Information Center,Shanghai 200040,Chin。)
。(Wonders Information Co.,LTD.,Shanghai 201112,China)
(School of Computer Science,Fudan University,Shanghai 200433,China)
Abstract Aiming at the key steps of medical insurance fund management and the major factors of fund risks and deriving from practical
medical insurance businesses,the authors have designed a corresponding data mining algorithm and constructed medical insurance fund risk
prevention and control model base and method base to prevent and control political risks,operational risks,supplier—demander contradictory
risks and fraud violation risks;then through the validation—revision—application cycle to influence the medical insurance business system in
order to perfectly build a medical insurance fund risk prevention and control mechanism in accordance with the medical insurance revolution
and management and then co—construct a healthy circulation with the daily medical insurance business system on fund operatkm anti
surveillance which is instructive to the foundation construction of the building and operation of the medical insurance fund risk prevention alut
contro1 system.
Keywords Data mining Medical insurance Risk prevention and control
医保基金管理是一项复杂的工程,涉及面广、数据量大,除
0 引 言
社会医疗保险制度作为社会保障体系的有机组成部分之
一
管理参保人,还涉及各级医疗机构;要负责个人账户的建立和使
用,还要负责基本医疗保险费的征收、管理和支付,并对基金的
使用进行监督 。如何从复杂的海量数据中得到有价值的信
息,从而指导决策是需要解决的关键问题。本文针对医保基金
,
对保障公民基本医疗、促进社会公平和维护社会稳定有着重
要意义。随着国民收入的增加和医疗保险覆盖面的扩大,医保
基金规模不断增大。医疗保险由于其自身特点,逐渐面临着一
系列突出问题,如我国人口老龄化、疾病谱改变、新医疗技术的
管理的主要环节,研究医保基金风险的主要影响因素,设计实现
了多种数据挖掘算法,建立了相应的数据挖掘方法库/模型库。
使医保基金风险防控从过去的事后稽查变为“事前预测、事中
监控、事后稽查”全过程的控制,对有效防范医保基金风险起到
采用和医疗需求的增长等原因造成医疗费用增长迅速,对医保
基金形成了较大压力。然而,医保特有的复杂的委托代理关系
支撑作用,为有效控制基金风险提供指导,对医保基金的运营和
监控具有重要作用。
和严重的信息不对称,使医疗费用控制难度加大,医保基金被浪
费、骗取、挪用等现象不同程度地存在,损害了医保基金的使用
效果和效率。因此,为维护参保人的基本医疗保险权益,减少浪
费,促进医保制度可持续发展,加强医保基金支付控制、增强医
保基金风险监控已成为非常紧迫的现实问题。
收稿日期:2010—03—31。上海市科委科研计划基金项目(085115
00203);上海市重点学科建设项目(Bl14)。高臻耀,主治医帅,主研领
域:数据挖掘,数据仓库。
第8期 高臻耀等:一个医保基金风险防控平台中的数据挖掘技术 l21
1相关工作
控制医疗保险基金风险是世界各国一直努力解决的难题。
发达国家的医疗保险基金风险控制工作起步较早,例如德国在
8O年代建立了医保预测预警系统,由于建立时间长,覆盖范围
广,征缴严格,基金收入环节存在的问题相对较少,预测预警的
重点主要集中在支出上 j。但最为关键的是借助计算机应用
系统开展实时监测和预警分析。
根据以收定支的原则,对医保基金支付趋势及预测、逐月的医保
支付、缓付的计算、医保基金支付预警、基金支付方式分析、测
算、各种支付方式的分析。
(3)针对部分医疗机构、医师、参保人员由于利益驱动造成
医保医药费用浪费等违规欺诈行为,监控其在门急诊、住院挂
号、用药、检查、治疗、收费等可能存在漏洞指标数据,建立各种
违规筛选模型,为审核监督提供重点监督管理对象,提高审核监
督力度和效率。同时,建立参保者个人、定点医药机构、定点医
生相关信息档案,并进行综合评分,为充分了解不同参保人员的
我国社会医保工作开展较晚,从某种意义上讲,对医保基金 情况,选择定点医药机构及其医生提供科学依据。
的管理缺乏一定的理论指导。受认识、技术以及数据等方面限 (4)为医保政策调控提供模拟测算平台,主要针对现有政
制,国内在这方面的研究不多,更没有成熟的软件开发和应 策调整(微调):帐户注入定额、三条线调整、支付比例调整等的
用 j。国内目前已有的研究,主要从医保基金收支监测、简单
测算。使决策层充分了解政策调控所涉及的人群、费用、医疗等
指标预警等方面开展基金风险管理工作,在医保基金预测预警 多方面的信息,为政策调控提供可靠依据。
建模方面,仍处于起步阶段,一些相关研究缺乏系统性和深度。 (5)客户管理及信息评估。对参保个人考虑医保待遇、缴
目前有些地区也开发了一些控制或监控费用的系统,虽然
费情况、健康状况、违规行为评估等指标;对定点医药机构考虑
部分实现了费用监控功能,但仍存在一些不足:(1)由于系统建 服务范围、服务量、服务能力、服务质量、违规评估等指标;对定
设的目的并不主要是费用监控,监控的效果非常有限。(2)采
点医生考虑服务能力、服务质量、违规情况评估等指标。
用的实现技术并不适合医保费用监控业务。
从长远看,医保基金管理仍面临着巨大压力,潜在因素主要
3 医保基金风险防控数据挖掘模型与算法
有:(1)医疗服务需求随经济增长水平而大幅度提升,当经济增
长趋缓时,医疗需求增长的刚性仍然不变;(2)新技术运用对医
针对医保基金风险防控管理的需求,结合医保行业的领域
疗卫生费用增长的作用凸显;(3)城市人口老龄化趋势越趋明
知识、经验以及特殊的数据分析需求,我们设计和实现了具有针
显;(4)医疗价格的增长和医院的利益驱动,造成医疗费用持续 对性的医保基金风险防控数据挖掘算法,构建针对医保基金风
增长。针对医保基金风险防控问题,上海已积累约10年的基础 险防控的数据挖掘方法库/模型库,实现对医保数据的挖掘分
业务数据;医药机构对医保中心系统账务的可信性和数据采集
析,有效支持医保基金风险防控平台的预测和处理,有利于医保
代码规范性的认可程度较高,形成上海地区医疗卫生行业信息
基金风险防控平台对日常业务数据进行更有效的实时监控。
处理事实上的部分规范和标准;已建立了一套基础性的统计分
1)医保结算费用预测模型
析报表体系、数据随机查询功能,审核监督已依托计算机筛选数 采用时间序列预测方法——自动回归整合移动平均ARI.
据展开运作。因此,我们已经具有了丰富的数据基础和业务领
MA(AutoRegression Integrated Moving Average)模型,建立医保结
域知识,为有效利用数据资源,减缓医保基金风险管理的压力, 算费用预测模型,实现对医保结算总费用的预测,并能详细到各
我们采用数据挖掘技术,针对风险防控需求和数据特点设计并
区县、各级别医院医保结算费用的预测,为医保基金监管提供方
实现了医保基金风险防控平台中的数据挖掘方法库/模型库。
向。医保结算费用预测数据模型导入的数据包括各医院每月结
实际应用表明,其对防控医保基金风险取得了良好效果。
算费用、医保支付费用和总控内医保支付费用O在预测过程中
实施平稳性检测、差分处理、白噪声检测、拟合预测模型、序列预
2 医保基金风险防控平台
测等几个关键技术,实现对未来三期的时间序列预测。具体实
施分以下步骤:(1)从数据仓库应用数据模型中获取医保结算
医保基金面临的风险因素多种多样,主要包括政策因素、运 费用的时间序列数据;(2)对医保结算费用时间序列做平稳性
营因素、供需矛盾因素、违规欺诈因素和运行支撑因素等。针对
检测,若无法通过平稳性检测,则对结算费用序列实施差分处
以上风险因素,医保基金风险防控平台主要涉及政策风险、运营
理,即转步骤(3),否则进行白躁声检测,即转步骤(4);(3)对
风险、供需矛盾风险、违规欺诈风险防控等四个方面。医保基金 结算费用序列作差分处理直到序列平稳化;(4)对差分后序列
风险防控平台针对监控对象设置预警、报警规则,建立预警、报 进行白噪声检测。通过白噪声检测则生成模型,否则使用模型
警系统,使业务人员和决策层及时了解基金收支、基金运营中潜
建摸,即转步骤(5);(5)使用ARMA模型建模非白噪声序列;
在的风险,提高监控效率。其主要功能有: (6)生成ARIMA拟合预测模型;(7)根据最终拟合模型对医保
(1)在数据仓库逻辑模型上,设计业务数据到“业务大集 结算费用进行预测。
中库”再到数据仓库的ETL过程的调整及优化,在实施上探索 2)医保风险评估(参保人类别管理)模型
在部分数据集市上做到实时或准实时(T+0,或仅相差几小时) 设计聚类算法实现对参保人的经济情况、健康状况和信用
动态数据仓库。在线分析业务从高层次的汇总表到具体明细数
情况聚类,为参保人的分类提供依据。并且,随着参保人数据的
据的连结。
更新,需要多次应用该模型进行聚类以调整类别信息。
(2)加强基金运营风险的管理,在收入分析方面,在考虑人 我们选择的聚类方法有K一均值和K一中心点方法。这些方
口变动(不同险种、不同人群筹资比例,含人口老龄化预测)、收 法均可指定生成簇个数的区间。最终通过实验验证,选择了适
入预测(宏观经济)、退休政策变动(退休年龄,在职退休比)等 合医保数据的实际情况,并且聚类结果较好的Ward聚类算法。
影响因素的基础上,对筹资进行分析及预测;在支出分析方面,
根据医保数据实验结果表明,由于数据量大,数据点十分密集,
122 计算机应用与软件
督所。
201 1年
平均值点和中心点差别非常小,Ward方法是改进的k.中心点方
法,将医保参保人聚合成多个簇,其中每个簇中参保人具有较大
的相似特征,而分属不同簇的参保人则存在明显的特征差异,成
簇效果佳,用户容易解释。
3)医保信用评估模型
上述各个模块涉及的关键技术中的一个共同的难点是,考
虑到随着时间的变化,参保人数据的更新,要在一定的周期中,
在所建立的数据挖掘方法库中多次选择相应的挖掘算法重新构
建挖掘模型,得到新的规则。例如:前已述及,在参保人分类管
理中,分类规则不会一成不变,即聚类结果的不同造成训练集的
变化,需要重新建立参保人分类模型以产生新的分类规则,达到
对参保人新的经济、健康和信用等级进行有效分类。另…方面,
医保数据量非常大,因此算法的设计我们兼顾了结果的有效性
和效率两个方面的利益。
在对参保人的经济情况、健康状况和信用情况聚类完成后,
利用聚类结果作为训练集,构建参保人分类模型,生成分类规
则,实现对参保人所属类别的确定,即指定该参保人所属的健
康、经济类别以及按信用情况划分的信用等级等等。我们采用
决策树算法,算法采用自顶向下的递归方式,在决策树的内部结
点进行属性值的比较并根据不同的属性值判断从该结点向下的
分支,最后在决策树的叶结点得到结论。因此从根到叶结点的
一
条路径就对应着一条合取规则,而整棵决策树就对应着一组
析取表达式规则。
考虑到随着时间的变化,参保人数据的更新,分类规则不会
一
成不变,即聚类结果的不同造成训练集的变化,需要重新建立
参保人分类模型以产生新的分类规则,达到对参保人新的经济、
健康和信用等级进行有效分类。
4)就医聚集行为挖掘
医保就医聚集行为通常表现为在医院就医时,多张医保卡
过于频繁地同时同地消费。这种就医聚集现象可能是由于某些
特殊人群如某些慢性病人需要频繁就医造成的自然聚集现象,
也有可能存在违规的倾向:某人持多张医保卡同时消费。找出
这些具有就医聚集行为的人群一方面能够对特殊疾病人群提供
针对性的管理和服务,另一方面能有效提高对违规人群的监督
力度。可以将就医聚集行为的表现形式简化为某种一致性:在
就医时多张医保卡在同一时间段内(细化为一天)在同一家医
院就医。这些医保卡若一致性消费过于频繁则可以认为是一种
异常现象,将被列为重点监管对象。设计一个一致行为挖掘算
法实现此类人群。算法采用模式增长策略,通过逐步增加子空
间的长度,直到找出所有最长频繁模式下出现的对象集。但是
需要指出的是我们的目的并非在于找到最长模式,而是找到模
式中包含的异常对象集合,这与通常的频繁模式挖掘 的目标
不同。因此,算法执行过程中仅保存了一维模式的物理存储,在
此后的模式增长过程中不保持中间模式对象的物理存储,而是
通过对数据库添加索引结构,并在模式逐步增长过程中保存生
成信息来实现,从而避免重复全局扫描数据库。
5)异常/违规模型
设计异常数据挖掘算法,对医保欺诈等异常/违规行为进行
检测,对有严重违规或不诚信行为的参保人实施重点跟踪和监
控,实现预警。
利用已经过监督所处理后返回的已知参保人是否违规的数
据样本,建立分类模型,对那些未知是否违规的参保人数据,进
行违规筛选。该模型中涉及其他挖掘算法提供的结果信息:参
保人的健康、经济、信用以及是否属于可疑参保群组等,即以这
些属性作为建立分类模型的特征。因此,随着参保人数据的更
新,该违规筛选模型也会随之重建和更新。
数据仓库应用模型中载人的数据有两种:一类为已经经过
监督所处理后返回的数据,这类数据已知是否阳性或阴性。另
一
类则为未知是否违规的数据,待违规筛选处理。对已知类别
的数据,将进入模型训练过程,构造出适用医保数据特征的分类
模型,即决策树;对未知类别数据,需要先进行筛选后再进一步
用分类模型判别类别,将判定为违规的参保人信息优先送往监
4 应 用
由于医疗保险数据库中的数据量非常巨大、数据结构的特
殊性,尤其是数据维数较高时,数据可视化变得尤为重要,它有
助于增加分析人员对理解数据、观察模型的效果。医保基金风
险防控平台采用Oracle的Hyperion前端展现工具,基f Hyperi—
on的功能特性,应用整体遵循J2EE体系,系统采用表现层、应
用层、数据层相分离的三层架构模式,采用组件式管理模式。表
现层包括JSP页面、前台组件、BQY(Brio Query)插件;应用层基
于CuteFrameWork框架构建;数据层包括Oracle数据厍、Essbase
多维数据库和其他数据源。图1是该平台的违规欺诈风险防控
界面。
麓雾 ;?一一一_l_ !立01萱量 謦
… …… ’ % ・
t 口_ qt眦 ~… … ……
蚋l _嗡 麟龋
一£ E三簧三{ j笠等f iE jl_l___.
:
:’ ● {一 , … j = 0々
图I 违规欺诈风险防控界面
5结论和进一步工作
本文针对医保基金管理的关键环节和基金风险的主要因
素,设计了多种数据挖掘算法,实现了对医保基金的科学化、精
细化、透明化的管理,起到了有效防范、化解基金风险的作用。
在后续工作中,我们将进一步研究医保基金中存在的风险因素,
设计高效的数据挖掘模型和算法,以提高系统的可用性和效率,
更好地为控制和减少医保基金风险提供服务。
参考文献
[I]李雯.社会医疗保险基金的风险管理研究[D].西安:西安电子科
技大学,2006.
[2]严莹.上海市医疗保险基金风险分析[D].上海:上海交通大
学,2008.
[3]乌家伟.我国医疗保险费用支付方式研究——以上海为主的医疗
保险费用支付方式分析[D].西安:武汉理工大学,2006.
[4]Han J W,Cheng H,Xin D,et a1.Frequent pattern mining:current status
and future directions[J].Data Mining and Knowledge Discovery.2007,
15(1):55—86.


发布评论