iso standard download
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211165509.2 (22)申请日 2022.09.23 (71)申请人 上海市疾病预防控制中心 地址 200050 上海市长 宁区中山西路1380 号 (72)发明人 付晨 夏天 夏寒 张诚 道理 毛丹 刘星航 林维晓 (74)专利代理 机构 上海璀汇知识产权代理事务 所(普通合伙) 31367 专利代理师 程琼胤 (51)Int.Cl. G06Q 50/26(2012.01) G06K 9/62(2022.01) G16H 10/00(2018.01) (54)发明名称 一种公共卫 生数据获取及处 理系统 (57)摘要 本发明公开了一种公共卫生数据获取及处 理系统, 包括1、 以下阶段: 数据准备阶段、 特征工 程阶段以及模 型评估与评价阶段, 所述数据准备 阶段包括以下步骤: S1, 选择以糖尿病作为项目 实例, 启动项目; S2, 选择业务信息系统及数据资 源中心获取糖尿病随访场景的业务数据; S3, 对 已获得的已明确数据可靠性的数据赋予可靠性 标签; S4, 收集可靠性标签并归类, 将可靠性数据 单独归类, 与未处理数据分离; S5, 筛选后的数据 提取部分可靠性标签; S6, 提取目标数据中的数 据类型、 数据结构以及数据形式, 并检查数据缺 失值、 异常值以及重复值; 具有可 以对数据进行 分类描述, 减少后续分析时间的好处。 权利要求书1页 说明书3页 CN 115511683 A 2022.12.23 CN 115511683 A 1.一种公共卫生数据获取及处理系统, 其特征在于, 包括以下阶段: 数据准备阶段、 特 征工程阶段以及模型评估与评价阶段, 所述数据准备阶段包括以下步骤: S1, 选择以糖尿病作为项目实例, 启动项目; S2, 选择业 务信息系统及数据资源中心获取糖尿病随访场景的业 务数据; S3, 对已获得的已明确数据可靠性的数据赋予可靠性标签; S4, 收集可靠性标签并归类, 将可靠性数据单独归类, 与未处 理数据分离; S5, 筛选后的数据提取部分可靠性标签; S6, 提取目标数据中的数据类型、 数据结构以及数据形式, 并检查数据缺失值、 异常值 以及重复值; S7, 提取部分重点特征, 计算统计值, 包括最大值、 最小值、 平均值、 标准差, 通过散点 图、 条形图、 折线图这些 可视化图展示; S8,观察及了解可视化图的分布情况, 判断取值是否符合某一分布规律以及是否有集 中或离中趋势; S9, 统计各个标签 类别的数据量, 检查各 标签类别中的数据量是否失衡。权 利 要 求 书 1/1 页 2 CN 115511683 A 2一种公共卫生数据获取及 处理系统 技术领域 [0001]本发明涉及数据分析处理技术领域, 尤其涉及一种公共卫生数据获取及处理系 统。 背景技术 [0002]随着信息技术的发展和大数据时代的到来, 越来越多的科学研究开始青睐使用已 有的数据开展研究, 同时, 横跨多学科、 多领域的融合研究逐渐增多, 需要在研究中使用多 个学科领域和来源的数据, 在研究开展 前, 应对拟纳入研究的数据可靠性进行评估, 并根据 评估结果采取相应措施, 以提高研究结果的真实性与准确性, 数据可靠性是指数据完整、 一 致、 准确、 值得信赖和可靠的程度, 以及这些特性在数据全生命周期内被维护的程度, 数据 的可靠性会因为数据中存在偏差而降低, 常见 的数据偏差主要包括选择偏差、 信息偏差和 混杂偏差等, 甚至还包括对数据的编造和篡改等情况, 如果在科学研究中使用了可靠性较 低的数据, 则研究结果将偏离真实情况, 使得研究成果的价值大大降低, 在大数据时代, 数 据可靠性评估是非常重要的, 其关乎研究 的成败和成果的价值, 在开展 科学研究前, 采用科 学的方法对拟纳入研究的数据可靠性进行准确的评估, 是大数据时代科学研究的必要步 骤。 [0003]现有技术中的公共卫生领域内, 数据可靠性评估方法主要分为基于规则的评估方 法、 基于内容的评估方法和基于统计的评估方法三类: [0004]基于规则的评估方法主要通过设置规则库, 并利用规则库中的规则对数据进行校 验, 通过校验结果评估数据的可靠性, 基于规则的评估方法虽然 可以对全量数据进 行评估, 可以发现一些信息偏差造成的数据可靠性问题, 但是评估的深度较浅, 对符合检验规则的 数据编造、 篡改也无能为力, 此外, 规则库的制定需要对数据所在的业务领域相当熟悉, 使 这种方法在评估跨行业数据的可靠性时存在较高的实施门槛。 [0005]基于内容的评估方法主要通过其它来源数据, 对待评估的数据内容进行交叉验 证, 从而对数据的可靠性进行评估, 常用的其它来源数据包括电话/上门回访收集的数据、 查阅原始病史获得的数据等。 基于内容的评估方法可以提供深层次的评估, 对于信息偏差 具有更好的评估效果, 也可一定程度上提供选择偏差和混杂偏差的线索, 但是获取其它来 源的数据通常需要耗费大量的时间、 精力和经济成本, 有时还可能存在其他来源数据不可 及的情况, 使得这种方法很难对全量数据进行可靠性评估, 一般需要与抽样的方法结合使 用, 评估得 出的数据可靠性可能存在偏差 。 [0006]基于统计的评估方法主要通过对待评估数据整体统计结果和 分布情况的计算与 分析来整体评估数据的可靠性。 例如血压值的末位数字是否符合 随机分布、 数据中男女人 数比例是否与全人群的男女人数比例存在显著偏差等。 基于统计的评估方法对选择偏差与 信息偏差有着良好的评估效果, 也可对全量数据进行评估, 但这种 方法对于待评估数据的 数据量有着一定的要求, 同时也只能得出整体数据的可靠性评估结果, 无法针对每条数据 形成独立的评估结果。说 明 书 1/3 页 3 CN 115511683 A 3
专利 一种公共卫生数据获取及处理系统
文档预览
中文文档
5 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共5页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-18 03:56:03
上传分享
举报
下载
原文档
(173.3 KB)
分享
友情链接
GB-T 42209-2022 液晶显示屏用点对点 P2P 信号接口 传输协议.pdf
GB 3565.2-2022 自行车安全要求 第2部分:城市和旅行用自行车、青少年自行车、山地自行车与竞赛自行车的要求.pdf
GB-Z 28865-2012 抗电磁干扰软磁铁氧体材料规范.pdf
GB-T 14379-1993 罗兰C系统通用技术条件.pdf
DB3401-T 272—2022 城区菜市场建设与管理规范 合肥市.pdf
GB-T 37550-2019 电子商务数据资产评价指标体系.pdf
DB31-T 862-2021 “一网通办”政务服务中心建设和运行规范 上海市.pdf
GB-T 32045-2015 节能量测量和验证实施指南.pdf
T-CI 038—2023 污泥脱水调理剂.pdf
GB-T 38318-2019 电力监控系统网络安全评估指南.pdf
GB-T 26000-2010 膨胀玻化微珠保温隔热砂浆.pdf
T-DFLX 013—2023 梅花鹿茸冻干技术规范.pdf
GB-T 31460-2015 高压直流换流站无功补偿与配置技术导则.pdf
GB-T 25977-2022 除雪车.pdf
T-GAZE 3002—2023 共享医疗综合体管理指南.pdf
DB4401-T 184—2022 文化和旅游市场主体信用评价规范 广州市.pdf
T-CFA 03110323—2022 铸件加工单元数字化技术要求.pdf
GB-T 42447-2023 信息安全技术 电信领域数据安全指南.pdf
GB-T 33356-2022 新型智慧城市评价指标.pdf
GB-T 34492-2017 500kA铝电解槽技术规范.pdf
1
/
3
5
评价文档
赞助2.5元 点击下载(173.3 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。