热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

利用生成对抗网络生成多标签离散电子健康记录

本文探讨了通过生成对抗网络(GAN)生成合成电子健康记录(EHR)的方法,旨在解决隐私保护问题并促进医学研究。论文地址为:https://arxiv.org/abs/1703.06490v1。该方法通过生成高维离散变量的综合EHR数据,显著提升了医学研究中的数据可用性和安全性。
### 引言

获取高质量的电子健康记录(EHR)数据对于推动医学研究和计算进步至关重要。然而,隐私问题常常限制了这些数据的共享和使用。为此,本文提出了一种基于生成对抗网络(GAN)的新方法——MedGAN,用于生成真实的、综合的EHR数据。

### MedGAN框架

MedGAN结合了自动编码器和生成对抗网络的优势,能够生成高维离散变量(如二进制和计数特征)。具体来说,MedGAN通过以下步骤实现:

1. **输入数据处理**:原始EHR数据作为输入,经过自动编码器进行降维和特征提取。
2. **生成模型**:生成器G将随机先验z转换为连续表示,并通过解码器Dec将其转换为离散输出。
3. **判别模型**:判别器D区分真实样本和生成的合成样本。

为了提高生成质量和避免模式崩溃,MedGAN引入了小批量平均技术,有效提高了生成样本的多样性和真实性。

### 主要贡献

1. **高效生成算法**:MedGAN能够同时处理二进制变量和计数变量,生成高质量的高维离散样本。
2. **大规模合成数据生成**:MedGAN可以生成任意规模的高质量合成患者数据,极大促进了医学研究。
3. **模式崩溃解决方案**:提出了小批量平均方法,有效解决了生成对抗网络中的模式崩溃问题。
4. **性能验证**:通过分布统计、预测建模任务和医学专家评审等实验,证明了MedGAN生成的数据与实际数据具有相似性。

### 技术细节

#### 生成对抗网络基础

在GAN中,生成器G接受随机噪声z并生成合成样本G(z),而判别器D则判断样本的真实性。优化过程通过极小极大博弈实现,最终使生成器生成的样本与真实样本难以区分。

#### MedGAN的具体实现

由于离散数据的特殊性,MedGAN利用自动编码器将离散数据映射到低维空间,再由生成器生成连续表示,最后通过解码器恢复为离散输出。这一过程确保了梯度流的有效传递,从而实现端到端的训练。

#### 模式崩溃的解决

模式崩溃是GAN训练中的常见问题,表现为生成器倾向于生成单一模式的样本。MedGAN通过小批量平均技术,使得判别器能够分别处理真实和合成样本的小批量数据,从而有效避免了模式崩溃。

#### 提升生成器训练效果

为了增强生成器的训练效果,MedGAN采用了批归一化和快捷连接技术,显著提高了学习效率和模型稳定性。

### 结论

MedGAN提供了一种创新且高效的解决方案,能够在保护隐私的前提下生成高质量的综合EHR数据,为医学研究提供了新的工具和方法。
推荐阅读
  • 本文探讨了如何在iOS开发环境中,特别是在Xcode 6.1中,设置和应用自定义文本样式。我们将详细介绍实现方法,并提供一些实用的技巧。 ... [详细]
  • DCG 创始人兼首席执行官 Barry Silbert 发布致股东信,详细解答了 19 个核心问题,并分享了公司未来的发展方向。 ... [详细]
  • 本文介绍如何利用 Python 中的 NumPy 和 Matplotlib 库,从 NumPy 数组中绘制线图。通过具体的代码示例和详细解释,帮助读者理解并掌握这一技能。 ... [详细]
  • 采用IKE方式建立IPsec安全隧道
    一、【组网和实验环境】按如上的接口ip先作配置,再作ipsec的相关配置,配置文本见文章最后本文实验采用的交换机是H3C模拟器,下载地址如 ... [详细]
  • 社交网络中的级联行为 ... [详细]
  • 2018-2019学年第六周《Java数据结构与算法》学习总结
    本文总结了2018-2019学年第六周在《Java数据结构与算法》课程中的学习内容,重点介绍了非线性数据结构——树的相关知识及其应用。 ... [详细]
  • CSS高级技巧:动态高亮当前页面导航
    本文介绍了如何使用CSS实现网站导航栏中当前页面的高亮显示,提升用户体验。通过为每个页面的body元素添加特定ID,并结合导航项的类名,可以轻松实现这一功能。 ... [详细]
  • 由中科院自动化所、中科院大学及南昌大学联合研究提出了一种新颖的双路径生成对抗网络(TP-GAN),该技术能通过单一侧面照片生成逼真的正面人脸图像,显著提升了不同姿态下的人脸识别效果。 ... [详细]
  • 搭建Jenkins、Ant与TestNG集成环境
    本文详细介绍了如何在Ubuntu 16.04系统上配置Jenkins、Ant和TestNG的集成开发环境,涵盖从安装到配置的具体步骤,并提供了创建Windows Slave节点及项目构建的指南。 ... [详细]
  • 本文旨在探讨如何利用决策树算法实现对男女性别的分类。通过引入信息熵和信息增益的概念,结合具体的数据集,详细介绍了决策树的构建过程,并展示了其在实际应用中的效果。 ... [详细]
  • CentOS 7.6环境下Prometheus与Grafana的集成部署指南
    本文旨在提供一套详细的步骤,指导读者如何在CentOS 7.6操作系统上成功安装和配置Prometheus 2.17.1及Grafana 6.7.2-1,实现高效的数据监控与可视化。 ... [详细]
  • 本文将详细介绍通过CAS(Central Authentication Service)实现单点登录的原理和步骤。CAS由耶鲁大学开发,旨在为多应用系统提供统一的身份认证服务。文中不仅涵盖了CAS的基本架构,还提供了具体的配置实例,帮助读者更好地理解和应用这一技术。 ... [详细]
  • 本文详细介绍如何通过设置SSH密钥来获取连接GitHub远程仓库的权限,包括生成密钥、添加到GitHub账户以及验证连接等步骤。 ... [详细]
  • 深入浅出TensorFlow数据读写机制
    本文详细介绍TensorFlow中的数据读写操作,包括TFRecord文件的创建与读取,以及数据集(dataset)的相关概念和使用方法。 ... [详细]
  • 深入解析:OpenShift Origin环境下的Kubernetes Spark Operator
    本文探讨了如何在OpenShift Origin平台上利用Kubernetes Spark Operator来管理和部署Apache Spark集群与应用。作为Radanalytics.io项目的一部分,这一开源工具为大数据处理提供了强大的支持。 ... [详细]
author-avatar
尕心疼TammyY
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有