使用 Hana 和 SageMaker 解决不良药物反应





0/5 (0投票)
讨论识别药物不良反应的问题,以及机器学习和大数据技术如何解决这些问题。
引言
药物不良反应(ADR)是一个严重且复杂的问题,既造成人类痛苦,又带来经济损失。2013年,估计损失为301亿美元 (https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3853675/)。自该研究完成后,这个数字不太可能有所下降。
问题和能力
电子病历(EMR)可用性的提高为更深入地分析这个问题打开了大门。解决这个问题的明显方法是了解患者正在服用的药物,并寻找在出现不良反应的患者中都出现的药物。 但表面上看起来很简单,经过更深入的检查并非如此。
解决此问题的一个困难在于分析海量数据,以确定它们之间的特定相互作用。 交互作用不仅限于两种药物的相互作用,还可能是三种或更多种药物的相互作用。 解决这个问题需要机器学习来筛选海量变化的数据,并根据需要调整算法。 此任务需要大数据处理能力来处理整个人群中案例的组合爆炸。 这种分析还需要包括大量的个人特征。
例如,我们有理由相信药物 A、B 和 C 似乎会在 15% 的人群中引起不良反应。 现在,不应该服用这种药物的 15% 的人群的特征是什么? 可能有数百种可能导致或不导致这种影响的特征。 容易识别的是性别、种族、肥胖等。 比较困难的是与时间相关的变量,例如服用药物的时间长短或患有特定疾病的时间长短。 同样,组合会导致庞大的数据集,不仅在观察数量上,而且在变量数量上。 从 Excel 电子表格的角度来看,它既长又宽。 这种情况需要大量的计算能力。 解决这个问题可能不在于关系数据库技术,而可能更适合图形和空间数据库。
问题的另一部分是识别 ADR 何时发生。 我们如何知道 ADR 已经发生? 识别 ADR 需要我们知道患者有特定症状。 这些症状通常记录在治疗记录的文本中。 因此,寻找和识别 ADR 将涉及某种形式的文本分析。 创建单词索引及其与其他单词的接近程度,并测试它们是否表明存在 ADR,这既是一个大数据问题,也是一个机器学习问题。 它涉及查看提供者的记录,并确定哪些单词是 ADR 指标。 这种分析将涉及开发和调整学习和测试模型。 此外,我们希望优化这些模型以控制误报,这将导致患者无法获得可以帮助他们的药物。
EMR 为 ADR 领域提供了比目前正在进行的更复杂的分析方法。 这是一个代价高昂且至关重要的问题。 ADR 涉及研究相互作用,不仅是药物与其他药物的相互作用,还有药物与患者特征的相互作用。 这些复杂的相互作用需要将大量数据同时保存在内存中。 Hana 提供了这种能力。 它还提供了不仅使用关系模型,还使用文档和图形数据库模型的灵活性。 它的搜索功能可以进行文本分析。 AWS SageMaker 提供了应用机器学习来识别和完善模型以检测 ADR 的能力。