机器学习和自然语言处理案例研究

社会的数字化带来了大量的新数据,这些数据也以新类型出现. 从捕获字段中的事件的事务数据中获取, 从电子健康记录到传感器的地理位置, 图片, 或文本, 我们已经开发了方法和工具来理解这些丰富的信息. 机器学习(ML), 它能够从所有类型的数据中提取规则模式, 为我们的研究人员提供了新的可能性,以增强传统的研究技术.

与主题专家和方法学家合作, 我们的数据科学家在各种任务中使用传统和尖端的深度学习模型开发自然语言处理(NLP)应用程序-从传统调查中采访者评论中的关键信息识别到电子健康记录中的临床记录分类.

我们将机器学习模型嵌入到数据收集项目中,以确定最具成本效益的策略,以获得调查受访者的合作或检测潜在的访谈伪造. 使用这些新方法, 我们已经建立了新的工具来从图像中提取见解, 视频, 或者音频文件,提高数据采集的效率, 评价, 和分析.

药物滥用警告网络

药物滥用和精神健康服务管理局(SAMHSA)的DAWN研究收集了美国50家医院的数据. 目标是(1)确定新的和正在出现的药物和使用模式, (2)成为毒品事件预警系统, (3)产生即时可用的数据. 我们面临的挑战是不断审查急诊科(ED)的记录,以确定与毒品和酒精有关的就诊的关键数据要素.

大脑轮廓和数据显示在屏幕上

确保严格的数据质量并保持低成本, 趣赢平台开发了ML模型来审查DAWN数据并将其发送给专家审查员,专家审查员必须决定药物是否导致或促成了患者的急诊科就诊. 趣赢平台开发的模型分配了一个概率分数,表明急诊科访问是否可能在DAWN的范围内以及访问的可能类别. 这些模型定期进行再训练,以提高效率. 结果是,DAWN数据的质量非常高,而不依赖于对每个病例的人工审查.

全国糖尿病监测

这是CDC国家糖尿病监测战略的一部分, 趣赢平台在一个大型卫生系统中对糖尿病患者进行了电话调查,并为调查样本获得了匹配的电子病历数据. 通过链接这两个数据源, 趣赢平台能够验证基于调查和基于ehr的算法,以确定患者的糖尿病类型,而不是通过人工审查患者图表获得的“金标准”诊断. 使用有监督的ML模型, 我们能够开发一个条件推理树,将每个成年患者分类为1型, 2型, 或者其他糖尿病类型,准确率非常高.

医疗开支事务组统计调查

数据收集过程中, 现场采访者经常在开放的文本字段中向案例追加电子注释或“评论”,以请求对案例级数据进行更新. 这些注释可能包含可操作的信息,提醒数据技术人员注意可能影响数据质量的异常响应或情况. 主题或评论内容的趋势可能为不完美的问题设计提供有价值的见解, 训练间隙, 或者来自面试官的偏见. 

与此同时,注释往往是多余的,或者没有包含足够的可操作的细节, 而且处理评论非常耗时.  可靠地评估这些评论和快速应用标准化数据编辑程序的能力是提高数据质量和提高效率的关键.

趣赢平台开发了一种新的ML技术应用,以协助评估这些评论. 使用来自欧洲议会议员的数千条评论, 我们构建了一些特征,这些特征被馈送到ML模型中,以预测每个评论的分组类别. 该模型达到了很高的精度,并被纳入一个生产工具进行编辑. 对该工具的定性评价也提供了令人鼓舞的结果. ML的这种应用提高了处理效率,同时保持了严格的数据质量标准.

我们能帮什么忙??

我们欢迎来自求职者、合作者、潜在客户和合作伙伴的信息.

保持联系

想和我们一起工作?

你会有很棒的同伴.

探索职业
回到顶部