Creating Biomedical Technologies to Improve Health

Eliminando el Esfuerzo de Limpiar la Información Confidencial de los Registros Médicos

Sunday, May 31, 2009

Ejemplo de notas de enfermería des-identificadas.

Example of de-identified nursing notes.

Los registros médicos computarizados han empezado a reemplazar lentamente los registros de papel en muchas instalaciones de salud a lo largo de los Estados Unidos y están ganando popularidad también entre prácticas pequeñas. Muchos de los beneficios de los registros médicos electrónicos (EHRs, por sus siglas en inglés) están íntimamente ligados a dirigir la provisión de asistencia médica al paciente (p. ej., coordinación del cuidado, medición continua de calidad, y reducción de errores médicos mediante monitorización). Sin embargo, los usos secundarios de los EHRs – tales como análisis, investigación, medición de calidad y seguridad, y salud pública – son igualmente importantes. “Los datos clínicos ofrecen un posible tesoro oculto de información que puede ayudarnos a desarrollar un mejor entendimiento de las enfermedades, mejorar las maneras en que las tratamos, y hacer más eficiente el proceso de los cuidados médicos”, dice el Dr. Peter Szolovits, Profesor de Ciencias Computacionales e Ingeniería en el MIT y colaborador de investigación médica informática financiada por el Instituto Nacional de Bioingeniería e Imágenes Biomédicas (NIBIB) de los Institutos Nacionales de la Salud.

Estos importantes usos secundarios de la información son posibles mediante la recolección de datos EHR de grandes cantidades de pacientes para una base de datos común. El Dr. Roger Mark, Profesor de Ciencias y Tecnología de la Salud e Ingeniería Eléctrica y sus colegas en el MIT, el Centro Médico Beth Israel Deaconess, y la Asistencia Médica Philips han desarrollado una base de datos así, la base de datos de Monitoreo Inteligente Multiparámetros en Cuidados Intensivos (MIMIC II, en inglés). Contiene más de 30,000 registros de sala de cuidados intensivos (ICU, en inglés), cada uno de los cuales incluye información fisiológica detallada, reportes de laboratorio, medicación y registros de tratamiento, y notas del progreso clínico e informe médico de alta en texto no-formateado. La MIMIC II apoya estudios clínicos retrospectivos y también el desarrollo de nuevos algoritmos de monitoreo para monitorizar y aún predecir el estado clínico de los pacientes.

Mucha información valiosa está en forma de notas médicas en texto no-formateado (p. ej., notas de enfermería, informes médicos de alta, y reportes de rayos x). Según el Profesor Mark, “Las partes narrativas (texto libre) de un registro médico son fundamentales para entender completamente el caso. Aún cuando el texto libre es muy eficiente para transmitir el significado a un lector humano, presenta grandes retos para los investigadores que desean abstraer los conceptos clave de manera que sean legibles por una máquina”.

El texto libre, aunque rico en información, conlleva el riesgo de contener información que podría ser usada para identificar a una persona específica mediante el uso de nombres, fechas de nacimiento, y otra información descriptiva. La eliminación de información de salud protegida (PHI, en inglés) como los posibles identificadores de pacientes a partir de narrativas no-formateadas en forma eficiente y certera presenta otro obstáculo para los investigadores. Además de la Ley de Portabilidad y Responsabilidad de Seguros Médicos (HIPPA, en inglés) y otros requerimientos legales, existen consideraciones éticas. Algunos de los posibles efectos negativos de revelar la identidad del paciente incluyen discriminación en el empleo y el seguro así como estigma social. Por todas estas razones, se tuvo que limpiar toda la información PHI de la base de datos MIMIC II, incluyendo la PHI encontrada en texto libre, antes de que pudiera hacerse disponible a los investigadores. “Necesitamos ser capaces de trabajar con esta información sin poner en gran riesgo la privacidad de los pacientes y la confidencialidad de la información”, añade el Profesor Szolovits. “Nuestro trabajo en la des-identificación de texto narrativo es un paso hacia esta meta”.

 

Limpiando la Información

Remover manualmente los PHI de los EHR narrativos es un proceso costoso, que lleva mucho tiempo y que es vulnerable a errores. Por ejemplo, un consenso de dos des-identificadores humanos ha demostrado identificar sólo 94% de todos los casos de PHI en el texto. Para reducir costos, ahorrar tiempo, y aumentar la limpieza eficiente y precisa de masas de información EHR, los investigadores del MIT desarrollaron un software de des-identificación. Además de la información PHI específica a la ley HIPPA, el software borra también otra información de identificación de salud (p. ej., referencias a etnia y días festivos comunes que pudieran indicar fechas de eventos o el origen cultural o étnico del paciente). En una prueba de 1,836 notas de enfermería (cerca de 300,000 palabras), el software identificó todos los nombres de los pacientes y sólo falló en identificar una fecha completa y una edad mayor de 89. El nuevo software superó a cualquier des-identificador humano y funcionó tan bien como el consenso de dos des-identificadores humanos.

Para facilitar la investigación en cuidados críticos y apoyo en decisiones médicas, la extensiva base de datos MIMIC II se ha hecho disponible a la comunidad investigadora en PhysioNet – un recurso que ofrece acceso Web gratis a grandes bases de datos de registros de señales fisiológicas y software de código-abierto relacionado (www.physionet.org). El NIBIB y el Instituto Nacional de Ciencias Médicas Generales (NIGMS, en inglés) del NIH, financian PhysioNet. “La comunidad investigadora de procesamiento de lenguaje natural podría también encontrar las secciones narrativas de la MIMIC II como cuerpo útil de investigación”, explica el Profesor Mark.

 

Garantías Adicionales para los Registros Médicos Electrónicos

"La riqueza del detalle que se encuentra en las partes narrativas de los registros médicos presenta la posibilidad de que, en circunstancias inusuales, se podría descubrir la identidad de un individuo mediante la correlación de información en el registro médico [des-identificado] con registros públicos disponibles”, explica el Profesor Mark. “Como ejemplo imaginario, reportajes de un choque entre un Segway® operado por una mujer ebria de 75 años de edad y un carro policial podrían estar correlacionados con información textual des-identificada en la MIMIC II que menciona el Segway® y por lo tanto revelar la identidad del paciente”. Aunque dichos casos son por lo general muy raros, los investigadores que desean usar información de la MIMIC II deben firmar un acuerdo de uso de información (DUA, en inglés) donde prometen que no intentarán identificar a los sujetos. El DUA especifica también que el investigador notificará a los colaboradores de la MIMIC II si se descubre que alguna información no fue des-identificada.

El uso del software de des-identificación junto con los sistemas de información de salud no solo trata asuntos legales y éticos importantes, relacionados con compartir la información de salud, sino que también mitiga los miedos de los pacientes acerca del uso indebido de la información. Al des-identificar toda información de salud compartida, los investigadores tiene acceso a la información sin sacrificar la privacidad y paz mental de los pacientes mismos.