Desde hace más de medio siglo se están diseñando programas de computación para realizar diagnósticos médicos, pero nada realmente había dado resultados. Ahora, la Inteligencia Artificial está transformando muchos aspectos de la práctica de la medicina, y ya hay profesionales que están usando esas herramientas para asistirlos en el diagnóstico y los médicos que han utilizado GPT-4 piensan que hay buenas posibilidades para aprovecharlo.  GPT-4 es fundamentalmente diferente a una máquina de búsqueda tradicional y puede crear algo que es sorprendentemente similar a la “historia clínica” que los galenos usan. Se describe una importante e interesante experiencia con GPT-4 y seguramente pronto veremos modelos dirigidos específicamente al área médica.

Los médicos frecuentemente han sido presentados como detectives que recolectan evidencias y las utilizan para encontrar al culpable o malhechor.  Sin embargo, los médicos experimentados utilizan un método diferente – reconocimiento de patrones – para detectar aquello que está mal. En medicina, eso se denomina la “historia médica”: señales, síntomas y resultados de los exámenes que los médicos reúnen para narrar o explicar una historia coherente basada en casos similares que han conocido o de los cuales han escuchado. Cuando la “historia médica» no funciona entonces los médicos aplican otras estrategias, tales como asignar probabilidades a los diversos diagnósticos que podrían aplicar al caso.

Inteligencia Artificial y el aprendizaje

Médicos en el Beth Israel Deaconess Medical Center en Boston, asociado a la Escuela de Medicina de Harvard,  decidieron explorar si era factible y cómo podrían usarse los chatbots en el entrenamiento de los futuros médicos. Existe la expectativa que GPT-4 u otros bots podrían ser utilizados para lo que los médicos llaman “consultas de pasillo” – cuándo apartan a un colega para consultarle sobre un caso difícil. La idea es utilizar al chat en la misma forma en que los médicos conversan buscando sugerencias o perspectivas del colega.

Los médicos en Boston le han preguntado a GPT-4 posibles diagnósticos para casos difíciles. En un estudio, publicado el mes pasado en la revista médica JAMA, encontraron que GPT-4 lo hacía mejor que la mayoría de los médicos en los retos de diagnóstico semanales publicados en The New England.  Pero, también han estado aprendiendo que para el aprovechamiento de GPT- 4 hay un arte en el uso del programa y que tiene sus escollos y dificultades. Asimismo, lo han venido utilizando estudiantes de medicina y residentes y solo el tiempo dirá cuánto están aprendiendo y en que les beneficiará. Una de las principales preocupaciones y peligros es que ellos terminen haciendo diagnósticos confiando en Inteligencia Artificial, en la misma forma en que pudieran depender de la calculadora en sus teléfonos para resolver los problemas de matemáticas. El aprendizaje implica descifrar cosas, esa es la forma en que la mente opera, Parte del aprendizaje es precisamente ese esfuerzo, ese forcejeo intelectual y si se terceriza el aprendizaje a GPT-4, se anula esa labor.

Caso de estudio

Para probar el uso de GPT-4, en la clínica mencionada en Boston, el médico residente le planteó el caso a una sala repleta de estudiantes de medicina y otros médicos residentes. Estaban allí para aprender una habilidad extremadamente difícil – pensar como un médico. Expertos en el tema plantean que los médicos son terribles enseñándole a otros cómo ellos piensan. Sin embargo, en esta ocasión podían aprovechar a un experto para ayudarlos a realizar el diagnóstico – se trataba de GPT-4, la versión más reciente del chatbot de OpenAI, la muestra más conocida de la Inteligencia Artificial Generativa. La paciente era una mujer de 39 años de edad que llegó a la Emergencia del hospital. Tenía un dolor de rodillas desde hacía varios días y el día anterior había tenido una fiebre de 39,4 grados Celsius, y todavía tenía escalofríos. Su rodilla estaba roja e hinchada. ¿Cuál era el diagnóstico? En la reunión los estudiantes y residentes se dividieron en equipos y trataron de determinar cual era el problema de la paciente con la rodilla hinchada. Después de realizar su análisis, se voltearon hacia GPT-4 e intentaron diversos enfoques:

  • Un equipo usó GPT-4 para realizar una búsqueda de Internet, similar a como lo harían con Google. El chatbot rápidamente entregó una serie de posibles diagnósticos. Pero cuando, los miembros del grupo le pidieron que explicara su razonamiento, el bot decepcionó, explicando su selección diciendo ”El trauma es una causa frecuente de una lesión de la rodilla”.
  • Otro equipo le planteó sus posibles hipótesis a GPT-4 y le pidió que esta planteara las suyas. La lista del chatbot vino alineada con la del grupo: infecciones, incluyendo la enfermada de Lyme; artritis, incluyendo gota, un tipo de artritis que involucra cristales en las articulaciones; y trauma. GPT-4 agregó la posibilidad  de artritis reumatoide, que no la tenía el grupo entre sus principales posibilidades.

Los instructores, posteriormente le plantearon al grupo que gota era improbable, por cuanto la paciente era joven y femenina. Asimismo Artritis Reumatoide, posiblemente podía ser eliminada cómo opción, por cuánto únicamente una rodilla estaba inflamada y solo por algunos días. Cómo “médico consultor de pasillo”, GPT-4 pareció pasar la prueba, o cómo mínimo estuvo de acuerdo con los estudiantes y residentes. Pero en este ejercicio, no ofreció ni percepciones ni un guion de la enfermedad. Una razón pudo haber sido el que se haya utilizado el bot como una máquina de búsqueda en lugar de un “consultor de pasillo”.

Recomendaciones para uso de GPT-4

Para aprovechar el bot correctamente, el médico debería actuar tal como lo haría con un colega médico:

  1. comenzar diciéndole a GPT-4 algo como “Tú eres un médico viendo a una paciente de 39 años edad con un dolor de rodilla”.
  2. posteriormente necesitarían listar sus síntomas.
  3. solicitar un diagnóstico.
  4. finalmente preguntar al bot el razonamiento a través del cual llega al diagnóstico.

Los instructores indican que es una forma de explotar el poder de GPT-4, pero que también es crucial reconocer que los chatbots pueden cometer errores y “alucinar”.  El uso de estas herramientas requiere corroborar sus respuestas y fuentes. Cómo una forma de explicación, el instructor utilizó una analogía. Los pilotos utilizan el GPS, pero las líneas aéreas tienen muy altos estándares de confiabilidad en el GPS. En medicina, es fácil sucumbir a la tentación de un uso similar del Chatbot, pero es necesario aplicar los mismos altos estándares que tiene la aviación. Aparte del esfuerzo individual de corroboración, eventualmente también se desarrollaran estándares en medicina. Los médicos usuarios de Chatbots no pueden dejar de tener su experticia mental.

Al final de la sesión, los instructores revelaron la razón real de la inflamación de la rodilla de la paciente. Resultó ser una posibilidad que cada grupo había considerado y GPT-4 había propuesto. La paciente sufría de la enfermedad de Lyme.

Se hace referencia a  A Mystery in the E.R.? Ask Dr. Chatbot for a Diagnosis. También aparece en mi Portal. La imagen es cortesía de Bing Image Creator.