[1] Online Reinforcement Learning Control for the Personalization of a Robotic Knee Prosthesis
En el artículo se pretende reducir el tiempo de entrenamiento de las prótesis de pierna eléctricas y de cierta forma solucionar el problema de que las prótesis robóticas necesitan hasta el momento el ajuste de una gran cantidad de parámetros de control para personalizar el dispositivo para los usuarios individuales de amputaciones, además, este problema del ajuste de la prótesis está asociado con varios problemas que no son del todo sencillos tales como que no se tiene un modelo conocido y estable y el sistema humano-prótesis está constantemente sujeto a ruido de medición, cambios ambientales y variaciones causadas por el cuerpo humano.
Por lo que los autores proponen una solución basada en un enfoque de programación dinámica aproximada(ADP) para ajustar automáticamente 12 de los parámetros(la rigidez de las articulaciones entre otros) de prótesis de rodilla robótica para satisfacer las necesidades de los usuarios humanos.
Para poder probar el arquetipo se probó en 2 personas(persona sana y otra persona amputada) que caminaban a una velocidad fija en una cinta de correr. El ADP-tuner aprendió a alcanzar la cinemática de la marcha objetivo en un promedio de 300 ciclos de marcha o 10 min de marcha.
[2] Reinforcement learning-based control of drug dosing for cancer chemotherapy treatment
En este artículo se enfatiza la necesidad de programar adecuadamente la quimioterapia contra el cáncer para garantizar un tratamiento eficaz y seguro.
Los autores proponen un método sin modelo basado en el aprendizaje por refuerzo (RL) para el control de circuito cerrado de la dosificación de fármacos de quimioterapia contra el cáncer. El algoritmo usado fue el Q-learning que se utiliza para desarrollar un controlador óptimo para la dosificación de fármacos de quimioterapia contra el cáncer.
Para entrenar al modelo se hizo uso de pacientes simulados con parámetros determinados, entre algunas características como : Tasa fraccional de muerte de células inmunes, tasa de descomposición de la droga inyectada,etc. Para la simulación, se iteró en 50.000 escenarios.
En las pruebas que se realizan, el tumor se erradica mediante la dosificación óptima del fármaco de quimioterapia y los controladores son resistentes a las variaciones de los parámetros. Sin embargo, la ventaja principal del método propuesto por los autores basado en RL es que no requiere un modelo del sistema para desarrollar un controlador.
Conclusiones:
El aprendizaje por reforzamiento se está aplicando ahora en más ámbitos como la medicina, son estos los tópicos donde se saca el mejor provecho de este tipo de tecnologías debido a que tratamientos muy costosos como el de cáncer y adopción de prótesis pueden ser mucho más eficientes y eficaces.
Referencias:
- Wen, Y., Si, J., Brandt, A., Gao, X. & Huang, H.(2020)."Online Reinforcement Learning Control for the Personalization of a Robotic Knee Prosthesis," in IEEE Transactions on Cybernetics, vol. 50, no. 6, pp. 2346-2356.
- Padmanabhan, R. , Meskin, N. , & Haddad, W.(2017). Reinforcement learning-based control of drug dosing for cancer chemotherapy treatment.Mathematical Biosciences, Volume 293,pp. 11-20.