PREDICCIÓN TEMPRANA DE DESEMPEÑO DE PASANTÍAS UNIVERSITARIAS PARA LA DISMINUCIÓN DE REPROBACIÓN DE PASANTÍAS Universidad Adolfo Ibáñez Facultad de Ingeniería y Ciencias Equipo: - Sofía Escárate Herrera - Federico Gómez Marchesse - Cristóbal Grez Gutiérrez - Alejandro Romero Schmidt TABLA DE CONTENIDO SITUACIÓN ACTUAL ................................................ 1 ANTECEDENTES GENERALES ..................................................... 1 ESCENARIOS/PROCESO ACTUAL ................................................ 2 SITUACIÓN FUTURA ................................................ 6 DEFINICIÓN DE LOS OBJETIVOS ................................................ 6 SITUACIÓN FUTURA DESEADA ................................................... 7 ANEXO 1: FICHA DE DISEÑO Y FACTIBILIDAD DE PROYECTO ............................................................. 15 ANEXO 2: PERFIL DEL MODELO ............................. 28 ANEXO 3: PERFIL DE DATOS .................................. 36 ANEXO 4: REQUERIMIENTOS TÉCNICOS MÍNIMOS 41 REFERENCIAS ........................................................ 50 SITUACIÓN ACTUAL ANTECEDENTES GENERALES En la Universidad Adolfo Ibáñez para las carreras de la Facultad de Ingeniería de Ciencias existen tres mecanismos de titulación. Uno de ellos es la pasantía, la cual se realiza una vez obtenida la licencia en una de las carreras de ingeniería civil. Esta contempla la realización de un proyecto de ingeniería aplicado, el cual permitirá al alumno integrarse, durante un período prolongado, a un equipo de trabajo al interior de una empresa u organización. La pasantía tiene dos modalidades: Full-Time y Part-Time. La Full-Time considera al menos 810 horas de trabajo (un semestre académico) y Part-Time considera al menos 20 horas semanales (en dos semestres académicos). En el caso de reprobación de la pasantía, el alumno puede volver a realizarla desde el semestre siguiente. La reprobación de la pasantía para el alumno significa la postergación de la obtención de su título en al menos un semestre académico dependiendo de la modalidad que haya escogido. Además, los alumnos continúan pagando el arancel de la carrera mientras realizan la pasantía, por lo que reprobar, también conlleva gastos importantes. Para los profesores guía, la reprobación de sus alumnos implica que no pudieron encaminar de forma asertiva los proyectos, los informes o las defensas. Para la universidad, este problema no solamente conlleva incurrir en recursos monetarios y de tiempo para facilitar las empresas en convenio y profesores guía a los alumnos en la nueva instancia de realizar sus pasantías; también es un factor en distintas evaluaciones de desempeño para la universidad, como lo es el prestigio, el tiempo promedio de egreso, entre otros criterios que además son considerados para la acreditación de la institución. Finalmente, las empresas se ven perjudicadas por este problema, pues el alumno no logró cumplir con el objetivo de realizar un proyecto ingenieril que impactara positivamente en alguno de sus procesos, lo cual supone recursos invertidos en la introducción y capacitación del alumno. Asimismo, un patrón de reprobaciones dentro de una misma empresa puede eventualmente llevar al término del convenio con la universidad. Los organismos involucrados en los procesos del problema que se busca resolver son las empresas en convenio de pasantías y la Universidad Adolfo Ibáñez, el particular el departamento de Prácticas y Docencia. ESCENARIOS/PROCESO ACTUAL El proceso actual conlleva 2 procesos desde la inscripción del proyecto de pasantía de un alumno hasta la titulación de este, a continuación, se describirán los pasos de cada proceso. Primer proceso – Desarrollo de pasantía Al concluir las asignaturas del quinto año, el estudiante inicia su proceso de pasantía al inscribirse. Posteriormente, valida su contratación por parte de la empresa y mantiene reuniones iniciales con el profesor guía. En estas sesiones, el profesor guía alinea los objetivos iniciales del estudiante y le proporciona orientación sobre cómo abordar la problemática seleccionada. Tras algunas semanas, el estudiante presenta los Avances 1 y 2, siendo evaluado por el profesor guía, quien brinda la retroalimentación correspondiente. Finalmente, se lleva a cabo la presentación final, donde el profesor decide la aprobación o reprobación de la pasantía. En caso de reprobar, el estudiante deberá reiniciar el proceso en el próximo semestre; si aprueba, avanza al proceso de defensa. Segundo Proceso – Defensa de proyecto Una vez aprobado el proyecto de pasantía del alumno, este deberá hacer una defensa frente a un comité de profesores. Durante agosto para el periodo de primer semestre y enero para el periodo del segundo semestre, un administrador de la universidad asignará un horario y comité de defensa. En dicho comité hay por lo general entre 3 a 5 profesores, los cuales deben evaluar la presentación del alumno, una vez asignada, el alumno procederá a realizar su defensa y terminada esta, los profesores harán la evaluación correspondiente. 2 Si el alumno reprobara la defensa, tendrá que volver a ser asignado a un nuevo comité en el siguiente periodo su defensa por lo que tendrá que esperar al menos 3 meses para el periodo extra de defensas, en caso de que el alumno aprueba, se puede iniciar el proceso de titulación. Plataformas Para el primer proceso el alumno cuenta con 3 plataformas principales, WebCursos para ver todo lo relacionado a los documentos que debe leer y donde están los buzones de subida de las entregas, además aquí el profesor sube el feedback de las entregas que queda registrado en la plataforma. GestionFIC donde realiza la inscripción de la pasantía, empresa y supervisor y Outlook para el envío y recibo de mails. Además, las reuniones que hace el alumno con su profesor guía es administrado por ambas partes, en forma presencial u online según sus disponibilidades, por lo que no hay un proceso estándar o generalizado de cómo deben ser las reuniones. Para el segundo proceso, el administrador debe realizar las inscripciones de las defensas de forma manual, mientras que la defensa de la tesis actualmente es en forma remota a través de una reunión zoom. Finalmente, la evaluación se entrega directamente al alumno y además los profesores deben enviar feedback a través de un formulario de Google Forms para que luego el alumno pueda ver detenidamente la retroalimentación correspondiente y que quede una constancia de ella. Los procesos que serán intervenidos tienen que ver con las reuniones que realiza el profesor guía y su alumno. Donde el profesor guía tendrá una mayor claridad de los posibles puntos débiles del proyecto en el alumno y podrá guiarlo de mejor manera para que este pueda corregir sus errores y eventualmente no reprobar y atrasar su titulación. 3 Arquitectura Empresarial Actual. Ilustración 1 - Arquitectura empresarial del proceso de pasantías actual Limitantes y áreas de oportunidad: Escasa utilización de datos históricos. En la actualidad, la institución carece de mecanismos eficientes para llevar a cabo una predicción temprana del riesgo de reprobación en proyectos de pasantía. La ausencia de una evaluación anticipada basada en datos históricos del rendimiento académico del estudiante y detalles específicos de su proyecto limita la capacidad de intervenir de manera proactiva y proporcionar un apoyo temprano efectivo. En este sentido, la institución no está aprovechando plenamente los datos históricos de desempeño académico del alumno y la información específica de su proyecto de pasantía para mejorar la toma de decisiones. Esta falta de un enfoque analítico más sólido obstaculiza la comprensión y el abordaje de patrones y tendencias, afectando la capacidad de generar informes detallados para orientar estrategias de mejora en el proceso. 4 Carencia de explicabilidad en las decisiones. En cuanto a la explicabilidad de las decisiones tomadas en el proceso de evaluación, la institución no cuenta con un sistema que ofrezca explicaciones detalladas y comprensibles. Esta ausencia puede tener un impacto significativo en la comprensión de los resultados, tanto por parte de los profesores como de los estudiantes. Además, la falta de herramientas específicas de apoyo para los profesores guías en la evaluación y orientación de los proyectos de pasantía contribuye a que más del 20% de los alumnos reprueben sus defensas semestralmente. Esta carencia resalta la necesidad de implementar herramientas que faciliten el proceso de evaluación y orientación, reduciendo así las tasas de reprobación. 5 SITUACIÓN FUTURA DEFINICIÓN DE LOS OBJETIVOS A continuación, se presentan los tres principales objetivos, con sus respectivas limitaciones, los cuales se profundizarán en el Anexo 1. 1. Primer Objetivo: Meta: Disminuir reprobaciones en pasantías en un X% en un año. Razón: Mejorar el éxito estudiantil y abordar problemas identificados, generando informes detallados y necesarios para dirigir estrategias de mejora. Limitaciones: Calidad y disponibilidad de datos, retroalimentación variada del desempeño y análisis de datos de diversas fuentes. 2. Segundo Objetivo: Meta: Reducir en un Y% factores externos que impactan alumnos, profesores, empresas y la universidad. Razón: Crear entorno propicio para rendimiento académico y laboral. Limitaciones: Necesidad de superar reprobaciones significativas y consideración de variables individuales y variadas. 3. Tercer Objetivo: Meta: Disminuir los factores de rechazos de proyectos de pasantía en la primera etapa en un Z%, convirtiéndolos en herramienta de apoyo para profesores guías. Razón: Mejorar aceptación inicial de proyectos, facilitando labor de profesores guías. Limitaciones: Sesgo humano inherente a profesores en evaluación y retroalimentación. Crucial abordar sesgo para evaluación justa y objetiva. 6 SITUACIÓN FUTURA DESEADA La alternativa apoyada en IA a proponer consiste en el desarrollo de un modelo predictivo de aprendizaje automático que sea capaz de predecir si un alumno está en riesgo de reprobar su proyecto de pasantía durante el transcurso de tiempo que lo esté desarrollando. Para esto, el algoritmo se alimentará de los datos históricos de desempeño académico del alumno y de los datos particulares de su proyecto de pasantía, los cuales se abordarán más en profundidad en los Anexos 2 y 3. Esta predicción debe estar acompañada de un grado de explicabilidad acerca del resultado del algoritmo que pueda ser desplegado de forma sencilla para que el profesor guía y los administradores encargados del proceso de pasantías puedan entender por qué se determinó ese resultado y tomar decisiones apoyándose en justificaciones lógicas. El modelo debe ser capaz de ir actualizando la predicción a medida que el alumno vaya avanzando en las etapas de la pasantía. Inicialmente, se entregará una predicción basándose en el rendimiento académico del alumno en pregrado y quinto año, junto con datos acerca de la empresa en la cual realizará el proyecto y el rendimiento histórico de alumnos que han realizado su pasantía en la misma organización y/o área. Esta información será presentada como datos preliminares para el profesor guía y será actualizada cada mes con las retroalimentaciones de la empresa y después de la primera presentación de avance, tomando en consideración el feedback que entregue el profesor y la nota que obtuvo. Junto con una actualización de la predicción, se obtendrán nuevas explicaciones para su resultado, lo cual desencadenará en distintas recomendaciones para el profesor. Este proceso se repite para la segunda entrega y presentación del estudiante. 7 Vista Motivacional. Ilustración 2 - Vista motivacional de la solución La Vista Motivacional entrega una representación del dominio del problema, considerando los principales stakeholders, sus focos principales, las metas relacionadas a cada uno de esos focos y los principios que deben estar presentes en la solución para alcanzar los objetivos principales. La solución deseada se enfoca principalmente en el lado izquierdo de la vista, afectando de manera directa a la Dirección Docente y los Alumnos de pasantías, aportando en una mejora del proceso de gestión de pasantías y en un aumento de las aprobaciones de los proyectos. Luego, en el lado derecho de la vista se sitúan los actores que se ven afectados de manera indirecta por la solución: La Junta Directiva de la universidad, obteniendo un beneficio de reputación y reducción de costos y las Empresas en donde los alumnos realizan las pasantías, mejorando el rendimiento de sus activos con proyectos de mejor calidad y generando vínculos más fuertes con la universidad y los futuros profesionales. La implementación del modelo de aprendizaje automático buscará impactar en la optimización del uso de los recursos de la universidad, reducir las reprobaciones de las pasantías y mejorar los proyectos en términos de calidad y rendimiento. Esto debe estar acompañado de los principios de interoperabilidad, para integrarse con los sistemas actuales y nuevos de la universidad, explicabilidad e interpretabilidad, asegurando transparencia y responsabilidad de los resultados, y privacidad en el manejo de los datos. 8 Vista por Capas. Ilustración 3 - Resumen de las vistas para el modelo deseado La vista por capas, presentada en la Ilustración 3, presenta un resumen gráfico de la implementación del nuevo sistema y como este afectará en un último nivel a los actores presentados en la vista motivacional. En la capa inferior se detalla la infraestructura necesaria para el sistema, subiendo por sus servicios y como interaccionan con las aplicaciones, luego como estas se conectan a los nuevos procesos y en última instancia como estos prestarán servicios concretos para impactar en los alumnos y la dirección docente. Cada uno de estos puntos se profundizará en el informe. 9 Arquitectura Empresarial Deseada. Ilustración 4 - Procesos de Negocio de Pasantías UAI La Ilustración 4 presenta un el proceso completo de desarrollo de las pasantías, desde que un alumno la inscribe su proyecto hasta que lo defiende frente a una comisión evaluadora y logra su titulación. El principal cambio con respecto a la Ilustración 1 radica en el Proceso de Pasantía, el cual se enfoca en la realización del proyecto y no en su defensa. Este es el lugar en donde debe intervenir el modelo de inteligencia artificial para poder impulsar cambios e intervenciones que estén a tiempo para revertir una posible reprobación. Para esto, se insertan dos subprocesos: Detectar Rendimiento de Alumnos y Apoyar Alumnos. El primero es el que contiene el modelo de aprendizaje automático y se encarga de ir procesando los datos que se van obteniendo del alumno, prediciendo su estado esperado y presentando estos resultados al profesor guía. Luego, el segundo consta de la parte explicativa, en donde se utiliza una herramienta XAI para obtener los razones y recomendaciones personalizadas que el profesor guía deberá ir tomando en consideración y registrando su constancia de apoyo para remediar las posibles causales de reprobación. 10 Ilustración 5 - Procesos de Negocios Agregados con Solución En la Ilustración 5, se puede visualizar el detalle de los subprocesos mencionados anteriormente. La ejecución de la Detección de Rendimiento de los Alumnos se realiza cuando un profesor guía o administrador ingresa a la nueva plataforma de PrevencionFIC. Esto genera una petición a las fichas académicas en Omega de los alumnos solicitados y a las fichas de los detalles de sus pasantías en GestionFIC, luego, el sistema preprocesa la información para obtener los datos de entrada del modelo y ejecuta el algoritmo, almacenando sus resultados en la plataforma de PrevencionFIC y notificando al profesor si existen casos que puedan ser posibles reprobaciones, dando por finalizado el proceso de Detección de Rendimiento de Alumnos. Una vez terminado el primer proceso, comienza la fase de Apoyo a los Alumnos, que tiene como objetivo entregar explicabilidad a los resultados y asegurar que se tomen y registren acciones concretas para mitigar el riesgo de reprobación. Esto se realiza obteniendo los antecedentes de los alumnos y los valores entregados por el la herramienta de XAI, y cruzando los resultados con un historial de razones explicativas acerca de por qué se obtienen esos resultados. Esto es presentado de forma amigable al profesor como un listado de acciones y razones que debe ir validando y registrando constancia de intervención directa para remediar cada razón señalada. 11 - Interfaz para Profesores Guías: Ilustración 6 - Interfaz explicativa para profesores guías La Ilustración 6 presenta un prototipo de interfaz explicativa para que los profesores guías puedan tener reportes en tiempo real del rendimiento de sus alumnos, la predicción acerca de su estado de aprobación o reprobación, un listado especializado acerca de las posibles razones por las cuales el modelo determinó que se encuentran en dicho estado y un listado de recomendaciones sugeridas para el caso en donde el alumno esté en estado de reprobación. Las razones y acciones recomendadas se obtienen como un agregado al modelo de predicción, incorporando un método de XAI, cruzando las variables más importantes que determinó el modelo con un listado predefinido de razones históricas y sugerencias clasificadas por profesores para alumnos en estados similares. 12 - Interfaz para Administradores: Ilustración 7 - Interfaz explicativa global para administradores En la Ilustración 7, se detalla una propuesta para el dashboard general que utilizaría el administrador y los encargados de la dirección docente y las pasantías. Este tiene como objetivo brindar un reporte global con un agregado de explicabilidad útil acerca de los resultados. La propuesta consta de una sección con información general y luego una zona dinámica que depende de los filtros que el usuario quiera analizar, los cuales pueden ser por carrera, etapa, sede y/o profesor guía. El cambio de estos genera un cambio en el gráfico de torta que presenta la proporción de alumnos en estado de aprobación y reprobación, y en el listado de las razones principales por las cuales ese grupo de alumnos está en estado de reprobación. 13 Ilustración 8 - Detalle de alumnos en interfaz explicativa para administradores Si el profesor selecciona la opción de “Ver todos los alumnos” que se encuentra bajo el gráfico de la Ilustración 7, se despliega una tabla con la información más detallada acerca de esos alumnos: nombre, estado, empresa, profesor guía y razón del estado; como se puede visualizar en la Ilustración 8. Esto le proporciona al usuario la capacidad de indagar más en detalle acerca de los resultados simplificados que se entregan en la interfaz global. Vale la pena mencionar que se consideró incluir una interfaz global para cada profesor guía, sin embargo, esto se descartó debido a que cada profesor guía está a cargo en promedio de 6 alumnos, por lo cual no tendría mucha utilidad al momento de clarificar las razones de reprobación y apoyar a la toma de decisión. 14 ANEXO 1: FICHA DE DISEÑO Y FACTIBILIDAD DE PROYECTO Definición del Problema. El problema que se busca solucionar es la complejidad asociada con la pasantía en la Facultad de Ingeniería y Ciencias, una de las vías cruciales para obtener el título profesional de ingeniero. Aunque implica la ejecución de un proyecto de ingeniería aplicado y la integración prolongada del estudiante en un equipo de trabajo dentro de una empresa u organización, la posibilidad de reprobar la pasantía crea consecuencias significativas. La reprobación no solo implica la postergación del título por al menos un semestre, sino también, en algunos casos, la deserción de este método de titulación. Además, la aprobación inicial del proyecto no garantiza el éxito final, añadiendo incertidumbre al proceso. Población Afectada. Cuatro grupos principales se ven afectados por este problema. En primer lugar, los alumnos de Ingeniería y Ciencias que buscan titularse a través de la pasantía, ya que la reprobación posterga la obtención de su título. Los profesores guía también se ven afectados al no poder orientar adecuadamente a sus alumnos, desconociendo las necesidades de ayuda adicional. La universidad enfrenta gastos adicionales al tener que asignar nuevamente profesores guía, formar nuevas comisiones de defensa y gestionar los procesos de la pasantía. Por último, las empresas no logran aprovechar la utilidad de los estudiantes en pasantía, lo que resulta en la pérdida de recursos y tiempo que podrían haber sido más productivos. 15 Impacto y Prioridad. Este problema afecta a todas las universidades en cierta medida, siendo una preocupación interna para los alumnos, profesores guía y empresas, los actores clave en el proceso de pasantía. En el caso específico de la UAI, con aproximadamente 400 a 500 pasantías realizadas al año, un 20% a 25% de reprobación representa una significativa proporción de estudiantes afectados. Resolver este problema es prioritario para la universidad, ya que la recopilación de información generada proporciona datos que respaldan la asignación eficiente de recursos y acciones para reducir las reprobaciones. Esto no solo beneficia a los estudiantes al entrar al mundo laboral más temprano, sino que también evita la reasignación de procesos por parte de la universidad y satisface a las empresas que buscan resultados más efectivos de los estudiantes en pasantía. Casos Similares de Uso de IA. Se han documentado casos similares de uso de inteligencia artificial para abordar problemas académicos en ingeniería. Investigaciones en México (Páez & Ramírez, 2022) y la Universidad de Chile (Celis, et al. 2015). han propuesto modelos predictivos del rendimiento académico utilizando características de estudiantes de ingeniería, utilizando minería de datos para predecir el éxito académico. Estos casos demuestran la viabilidad de implementar soluciones basadas en IA para mejorar la eficacia y resultados en entornos académicos similares. Análisis de Prefactibilidad. La universidad tiene la capacidad y los recursos necesarios para abordar el problema asociado con la pasantía. Los recursos financieros podrían asignarse a la solución, siempre y cuando el proyecto sea rentable, ya sea desde una perspectiva económica o en términos de mejorar la calidad educativa para los alumnos. Además, la universidad cuenta con recursos humanos adecuados, con profesores capacitados, experimentados y con habilidades en inteligencia artificial y machine learning. 16 Disponibilidad de datos En cuanto a la disponibilidad de datos, existen alrededor de 4000 a 5000 registros de pasantías, aunque algunos necesitan ser analizados y mejorados en términos de calidad durante la etapa de preprocesamiento. Los datos del historial académico previo a la pasantía están almacenados en el sistema de información de la universidad, Omega, permitiendo su vinculación con los resultados de las pasantías. Sin embargo, se necesitaría obtener datos históricos del desempeño durante las pasantías, que no están actualmente integrados en Omega y presentan limitaciones de calidad desde 2017. A pesar de esto, el acceso a estos datos es factible, ya que los alumnos dieron su consentimiento para su uso al ingresar a la universidad. Riesgos En términos de riesgos del proyecto, se destacan los aspectos éticos. La posibilidad de sesgo en los datos de entrenamiento podría resultar en un modelo sesgado, subrayando la necesidad de ser rigurosos en la selección de datos significativos. La licencia social es esencial al utilizar datos sensibles de los alumnos para predecir el resultado de sus titulaciones; esto requiere el conocimiento y consentimiento de los alumnos, además de trabajar con datos anonimizados para garantizar el anonimato. Existe también el beneficio potencial para los alumnos actuales y profesores guías al utilizar la herramienta. En cuanto a los riesgos de implementación, el principal reside en la posibilidad de predicciones incorrectas. Esto podría resultar en la asignación inadecuada de recursos, brindando ayuda extra a alumnos que no la necesitan y dejando sin apoyo a aquellos que realmente lo requieren. Además, la herramienta debe ser alimentada regularmente con nuevos datos para mantener su relevancia y eficacia continua en situaciones actuales. 17 Definición de objetivos. 1. Primer objetivo. Disminuir el número de reprobaciones de los alumnos que eligen la pasantía como método de titulación en un X% en un año. La meta es mejorar el éxito de los estudiantes en esta modalidad, lo que contribuirá a la resolución del problema identificado Sin embargo, las limitaciones se centran en la calidad y disponibilidad de datos sobre los alumnos, la retroalimentación de su desempeño y el análisis de estos datos. La obtención de un informe concreto que explique las causas de las reprobaciones es esencial para dirigir adecuadamente las estrategias de mejora y lograr el objetivo propuesto. 2. Segundo Objetivo. Crear un plan de acción que reduzca en un Y% los factores externos que impactan a alumnos, profesores, empresas y la universidad, con el objetivo de propiciar un entorno propicio para el rendimiento académico y laboral. Este objetivo busca abordar aspectos externos que afectan el desempeño general. No obstante, las limitaciones incluyen la necesidad de superar un número significativo de reprobaciones y la consideración de las variables individuales de cada estudiante. Analizar estas variables es crucial para identificar las causas específicas de las reprobaciones y diseñar un plan de acción efectivo. 3. Tercer objetivo. Disminuir los factores de rechazo de los proyectos de pasantías en la primera etapa en un Z%, transformándolo en una herramienta para apoyar la toma de decisiones de los profesores guías. Este objetivo apunta a mejorar la aceptación inicial de los proyectos de pasantía, facilitando la labor de los profesores guías. 18 Sin embargo, las limitaciones radican en el sesgo humano inherente a los profesores, que puede influir en su evaluación y retroalimentación hacia el alumno. Es crucial abordar este sesgo para garantizar una evaluación justa y objetiva del proyecto de pasantía. Descripción de acciones. ACCIÓN 1 ACCIÓN 2 ACCIÓN 3 Análisis de datos después de cada periodo (semestral) en un informe estandarizado. Encuesta a los alumnos aprobados para obtener su retroalimentación. Retroalimentación de los profesores guías después de las presentaciones de avance y de las defensas. Jefa de Prácticas y Docencias de Viña del Mar, Sandra Rojas. Alumnos. Profesores guías. ¿SOBRE QUIÉN O QUÉ SE ESTÁ REALIZANDO LA ACCIÓN? Alumnos. La universidad, el proceso de pasantías y los profesores guías. Alumnos. ¿CON QUÉ FRECUENCIA SE TOMA LA DECISIÓN DE REALIZAR ESTA ACCIÓN? Semestral. Semestral. Semestral ¿QUÉ CANALES SE ESTÁN USANDO O SE PUEDEN USAR PARA REALIZAR ESTA ACCIÓN? Planillas Excel. Encuesta Google Form Planillas Excel. ACCIÓN ¿QUIÉN EJECUTA ACCIÓN? LA OTRA INFORMACIÓN ÚTIL SOBRE LA ACCIÓN 19 No siempre está limpia ya que hay alumnos que no la responden. Mapeo de datos. Datos internos. FUENTE DE DATOS 1 FUENTE DE DATOS 2 OMEGA Sistema de Pasantías ¿QUÉ CONTIENE? Data de alumnos previa a la pasantía, registro sobre el historial del alumno en el transcurso de su vida universitaria. Ej.: ramos aprobados, código de honor, cantidad de reprobaciones, ayudantías e investigaciones, proyectos, etc. Información acerca de los datos de las pasantías del alumno (donde está realizando la empresa, datos del supervisor, fecha de inicio y término, cantidad de veces que ha inscrito la pasantía, etc.) y de su desempeño (evaluaciones de avances, profesor guía y supervisor), evaluación de comisión de defensa, etc. ¿QUÉ NIVEL DE GRANULARIDAD? Individual Individual ¿CON QUÉ FRECUENCIA SE RECOPILA Y/O ACTUALIZA LA INFORMACIÓN UNA VEZ QUE SE CAPTURA? Semestral Semestral ¿TIENE IDENTIFICADORES ÚNICOS Y CONFIABLES QUE SE PUEDEN VINCULAR CON OTRAS FUENTES DEDATOS? Si, RUN, mail universitario, nombre. Si, RUN, mail universitario, nombre. ¿QUIÉN ESTÁ A CARGO DE LOS DA-TOS? Universidad Adolfo Ibáñez Universidad Adolfo Ibáñez ¿CÓMO SE ALMACENA? Plantillas Excel, Base de datos Planillas Excel, base de datos NOMBRE 20 Datos externos FUENTE DE DATOS 1 FUENTE DE DATOS 2 FUENTE DE DATOS 3 Registro escolares notas Certificado de pago de cotizaciones Consulta y certificado de afiliación a la Administradora de Fondos de Cesantía (AFC) Concentración de notas durante la enseñanza media por asignatura, especialidad (científico matemática/ humanista) Historial de las cotizaciones en fondos de salud de los alumnos (permite obtener información de su historial laboral) Permite conocer los afiliados a la AFC, empleados con contratos de más de 30 días, a plazo fijo e indefinido; no necesariamente son afiliados ingresos mínimos, contratos honorarios ni trabajos temporales ¿QUÉ NIVEL DE GRANULARIDAD? Individual Individual Individual ¿CON QUÉ FRECUENCIA SE RECOPILA/ ACTUALIZA, UNA VEZ QUE SE CAPTURA? De forma única, al graduarse el alumno Mensualmente Mensualmente Si, el RUN, el nombre completo, fecha de nacimiento y un correo Si, el RUN Ministerio de educación Superintendencia Pensiones o AFP No, el acceso es libre para cualquier persona, solo se necesita el RUT y la fecha de nacimiento del alumno. En documentos PDF. Se debe pedir que cada alumno solicite dicha información, en caso de que pueda. No, cualquier persona con el RUT del alumno puede consultar En documentos PDF información de la página web NOMBRE ¿QUÉ CONTIENE? ¿TIENE IDENTIFICADO RES ÚNICOS Y CONFIABLES QUE SE PUEDEN VINCULARCON OTRAS FUENTES DE DATOS? ¿QUIÉN ES RESPONB LE DE LOS DATOS? ¿SE REQUIEREN ACUERDOS LEGALESPARA EL INTERCAMBIO Y/O ACCESOA LA INFORMACIÓN? ¿CÓMO SE ALMACENA? 21 de Sí, RUN de Superintendencia Pensiones de Análisis y herramientas HERRAMIENTA 1 HERRAMIENTA 2 TIPO DE ANÁLISIS/ HERRAMIENTA Predicción Detección de Eventos PROPÓSITO DEL ANÁLISIS Entender que comportamientos históricos del alumno podrían llevar a que apruebe o repruebe su pasantía. Identificar aquellos alumnos que tengan un mayor riesgo de reprobar para así asignarle un ayuda adicional durante el proceso de pasantías. ¿PARA QUÉ TIPO DE ACCIONES SE UTILIZARÁLA INFORMACIÓN GENERADA A PARTIR DE ESTE ANÁLISIS? Acción 1. Los administradores contarán con información acerca de las posibles razones o comportamientos que llevaron a que un alumno apruebe o repruebe su pasantía. Acción 3. Los profesores guías podrían contar con un indicador en ciertos alumnos que tengan un mayor riesgo en el resultado de sus pasantías, para así apoyar su toma de decisiones con respecto a esos casos particulares. ¿CÓMO VALIDARÁ ESTE ANÁLISIS USANDO DATOS EXISTENTES? Entrenamiento y evaluación con datos históricos utilizando los historiales académicos, de desempeño en las pasantías y laborales de los alumnos, junto con el resultado que obtuvieron en la evaluación en la defensa. Entrenamiento y evaluación con datos históricos utilizando los historiales académicos, de desempeño en las pasantías y laborales de los alumnos, junto con el resultado que obtuvieron en la evaluación del profesor guía. Consideraciones éticas y legales. Proporcionalidad: La elección de implementar un sistema de ciencia de datos/IA se considera adecuada dada la complejidad del problema y la limitación de recursos para abordarlo de manera manual. Con un 20% de alumnos que reprueban la pasantía, asignar más profesores de apoyo en el corto plazo no es una solución viable. La implementación de un sistema de IA permitiría la detección temprana de alumnos en riesgo de reprobación, brindando la oportunidad de intervenir de manera oportuna. Además, se destaca la necesidad de desarrollar una herramienta que incremente los casos reportados que requieren ayuda, mejorando así la eficiencia del sistema. La alternativa actual de analizar datos mediante informes se percibe como limitada, ya que no permite considerar una amplia variedad de variables que podrían mejorar la capacidad predictiva. El sistema de 22 IA tiene el potencial de aprovechar datos más complejos y diversos para una predicción más precisa, contribuyendo así a una intervención más efectiva. Impactos Negativos: Un posible impacto negativo del proyecto podría surgir si existe información relevante para determinar la predicción de aprobación, pero esta no está disponible o no se tiene acceso a ella. Este escenario podría resultar en falsos positivos, donde el sistema predice incorrectamente que un estudiante necesita ayuda adicional. Como resultado, un alumno que realmente necesitaría apoyo podría no recibir la asistencia necesaria para aprobar su pasantía. Para mitigar este riesgo, es esencial asegurar la disponibilidad y acceso a la información relevante durante la implementación del sistema de IA, y establecer protocolos para verificar y validar las predicciones antes de tomar decisiones críticas. Percepción de los Usuarios: Se espera que los usuarios afectados, en este caso, los alumnos, encuentren aceptable el uso de datos planteado para resolver el problema. La aceptación se basa en el beneficio directo que los estudiantes obtendrán si los objetivos del proyecto se cumplen, específicamente, la disminución de pasantías reprobadas gracias a la detección y corrección oportuna de factores de riesgo. La información recopilada sobre el historial académico universitario, rendimiento escolar y experiencia laboral durante el periodo académico tiene la intención de proporcionar un contexto más amplio de los diversos escenarios en los que se lleva a cabo la pasantía. Este enfoque permitirá trabajar con herramientas y medidas apropiadas para abordar específicamente las circunstancias de cada estudiante. Además, La presencia de falsos positivos y falsos negativos se considera manejable, ya que la herramienta sirve como un apoyo para que los profesores detecten a los estudiantes en riesgo de reprobación. La importancia radica en que esto permitirá a los profesores analizar casos individualmente, examinando patrones de casos históricos y proporcionando recomendaciones específicas para 23 intervenir de manera efectiva en cada situación. En resumen, la utilidad directa para los estudiantes y la capacidad de análisis detallado para los profesores contribuyen a la expectativa de aceptación por parte de los usuarios afectados. Por último, la implementación del algoritmo no debería perjudicar a ningún estudiante, siendo crucial considerar la forma en que se comunica este mensaje a la población objetivo. Es fundamental asegurarles que los datos utilizados no se emplean para evaluarlos o afectar sus notas finales, sino para identificar casos específicos en los que se puede intervenir con ayuda más especializada, beneficiando tanto a los alumnos como a la universidad y a las empresas donde realizan las pasantías. En cuanto a los profesores, es probable que haya una resistencia inicial, común en proyectos que transforman la forma tradicional de hacer las cosas. Sin embargo, esta resistencia puede mitigarse mediante la implementación de una plataforma amigable que les permita acceder a la información procesada de manera útil y fácil, con el objetivo de facilitar su labor y maximizar los beneficios del proyecto. Licencia social. Base legal: Se ha identificado la justificación y base legal para trabajar con los datos necesarios. La Ley N.º 19.628 sobre Protección de la Vida Privada [1] y la ley N.º 20.609 sobre Acción de No Discriminación Arbitraria [2] establecen los marcos legales pertinentes, manteniendo y cerciorándose de que dichas leyes sean cumplidas durante la totalidad del proyecto. Además, cada alumno firma un consentimiento informado al ingresar a la universidad, otorgando acceso a la institución para el tratamiento de sus datos. Este consentimiento respalda legalmente la recopilación y utilización de información sobre el historial académico y el rendimiento laboral de los estudiantes. En relación con los desarrollos de los proyectos de pasantía, existe un acuerdo contractual entre la universidad y las empresas que ofrecen las pasantías, proporcionando así una base legal y contractual 24 para el acceso y uso de los datos generados durante dichos proyectos. Estas medidas garantizan el cumplimiento de las normativas legales y éticas en el manejo de la información. Mecanismos GDPR: Siguiendo los principios establecidos por la GDPR, se garantizan los derechos fundamentales de los estudiantes en relación con la gestión de datos. En el caso de los datos internos, como los almacenados en OMEGA y los relacionados con las pasantías, los alumnos ya cuentan con acceso directo, eliminando la necesidad de un mecanismo adicional (derecho de acceso). Respecto a los datos externos utilizados, se contempla la posibilidad de que los alumnos tengan acceso eventual para rectificar cualquier información incorrecta que pudiera existir (derecho de rectificación). Además, se reconoce el derecho de los estudiantes a solicitar la eliminación de sus datos del proceso en caso de que opten por no participar (derecho al olvido). Estas consideraciones aseguran el respeto y la protección de los derechos de privacidad de los alumnos de acuerdo con los estándares de la GDPR. Transparencia. Comunicación partes interesadas: Los actores involucrados en el proyecto incluyen el cuerpo administrativo de la universidad, que comprende la Junta Directiva, el Rector y la Dirección de Docencia. A nivel operativo y administrativo en la gestión de pasantías, figuran Sandra Rojas, Rafael Cereceda y Francisco Duque. También están implicados los alumnos que siguen la vía de titulación a través de pasantías, los profesores guías y la comisión de defensas. Además, el Centro de Innovación del Mineduc/Innovación en Ed. Superior (InnES) y la subsecretaría de educación superior tienen un papel relevante. Esta última, en virtud del decreto N.º 297, participa en instancias de coordinación relacionadas con educación superior y ciencia, tecnología e innovación. A pesar de la complejidad del algoritmo, se reconoce la importancia de realizar un estudio detallado y demostrar los principales factores 25 ponderados por el mismo. Este enfoque busca proporcionar transparencia en las decisiones tomadas por el algoritmo, asegurando que no haya sesgos. Este compromiso con la transparencia contribuye a la comprensión y aceptación del sistema por parte de los diversos actores involucrados en el proceso de pasantías. Discriminación y equidad. Existen desigualdades estructurales en relación con los antecedentes de aprobación o reprobación de la pasantía. Se observa un mayor riesgo de reprobación entre los alumnos que han acumulado un mayor número de asignaturas reprobadas o que han estado en causal de eliminación. En contraste, se evidencia una mayor expectativa de aprobación de la pasantía entre aquellos estudiantes que participaron en proyectos de investigación o desempeñaron roles como ayudantes. Se debe tener en cuenta que estos supuestos necesitan corroboración con datos reales. Además, al abordar variables personales que reflejan la condición socioeconómica, etnia, género, entre otros (por ejemplo, el colegio de egreso, la situación familiar o la experiencia laboral), es esencial realizar una evaluación del modelo para cada grupo que pueda ser vulnerable a sesgos. Este enfoque busca garantizar la protección de los derechos de los alumnos y la equidad en los resultados. Asimismo, se reconoce la necesidad de considerar las tendencias en el rendimiento académico universitario durante el período de la pandemia, dada la implementación de metodologías provisionales para la enseñanza y evaluación. Este contexto particular podría no ser representativo del rendimiento habitual de un alumno en condiciones normales. Además, se destaca la importancia de evitar sesgos históricamente recurrentes que puedan introducir distinciones socioeconómicas al considerar datos como la institución escolar de egreso de los alumnos de pasantía. Estos elementos deben ser cuidadosamente evaluados para garantizar la equidad y la validez de los resultados. 26 Rendición de cuentas. El responsable de proporcionar la información relacionada al proyecto y de dar explicaciones cuando el sistema se equivoca, es la universidad Adolfo Ibáñez. En cumplimiento de las obligaciones legales, es imperativo comprender y acatar las leyes N°19.628 y N°20.609. Desde una perspectiva ética, se considera adecuado utilizar esta herramienta como un auxiliar en la toma de decisiones, siempre con la premisa de que la decisión final recaiga en un experto. Dada la naturaleza del análisis, que implica la carrera estudiantil del alumno, el objetivo es proporcionar apoyo para facilitar la aprobación de las evaluaciones necesarias para obtener el título universitario. Además, se llevará a cabo semestralmente un mecanismo de monitoreo que coincide con la periodicidad de las evaluaciones. Toda la información relevante, que incluye los antecedentes del estudiante y su desempeño en el informe y presentación, será almacenada de manera sistemática en una base de datos para su posterior análisis y seguimiento. Conformación del equipo. ORGANIZACIÓN/ DEPARTAMENTO DESCRIPCIÓN DE LA PARTICIPACIÓN DESEADA NOMBRE/ROL DE LA CONTRAPARTE DIRECCIÓN DE DOCENCIA Grupo a cargo de la realización del proceso de pasantías y prácticas de la Universidad. Cuerpo operativo y administrativo de la gestión de pasantías (Sandra Rojas – Jefa de Prácticas y Docencia, Rafael Cereceda - Docente/GestionFIC y Francisco Duque – Docente/Subdirector Docente UAI). GRUPO DE DESARROLLADORES A cargo de la creación de la herramienta de predicción de rendimiento de pasantías. Capacitan a los administradores en el uso de la herramienta. Analistas de datos, académicos y profesores involucrados en la investigación y creación del modelo. MINISTERIO DE EDUCACIÓN Fiscalizador de resultados del proyecto y delimitador de normas. Centro de Innovación del Mineduc/Innovación en Ed. Superior (InnES). DIRECCIÓN DE TI Implementación de la herramienta en los computadores y redes de los administradores de la Universidad. Técnico Informático Guendolaine Agurto. 27 ANEXO 2: PERFIL DEL MODELO Conceptualización y Diseño de Política Pública. Casos de Uso: Como antecedentes para el siguiente perfil, hay que recordar que el presente informe busca detectar posibles reprobaciones de alumnos en el proceso de pasantía para brindar soluciones que mitiguen estos riesgos. El sistema utilizará un modelo de inteligencia artificial responsable para analizar datos históricos de diversas fuentes que detallen el rendimiento académico del alumno y realizar predicciones sobre el desempeño esperado en sus respectivos proyectos de pasantía de los estudiantes. La población objetivo comprende estudiantes de ingeniería en la Universidad Adolfo Ibáñez que se encuentran en el proceso de pasantía, así como los profesores guías encargados de apoyar a los alumnos en este proceso. El sistema proporcionará predicciones sobre el riesgo de reprobación y se enfocará en apoyar en la toma de decisiones de los profesores guías para que estos puedan intervenir de manera efectiva y eficaz con un mayor foco a los alumnos en riesgo de reprobación. Se considera un horizonte de predicciones que abarca el período de la pasantía. Los principales actores son Sandra Rojas, Jefa de Prácticas y Docencia de la FIC, cuyo cargo será referenciado como administrador para efectos del informe, y los profesores guías. Estos interactúan con los alumnos a través de la plataforma universitaria WebCursos para entregar retroalimentación a sus alumnos y con correo Outlook para realizar la comunicación con la administradora del sistema; por el otro lado, los alumnos y el administrador interactúan con la plataforma GestionFIC para la inscripción de la empresa y el registro de su información. 28 El sistema entregará resultados a los profesores guías y administradores a través de una nueva plataforma especializada, la cual se planea incorporar a GestionFIC para obtener una plataforma unificada para gestionar el proceso de pasantías. Casos de Uso Considerados durante el Desarrollo: Para modelar el desarrollo del sistema, se ha tomado en cuenta la investigación previa en el ámbito de la predicción del rendimiento académico, revisando la propuesta de modelos predictivos en contextos similares, como el estudio de Páez & Ramírez (2022) sobre estudiantes de ingeniería en México y la aplicación de minería de datos en la Universidad de Chile según Celis, et al. (2015). Casos de Uso No Considerados y Advertencias Relacionadas: Para garantizar la ética y la privacidad, se han establecido limitaciones en el sistema. No se considerarán casos que involucren información posiblemente falsa y se instaurarán protocolos para evitar el mal uso de datos personales de alumnos y profesores. La integridad y confidencialidad de la información son fundamentales y deben ser protegidas como eje principal del modelo. Es importante también mencionar el resguardo que se tomará con respecto a los grupos protegidos, dentro de los cuales se identificó a aquellos alumnos que no pertenecen a la carrera de ingeniería civil industrial, aquellos que realizan pasantías en la sede de Viña del Mar y aquellos que participan en programas de magíster o emprendimiento, debido al alto nivel de desbalanceo presentes en los datos, el cual se abordará con mayor profundidad en el Perfil de Datos. Estos grupos requerirán una consideración especial en el análisis para garantizar resultados precisos y justos. 29 Fuente y Manejo de Datos. Datos de Entrenamiento: El sistema se nutre de diversas fuentes de datos para formar un conjunto completo y representativo. En primer lugar, el sistema obtiene dato de Omega que resumen el desempeño del alumno a lo largo de su recorrido universitario. Estos datos tienen como objetivo brindar un antecedente del rendimiento académico para reconocer que el modelo logre reconocer ciertos patrones con alumnos similares que ya hayan realizado el proceso de pasantía. En segundo lugar, se incorporan datos relacionados con la empresa y el tema del proyecto del alumno para enriquecer la predicción, los cuales provienen de la plataforma GestionFIC. Además de esto, se incluyen datos del profesor guía y su área de especialización para potenciar la precisión en las predicciones del desempeño. Finalmente, se incorporan los registros del desempeño en cada entrega de avance de la pasantía del alumno, utilizando la nota obtenida y el feedback entregado por el profesor guía, alimentando el sistema de forma paralela al desarrollo del proyecto, permitiendo obtener varias predicciones en distintas etapas del proceso. En la fase de preprocesamiento, se implementa la codificación de variables categóricas, tales como Defensa Reprobada Anteriormente, Género, Sede, Programa, Doble Titulación, Nombre Empresa, Área de Proyecto, Mecanismo de Titulación, Profesor Guía y Match Área Proyecto-Área Profesor Guía. Dado que estas variables son categóricas y no ordinales, se opta por aplicar una técnica de Label Encoding, ya sea un Label Encoding básico o un One-Hot Encoding. Además, se introducen variables nuevas, como Cantidad de Pasantes Históricos en Empresa, Porcentaje de Reprobados en Empresa, Match Área de Proyecto-Área de Profesor Guía e ID Feedback Presentación 1, 2 y 3, las cuales se construyen a partir de datos históricos y se estandarizan en la etapa de preparación de datos. Es importante destacar que existen menos datos disponibles para alumnos que no pertenecen a la carrera de ingeniería civil industrial, aquellos que realizan pasantías en la sede de Viña del Mar y aquellos que participan en programas de magíster o emprendimiento. Este 30 desequilibrio puede generar sesgos y predicciones deficientes para estos grupos. Para abordar esta situación, se propone la técnica de Oversampling, que consiste en aumentar sintéticamente los datos de las clases subrepresentadas. Esta estrategia busca mejorar la representatividad de los datos y mitigar sesgos potenciales en las predicciones del modelo. Desarrollo del Modelo. Modelamiento: Para seleccionar el algoritmo de aprendizaje automático a utilizar, se entrenarían y compararían varios algoritmos, entre ellos redes neuronales, árboles de decisión, random forest y máquinas de vectores de soporte. Es importante tener en cuenta que cada algoritmo posee rendimientos y niveles de explicabilidad diferentes, los cuales son aspectos cruciales al momento de evaluar y comparar el desempeño de cada uno. Métricas de Desempeño: La evaluación de los modelos se realiza mediante una matriz de confusión para cada uno, calculando métricas como Accuracy, Precision, Recall y F1-Score. Aunque la consideración de todas las métricas es ideal, se destaca que, para este caso, el Recall tiene una importancia primordial. La prioridad recae en minimizar los Falsos Negativos, ya que es más grave no identificar a un alumno en riesgo de reprobar que cometer Falsos Positivos. Además, se enfatiza en la importancia de la explicabilidad del modelo al momento de seleccionar el algoritmo final, considerando la utilización de herramientas de Explicabilidad en Inteligencia Artificial (XAI) para lograr un equilibrio entre rendimiento y transparencia, generando así un mayor nivel de confianza y transparencia en los resultados. 31 Análisis Costo-Beneficio: Se consideran como costos la contratación de un ingeniero civil informático para la implementación del modelo a lo largo de un año, cubriendo la creación, evaluación y la marcha blanca. Los costos de implementación no serían relevantes para el caso en cuestión debido a que la Universidad Adolfo Ibáñez cuenta con los servidores y el equipo necesario para levantar la solución. Además, el entrenamiento del modelo es bastante barato en términos económicos y computacionales dado la cantidad de datos disponibles para el entrenamiento. El beneficio principal se centra en el bienestar social para la universidad, los estudiantes, profesores y administradores; considerando principalmente un mejor manejo de tiempo y una mayor eficiencia en las intervenciones, resultando en un menor nivel de estrés y de ineficacia operacional. Medidas de Equidad: En el contexto de equidad, se adopta la técnica de sobremuestreo para tener en cuenta y mejorar la representación de los grupos protegidos, lo cual se debería ver reflejado en los valores de Recall y Accuracy del modelo. Otras opciones encontradas en la bibliografía incluyen el uso de la técnica de Double Prioritized (DP) sampling (Afrose et al., 2021), que ha demostrado efectos positivos en el aumento del Recall y la representación de grupos protegidos. Estas medidas se implementan con el objetivo de garantizar que el modelo sea equitativo y justo para todos los grupos involucrados. Datos de Validación: Los datos de validación provienen de las mismas fuentes mencionadas para el entrenamiento. Aquellos datos que son históricos no tienen que ser etiquetados por expertos ya que la etiqueta corresponde al resultado real del proyecto del alumno, es decir, si el estudiante aprobó o reprobó su proyecto de pasantía. Sin embargo, y para mejorar el proceso, se solicitará a un grupo de profesores expertos que analicen los casos y etiqueten, según su 32 criterio y las variables que presentaban los alumnos, si es más probable que el alumno apruebe o repruebe en las distintas etapas del proceso (después de cada presentación de avance). De esta forma se puede mejorar el etiquetado de la data histórica. Es necesario mencionar que antes de incluir estas nuevas etiquetas, se deben comparar los resultados de modelos entrenados con este cambio frente a modelos con la data histórica tal y como está. Esto es fundamental para evitar introducir sesgos o suciedad producto de preconceptos o un proceso no cauteloso de etiquetación. Resumen de Análisis Cuantitativo. Error de Validación Reportado: El error de validación se calcula comparando las predicciones del modelo con las etiquetas verdaderas de los datos de validación. En este modelo, se establece como criterio que el error de validación reportado debe ser del 10% o menos para considerarse aceptable. Esta métrica proporciona una medida cuantitativa clave para evaluar la precisión y confiabilidad del modelo en su capacidad predictiva. Resumen de Análisis Costo-Beneficio: El análisis de costo-beneficio se cuantifica considerando el salario promedio de un ingeniero civil informático en Chile, que asciende a 28,8 millones de pesos anuales. Este cálculo abarca los costos operativos del desarrollo del modelo, la marcha blanca y su posterior evaluación, estimados en un período de un año. Los beneficios se centran en aspectos sociales, como el prestigio ganado por la universidad al disminuir las tasas de reprobación, lo que contribuye a las acreditaciones de la institución. Además, el modelo proporciona un entorno de trabajo más relajado y menos estresante para estudiantes y profesores, generando impactos positivos en el bienestar general. 33 Reporte de Medidas de Equidad para Grupos Protegidos: La detección de posibles sesgos en el modelo respecto a los grupos protegidos se realiza mediante la generación de predicciones con subconjuntos de datos de entrada filtrados para cada grupo. La comparación de las métricas obtenidas en estas predicciones con las métricas del conjunto completo de datos permite identificar cualquier sesgo significativo. En caso de que los resultados se mantengan consistentes, se concluye que el modelo no presenta sesgos significativos para ese grupo en particular. En situaciones opuestas, recalcando lo mencionado anteriormente, se consideraría necesario realizar intervenciones, como Oversampling del grupo protegido o ajustes en los parámetros del modelo. La determinación de un umbral aceptable de sesgo se realiza a través de técnicas como la validación cruzada y conjuntos de datos de prueba. Además, se desarrollarán medidas de mitigación basadas en políticas públicas en caso de ser necesario, para abordar cualquier sesgo identificado. Este enfoque proactivo busca garantizar la equidad y la precisión del modelo en todas las etapas de su implementación. Uso y Monitoreo. Recomendaciones: Antes de implementar el modelo en toda la población, se sugiere seguir dos pasos esenciales. En primer lugar, realizar una prueba del modelo mediante la simulación de un periodo de pasantías utilizando datos históricos para evaluar su rendimiento. En segundo lugar, llevar a cabo una marcha blanca en la que el modelo se implementa durante un nuevo periodo, pero los resultados no se utilicen como información útil para los profesores guías ni para respaldar sus decisiones. Al concluir el periodo de defensas, se analiza el desempeño considerando los resultados finales y las impresiones de los profesores guías a lo largo del proyecto. Este enfoque permite identificar posibles ajustes necesarios antes de implementar completamente el modelo, asegurando que esté listo para ser utilizado por los mismos profesores. 34 Dado que el objetivo principal del modelo es minimizar al máximo los Falsos Negativos, se destaca la importancia de realizar un monitoreo humano al finalizar cada periodo en el que se aplique el modelo y se obtengan las predicciones. Los administradores y profesores deben comparar estas predicciones con los resultados reales, permitiendo una comprensión profunda de las posibles razones detrás de las diferencias observadas. Este proceso facilita la mejora continua del feedback y de las herramientas de mitigación, contribuyendo a la optimización del modelo para obtener mejores resultados en los próximos periodos de pasantías. La retroalimentación humana se convierte en un componente vital para la adaptación constante y la eficacia continua del sistema. Rendición de Cuentas. Explicabilidad de Predicciones: La explicabilidad de las predicciones es un eje esencial para la problemática de la predicción de rendimiento de pasantías ya que, indicar si un alumno está aprobando o reprobando sin decir el por qué no sólo es poco transparente, lo cual podría esconder sesgos o injusticias, pero también es inútil para el profesor guía al no presentar evidencias de por qué se tomó la decisión y recomendaciones de que debería hacer o en donde se debería enfocar. Para apoyar en este punto, se considera la utilización de herramientas de explicabilidad post entrenamiento del modelo como la interpretación de SHAP Values, con el objetivo de generar material interpretable que aclare cómo y en base a qué se generan las predicciones del modelo. Además, se establece la importancia de disponer de documentación clara que detalla el proceso de entrenamiento del modelo y las características consideradas. De esta forma, se exponen transparente. 35 las limitaciones del modelo de manera ANEXO 3: PERFIL DE DATOS Fuente de Recolección y Origen de los Datos. Como se introdujo en la Ficha de Diseño y Factibilidad del Proyecto y en el Perfil de Modelo, el proyecto utiliza datos que se recopilan y almacenan en dos fuentes de datos, provenientes de tres plataformas distintas (Omega, GestionFIC y WebCursos) y representan tres aristas distintas acerca de los estudiantes y sus proyectos: Los datos provenientes de Omega almacenan el rendimiento académico de cada alumno durante su trayectoria universitaria; luego, los datos de GestionFIC contienen toda la información del proyecto del alumno y la empresa en la que lo está realizando, desde que inicia hasta que defiende su pasantía; y, finalmente, los datos provenientes de WebCursos representan el desempeño del alumno durante su proyecto de pasantía, componiéndose en las notas que ha ido obteniendo y el feedback que su profesor guía ha ido entregando. Todos estos datos son creados y propiedad exclusiva de la Universidad Adolfo Ibáñez. A continuación, se resumen las principales características de los datos provenientes de las tres plataformas: FUENTE DE DATO NOMBRE OMEGA 36 TIPO DESCRIPCIÓN promedio_semestre (1 - 9) Numérica Continua Nota obtenida por el alumno en cada semestre universitario (1.0 – 7.0) creditos_reprobados Numérica Discreta Cantidad de créditos que el alumno reprobó en su periodo universitario reprobaciones_distintas Numérica Discreta Cantidad de asignaturas únicas que el alumno reprobó. doble_reprobaciones Numérica Discreta Cantidad de veces que un alumno reprobó la misma asignatura en dos instancias. OMEGA WEBCURSOS GESTIONFIC 37 triple_reprobaciones Numérica Discreta Cantidad de veces que un alumno reprobó la misma asignatura en tres instancias. honor Numérica Discreta Número de semestres que un alumno estuvo con beca de honor. ayudantias Numérica Discreta Cantidad de veces que el alumno fue ayudante de alguna asignatura. tid Numérica Discreta Cantidad de veces que el alumno participó en un proyecto de investigación dirigida. práctica_operaria Numérica Continua Nota obtenida alumno en su operaria. nota_presentacion (1 - 3) Numérica Continua feedback (1 - 3) Categórica Nominal Nota obtenida por el alumno en cada presentación de avance de su proyecto de pasantía. Retroalimentación entregada por el profesor guía en cada avance. id_feedback (1 - 3) Categórica Nominal reprobada_anteriormente Binaria sexo Binaria sede Categórica Nominal programa Categórica Nominal doble_titulacion Categórica Nominal por el práctica Identificador que anexa el feedback con una razón explicable y estandarizada. 1 si el alumno ha reprobado anteriormente la pasantía y 0 en caso contrario. 1 si la alumna es femenina y 0 si el alumno es masculino. La sede de la Universidad Adolfo Ibáñez del alumno. Nombre de la carrera principal en la que se encuentra inscrito el alumno. Nombre de la carrera de doble titulación en la que se encuentra el alumno, en caso de estar, N/A en caso contrario. empresa Categórica Nominal Nombre de la empresa en la que el alumno está realizando su pasantía. alumnos_empresa Numérica Discreta Cantidad de alumnos históricos que han realizado su pasantía en esa empresa. reprobacion_empresa Numérica Continua Porcentaje de reprobación histórica de los alumnos en esa empresa. area_proyecto Categórica Nominal Área específica del proyecto que está realizando el alumno. area_proyecto_profesor Binaria 1 si el profesor guía comparte el área del proyecto dentro de su área de expertiz y 0 en caso contrario. mecanismo Categórica Nominal Mecanismo de titulación del alumno (Pasantía, Magister o Emprendimiento). profesor Categórica Nominal Nombre del profesor guía a cargo del alumno. lugar_proyecto Categórica Nominal Lugar de ejecución proyecto (país). GESTIONFIC Gobernanza de los datos Los datos empleados en el proyecto se encuentran en dos principales categorías: datos propietarios y datos personales. Los datos propietarios corresponden a datos que son propiedad de una institución o entidad, estos contienen información única que puede haber sido generada, recopilada o procesada por dicha entidad. Los datos propietarios suelen ser confidenciales y su uso restringido. Los datos personales a su vez son todos aquellos datos que pueden ser usados directa o indirectamente para identificar a una persona. 38 del En el proyecto, los datos propietarios incluyen información como la defensa, asignación de comisión de evaluación, feedback de los profesores y encuestas de titulados. Por otro lado, los datos personales abarcan la carrera de cada alumno, notas de pregrado, resumen de desempeño académico, comisión de honor, nota de pasantía y nota de defensa. La protección de datos personales es clave para resguardar la privacidad y derechos individuales de las personas, tal como lo establecen las regulaciones del reglamento GDPR de la Unión Europea. Por esta razón, los datos personales se trabajarán como anónimos, ya que los nombres, RUT, teléfono, mail, entre otros, no serán considerados para el entrenamiento del modelo. Cabe destacar que no se trabajará con datos privados. Estructura de los datos Para el entrenamiento del modelo se manejarán la totalidad de los datos captados. Estos son de naturaleza estática, es decir, no se actualizan de manera continua. Además, son captados una vez con frecuencia semestral. Los datos seleccionados son apropiados para el propósito del proyecto, dado que estos recopilan el historial de desempeño previo del alumno, su desempeño actual en la pasantía y las particularidades del entorno del proyecto (como la empresa, el profesor guía, y el área del proyecto). Para el entrenamiento del modelo, estas tres aristas son fundamentales para identificar patrones y realizar predicciones en el desempeño de los alumnos en pasantía. Calidad de los datos Los datos para trabajar han sido proporcionados por la Universidad Adolfo Ibáñez. La universidad registra el expediente y los hitos más relevantes de todos los alumnos a lo largo de su avance en la carrera. Los datos son representativos de la población de interés, puesto que abarcan registros desde 2017 hasta la actualidad de alumnos que han pasado por el proceso de pasantía de la Facultad de Ingeniería y Ciencias. 39 Asimismo, durante el intervalo considerado no se observaron mayores cambios en el mecanismo de pasantías, por lo que los datos son suficientes para capturar tendencias y variaciones. El tipo de muestreo utilizado para obtener los datos fue muestreo aleatorio simple. Para ello, se definió la población, el tamaño de la muestra, se determinó un identificador único, se realizó la selección aleatoria y se recopilaron los datos. En cuanto a la cobertura de los datos, estos consideran a alumnos de pasantía de carreras de ingeniería civil tanto en la sede Peñalolén como la sede Viña del Mar de la UAI, desde el semestre 2017 hasta 2023. Analizando la distribución de los datos por género, sede y carreras universitarias, se observa predominancia de hombres (70%), alumnos de la sede Peñalolén (85%), y la carrera de ingeniería civil industrial (dos tercios de los alumnos). Es de suma importancia determinar potenciales sesgos e inequidades que afecten a algún subgrupo o patrones que sean indeseables para la política social, para así poder tomar las respectivas medidas. Si bien los datos son representativos para el propósito del modelo anterior, dada la distribución de los datos recién mencionada hay cierto riesgo de que se generen sesgos en los grupos menos representados como lo son ciertas carreras de ingeniería civil y los alumnos de la sede Viña del Mar. Por otra parte, al momento de la universidad proporcionar los datos, se informó que hay datos faltantes en los primeros años de recolección por lo que hay un segmento de la data con mayor suciedad. La universidad no cuenta con una política de recopilación y almacenamiento de datos estandarizada y centralizada. Los datos se ingresan de forma manual por diferentes personas en varias planillas de Excel, lo que los vuelve muy susceptibles a errores, cambios en su estructura y pérdida de información. 40 ANEXO 4: REQUERIMIENTOS TÉCNICOS MÍNIMOS PROYECTOS PARA LA ADQUISICIÓN DE PROYECTOS DE CIENCIA DE DATOS E INTELIGENCIA ARTIFICIAL 1. Contexto general de la contratación Antecedentes generales En la Universidad Adolfo Ibáñez, la pasantía es uno de los tres mecanismos de titulación para las carreras de la Facultad de Ingeniería de Ciencias. Esta contempla la realización de un proyecto de ingeniería aplicado en una empresa u organización, lo que permite al alumno integrarse a un equipo de trabajo durante un período prolongado. La reprobación de la pasantía tiene consecuencias negativas para los alumnos, los profesores guía, la universidad y las empresas. Para los alumnos, la reprobación significa la postergación de la obtención de su título, así como la continuación del pago del arancel de la carrera. Para los profesores guía, la reprobación de sus alumnos implica que no pudieron guiarlos de forma efectiva en el desarrollo de sus proyectos. Para la universidad, la reprobación de la pasantía conlleva recursos monetarios y de tiempo, así como un impacto negativo en su prestigio y tiempo promedio de egreso. Para las empresas, la reprobación de la pasantía significa que el alumno no cumplió con el objetivo de realizar un proyecto ingenieril que impactara positivamente en sus procesos. Los organismos involucrados en el problema son las empresas en convenio de pasantías y la Universidad Adolfo Ibáñez, en particular el departamento de Prácticas y Docencia. La situación actual de estos procesos tienen un porcentaje de reprobación de un 25% aproximadamente al año por lo que recurrir a una solución es totalmente necesario, el sistema actual cuenta con 41 la evaluaciones y recomendaciones de un profesor guía pero aparte de estas no existe un modelo que ayude a optimizar este proceso y así disminuir este porcentaje negativo, las plataformas con las cuales trabaja la universidad serían los datos de cada alumnos que se pueden sacar de Omega y el sistema de pasantías , ya sea registro académico, ID de alumnos, etc. El modelo el cual queremos implementar trabajara con estos datos haciendo un análisis de predicción y detección de eventos para entender e identificar los comportamientos y el riesgo de cada alumno para luego hacer un plan de acción para modificar el resultado final si es que estos se encuentran en riesgo de reprobación, las plataformas principales con las cuales trabaja la universidad seria WebCursos UAI en los cuales están los buzones y se realizan los feedbacks del profesor guía y la GestionFIC donde se realizan las inscripciones de estas pasantías. Objetivo de la contratación El objetivo de la contratación de un sistema inteligente en la universidad se debe a la necesidad de implementar un programa que ayude a los alumnos y profesores a identificar las razones por las cuales reprueban las pasantías, de igual manera poder ayudar a estos alumnos y profesores a disminuir esta cifra, ahora la universidad cuenta con un proceso de pasantía que deriva a distintos profesores que se hacen cargo de ayudar a estos alumnos durante el proceso mediante recomendaciones y por qué camino tienen que abordar las necesidades de la empresa con la cual trabajan y el problema que tienen que solucionar, las evaluaciones cuentan con 3 presentaciones e informe final y presentación final donde se puede reprobar o aprobar a los alumnos, lo que nuestro modelo busca es establecer un contacto más directo entre los alumnos y el sistema, poder identificar las falencias de estos y poder hacer recomendaciones en los que tienen que mejorar, a su vez, dar a los profesores esta información y que ello hagan sus propias medidas para trabajar con el alumno. Servicios licitados y productos entregables El ámbito de adquisición corresponde al desarrollo de un modelo de inteligencia artificial que ayude a los alumnos y profesores a mejorar 42 el proceso de las pasantías al igual que sus resultados, los principales productos a entregar es el modelo codificado, su documentación legal y finalmente su el modelo funcional, el plazo estimado del proyecto será de un año con un periodo de marcha blanca de un semestre, los requerimientos funcionales del modelo seria la capacidad de analizar la data entregada del alumno y poder definir si está en riesgo de reprobación o no, al igual que entregar recomendaciones a los profesores. Los requerimientos no funcionales corresponden a que debe ser seguro, ya que se trabaja con datos personales de cada alumno, eficiente y escalable en el sentido de que pueda soportar un aumento de data con mayor capacidad de alumnos. 2. Requerimientos mínimos de los servicios a contratar Metodología Para el caso de un modelo inteligente en el estudio del proceso de las pasantías la metodología se divide primero en la preparación de los datos, definir cuales vamos a utilizar para este sistema inteligente es lo principal por lo que se utilizan técnicas de Label Encoding o One-Hot Encoding para la las variables categóricas explicadas anteriormente, luego de esto se modela con algoritmos para entrenar los parámetros, se utilizan redes neuronales, arboles de decisión , random forest, entre otros. Métricas Las métricas implementadas en este proyecto y que sirven para evaluar el desempeño del modelo sería una matriz de confusión y de igual manera se consideran las métricas como Accuracy, Precision, Recall y F1-Score, estas métricas nos ayudan en distintos aspecto como por ejemplo encontrar los falsos negativos y falsos positivos que serían las situación cuando un alumno que está en riesgo de reprobación, realmente no se encuentra en esa situación sino todo lo contrario, de igual forma otras herramientas que consideramos adecuadas para este proyecto es de XAI para saber si el modelo tiene un buen rendimiento y si este es de explicabilidad buena. 43 Propiedad intelectual del código fuente En el caso, estaríamos dispuestos a entregarle esta herramienta a la administración de la universidad por lo tanto el código fuente del software desarrollado la razón se debe a que la universidad teniendo este modelo pueden ir modificándolo según los planes de la universidad. Transparencia Durante el progreso del proyecto se fue analizando los tipos de modelos que se pueden utilizar dentro del ámbito de las pasantías, con ello se permitió lograr el los objetivos principales como mejorar el rendimiento de los alumnos en las pasantías, ayudar a los profesores a generar un apoyo en sus alumnos y a la universidad a mejorar a un proceso más eficiente y colaborativo con el mismo organismo lo que se hizo es definir el modelo a partir de estos objetivos, ósea un modelo de predicción, y a medida que se fue complementando el sistema se agregaron parámetros definidos como las métricas explicadas anteriormente, utilizando las métricas de evaluación para definir la precisión y rendimiento los cuales se utilizan las herramientas de Recall y F1-Score y métricas de equidad para eliminar los sesgos que se fueron encontrando a media que avanzaba el proyecto, estos se mitigaban con herramientas como Oversampling de grupos protegidos y técnicas como la validación cruzada en un conjunto de datos de prueba como también el Double Prioritized sampling para que el modelo sea más equitativo. Explicabilidad del sistema El aprendizaje del modelo permite hacer un estudio de cómo se está trabajando en el proceso de las pasantías, como las diferentes partes que participan en este tienen falencias y debilidades que tienen por consecuencia el porcentaje de reprobaciones, los factores claves que llevan al sistema a un resultado positivo son los datos de entrada, que permiten identificar el posicionamiento del alumno en el proceso y a medida que este avanza, otros aspecto importante es la relación entre universidad-profesores-alumnos, siendo estos lo que se relacionan en todo aspecto de la pasantía, mediante evaluación e 44 interacciones vía web, esto genera en el modelo un entendimiento de cómo se tiene evaluar las interfaces, las que podemos ver al inicio del informe y de donde proporcionar la data necesaria para sacar una conclusión eliminando los sesgos, ósea los cambios en las variables entradas para que estos sean utilizadas de manera correcta, eliminando todo dato personal del alumno, de la data entregada por la universidad para que el modelo genere una conclusión congruente a los resultados académicos del alumno y no sobre su persona. Protección de datos La universidad cuenta con medidas de seguridad para los datos que se utilizan para la confección del modelo, tanto los datos de omega como los de las pasantías posee esta seguridad, de igual manera, la organización dispone de esta información a un grupo muy pequeño y selectivo los cuales se encargan de manejar la data. Como la universidad se rige por leyes chilenas, el proyecto también se tiene que regir por estas normas, por lo que las leyes N° 19.628 sobre protección de la vida privada y N° 20.609 sobre Acción de No Discriminación Arbitraria. Seguridad de información y la ciberseguridad Las medidas de seguridad de información que se utilizaran en este proyecto seria encriptación de los datos, el control del acceso de la data existe una persona capacitada y con el permiso para entregar esta información y también realizar copias de seguridad que nos ayudaría a restaurar la data en caso de corrupción o perdida de esta. Y en ciberseguridad, mantener el software actualizado, haciendo esto estas actualizaciones incluyen parches de seguridad lo que ayudaría al sistema contra un ataque, para ayudar al modelo contra ataques cibernéticos se podrían utilizar firewall, antivirus y antimalware para proteger, detectar y eliminar estas amenazas. 45 Gestión de incidentes de seguridad El objetivo principal sobre la gestión de los incidentes de seguridad ayuda a identificar, evaluar y responder a estos incidentes para proteger la información confidencial de cada alumno y de la institución por lo que es importante garantizar a los alumnos y universidad los casos que puedan afectar los datos para ello se tomó las siguientes medidas, en primer lugar, se evalúa el impacto del incidente, luego se toma las medidas para mitigar el impacto, y finalmente se notifica a las partes afectadas, la idea de es crear un informe como reporte de cualquier situación que ponga en riesgo la confidencialidad, integridad o disponibilidad de la información, como puede ser la perdida de datos, o su mal uso como compartirla a terceros que no tienen el permiso o la capacidad de trabajar con estos datos. El informe debe entregar la descripción del incidente, la fecha, las posibles causas, el impacto que provoco y las medidas tomadas para mitigar el impacto, todo esto en un plazo máximo de 24 hrs ya que es primordial dejar constancia del hecho el mismo día en que ocurrió. Análisis de sesgos en los datos El análisis de sesgos en los datos se encontró y analizo los que podría generar sesgos en el modelo de IA, en el proceso de pasantías, los datos sobre las variables personales del alumno como la situación socioeconómica, genero, etnia, etc. Por lo que para que el modelo sea factible estos datos se eliminan para generar una equidad de los resultados, dejando los datos relevantes para el estudio, uno de los sesgos encontrados y comentado anteriormente sería el ejemplo de la pandemia. 46 Alcance de la “Auditoría Algorítmica”. Objetivos y Requisitos del Sistema: • Claridad en los Objetivos: Se debe establecer claramente que el objetivo principal es mejorar la tasa de aprobación en las pasantías a través de un sistema de inteligencia artificial. • Requisitos Funcionales: Asegurarse de que el sistema pueda analizar datos estudiantiles y generar recomendaciones efectivas para disminuir la tasa de reprobación. • Requisitos No Funcionales: Garantizar la seguridad y eficiencia del sistema, ya que manejará datos personales y debe ser escalable para manejar un crecimiento en el número de alumnos. Entorno y Datos: • Fuentes de Datos: Se debe especificar cómo se obtendrán y manejarán los datos de Omega, el sistema de pasantías, WebCursos UAI, y GestionFIC. • Manejo de Datos Personales: Implementar políticas de privacidad sólidas, cifrado de datos y aseguramiento de la conformidad con regulaciones de protección de datos. Modelo de Inteligencia Artificial: • Tipo de Modelo: Definir si se utilizará un modelo de aprendizaje supervisado, no supervisado u otro, y por qué esa elección es adecuada para el problema. • Capacidad Predictiva: Evaluar la capacidad del modelo para prever con precisión el riesgo de reprobación mediante pruebas y validación cruzada. • Explicabilidad del Modelo: Garantizar que el modelo pueda explicar sus decisiones de manera comprensible para los usuarios, proporcionando transparencia. Interacción con Usuarios: • Interacción Profesor-Sistema: Asegurar que los profesores tengan acceso fácil a las recomendaciones del sistema y comprendan cómo utilizar esa información para ayudar a los estudiantes. 47 Documentación y Legalidad: • Documentación Legal: Incluir términos de servicio, acuerdos de usuario y políticas de privacidad en la documentación legal. • Documentación Técnica: Proporcionar documentación técnica detallada que explique el modelo, su implementación y los protocolos de seguridad. Pruebas y Marcha Blanca: • Pruebas del Modelo: Implementar pruebas rigurosas para asegurar que el modelo funcione correctamente y tenga una precisión aceptable antes de su implementación. • Marcha Blanca: Establecer un período de marcha blanca con participación activa de usuarios reales para identificar y corregir cualquier problema post-implementación. Gestión de Cambios y Mejoras Continuas: • Planes de Mantenimiento: Desarrollar planes de mantenimiento que incluyan actualizaciones periódicas, parches de seguridad y mejoras continuas del modelo. • Feedback y Mejoras: Implementar un sistema de retroalimentación continua para recopilar comentarios de usuarios y realizar mejoras iterativas en el modelo. Seguridad y Cumplimiento Normativo: • Seguridad de Datos: Implementar medidas sólidas de seguridad, como cifrado de datos y control de acceso, para proteger la confidencialidad y la integridad de la información. • Cumplimiento Normativo: Asegurarse de que el sistema cumple con todas las regulaciones y normativas relacionadas con la privacidad de los datos y la seguridad de la información. 48 Alcance de la eventual “Portabilidad y Transferencia de Datos”: El acceso a los datos necesarios para la utilización del sistema debe ser restringidos y accedidos únicamente por personal autorizado y en el recinto físico de la universidad. Estos datos constan de información personal de las estudiantes almacenadas en las bases de datos de la universidad y proveniente de tres fuentes distintas de almacenamiento: Omega, GestionFIC y WebCursos. El transporte y la transferencia de esta información se debe realizar a través de canales seguros y validados por la Universidad Adolfo Ibáñez, siguiendo protocolos de cifrado autorizados por el área de Seguridad de Información de la Universidad. Esta información, al ser propiedad de la institución y contener datos sensibles para la operación de esta y la integridad de la información de sus alumnos, no debe ser almacenada o transportada en dispositivos personales del personal educativo o administrativo. Esto incluye: USB, memorias portátiles, laptops, CDs, entre otros. Cualquier destino no seguro será estrictamente prohibido como destinatario de enviado de esta información. La pérdida de información o filtración de esta misma será responsabilidad del funcionario/a a cargo de dicha transacción. Estas restricciones cuentan tanto para los datos de entrada del sistema como para los datos de salida, los cuales siguen siendo propiedad directa de la Universidad Adolfo Ibáñez. 49 REFERENCIAS Afrose, Sharmin, et al. “Subpopulation specific Machine Learning Prognosis for Underrepresented Patients with Double Prioritized Bias Correction.” MedRxiv, 1 Jan. 2022, p. 2021.03.26.21254401, medrxiv.org/content/early/2022/06/30/2021.03.26.21254401.abstract, https://doi.org/10.1101/2021.03.26.21254401. Accessed 24 Nov. 2023. Celis, Sergio, et al. “Un Modelo Analítico Para La Predicción Del Rendimiento Académico de Estudiantes de Ingeniería.” Revista Ingeniería de Sistemas, vol. 29, 1 Jan. 2015, pp. 5–24, www.dii.uchile.cl/~ris/RIS2015/rendimientoac.pdf. Accessed 22 Nov. 2023. Páez, Andrés Rico, and Nora Diana Gaytán Ramírez. “Modelos Predictivos Del Rendimiento Académico a Partir de Características de Estudiantes de Ingeniería.” IE Revista de Investigación Educativa de La REDIECH, vol. 13, no. 13, 20 Apr. 2022, pp. e1426–e1426, www.redalyc.org/journal/5216/521670731008/, https://doi.org/10.33010/ie_rie_rediech.v13i0.1426. Accessed 16 Nov. 2023. Chile. (1999). Ley sobre Protección de la vida privada (Ley N o 19.628). Diario Oficial de la República de Chile https://www.bcn.cl/leychile/navegar?idNorma=141599 Chile. (2012). Ley que establece medidas contra la discriminación (Ley N° 20.609). Diario Oficial de la República de Chile. https://www.bcn.cl/leychile/navegar?idNorma=1042092&idVersion=Diferi do 50