Se encontraron 11 coincidencias
- 03 Oct 2020, 23:11
- Foros: Repositorio de Datos
- Tema: Data Base de diccionarios
- Respuestas: 2
- Vistas: 11734
Re: Data Base de diccionarios
Pude actualizar unos links compañero Vladimir, muchas gracias por el dato.
- 03 Oct 2020, 11:21
- Foros: Repositorio de Datos
- Tema: Data Base de diccionarios
- Respuestas: 2
- Vistas: 11734
Data Base de diccionarios
Data Base de diccionarios
Diccionario libre en español
https://cfenollosa.com/blog/diccionario ... onary.html
Diccionario básico con costo:
https://tiendaderecursos.blogspot.com/p ... datos.html
Free On-line Dictionary of Computing
Diccionario técnico:
https://foldoc.org/Dictionary
WikiCorpus:
https://www.cs.upc.edu/~nlp/wikicorpus/
Páginas informativas:
Corpus del Español Actual / The Corpus of Contemporary Spanish
http://spanishfn.org/tools/cea/spanish
CREA
https://www.rae.es/recursos/banco-de-datos/crea
Palabras endémicas de cada país latinoamericano
https://datasetsearch.research.google.c ... AAAA%3D%3D
Diferentes bases de datos de texto en español
https://lionbridge.ai/datasets/22-best- ... -learning/
Diccionario en Inglés
https://www.kaggle.com/therohk/urban-di ... ds-dataset
Futuras búsquedas de datos:
dataset of synonyms words english
Diccionario libre en español
https://cfenollosa.com/blog/diccionario ... onary.html
Diccionario básico con costo:
https://tiendaderecursos.blogspot.com/p ... datos.html
Free On-line Dictionary of Computing
Diccionario técnico:
https://foldoc.org/Dictionary
WikiCorpus:
https://www.cs.upc.edu/~nlp/wikicorpus/
Páginas informativas:
Corpus del Español Actual / The Corpus of Contemporary Spanish
http://spanishfn.org/tools/cea/spanish
CREA
https://www.rae.es/recursos/banco-de-datos/crea
Palabras endémicas de cada país latinoamericano
https://datasetsearch.research.google.c ... AAAA%3D%3D
Diferentes bases de datos de texto en español
https://lionbridge.ai/datasets/22-best- ... -learning/
Diccionario en Inglés
https://www.kaggle.com/therohk/urban-di ... ds-dataset
Futuras búsquedas de datos:
dataset of synonyms words english
- 14 Ago 2020, 18:41
- Foros: Inteligencia Artificial
- Tema: Machine Learning para la recomendación de eventos
- Respuestas: 0
- Vistas: 456
Machine Learning para la recomendación de eventos
Artículo 1: Support Vector Machines For Collaborative Filtering
Problema:
El problema de los algoritmos de recomendación de Filtrado Colaborativo actuales es la escasez (sparsity). Dado que el conjunto de todos los posibles elementos disponibles en un sistema es muy grande, la mayoría de los usuarios pueden tener muy pocos elementos apreciados dentro de su historial y, por lo tanto, es difícil encontrar el vecino del usuario con alta similitud. Como resultado, la precisión de las recomendaciones puede ser deficiente.
Solución:
El clasificador estándar de SVM no es muy exitoso debido al problema de la escasez. Una solución simple al problema de la dispersión es la votación predeterminada que inserta la calificación de valores predeterminados para elementos no clasificados para aumentar la densidad del elemento dentro de la matriz del usuario.
Desarrollo de la solución
Abordan el problema de la escasez estimando repetidamente las calificaciones que faltan para los elementos que los usuarios no han clasificado. Primero inicializan estos valores faltantes con valores predeterminados para así proporcionar suficientes ejemplos para entrenar los modelos, y luego, crean clasificadores basados en estos ejemplos de entrenamiento. Después de que se obtienen los clasificadores, esos valores faltantes se vuelven a estimar. Este procedimiento se repite hasta que se cumple el criterio de terminación. El método heurístico se basa en el método suavizado de SVM (SSVM).
El SSVM basado en la heurística (SSVMBH) el cual mediante la estimación iterativa de los elementos faltantes en la matriz de elementos de usuario A. Para cada elemento amn ∈ A, tenemos:
Amn = Xmn, Si n pertenece a Im
Pmn, de otra forma
Inicialmente, se asignan aleatoriamente valores entre 0 y 1 a pmn . Luego, para cada usuario Um y el elemento n donde n ∉ I m, un clasificador lineal Fmn es entrenado por un algoritmo SVM según el vector de características:
Ak = (a1k, a2k, .... amk), 1 < k < N, k es diferente de n
Según Fmn, un nuevo Pmn es dado. Después de volver a calcular cada Pmn, se prueba el modelo con los datos de prueba, denotados por T. Sean |Tc| el total de etiquetas correctas calculadas con el modelo actual. El objetivo (tasa) precisa se define como:
Los resultados concluyen que se genera y alcanza el actual estado del arte en sistemas de recomendación.
Artículo 2:PEGASUS: Pre-training with Extracted Gap-sentences for Abstractive Summarization
Descripción
A diferencia de la resumen por extracción el resumen abstracto puede generar palabras nuevas. Un buen resumen abstracto cubre la información principal en el input y es lingüísticamente fluido. En la publicación se lleva a cabo un análisis de los objetivos previos al entrenamiento del modelo diseñados para el resumen abstracto del texto los cuales no han sido explorados correctamente en el SOTA.
Además hay una falta de evaluación sistemática en diversos dominios. En el trabajo leído, se propone el pre-entrenamiento de grandes modelos de codificador-decodificador basados en transformadores en corpus de textos masivos con un nuevo objetivo auto supervisado.
Estudiarán los objetivos previos a la capacitación específicamente para el resumen de texto abstracto y evaluarán en 12 conjuntos de datos posteriores que abarcan noticias, ciencia, historias cortas, instrucciones, correos electrónicos, patentes y proyectos de ley legislativos. El entrenamiento previo con oraciones de brecha extraídas para modelos de secuencia a secuencia, o PEGASUS.
Motivación del autor
En los últimos años, ha aumentado el interés en recopilar nuevos conjuntos de datos de resumen que tengan resúmenes más abstractos documentos más largos, utilicen múltiples documentos, y provengan de diversos dominios, sin embargo, ha habido poco trabajo en la evaluación sistemática de modelos en estos amplios entornos. Se considera que una sola base de datos puede resolver muchos problemas “One-size-fits-All”, pero a lo largo del documento se abrirá un debate sobre esta afirmación ya que compararán dos diferentes base de datos que traen consigo diferentes resultados en base a la naturaleza de la data pre-entrenada, entrenada y predicha. Esto último encara directamente al enfoque GPT-3 cuyos resultados fueron muy buenos en comparación al SOTA en varios aspectos del procesamiento de lenguaje natural pero no en comprensión lectura.
Descripción del aporte del autor
Proponen un nuevo objetivo de pre-entrenamiento auto supervisado para el resumen abstracto, la generación de oraciones breves (GSG) y las estrategias para seleccionar esas oraciones.
Evalúan el objetivo de pre-entrenamiento propuesto en una amplia gama de tareas de resúmenes posteriores, con cuidadosas eliminaciones para elegir la mejor configuración del
modelo, que usamos para entrenar un modelo PEGASUS de parámetro 568M que supera o está a la par con el estado del arte en los 12 conjuntos de datos posteriores considerados.
Mostraron cómo se puede lograr un buen rendimiento del resumen abstracto en dominios amplios con muy poca supervisión ajustando el modelo PEGASUS y superando resultados
de vanguardia anteriores en muchas tareas con tan solo 1000 ejemplos. Realizaron estudios de evaluación en humanos para validar nuestro diseño experimental y demostrar el rendimiento del resumen en XSum, CNN / DailyMail y Reddit TIFU. Proceso para obtener el aporte (solución al problema) que considera el autor Inspirados por el éxito reciente en el enmascaramiento de palabras y tramos contiguos seleccionaron y enmascararon oraciones completas de documentos, y concatenaron oraciones vacías en un seudo-resumen. La posición correspondiente de cada oración vacía seleccionada se reemplaza por un token de máscara [MASK1] para informar al modelo. El ratio de oraciones vacías, o GSR, se refiere al número de oraciones vacías seleccionadas y el número total de oraciones en el documento, que es similar a la tasa de máscara en otros trabajos.
Los Objetivos de pre-entrenamiento
1. Gap Sentences Generation (GSG) – Generación de oraciones vacías
Se utilizarán tres técnicas diferentes para optimizar la generación de oraciones vacías:
Random: Selección uniformemente de m oraciones al azar.
Lead: Seleccione las primeras m oraciones
Principal: Seleccione las m oraciones mejor puntuadas según la importancia.
2. Masked Language Model (MLM) – Modelo de lenguaje enmascarado
Descubrieron que el MLM no mejora las tareas posteriores en una gran cantidad de pasos previos al entrenamiento , y eligieron no incluir MLM en el modelo final PEGASUS LARGE.
Como podemos observar en la figura 3 la arquitectura base de PEGASUS es un codificador-decodificador Transformador estándar. Tanto GSG como MLM se aplican simultáneamente a este ejemplo como objetivos previos al entrenamiento. Originalmente hay tres oraciones. Una oración está enmascarada con [MASK1] y se usa como texto de generación obejtivo (GSG). Las otras dos oraciones permanecen en la entrada, pero algunos tokens son enmascarados al azar por [MASK2] (MLM).
Características del modelo PEGASUS Large
El documentonos explica como se llegarón a obtener los mejores parámetros para su modelo final a partir de un prototipo llamado PEGASUS base. Llegando a la conclusión de que debería tener los siguientes parámetros L = 16, H = 1024, F = 4096, A = 16, donde L indica el número de capas para codificador y decodificador (es decir, bloques Transformador), H para el tamaño oculto, F para el tamaño de capa de avance y A por el número de cabezas de auto atención. Preentrenaron PEGASUSLARGE con un tamaño de batch de 8192. Este modelo final tiene 568M de parámetros.
Los resultados sugieren que elegir las oraciones principales (Ind-Org) funciona mejor para las tareas de resumen posteriores, y elegimos Ind-Orig para el PEGASUS Large por ello.
El mejor rendimiento siempre tuvo un GSR inferior al 50%. Al escalar a PEGASUS Large eligieron un GSR efectivo del 30%. Al observar los gráficos observamos que el modelo entrenado con MLM solo tuvo un rendimiento malo por lo tanto, eligieron no incluir MLM en PEGASUS Large.
Resultados que obtienen
Como métricas a considerar podemos mencionar ROUGE scores.
Se ha trabajado utilizando el conjunto de datos CNN / DailyMail. El SOTA mostró que un gran modelo de lenguaje Transformer pre-entrenado en texto web podría generar resúmenes si se le solicita con "TL; DR", logrando un ROUGE-2 de 8.27 en CNN / DailyMail. El SOTA pre-entrenó un modelo de lenguaje Transformer en Wikipedia, y lo afinaron usando 3000 ejemplos, logrando 13.1 ROUGE-2.
Observaciones y/o críticas
La mejora de un modelo Transformer sin pre-entrenamiento (Transformer Base) a PEGASUS Large fue más significativa en conjuntos de datos más pequeños. Por ejemplo, las puntuaciones ROUGE2- F1 casi se triplicaron en la base de datos AESLC y se quintuplicaron en la base de datos Reddit TIFU. Los grandes saltos en el rendimiento sugieren que los conjuntos de datos de resumen de texto pequeño se benefician más del entrenamiento previa. Lo cual se relaciona bien con mi proyecto de tesis ya que lo que se busca resumir son porciones pequeñas de varios textos. Por otro lado el enfoque es opuesto al expuesto la semana pasada en el modelo GPT3, lo cual enriquece los diferentes puntos de vista del lector.
Fuentes:
Artículo 1: https://sci2s.ugr.es/keel/pdf/specific/ ... ong_06.pdf
Artículo 2: https://arxiv.org/abs/1912.08777
Problema:
El problema de los algoritmos de recomendación de Filtrado Colaborativo actuales es la escasez (sparsity). Dado que el conjunto de todos los posibles elementos disponibles en un sistema es muy grande, la mayoría de los usuarios pueden tener muy pocos elementos apreciados dentro de su historial y, por lo tanto, es difícil encontrar el vecino del usuario con alta similitud. Como resultado, la precisión de las recomendaciones puede ser deficiente.
Solución:
El clasificador estándar de SVM no es muy exitoso debido al problema de la escasez. Una solución simple al problema de la dispersión es la votación predeterminada que inserta la calificación de valores predeterminados para elementos no clasificados para aumentar la densidad del elemento dentro de la matriz del usuario.
Desarrollo de la solución
Abordan el problema de la escasez estimando repetidamente las calificaciones que faltan para los elementos que los usuarios no han clasificado. Primero inicializan estos valores faltantes con valores predeterminados para así proporcionar suficientes ejemplos para entrenar los modelos, y luego, crean clasificadores basados en estos ejemplos de entrenamiento. Después de que se obtienen los clasificadores, esos valores faltantes se vuelven a estimar. Este procedimiento se repite hasta que se cumple el criterio de terminación. El método heurístico se basa en el método suavizado de SVM (SSVM).
El SSVM basado en la heurística (SSVMBH) el cual mediante la estimación iterativa de los elementos faltantes en la matriz de elementos de usuario A. Para cada elemento amn ∈ A, tenemos:
Amn = Xmn, Si n pertenece a Im
Pmn, de otra forma
Inicialmente, se asignan aleatoriamente valores entre 0 y 1 a pmn . Luego, para cada usuario Um y el elemento n donde n ∉ I m, un clasificador lineal Fmn es entrenado por un algoritmo SVM según el vector de características:
Ak = (a1k, a2k, .... amk), 1 < k < N, k es diferente de n
Según Fmn, un nuevo Pmn es dado. Después de volver a calcular cada Pmn, se prueba el modelo con los datos de prueba, denotados por T. Sean |Tc| el total de etiquetas correctas calculadas con el modelo actual. El objetivo (tasa) precisa se define como:
Tc / Tn
Si la diferencia de precisión las tasas entre dos pasos consecutivos es menor que un predefinido valor ε, el algoritmo se detiene. De lo contrario, este procedimiento es repetido. Los resultados concluyen que se genera y alcanza el actual estado del arte en sistemas de recomendación.
Artículo 2:PEGASUS: Pre-training with Extracted Gap-sentences for Abstractive Summarization
Descripción
A diferencia de la resumen por extracción el resumen abstracto puede generar palabras nuevas. Un buen resumen abstracto cubre la información principal en el input y es lingüísticamente fluido. En la publicación se lleva a cabo un análisis de los objetivos previos al entrenamiento del modelo diseñados para el resumen abstracto del texto los cuales no han sido explorados correctamente en el SOTA.
Además hay una falta de evaluación sistemática en diversos dominios. En el trabajo leído, se propone el pre-entrenamiento de grandes modelos de codificador-decodificador basados en transformadores en corpus de textos masivos con un nuevo objetivo auto supervisado.
Estudiarán los objetivos previos a la capacitación específicamente para el resumen de texto abstracto y evaluarán en 12 conjuntos de datos posteriores que abarcan noticias, ciencia, historias cortas, instrucciones, correos electrónicos, patentes y proyectos de ley legislativos. El entrenamiento previo con oraciones de brecha extraídas para modelos de secuencia a secuencia, o PEGASUS.
Motivación del autor
En los últimos años, ha aumentado el interés en recopilar nuevos conjuntos de datos de resumen que tengan resúmenes más abstractos documentos más largos, utilicen múltiples documentos, y provengan de diversos dominios, sin embargo, ha habido poco trabajo en la evaluación sistemática de modelos en estos amplios entornos. Se considera que una sola base de datos puede resolver muchos problemas “One-size-fits-All”, pero a lo largo del documento se abrirá un debate sobre esta afirmación ya que compararán dos diferentes base de datos que traen consigo diferentes resultados en base a la naturaleza de la data pre-entrenada, entrenada y predicha. Esto último encara directamente al enfoque GPT-3 cuyos resultados fueron muy buenos en comparación al SOTA en varios aspectos del procesamiento de lenguaje natural pero no en comprensión lectura.
Descripción del aporte del autor
Proponen un nuevo objetivo de pre-entrenamiento auto supervisado para el resumen abstracto, la generación de oraciones breves (GSG) y las estrategias para seleccionar esas oraciones.
Evalúan el objetivo de pre-entrenamiento propuesto en una amplia gama de tareas de resúmenes posteriores, con cuidadosas eliminaciones para elegir la mejor configuración del
modelo, que usamos para entrenar un modelo PEGASUS de parámetro 568M que supera o está a la par con el estado del arte en los 12 conjuntos de datos posteriores considerados.
Mostraron cómo se puede lograr un buen rendimiento del resumen abstracto en dominios amplios con muy poca supervisión ajustando el modelo PEGASUS y superando resultados
de vanguardia anteriores en muchas tareas con tan solo 1000 ejemplos. Realizaron estudios de evaluación en humanos para validar nuestro diseño experimental y demostrar el rendimiento del resumen en XSum, CNN / DailyMail y Reddit TIFU. Proceso para obtener el aporte (solución al problema) que considera el autor Inspirados por el éxito reciente en el enmascaramiento de palabras y tramos contiguos seleccionaron y enmascararon oraciones completas de documentos, y concatenaron oraciones vacías en un seudo-resumen. La posición correspondiente de cada oración vacía seleccionada se reemplaza por un token de máscara [MASK1] para informar al modelo. El ratio de oraciones vacías, o GSR, se refiere al número de oraciones vacías seleccionadas y el número total de oraciones en el documento, que es similar a la tasa de máscara en otros trabajos.
Los Objetivos de pre-entrenamiento
1. Gap Sentences Generation (GSG) – Generación de oraciones vacías
Se utilizarán tres técnicas diferentes para optimizar la generación de oraciones vacías:
Random: Selección uniformemente de m oraciones al azar.
Lead: Seleccione las primeras m oraciones
Principal: Seleccione las m oraciones mejor puntuadas según la importancia.
2. Masked Language Model (MLM) – Modelo de lenguaje enmascarado
Descubrieron que el MLM no mejora las tareas posteriores en una gran cantidad de pasos previos al entrenamiento , y eligieron no incluir MLM en el modelo final PEGASUS LARGE.
Como podemos observar en la figura 3 la arquitectura base de PEGASUS es un codificador-decodificador Transformador estándar. Tanto GSG como MLM se aplican simultáneamente a este ejemplo como objetivos previos al entrenamiento. Originalmente hay tres oraciones. Una oración está enmascarada con [MASK1] y se usa como texto de generación obejtivo (GSG). Las otras dos oraciones permanecen en la entrada, pero algunos tokens son enmascarados al azar por [MASK2] (MLM).
Características del modelo PEGASUS Large
El documentonos explica como se llegarón a obtener los mejores parámetros para su modelo final a partir de un prototipo llamado PEGASUS base. Llegando a la conclusión de que debería tener los siguientes parámetros L = 16, H = 1024, F = 4096, A = 16, donde L indica el número de capas para codificador y decodificador (es decir, bloques Transformador), H para el tamaño oculto, F para el tamaño de capa de avance y A por el número de cabezas de auto atención. Preentrenaron PEGASUSLARGE con un tamaño de batch de 8192. Este modelo final tiene 568M de parámetros.
Los resultados sugieren que elegir las oraciones principales (Ind-Org) funciona mejor para las tareas de resumen posteriores, y elegimos Ind-Orig para el PEGASUS Large por ello.
El mejor rendimiento siempre tuvo un GSR inferior al 50%. Al escalar a PEGASUS Large eligieron un GSR efectivo del 30%. Al observar los gráficos observamos que el modelo entrenado con MLM solo tuvo un rendimiento malo por lo tanto, eligieron no incluir MLM en PEGASUS Large.
Resultados que obtienen
Como métricas a considerar podemos mencionar ROUGE scores.
Se ha trabajado utilizando el conjunto de datos CNN / DailyMail. El SOTA mostró que un gran modelo de lenguaje Transformer pre-entrenado en texto web podría generar resúmenes si se le solicita con "TL; DR", logrando un ROUGE-2 de 8.27 en CNN / DailyMail. El SOTA pre-entrenó un modelo de lenguaje Transformer en Wikipedia, y lo afinaron usando 3000 ejemplos, logrando 13.1 ROUGE-2.
Observaciones y/o críticas
La mejora de un modelo Transformer sin pre-entrenamiento (Transformer Base) a PEGASUS Large fue más significativa en conjuntos de datos más pequeños. Por ejemplo, las puntuaciones ROUGE2- F1 casi se triplicaron en la base de datos AESLC y se quintuplicaron en la base de datos Reddit TIFU. Los grandes saltos en el rendimiento sugieren que los conjuntos de datos de resumen de texto pequeño se benefician más del entrenamiento previa. Lo cual se relaciona bien con mi proyecto de tesis ya que lo que se busca resumir son porciones pequeñas de varios textos. Por otro lado el enfoque es opuesto al expuesto la semana pasada en el modelo GPT3, lo cual enriquece los diferentes puntos de vista del lector.
Fuentes:
Artículo 1: https://sci2s.ugr.es/keel/pdf/specific/ ... ong_06.pdf
Artículo 2: https://arxiv.org/abs/1912.08777
- 14 Ago 2020, 18:22
- Foros: Inteligencia Artificial
- Tema: Modelos de Machine Learning Aplicado al Procesamiento de Lenguaje Natural
- Respuestas: 0
- Vistas: 428
Modelos de Machine Learning Aplicado al Procesamiento de Lenguaje Natural
ARTÍCULO 1 : Right for the Wrong Reasons: Diagnosing Syntactic Heuristics in Natural Language Inference
Descripción
Un sistema de aprendizaje automático puede obtener una buena puntuación en un conjunto de pruebas dadas al confiar en heurísticas que son efectivas para los tipos de ejemplos frecuentes pero que se descomponen en casos más difíciles. Estudiamos este tema dentro de la inferencia del lenguaje natural (NLI), la tarea de determinar si una oración implica otra. A lo largo de la investigación pondremos a pruebas un nuevo testeo creado en este documento llamado HANS el cual intenta mejorar los estándares de medición en el campo de la inferencia del lenguaje natural.
Motivación del autor:
Actualmente existe una explosión en la cantidad de datos de texto de una variedad de fuentes a lo largo de internet. Este volumen de texto es una fuente invaluable de información y conocimiento que necesita ser resumida efectivamente para ser útil. Este problema se ha documentado en todos los dominios en inteligencia artificial. En visión artificial, por ejemplo, redes neuronales entrenadas para reconocer objetos son engañados por la heurística contextual: una red que es capaz de reconocer a los monos en un típico contexto con alta precisión sin embargo etiquetar a un mono con una guitarra como humano se le es difícil, ya que en el set de entrenamiento, las guitarras tienden a coexistir con los humanos pero no con los monos. Este mismo problema que se tienen en la visión artificial tiene su símil en el campo del lenguaje natural conllevando a conclusiones incorrectas bajo las mediciones actuales de precisión.
Desarrollo de la investigación:
Para determinar si los modelos tienen estas heurísticas, introdujeron un conjunto de evaluaciones llamado HANS (Análisis heurístico para sistemas NLI), que contiene muchos ejemplos donde fallan las heurísticas. La superposición léxica, la sub secuencia y el constituyente.
Como segundo aporte utilizaron un conjunto de datos para iluminar deficiencias interpretables en el estado del arte modelos entrenados en MNLI, dichas deficiencias pueden surgir de sesgos inductivos del modelo, de señal insuficiente proporcionado por conjuntos de datos de entrenamiento, o ambos.
En tercer lugar, demostraron que estas deficiencias pueden hacerse menos graves aumentando el conjunto de entrenamiento de un modelo con el tipo de ejemplos presentes en HANS.
Descripción del aporte del autor:
El set de entrenamiento MNLI contiene muchos más ejemplos que apoyan la heurística que ejemplos que los contradicen, MNLI contiene datos de múltiples géneros, entonces conjeturamos que la escasez de contradicciones ejemplos no es solo una propiedad de un género, sino más bien una propiedad general de datos NLI generados en el enfoque de crowdsourcing utilizado para MNLI.
La segunda razón por la que podríamos esperar que los modelos actuales de Inferencia de Lenguaje Natural para adoptar estas heurísticas es que sus representaciones pueden hacerlos susceptibles a estas heurísticas.
• La superposición léxica descuida la heurística el orden de las palabras en la oración y considera solo su identidad, por lo que es probable que sea adoptado por modelos NLI de “bag of words” esquematizados por palabras como unidad del modelo.
• La subsecuencia heurística considera fragmentos de palabras linealmente adyacentes, por lo que uno podría esperar que sea adoptado por algoritmos de redes neuronales estándar, que procesan oraciones en orden lineal.
• El constituyente último caso heurístico debería ser adoptado fácilmente por los componentes del análisis en árbol, por lo que uno podría esperar verlo adoptado por modelos NLI basados en árboles
Las estrategias que usaron para poder tratar la información, cada una usando una metodología distinta y enfocada en cada una de las heurísticas de la investigación, son las siguientes:
• DA: El modelo de atención descomponible alinea las palabras en premisa e hipótesis y hace predicciones basadas en la agregación de esta alineación. No utiliza información de orden de palabras y puede por lo tanto, ser visto como un modelo de “bag of words”.
• ESIM: El modelo de inferencia secuencial mejorada utiliza una versión modificada LSTM bidireccional para codificar oraciones. Usamos la variante con un codificador secuencial, en lugar de El modelo de inferencia híbrido basado en árboles (HIM).
• SPINN: Este modelo está basado en árboles: codifica oraciones combinando frases basadas en un análisis sintáctico. En la investigación se usó la variante SPINN-PI-NT, que toma un análisis árbol como entrada.
• MNLI, será utilizado para los análisis proporcionados; para HANS, se usarán plantillas de análisis que se crearon en base a análisis de Stanford PCFG Parser, el mismo analizador utilizado para analizar MNLI.
• BERT: las representaciones de codificador bidireccional del modelo Transformers-BERT es un modelo que utiliza la importancia, en lugar de recurrencia, para procesar oraciones.
Entrenaron a todos los modelos en MNLI. MNLI utiliza tres etiquetas (vinculación, contradicción y neutral). Eligieron anotar HANS con dos etiquetas solo (vinculación y no vinculación) porque la distinción entre contradicción y neutral a menudo no estaba claro para nuestros casos
Métricas que el autor usa y resultado que obtiene.
El éxito de BERT en MNLI puede deberse a una mayor tendencia a incorporar información de orden de palabras en comparación con otros modelos, aunque se descubrió que HANS es más difícil en general que MNLI, su la precisión fue similar si la respuesta correcta fue vinculación (precisión del 75%) o no vinculación (77% de precisión). El contraste entre el equilibrio en los errores humanos a través de las etiquetas y el marcado desequilibrio en los errores de los modelos es poco probable que los errores humanos sean impulsados por heurística dirigida en el trabajo actual.
El fracaso de los modelos que probamos plantea la pregunta de lo que se necesitaría para hacer bien en HANS. Una posibilidad es que un tipo diferente de modelo funcionaría mejor, por ejemplo, un modelo basado en reglas codificadas a mano podría manejar bien a HANS.
Sin embargo, dado que la mayoría de los modelos que probamos son en teoría capaz de manejar los ejemplos de HANS pero no pueden hacerlo cuando se entrenó en MNLI, es probable que ese rendimiento también podría mejorarse mediante entrenamiento con las mismas arquitecturas en un conjunto de datos en el que estas heurísticas son menos exitosas.
Para probar esa hipótesis, se volvió a entrenar cada modelo en el conjunto de entrenamiento MNLI aumentado con un conjunto de datos estructurado exactamente como HANS (es decir, usando la misma treintena de subcasos) pero que no contienen ejemplos específicos que aparecieron en HANS. Las adiciones comprendieron 30,000 ejemplos, aproximadamente el 8% del tamaño del conjunto de entrenamiento original de MNLI (392,702 ejemplos)
Los positivos resultados del experimento de aumento similar a HANS son compatibles con la posibilidad de que el modelos simplemente memoriza las plantillas que hicieron sobre la treinta de subcasos de HANS. Para abordar esto, volvieron a entrenar los modelos en MNLI aumentados con subconjuntos de los casos HANS luego probaron los modelos en los casos retenidos.
Observaciones y críticas:
Para evaluar si los modelos NLI se comportan de manera consistente con la heurística, se introdujo un conjunto de datos HANS, sobre los cuales los modelos utilizan estas heurísticas y están garantizados para fallar. Encontraron que cuatro existentes modelos de NLI funcionan muy mal en HANS, sugiriendo que sus altas precisiones en las pruebas NLI pueden deberse a la explotación de inválidas heurísticas en lugar de una comprensión más profunda del lenguaje.
Sin embargo, estos modelos tuvieron un rendimiento significativo mejor tanto en HANS como en un separado conjunto de datos dependiente de la estructura cuando su entrenamiento los datos se aumentaron con ejemplos similares a HANS.
En general, los resultados indican que, a pesar de las impresionantes precisiones de los modelos más modernos en evaluaciones estándar, todavía hay mucho el progreso a realizar y ese objetivo, desafiante los conjuntos de datos, como HANS, son importantes para determinar si los modelos están aprendiendo lo que son destinado a aprender.
ARTÍCULO 2: MLSUM The Multilingual Summarization Corpus
Motivación del autor:
El autor reconoce que no existen esfuerzos en el procesamiento de lenguaje natural en idiomas que no sean el inglés porque efectivamente no existen grandes bases de datos en otros idiomas, menciona que después del inglés la mayor base de datos, también llamados corpus, es el Chinese LCSTS. El autor se propone apoyar en el desarrollo de bases de datos multilingüe. El autor menciona que la falta de datos multilingües se debe al paradigma de facto del procesamiento de lenguaje natural, el cual consiste en la aplicación de la transferencia de técnicas de aprendizaje habilitadas por la disponibilidad de modelos pre entrenados en idiomas multilingües. Bajo este paradigma, para tareas de codificador / decodificador, un modelo de lenguaje puede primero ser pre-entrenado en un gran corpus de textos en múltiples idiomas. Entonces el modelo se ajusta (tunea) en uno o más idiomas dinámicos para los cuales están disponibles los datos específicos de la tarea (data de entrenamiento). En términos de inferencia, todavía se puede aplicar a los diferentes idiomas vistos durante el pre-entrenamiento. Debido al dominio del inglés para corpus a gran escala, el inglés se estableció naturalmente como un eje para otros idiomas. La disponibilidad de modelos pre-entrenados multilingües, como BERT multilingüe (MBERT), permite construir modelos para idiomas de destino diferente de los datos de entrenamiento. Sin embargo, estudios anteriores informaron de una brecha de rendimiento significativa entre el inglés y el idioma de destino, por ejemplo para la clasificación (Classification) y Pregunta Responder tareas (Question Answering). Un similar enfoque ha sido propuesto recientemente para el resumen de textos obteniendo, nuevamente, un menor rendimiento que para el inglés.
Descripción del aporte del autor
El objetivo es llenar el vacío de datos para el área de resumen de textos proponiendo una base de datos de escala mayor Resumen Multilingüe (MLSUM) está construido a partir de medios de noticias en línea, y contiene más de 1,5 millones de pares de resumen de artículos en 5 idiomas: francés, alemán, español, ruso, y turco, que complementan un ya conocido conjunto de datos de resumen establecido en inglés. Las contribuciones de este documento pueden resumirse como sigue:
1. Lanzar el primer conjunto de datos multilingüe a gran escala de resúmenes de textos.
2. Proporcionar líneas de base sólidas para los modelos de generación de texto abstracto multilingües.
3. Reportar un análisis comparativo entre idiomas de los resultados obtenidos por diferentes enfoques.
Proceso para obtener el aporte (solución al problema) que considera el autor
El autor toma como guía el conjunto de datos CNN / Daily Mail (CNN / DM) el cual es el más utilizado a gran escala para el resumen de textos. Siguiendo la misma metodología, consideraron artículos de noticias como texto entrada, y sus destacados / descripción emparejados como el resumen. Para cada idioma, seleccionaron un periódico online que cumplía los siguientes requisitos:
1. Ser un periódico generalista: asegurar que un
2. Tener una gran cantidad de artículos en su archivo público.
3. Proporcionar destacados/ resúmenes escritos por personas de los artículos los cuales se pueden extraer del código HTML de la página web.
Concluyeron seleccionando artículos archivados del 2010 al 2019:
• Le Monde (francés)
• Suddeutsche Zeitung (alemán)
• El País6 (español)
• Moskovskij Komsomolets (ruso)
• Internet Haber (turco)
Todos los artículos de menos de 50 palabras o resúmenes de menos de 10 palabras se descartan. Así evitaron artículos que tenían data en imágenes o videos. Cada artículo fue archivado en el Wayback Machine, permitiendo a los interesados reconstruir la data.
La data reclutada fue utilizada de la siguiente manera, se usó la data del 2010 al 2018, para el entrenamiento; la data del 2019 (~10% del total) para la validación (hasta Mayo del 2019) y para el test se utilizó la data del resto del año (Mayo a Diciembre 2019).
En el idioma ruso se observó hasta 10 veces menos cantidad de datos. Es importante aclarar que el ratio de comprensión es la división entre los tamaños del artículo y su resumen; novedad es el porcentaje de palabras nuevas en el resumen que no aparecen en el artículo.
La data creada en MLSUM fue puesta a prueba con modelos supervisados y no supervisados de extracción y abstracción. Cada modelo fue entrenado con un idioma a la vez.
La mayoría de los modelos de resumen abstracto son modelos de secuencia neural a secuencia (neural sequence to sequence models) compuestos por un codificador que codifica el texto de entrada y un decodificador que genera el resumen. Los modelos de resumen de textos utilizados fueron:
• Pointer-Generator (Puntero-generador): Propone el uso del mecanismo de copia (Vinyals et al., 2015) en la parte superior de un modelo secuencia a secuencia LSTM. Este mecanismo permite eficientemente copiar tokens fuera del vocabulario. Se utilizó el implemento Open NMT disponible públicamente.
• M-BERT (Arquitecturas de transformador Codificador-decodificador): son una opción muy popular para la generación de texto. Los esfuerzos de investigación recientes han adaptado grandes modelos pre-entrenados basados en la auto atención para la generación de texto.
En el artículo, solo se muestran los resultados obtenidos en experimentos preliminares con un simple BERT multilingüe (MBERT), sin modificación, obteniendo una performance comparable con el resumen de textos.
Métricas que el autor usa y resultado que obtiene:
Los resultados siguientes reportan el ROUGE – L y no se notan grandes cambios entre un idioma y otro.
El nivel de abstracción de los modelos se puede identificar a través de la variable novedad “novelty”, y como podemos observar modelos pre entrenados de lenguaje tales como M-BERT son considerablemente más abstractivos y por una gran diferencia ya que ellos están expuestos a otros textos durante el pre entrenamiento.
Dados estos resultados se puede inferir que los beneficios del pre entrenamiento que cuanto más se acerca el rendimiento de un modelo no supervisado a su límite máximo, habrá menos incremento en la performance proveniente del pre entrenamiento. Mirando la correlación que emerge de la trama, la hipótesis parece ser cierta para todos los idiomas, con la excepción del inglés. Esta excepción probablemente se deba a sesgos.
Finalmente, en los resultados se observa que M-BERT siempre supera al generador de punteros (Pointer Generator). Se plantea la hipótesis de que la auto atención juega un papel importante para el alemán pero tiene un impacto limitado para el francés esto podría encontrar una explicación en la morfología de los dos idiomas: en un análisis estadístico, considerando el alemán muy sensible al orden de las palabras, debido a su riqueza morfológica, a diferencia del francés. Entre otras razones, la flexibilidad de su ordenamiento sintáctico es mencionada. Esto corrobora la hipótesis de que la auto atención podría ayudar a preservar la información para idiomas con mayor grado de orden de las palabras libertad.
Observaciones y/o críticas:
• En base al paradigma mencionado en la introducción los enfoques actuales están obligados a usar datos de entrenamiento en un lenguaje de pre entrenamiento para el cual exista una gran cantidad de datos, generalmente en inglés. Esto evita investigar, por ejemplo, si un determinado el modelo es más apropiado para un idioma específico como para cualquier otro. La respuesta a dicha pregunta planteada representaría una mejora en el rendimiento de los modelos de procesamiento de lenguaje natural para idiomas con bajos recursos en términos de datos.
• La predisposición de compartir el código de scrapeo de data y la de compartir la información ya scrapeada demuestra una solidaridad del autor para investigadores del procesamiento de lenguaje natural en español.
• Es valioso como distribuyeron la data de entre entrenamiento, testeo y validación en torno a los años lo cual es un enfoque que no conocía, pero bastante realista.
Referencias
Artículo 1:
Autor(es): R. Thomas McCoy, Ellie Pavlick & Tal Linzen1
Título del paper: Right for the Wrong Reasons: Diagnosing Syntactic Heuristics in Natural Language Inference
Conferencia/Origen: Department of Cognitive Science, Johns Hopkins University, Department of Computer Science, Brown University
Año: 2019
Artículo 2:
Autor(es): Thomas Scialom, Paul-Alexis Dray, Sylvain Lamprier, Benjamin Piwowarski, Jacopo Staiano
Título del paper: MLSUM The Multilingual Summarization Corpus
Conferencia/Origen: Sorbonne Universite, Le Centre national de la recherche scientifique
Año: 2020
Descripción
Un sistema de aprendizaje automático puede obtener una buena puntuación en un conjunto de pruebas dadas al confiar en heurísticas que son efectivas para los tipos de ejemplos frecuentes pero que se descomponen en casos más difíciles. Estudiamos este tema dentro de la inferencia del lenguaje natural (NLI), la tarea de determinar si una oración implica otra. A lo largo de la investigación pondremos a pruebas un nuevo testeo creado en este documento llamado HANS el cual intenta mejorar los estándares de medición en el campo de la inferencia del lenguaje natural.
Motivación del autor:
Actualmente existe una explosión en la cantidad de datos de texto de una variedad de fuentes a lo largo de internet. Este volumen de texto es una fuente invaluable de información y conocimiento que necesita ser resumida efectivamente para ser útil. Este problema se ha documentado en todos los dominios en inteligencia artificial. En visión artificial, por ejemplo, redes neuronales entrenadas para reconocer objetos son engañados por la heurística contextual: una red que es capaz de reconocer a los monos en un típico contexto con alta precisión sin embargo etiquetar a un mono con una guitarra como humano se le es difícil, ya que en el set de entrenamiento, las guitarras tienden a coexistir con los humanos pero no con los monos. Este mismo problema que se tienen en la visión artificial tiene su símil en el campo del lenguaje natural conllevando a conclusiones incorrectas bajo las mediciones actuales de precisión.
Desarrollo de la investigación:
Para determinar si los modelos tienen estas heurísticas, introdujeron un conjunto de evaluaciones llamado HANS (Análisis heurístico para sistemas NLI), que contiene muchos ejemplos donde fallan las heurísticas. La superposición léxica, la sub secuencia y el constituyente.
Como segundo aporte utilizaron un conjunto de datos para iluminar deficiencias interpretables en el estado del arte modelos entrenados en MNLI, dichas deficiencias pueden surgir de sesgos inductivos del modelo, de señal insuficiente proporcionado por conjuntos de datos de entrenamiento, o ambos.
En tercer lugar, demostraron que estas deficiencias pueden hacerse menos graves aumentando el conjunto de entrenamiento de un modelo con el tipo de ejemplos presentes en HANS.
Descripción del aporte del autor:
El set de entrenamiento MNLI contiene muchos más ejemplos que apoyan la heurística que ejemplos que los contradicen, MNLI contiene datos de múltiples géneros, entonces conjeturamos que la escasez de contradicciones ejemplos no es solo una propiedad de un género, sino más bien una propiedad general de datos NLI generados en el enfoque de crowdsourcing utilizado para MNLI.
La segunda razón por la que podríamos esperar que los modelos actuales de Inferencia de Lenguaje Natural para adoptar estas heurísticas es que sus representaciones pueden hacerlos susceptibles a estas heurísticas.
• La superposición léxica descuida la heurística el orden de las palabras en la oración y considera solo su identidad, por lo que es probable que sea adoptado por modelos NLI de “bag of words” esquematizados por palabras como unidad del modelo.
• La subsecuencia heurística considera fragmentos de palabras linealmente adyacentes, por lo que uno podría esperar que sea adoptado por algoritmos de redes neuronales estándar, que procesan oraciones en orden lineal.
• El constituyente último caso heurístico debería ser adoptado fácilmente por los componentes del análisis en árbol, por lo que uno podría esperar verlo adoptado por modelos NLI basados en árboles
Las estrategias que usaron para poder tratar la información, cada una usando una metodología distinta y enfocada en cada una de las heurísticas de la investigación, son las siguientes:
• DA: El modelo de atención descomponible alinea las palabras en premisa e hipótesis y hace predicciones basadas en la agregación de esta alineación. No utiliza información de orden de palabras y puede por lo tanto, ser visto como un modelo de “bag of words”.
• ESIM: El modelo de inferencia secuencial mejorada utiliza una versión modificada LSTM bidireccional para codificar oraciones. Usamos la variante con un codificador secuencial, en lugar de El modelo de inferencia híbrido basado en árboles (HIM).
• SPINN: Este modelo está basado en árboles: codifica oraciones combinando frases basadas en un análisis sintáctico. En la investigación se usó la variante SPINN-PI-NT, que toma un análisis árbol como entrada.
• MNLI, será utilizado para los análisis proporcionados; para HANS, se usarán plantillas de análisis que se crearon en base a análisis de Stanford PCFG Parser, el mismo analizador utilizado para analizar MNLI.
• BERT: las representaciones de codificador bidireccional del modelo Transformers-BERT es un modelo que utiliza la importancia, en lugar de recurrencia, para procesar oraciones.
Entrenaron a todos los modelos en MNLI. MNLI utiliza tres etiquetas (vinculación, contradicción y neutral). Eligieron anotar HANS con dos etiquetas solo (vinculación y no vinculación) porque la distinción entre contradicción y neutral a menudo no estaba claro para nuestros casos
Métricas que el autor usa y resultado que obtiene.
El éxito de BERT en MNLI puede deberse a una mayor tendencia a incorporar información de orden de palabras en comparación con otros modelos, aunque se descubrió que HANS es más difícil en general que MNLI, su la precisión fue similar si la respuesta correcta fue vinculación (precisión del 75%) o no vinculación (77% de precisión). El contraste entre el equilibrio en los errores humanos a través de las etiquetas y el marcado desequilibrio en los errores de los modelos es poco probable que los errores humanos sean impulsados por heurística dirigida en el trabajo actual.
El fracaso de los modelos que probamos plantea la pregunta de lo que se necesitaría para hacer bien en HANS. Una posibilidad es que un tipo diferente de modelo funcionaría mejor, por ejemplo, un modelo basado en reglas codificadas a mano podría manejar bien a HANS.
Sin embargo, dado que la mayoría de los modelos que probamos son en teoría capaz de manejar los ejemplos de HANS pero no pueden hacerlo cuando se entrenó en MNLI, es probable que ese rendimiento también podría mejorarse mediante entrenamiento con las mismas arquitecturas en un conjunto de datos en el que estas heurísticas son menos exitosas.
Para probar esa hipótesis, se volvió a entrenar cada modelo en el conjunto de entrenamiento MNLI aumentado con un conjunto de datos estructurado exactamente como HANS (es decir, usando la misma treintena de subcasos) pero que no contienen ejemplos específicos que aparecieron en HANS. Las adiciones comprendieron 30,000 ejemplos, aproximadamente el 8% del tamaño del conjunto de entrenamiento original de MNLI (392,702 ejemplos)
Los positivos resultados del experimento de aumento similar a HANS son compatibles con la posibilidad de que el modelos simplemente memoriza las plantillas que hicieron sobre la treinta de subcasos de HANS. Para abordar esto, volvieron a entrenar los modelos en MNLI aumentados con subconjuntos de los casos HANS luego probaron los modelos en los casos retenidos.
Observaciones y críticas:
Para evaluar si los modelos NLI se comportan de manera consistente con la heurística, se introdujo un conjunto de datos HANS, sobre los cuales los modelos utilizan estas heurísticas y están garantizados para fallar. Encontraron que cuatro existentes modelos de NLI funcionan muy mal en HANS, sugiriendo que sus altas precisiones en las pruebas NLI pueden deberse a la explotación de inválidas heurísticas en lugar de una comprensión más profunda del lenguaje.
Sin embargo, estos modelos tuvieron un rendimiento significativo mejor tanto en HANS como en un separado conjunto de datos dependiente de la estructura cuando su entrenamiento los datos se aumentaron con ejemplos similares a HANS.
En general, los resultados indican que, a pesar de las impresionantes precisiones de los modelos más modernos en evaluaciones estándar, todavía hay mucho el progreso a realizar y ese objetivo, desafiante los conjuntos de datos, como HANS, son importantes para determinar si los modelos están aprendiendo lo que son destinado a aprender.
ARTÍCULO 2: MLSUM The Multilingual Summarization Corpus
Motivación del autor:
El autor reconoce que no existen esfuerzos en el procesamiento de lenguaje natural en idiomas que no sean el inglés porque efectivamente no existen grandes bases de datos en otros idiomas, menciona que después del inglés la mayor base de datos, también llamados corpus, es el Chinese LCSTS. El autor se propone apoyar en el desarrollo de bases de datos multilingüe. El autor menciona que la falta de datos multilingües se debe al paradigma de facto del procesamiento de lenguaje natural, el cual consiste en la aplicación de la transferencia de técnicas de aprendizaje habilitadas por la disponibilidad de modelos pre entrenados en idiomas multilingües. Bajo este paradigma, para tareas de codificador / decodificador, un modelo de lenguaje puede primero ser pre-entrenado en un gran corpus de textos en múltiples idiomas. Entonces el modelo se ajusta (tunea) en uno o más idiomas dinámicos para los cuales están disponibles los datos específicos de la tarea (data de entrenamiento). En términos de inferencia, todavía se puede aplicar a los diferentes idiomas vistos durante el pre-entrenamiento. Debido al dominio del inglés para corpus a gran escala, el inglés se estableció naturalmente como un eje para otros idiomas. La disponibilidad de modelos pre-entrenados multilingües, como BERT multilingüe (MBERT), permite construir modelos para idiomas de destino diferente de los datos de entrenamiento. Sin embargo, estudios anteriores informaron de una brecha de rendimiento significativa entre el inglés y el idioma de destino, por ejemplo para la clasificación (Classification) y Pregunta Responder tareas (Question Answering). Un similar enfoque ha sido propuesto recientemente para el resumen de textos obteniendo, nuevamente, un menor rendimiento que para el inglés.
Descripción del aporte del autor
El objetivo es llenar el vacío de datos para el área de resumen de textos proponiendo una base de datos de escala mayor Resumen Multilingüe (MLSUM) está construido a partir de medios de noticias en línea, y contiene más de 1,5 millones de pares de resumen de artículos en 5 idiomas: francés, alemán, español, ruso, y turco, que complementan un ya conocido conjunto de datos de resumen establecido en inglés. Las contribuciones de este documento pueden resumirse como sigue:
1. Lanzar el primer conjunto de datos multilingüe a gran escala de resúmenes de textos.
2. Proporcionar líneas de base sólidas para los modelos de generación de texto abstracto multilingües.
3. Reportar un análisis comparativo entre idiomas de los resultados obtenidos por diferentes enfoques.
Proceso para obtener el aporte (solución al problema) que considera el autor
El autor toma como guía el conjunto de datos CNN / Daily Mail (CNN / DM) el cual es el más utilizado a gran escala para el resumen de textos. Siguiendo la misma metodología, consideraron artículos de noticias como texto entrada, y sus destacados / descripción emparejados como el resumen. Para cada idioma, seleccionaron un periódico online que cumplía los siguientes requisitos:
1. Ser un periódico generalista: asegurar que un
2. Tener una gran cantidad de artículos en su archivo público.
3. Proporcionar destacados/ resúmenes escritos por personas de los artículos los cuales se pueden extraer del código HTML de la página web.
Concluyeron seleccionando artículos archivados del 2010 al 2019:
• Le Monde (francés)
• Suddeutsche Zeitung (alemán)
• El País6 (español)
• Moskovskij Komsomolets (ruso)
• Internet Haber (turco)
Todos los artículos de menos de 50 palabras o resúmenes de menos de 10 palabras se descartan. Así evitaron artículos que tenían data en imágenes o videos. Cada artículo fue archivado en el Wayback Machine, permitiendo a los interesados reconstruir la data.
La data reclutada fue utilizada de la siguiente manera, se usó la data del 2010 al 2018, para el entrenamiento; la data del 2019 (~10% del total) para la validación (hasta Mayo del 2019) y para el test se utilizó la data del resto del año (Mayo a Diciembre 2019).
En el idioma ruso se observó hasta 10 veces menos cantidad de datos. Es importante aclarar que el ratio de comprensión es la división entre los tamaños del artículo y su resumen; novedad es el porcentaje de palabras nuevas en el resumen que no aparecen en el artículo.
La data creada en MLSUM fue puesta a prueba con modelos supervisados y no supervisados de extracción y abstracción. Cada modelo fue entrenado con un idioma a la vez.
La mayoría de los modelos de resumen abstracto son modelos de secuencia neural a secuencia (neural sequence to sequence models) compuestos por un codificador que codifica el texto de entrada y un decodificador que genera el resumen. Los modelos de resumen de textos utilizados fueron:
• Pointer-Generator (Puntero-generador): Propone el uso del mecanismo de copia (Vinyals et al., 2015) en la parte superior de un modelo secuencia a secuencia LSTM. Este mecanismo permite eficientemente copiar tokens fuera del vocabulario. Se utilizó el implemento Open NMT disponible públicamente.
• M-BERT (Arquitecturas de transformador Codificador-decodificador): son una opción muy popular para la generación de texto. Los esfuerzos de investigación recientes han adaptado grandes modelos pre-entrenados basados en la auto atención para la generación de texto.
En el artículo, solo se muestran los resultados obtenidos en experimentos preliminares con un simple BERT multilingüe (MBERT), sin modificación, obteniendo una performance comparable con el resumen de textos.
Métricas que el autor usa y resultado que obtiene:
Los resultados siguientes reportan el ROUGE – L y no se notan grandes cambios entre un idioma y otro.
El nivel de abstracción de los modelos se puede identificar a través de la variable novedad “novelty”, y como podemos observar modelos pre entrenados de lenguaje tales como M-BERT son considerablemente más abstractivos y por una gran diferencia ya que ellos están expuestos a otros textos durante el pre entrenamiento.
Dados estos resultados se puede inferir que los beneficios del pre entrenamiento que cuanto más se acerca el rendimiento de un modelo no supervisado a su límite máximo, habrá menos incremento en la performance proveniente del pre entrenamiento. Mirando la correlación que emerge de la trama, la hipótesis parece ser cierta para todos los idiomas, con la excepción del inglés. Esta excepción probablemente se deba a sesgos.
Finalmente, en los resultados se observa que M-BERT siempre supera al generador de punteros (Pointer Generator). Se plantea la hipótesis de que la auto atención juega un papel importante para el alemán pero tiene un impacto limitado para el francés esto podría encontrar una explicación en la morfología de los dos idiomas: en un análisis estadístico, considerando el alemán muy sensible al orden de las palabras, debido a su riqueza morfológica, a diferencia del francés. Entre otras razones, la flexibilidad de su ordenamiento sintáctico es mencionada. Esto corrobora la hipótesis de que la auto atención podría ayudar a preservar la información para idiomas con mayor grado de orden de las palabras libertad.
Observaciones y/o críticas:
• En base al paradigma mencionado en la introducción los enfoques actuales están obligados a usar datos de entrenamiento en un lenguaje de pre entrenamiento para el cual exista una gran cantidad de datos, generalmente en inglés. Esto evita investigar, por ejemplo, si un determinado el modelo es más apropiado para un idioma específico como para cualquier otro. La respuesta a dicha pregunta planteada representaría una mejora en el rendimiento de los modelos de procesamiento de lenguaje natural para idiomas con bajos recursos en términos de datos.
• La predisposición de compartir el código de scrapeo de data y la de compartir la información ya scrapeada demuestra una solidaridad del autor para investigadores del procesamiento de lenguaje natural en español.
• Es valioso como distribuyeron la data de entre entrenamiento, testeo y validación en torno a los años lo cual es un enfoque que no conocía, pero bastante realista.
Referencias
Artículo 1:
Autor(es): R. Thomas McCoy, Ellie Pavlick & Tal Linzen1
Título del paper: Right for the Wrong Reasons: Diagnosing Syntactic Heuristics in Natural Language Inference
Conferencia/Origen: Department of Cognitive Science, Johns Hopkins University, Department of Computer Science, Brown University
Año: 2019
Artículo 2:
Autor(es): Thomas Scialom, Paul-Alexis Dray, Sylvain Lamprier, Benjamin Piwowarski, Jacopo Staiano
Título del paper: MLSUM The Multilingual Summarization Corpus
Conferencia/Origen: Sorbonne Universite, Le Centre national de la recherche scientifique
Año: 2020
- 20 Jun 2020, 12:57
- Foros: Inteligencia Artificial
- Tema: Newsmakers Artificial Intelligence
- Respuestas: 3
- Vistas: 1369
Re: Newsmakers Artificial Intelligence
here more information
- 20 Jun 2020, 12:55
- Foros: Inteligencia Artificial
- Tema: Newsmakers Artificial Intelligence
- Respuestas: 3
- Vistas: 1369
Re: Newsmakers Artificial Intelligence
Hello,
I saw this video on facebook which is about GPT-3 based on this paper "Language Models are Few-Shot Learners" (https://arxiv.org/pdf/2005.14165.pdf).
This content was published only last week and suppose a huge step into NlLP.
"writing refines thinking"
I saw this video on facebook which is about GPT-3 based on this paper "Language Models are Few-Shot Learners" (https://arxiv.org/pdf/2005.14165.pdf).
News Article Generation
Previous work on generative language models qualitatively tested their ability to generate synthetic “news articles” by
conditional sampling from the model given a human-written prompt consisting of a plausible first sentence for a news
story [RWC+19]. Relative to [RWC+19], the dataset used to train GPT-3 is much less weighted towards news articles,
so trying to generate news articles via raw unconditional samples is less effective – for example GPT-3 often interprets
the proposed first sentence of a “news article” as a tweet and then posts synthetic responses or follow-up tweets. To
solve this problem we employed GPT-3’s few-shot learning abilities by providing three previous news articles in the
model’s context to condition it. With the title and subtitle of a proposed next article, the model is able to reliably
generate short articles in the “news” genre. 1
Previous work on generative language models qualitatively tested their ability to generate synthetic “news articles” by
conditional sampling from the model given a human-written prompt consisting of a plausible first sentence for a news
story [RWC+19]. Relative to [RWC+19], the dataset used to train GPT-3 is much less weighted towards news articles,
so trying to generate news articles via raw unconditional samples is less effective – for example GPT-3 often interprets
the proposed first sentence of a “news article” as a tweet and then posts synthetic responses or follow-up tweets. To
solve this problem we employed GPT-3’s few-shot learning abilities by providing three previous news articles in the
model’s context to condition it. With the title and subtitle of a proposed next article, the model is able to reliably
generate short articles in the “news” genre. 1
1 From Language Models are Few-Shot Learners
This content was published only last week and suppose a huge step into NlLP.
"writing refines thinking"
- 16 Jun 2020, 01:12
- Foros: Inteligencia Artificial
- Tema: Newsmakers Artificial Intelligence
- Respuestas: 3
- Vistas: 1369
Re: Newsmakers Artificial Intelligence
Here more sources and good books about NATURAL LANGUAGE GENERATION (NLG):
1. Robot Journalism: Can Human Journalism Survive? by Noam Lemelshtrich Latar
http://ivannabooks.blogspot.com/2018/10 ... human.html
2.
The first step in NLG is to define what format of content is desired. The narrative design, also known as the template or narrative type, is constructed by the end-user, the NLG solution or by the software provider.
3. The New York Times to see if you can determine if you’re reading content written by a human or a bot. https://www.nytimes.com/interactive/201 ... -quiz.html
Artificial intelligence helps create TEXT SUMMARIZATIONS , short and coherent versions of longer documents. This requires the algorithm to understand the source document and then distill the meaning and important details in a fluent summary.
here other good links:
https://emerj.com/ai-sector-overviews/a ... lications/
https://emerj.com/ai-sector-overviews/a ... lications/
https://machinelearningmastery.com/gent ... arization/
https://towardsdatascience.com/a-quick- ... ng%20(NLP). ** I Do Recommend
https://www.analyticsvidhya.com/blog/20 ... ng-python/
https://www.analyticsvidhya.com/blog/20 ... nk-python/
1. Robot Journalism: Can Human Journalism Survive? by Noam Lemelshtrich Latar
http://ivannabooks.blogspot.com/2018/10 ... human.html
2.
The first step in NLG is to define what format of content is desired. The narrative design, also known as the template or narrative type, is constructed by the end-user, the NLG solution or by the software provider.
3. The New York Times to see if you can determine if you’re reading content written by a human or a bot. https://www.nytimes.com/interactive/201 ... -quiz.html
Artificial intelligence helps create TEXT SUMMARIZATIONS , short and coherent versions of longer documents. This requires the algorithm to understand the source document and then distill the meaning and important details in a fluent summary.
here other good links:
https://emerj.com/ai-sector-overviews/a ... lications/
https://emerj.com/ai-sector-overviews/a ... lications/
https://machinelearningmastery.com/gent ... arization/
https://towardsdatascience.com/a-quick- ... ng%20(NLP). ** I Do Recommend
https://www.analyticsvidhya.com/blog/20 ... ng-python/
https://www.analyticsvidhya.com/blog/20 ... nk-python/
- 16 Jun 2020, 00:29
- Foros: ChallegenceYoSoyTroomeEn
- Tema: Finalistas del Challenge YoSoyTroomeEn...
- Respuestas: 4
- Vistas: 3433
Re: Finalistas del Challenge YoSoyTroomeEn...
Tamy vamos tu puedes!
- 15 Jun 2020, 16:58
- Foros: Repositorio de Datos
- Tema: Datos abiertos de instituciones peruanas
- Respuestas: 1
- Vistas: 8947
- 15 Jun 2020, 04:42
- Foros: Inteligencia Artificial
- Tema: Newsmakers Artificial Intelligence
- Respuestas: 3
- Vistas: 1369
Newsmakers Artificial Intelligence
We have a field intrinsically related with Natural Language Processing which is Newsmakers Artificial Intelligence Models, Marconi explain it as:
This application of Machine learning in Journalism and media is currently used by demain.ai a French artificial intelligence solutions provider. they automatize the production of news coverage and has published more than 150,000 articles with NLG automation in the last year. As they say in their webpage their AI natural-language reports has no difference with the ones done by a human expert. 2
Another related example is AI Writer, a webpage where you can use its trial version to experience how just giving a topic or sentence the AI writer produce you an article, with some errors but in general terms with a really well structured text. It will show you at the bottom from where it took the information. I trried to corroborated if it was true that it rewrites its sources paragraphs with coherence and it do rewrites with coherence. But I also found some data of its articles are not from the sources cited. 3
Hope you get as interested as me in this new topic which I think is going to completely change how we will consume mass media. Because it starts with AI writers and then it can easily move to voice and video information. If we democratize the redaction process, for example based on not just giant media press as last example but also considering local press from regional zones closely related with the topic of the news we can be able to synthesize different ideas from a plenty of different points of view and then write it.
In this opportunity I would like to share with you some other sources where you can find more information about Newsmakers Artificial Intelligence.
1 For example in this recent published book:
2 Arria is the world’s first true NLG design tool
https://www.arria.com/studio/studio-overview/
3 AI Writer
https://panel.ai-writer.com/aiw/simpleui/homesite/
4 Other examples
https://robotwritersai.com/
"It is not journalism automated by computation, but rather journalism augmented. Machine learning changes the ways a reporter sees the world around her, pieces a story together, and builds an audience in a complex information ecosystem" 1
This application of Machine learning in Journalism and media is currently used by demain.ai a French artificial intelligence solutions provider. they automatize the production of news coverage and has published more than 150,000 articles with NLG automation in the last year. As they say in their webpage their AI natural-language reports has no difference with the ones done by a human expert. 2
Another related example is AI Writer, a webpage where you can use its trial version to experience how just giving a topic or sentence the AI writer produce you an article, with some errors but in general terms with a really well structured text. It will show you at the bottom from where it took the information. I trried to corroborated if it was true that it rewrites its sources paragraphs with coherence and it do rewrites with coherence. But I also found some data of its articles are not from the sources cited. 3
Hope you get as interested as me in this new topic which I think is going to completely change how we will consume mass media. Because it starts with AI writers and then it can easily move to voice and video information. If we democratize the redaction process, for example based on not just giant media press as last example but also considering local press from regional zones closely related with the topic of the news we can be able to synthesize different ideas from a plenty of different points of view and then write it.
In this opportunity I would like to share with you some other sources where you can find more information about Newsmakers Artificial Intelligence.
1 For example in this recent published book:
2 Arria is the world’s first true NLG design tool
https://www.arria.com/studio/studio-overview/
3 AI Writer
https://panel.ai-writer.com/aiw/simpleui/homesite/
4 Other examples
https://robotwritersai.com/