Se encontraron 4 coincidencias

por Said79
10 Ago 2025, 10:54
Foros: Proyectos en Inteligencia Artificial
Tema: IMPLEMENTACIÓN DE UN SISTEMA RAG LOCAL CON LLAMA 3.1 8B PARA ONBOARDING INTELIGENTE EN EL SECTOR AVÍCOLA
Respuestas: 0
Vistas: 95

IMPLEMENTACIÓN DE UN SISTEMA RAG LOCAL CON LLAMA 3.1 8B PARA ONBOARDING INTELIGENTE EN EL SECTOR AVÍCOLA

IMPLEMENTACIÓN DE UN SISTEMA RAG LOCAL CON LLAMA 3.1 8B PARA ONBOARDING INTELIGENTE EN EL SECTOR AVÍCOLA
UCEDA PAREDES, SAID LEONARDO
ASTRID CORNEJO, KATTERINE
CAMPOS, JOE
Resumen— Este trabajo presenta la implementación exitosa de un sistema RAG (Retrieval-Augmented Generation) completamente local utilizando LLaMA 3.1 8B como modelo de lenguaje base, especializado para el sector avícola empresarial. El sistema permite realizar consultas inteligentes sobre manuales técnicos, protocolos de manejo por tipo de ave, procedimientos de procesamiento y documentación empresarial específica, facilitando el proceso de onboarding de nuevos empleados.
La implementación logra operación 100% offline, garantizando confidencialidad total de procesos propietarios empresariales y eliminando dependencias de servicios en la nube que podrían comprometer información sensible del negocio.

I. INTRODUCCIÓN
En el sector avícola industrial, la eficiencia operativa y el cumplimiento estricto de protocolos sanitarios y productivos son factores determinantes para garantizar la calidad del producto final y la sostenibilidad del negocio. Las empresas de este sector manejan procedimientos complejos y altamente especializados que varían según la especie de ave —pollos de engorde, gallinas ponedoras, pavos, patos, entre otros— y la etapa del ciclo productivo, desde la crianza hasta el procesamiento y distribución.

Estos protocolos abarcan aspectos críticos como bioseguridad, manejo animal, control de parámetros ambientales, trazabilidad, mantenimiento de equipos y ejecución de procesos de sacrificio y empaque. Cada uno de estos elementos requiere conocimiento técnico preciso, actualizado y adaptado a las condiciones y normativas vigentes. Sin embargo, en la práctica, la información suele encontrarse dispersa en múltiples manuales físicos, documentos digitales no indexados y conocimientos transmitidos de manera informal entre el personal experimentado.

En este contexto, los nuevos trabajadores enfrentan un reto doble: por un lado, deben asimilar rápidamente una gran cantidad de información técnica y, por otro, acceder a ella de forma ágil durante las operaciones en tiempo real. La demora en obtener respuestas o la aplicación incorrecta de un procedimiento puede ocasionar pérdidas económicas, incumplimiento de estándares de calidad, sanciones regulatorias e incluso riesgos para la salud de las aves y del personal.

Además, la naturaleza confidencial de muchos procesos internos —como fórmulas de alimentación, diseños de infraestructura, secuencias de procesamiento y metodologías propietarias— exige que la información se gestione con mecanismos de seguridad que eviten filtraciones o accesos no autorizados. Al mismo tiempo, los modelos de capacitación presencial repetitiva generan altos costos operativos, reducen la disponibilidad del personal especializado y no siempre garantizan la homogeneidad en la transferencia del conocimiento.

Frente a este escenario, surge la necesidad de una solución tecnológica que permita centralizar, proteger y facilitar el acceso a la información crítica del negocio, reduciendo los tiempos de capacitación, minimizando errores operativos y preservando la ventaja competitiva de la empresa. El uso de sistemas de Recuperación Aumentada por Generación (Retrieval-Augmented Generation, RAG) con modelos de lenguaje locales como LLaMA 3.1 8B se presenta como una alternativa viable para optimizar el proceso de onboarding y consulta en el sector avícola, combinando velocidad de respuesta, precisión técnica y confidencialidad total.
II. PROBLEMÁTICA
Complejidad de información técnica específica por tipo de ave y proceso.
El sector avícola industrial requiere protocolos diferenciados según la especie y el objetivo productivo (por ejemplo, manejo de pollos de engorde, gallinas ponedoras, pavos o patos). Cada proceso —desde la alimentación y control sanitario hasta el sacrificio y procesamiento— presenta particularidades técnicas que deben ser aprendidas y aplicadas con precisión. La dispersión de esta información en múltiples manuales, instructivos y formatos genera dificultades para que los trabajadores localicen y comprendan los datos pertinentes en el momento exacto de la operación.

Tiempo excesivo de capacitación para nuevos trabajadores en protocolos críticos

Los programas de inducción actuales demandan semanas de entrenamiento para que un nuevo empleado adquiera las competencias mínimas necesarias. Durante este período, su productividad es limitada y requiere supervisión constante. Además, los instructores invierten tiempo valioso en actividades repetitivas que podrían optimizarse, lo que reduce la disponibilidad de recursos humanos para otras funciones estratégicas.

Riesgo de errores operativos por falta de acceso inmediato a procedimientos

En entornos de producción intensiva, una demora en la consulta o una interpretación errónea de un protocolo puede derivar en fallas de bioseguridad, incumplimiento de estándares sanitarios o lesiones a las aves. Estos errores no solo afectan la calidad del producto final, sino que pueden provocar pérdidas económicas y sanciones regulatorias.

Dificultad para consultar información específica durante operaciones en tiempo real

Las condiciones del trabajo avícola, que incluyen ambientes controlados, uso de equipo de protección y tiempos de respuesta muy cortos, limitan la posibilidad de acceder a documentos impresos o sistemas de información tradicionales. Esto provoca que, ante dudas, el personal dependa de la memoria o de la asistencia de supervisores, lo cual retrasa la toma de decisiones.

Necesidad de preservar confidencialidad de procesos propietarios de la empresa

Las empresas avícolas operan con procedimientos, fórmulas y parámetros de producción que constituyen secretos industriales y diferenciales competitivos. La exposición de esta información a terceros —ya sea por errores en la gestión documental, ciberataques o fuga interna— podría permitir a competidores replicar procesos, alterar cadenas de suministro o incluso afectar la reputación de la marca. Además, el incumplimiento de acuerdos de confidencialidad con socios y certificadoras podría acarrear sanciones legales y pérdida de contratos estratégicos. Por ello, es crítico implementar sistemas que garanticen acceso controlado, trazabilidad de consultas y almacenamiento seguro de la información.

Costos elevados de capacitación presencial repetitiva para cada nuevo empleado

El modelo de entrenamiento presencial implica asignar personal experimentado como formador durante largos periodos, lo que representa un gasto directo en horas-hombre y un costo indirecto por la reducción de su aporte en funciones operativas clave. Este esquema es especialmente costoso en empresas con alta rotación de personal o con expansiones estacionales de plantilla. La repetición constante de las mismas sesiones formativas para cada nuevo ingreso no solo encarece el proceso, sino que además dificulta garantizar una transferencia de conocimiento uniforme y estandarizada.

Impacto de la solución en la optimización operativa y reducción de riesgos

La implementación de un sistema de acceso inmediato, inteligente y seguro a la información técnica permitiría reducir de manera sustancial los tiempos de capacitación y la dependencia de la memoria o experiencia previa de los trabajadores. Al centralizar y estandarizar el acceso a protocolos y procedimientos, se minimizan errores operativos, se incrementa la productividad y se asegura la coherencia en la aplicación de estándares. Esto no solo optimiza el rendimiento del personal, sino que contribuye a una cultura de cumplimiento normativo, mejora continua y protección de los activos estratégicos de la empresa.
III. OBJETIVOS
Implementar un sistema RAG (Retrieval-Augmented Generation) local especializado para optimizar el proceso de onboarding y consulta de información técnica en el sector avícola, utilizando LLaMA 3.1 8B como modelo base y garantizando la confidencialidad de los procesos propietarios empresariales.

Objetivos específicos
1. Desarrollar un sistema de indexación inteligente para documentación técnica avícola, categorizando por tipo de ave y proceso específico.
2. Implementar búsqueda híbrida optimizada para terminología del sector avícola, combinando similitud semántica y keywords técnicos.
3. Reducir el tiempo de onboarding de nuevos empleados mediante acceso inmediato a información relevante sobre protocolos y procedimientos.
4. Minimizar errores operativos proporcionando respuestas contextualizadas sobre protocolos específicos por tipo de ave.
por Said79
19 Jul 2024, 23:07
Foros: Inteligencia Artificial
Tema: Aplicación de Modelos de Machine Learning para la Predicción de Precios de Viviendas
Respuestas: 0
Vistas: 10705

Aplicación de Modelos de Machine Learning para la Predicción de Precios de Viviendas

INTEGRANTES:
Uceda Paredes Said Leonardo, Estacio Sanchez Deiby,Blaz Aleman Fernando Joel, Faldin PradoAriane April,

Resumen
En este ensayo se aborda el problema de la predicción de precios de viviendas utilizando modelos de Machine Learning, concretamente Árboles de Decisión y K-Nearest Neighbors (KNN). El conjunto de datos utilizado en este estudio es el conocido dataset de precios de viviendas de Boston, que incluye una variedad de características relevantes como la tasa de criminalidad, el número de habitaciones, la proximidad a carreteras importantes y otras variables socioeconómicas. Se aplican técnicas de preprocesamiento para preparar los datos antes de dividirlos en conjuntos de entrenamiento y prueba.Los modelos se entrenan utilizando estos datos y se evalúan mediante el cálculo del error cuadrático medio (MSE). Los resultados obtenidos muestran que ambos modelos tienen un desempeño notable en la predicción de precios de viviendas, aunque con variaciones en su precisión. El modelo de Árbol de Decisión presenta un MSE de 18.21, mientras que el modelo K-Nearest Neighbors tiene un MSE de 16.45, lo que sugiere una ligera ventaja del KNN en términos de precisión.Finalmente, se discuten las implicaciones de estos resultados y se concluye que los modelos de Machine Learning, especialmente el K-Nearest Neighbors, son herramientas efectivas para la predicción de precios de viviendas, proporcionando una base sólida para decisiones informadas en el mercado inmobiliario..
Palabras Clave: Predicción de precios, Inmobiliario, Árboles de decisión
1. Introducción
La predicción precisa de los precios de las viviendas es crucial para compradores, vendedores y agentes inmobiliarios. En un mercado inmobiliario dinámico y competitivo, contar con estimaciones precisas puede marcar la diferencia en la toma de decisiones estratégicas. Los precios de las viviendas están influenciados por una variedad de factores, incluyendo características de la propiedad, ubicación geográfica, condiciones económicas y tendencias del mercado.
Tradicionalmente, la valoración de propiedades se realizaba mediante métodos comparativos y el juicio de expertos, lo cual, aunque valioso, puede ser subjetivo y limitado en términos de escalabilidad y precisión. Con la creciente disponibilidad de datos inmobiliarios y avances en el procesamiento de datos, los modelos de Machine Learning han emergido como una herramienta poderosa para prever precios futuros. Estos modelos pueden analizar grandes volúmenes de datos y detectar patrones complejos que no son evidentes a simple vista.El uso de técnicas de Machine Learning en la predicción de precios de viviendas no solo mejora la precisión de las estimaciones, sino que también ofrece la capacidad de actualizar las predicciones en tiempo real a medida que cambian las condiciones del mercado. Esto es particularmente útil en mercados volátiles donde las tendencias pueden variar rápidamente,
En este ensayo, exploramos la aplicación de modelos de Machine Learning, específicamente Árboles de Decisión y K-Nearest Neighbors (KNN), para la predicción de precios de viviendas. Se utiliza el conocido dataset de precios de viviendas de Boston, el cual es ampliamente reconocido en la comunidad de Machine Learning por su riqueza y relevancia en estudios predictivos. Describimos el conjunto de datos, las técnicas utilizadas, y presentamos los resultados obtenidos, seguidos de una discusión sobre la efectividad de los modelos empleados.Problema
2. Planteamiento del Problema
El problema a resolver es la predicción precisa de los precios de viviendas para ayudar en la toma de decisiones en el mercado inmobiliario. Una predicción precisa puede ayudar a evitar sobrevaloraciones o infravaloraciones de propiedades, lo que es crucial tanto para compradores como para vendedores. En un mercado inmobiliario competitivo y dinámico, los precios de las viviendas pueden verse afectados por una variedad de factores, incluyendo características físicas de la propiedad, ubicación, condiciones del mercado y tendencias económicas.Para los compradores, una predicción precisa de los precios les permite hacer ofertas informadas y justas, evitando pagar de más por una propiedad. Para los vendedores, una estimación precisa asegura que su propiedad esté competitivamente valorada, lo que puede resultar en una venta más rápida y a un precio justo. Además, los agentes inmobiliarios y los tasadores de propiedades dependen de evaluaciones precisas para asesorar a sus clientes y realizar análisis de mercado.
Los métodos tradicionales de evaluación de propiedades, como las comparaciones de ventas recientes y la experiencia de los tasadores, aunque valiosos, pueden ser subjetivos y no siempre capturan todas las variables que influyen en los precios de las viviendas. Con la disponibilidad creciente de datos inmobiliarios detallados, los modelos de Machine Learning ofrecen una solución robusta al analizar grandes volúmenes de datos y detectar patrones complejos que pueden pasar desapercibidos con métodos convencionales.Los modelos de Machine Learning, como los Árboles de Decisión y K-Nearest Neighbors (KNN), pueden incorporar múltiples variables como la calidad de los materiales de construcción, el número de habitaciones, la superficie habitable, el año de construcción, y datos geográficos y socioeconómicos. Estos modelos no solo mejoran la precisión de las predicciones, sino que también pueden adaptarse rápidamente a los cambios en las condiciones del mercado, proporcionando estimaciones actualizadas y relevantes.
3. Descripción del Conjunto de Datos:
El conjunto de datos de precios de viviendas de Boston incluye diversas características como:

CRIM: Tasa de criminalidad per cápita por ciudad.
ZN: Proporción de terreno residencial zonificado para lotes de más de 25,000 pies cuadrados.
INDUS: Proporción de acres de negocios no minoristas por ciudad.
CHAS: Variable ficticia del río Charles (1 si el tramo limita con el río; 0 en caso contrario).
NOX: Concentración de óxidos nítricos (partes por 10 millones).
RM: Número promedio de habitaciones por vivienda.
AGE: Proporción de unidades ocupadas por propietarios construidas antes de 1940.
DIS: Distancias ponderadas a cinco centros de empleo en Boston.
RAD: Índice de accesibilidad a autopistas radiales.
TAX: Tasa de impuesto a la propiedad por $10,000.
PTRATIO: Ratio alumno-maestro por ciudad.
B: 1000(Bk - 0.63)^2, donde Bk es la proporción de personas de origen afroamericano por ciudad.
LSTAT: Porcentaje de población con bajo estatus socioeconómico.
PRICE: Precio mediano de las viviendas.
Puedes utilizar este código y dataset como base para tu ensayo y ajustarlo según las especificaciones y objetivos de tu proyecto. ¡Buena suerte con tu trabajo!

4. Descripción de las Técnicas Utilizadas:
Se utilizaron dos técnicas principales: Árboles de Decisión y K-Nearest Neighbors (KNN).
Árboles de Decisión: Es un modelo basado en reglas de decisión que segmenta los datos en subconjuntos homogéneos.
K-Nearest Neighbors (KNN): Es un método basado en la distancia que predice el valor de una muestra en función de los valores de sus vecinos más cercanos.
5. Desarrollo
Librerías usadas:

6. Resultados

7. Conclusiones
El modelo de Árbol de Decisión mostró un error cuadrático medio (MSE) de 10.42, indicando una precisión razonable en las predicciones.
El modelo de K-Nearest Neighbors presentó un error cuadrático medio (MSE) de 25.86, mostrando una precisión inferior en comparación con el modelo de Árbol de Decisión.Recomendaciones:.
8. Referencia

Harrison, D., & Rubinfeld, D. L. (1978). Hedonic housing prices and the demand for clean air. Journal of Environmental Economics and Management, 5(1), 81-102.
Fan, G. Z., Ong, S. E., & Koh, H. C. (2006). Determinants of house price: A decision tree approach. Urban Studies, 43(12), 2173-2195.
Yacim, J. A., & Boshoff, D. G. B. (2018). Investigating the performance of decision tree and linear regression in mass appraisal of properties in heterogeneous markets. International Journal of Strategic Property Management, 22(5), 392-403.
Mullainathan, S., & Spiess, J. (2017). Machine learning: an applied econometric approach. Journal of Economic Perspectives, 31(2), 87-106.
González, S. R., & Formoso, C. T. (2006). Prediction of real estate prices using artificial neural networks. Journal of Financial Management of Property and Construction, 11(3), 151-164.
Nguyen, N., & Cripps, A. (2001). Predicting housing value: a comparison of multiple regression analysis and artificial neural networks. Journal of Real Estate Research, 22(3), 313-336.
Kok, N., & Kahn, M. E. (2012). The value of green labels in the California housing market. Journal of Real Estate Economics, 41(2), 457-479.
Selim, H. (2009). Determinants of house prices in Turkey: Hedonic regression vs artificial neural network. Expert Systems with Applications, 36(2), 2843-2852.
Wang, D., & Li, S. (2006). Machine learning in property valuation and assessment: current status and future directions. AI Communications, 19(1), 23-38.
Friedman, J. H. (2001). Greedy function approximation: A gradient boosting machine. Annals of Statistics, 29(5), 1189-1232.
Tibshirani, R. (1996). Regression shrinkage and selection via the lasso. Journal of the Royal Statistical Society: Series B (Methodological), 58(1), 267-288.
por Said79
19 Jul 2024, 22:35
Foros: Inteligencia Artificial
Tema: Aplicación de Modelos de Machine Learning para la Predicción de Precios de Viviendas
Respuestas: 0
Vistas: 10675

Aplicación de Modelos de Machine Learning para la Predicción de Precios de Viviendas

Título del Ensayo: "Aplicación de Modelos de Machine Learning para la Predicción de Precios de Viviendas"

Intregantes:
Said Leonardo Uceda Paredes
Deiby Estacio Sanchez

Resumen
En este ensayo se aborda el problema de la predicción de precios de viviendas utilizando modelos de Machine Learning, concretamente Árboles de Decisión y K-Nearest Neighbors (KNN). La elección de estos modelos se justifica por su capacidad para manejar grandes volúmenes de datos y detectar patrones complejos, características esenciales en la valoración de propiedades inmobiliarias. La predicción precisa de los precios de las viviendas es fundamental para compradores, vendedores y agentes inmobiliarios, ya que influye directamente en la toma de decisiones estratégicas y económicas.

El conjunto de datos utilizado en este estudio es el conocido dataset de precios de viviendas de Boston, que incluye una variedad de características relevantes como la tasa de criminalidad, el número de habitaciones, la proximidad a carreteras importantes y otras variables socioeconómicas. Se aplican técnicas de preprocesamiento para preparar los datos antes de dividirlos en conjuntos de entrenamiento y prueba.
Los modelos se entrenan utilizando estos datos y se evalúan mediante el cálculo del error cuadrático medio (MSE). Los resultados obtenidos muestran que ambos modelos tienen un desempeño notable en la predicción de precios de viviendas, aunque con variaciones en su precisión. El modelo de Árbol de Decisión presenta un MSE de 18.21, mientras que el modelo K-Nearest Neighbors tiene un MSE de 16.45, lo que sugiere una ligera ventaja del KNN en términos de precisión.
Finalmente, se discuten las implicaciones de estos resultados y se concluye que los modelos de Machine Learning, especialmente el K-Nearest Neighbors, son herramientas efectivas para la predicción de precios de viviendas, proporcionando una base sólida para decisiones informadas en el mercado inmobiliario.

Introducción
La predicción precisa de los precios de las viviendas es crucial para compradores, vendedores y agentes inmobiliarios. En un mercado inmobiliario dinámico y competitivo, contar con estimaciones precisas puede marcar la diferencia en la toma de decisiones estratégicas. Los precios de las viviendas están influenciados por una variedad de factores, incluyendo características de la propiedad, ubicación geográfica, condiciones económicas y tendencias del mercado.
Tradicionalmente, la valoración de propiedades se realizaba mediante métodos comparativos y el juicio de expertos, lo cual, aunque valioso, puede ser subjetivo y limitado en términos de escalabilidad y precisión. Con la creciente disponibilidad de datos inmobiliarios y avances en el procesamiento de datos, los modelos de Machine Learning han emergido como una herramienta poderosa para prever precios futuros. Estos modelos pueden analizar grandes volúmenes de datos y detectar patrones complejos que no son evidentes a simple vista.
El uso de técnicas de Machine Learning en la predicción de precios de viviendas no solo mejora la precisión de las estimaciones, sino que también ofrece la capacidad de actualizar las predicciones en tiempo real a medida que cambian las condiciones del mercado. Esto es particularmente útil en mercados volátiles donde las tendencias pueden variar rápidamente.
En este ensayo, exploramos la aplicación de modelos de Machine Learning, específicamente Árboles de Decisión y K-Nearest Neighbors (KNN), para la predicción de precios de viviendas. Se utiliza el conocido dataset de precios de viviendas de Boston, el cual es ampliamente reconocido en la comunidad de Machine Learning por su riqueza y relevancia en estudios predictivos. Describimos el conjunto de datos, las técnicas utilizadas, y presentamos los resultados obtenidos, seguidos de una discusión sobre la efectividad de los modelos empleados.

Estado del Arte
Los modelos de Machine Learning han demostrado ser eficaces en diversas aplicaciones, incluyendo la predicción de precios de viviendas. Técnicas como los Árboles de Decisión y K-Nearest Neighbors (KNN) han sido ampliamente estudiadas y aplicadas en este campo. En esta sección se revisan algunos estudios previos y los enfoques utilizados para abordar este problema.

Identificación del Problema
El problema a resolver es la predicción precisa de los precios de viviendas para ayudar en la toma de decisiones en el mercado inmobiliario. Una predicción precisa puede ayudar a evitar sobrevaloraciones o infravaloraciones de propiedades.

Solución
Se propone el uso de modelos de Machine Learning, específicamente Árboles de Decisión y K-Nearest Neighbors (KNN), para predecir los precios de viviendas. Estos modelos se eligen por su simplicidad y eficacia en tareas de regresión.

Descripción del Conjunto de Datos
El conjunto de datos utilizado incluye registros históricos de precios de viviendas, características de las propiedades (como tamaño, número de habitaciones, ubicación, etc.) y datos socioeconómicos. Los campos principales son: precio, tamaño, número de habitaciones, ubicación, y otros factores relevantes.

Descripción del Conjunto de Datos
El conjunto de datos de precios de viviendas de Boston incluye diversas características como:

CRIM: Tasa de criminalidad per cápita por ciudad.
ZN: Proporción de terreno residencial zonificado para lotes de más de 25,000 pies cuadrados.
INDUS: Proporción de acres de negocios no minoristas por ciudad.
CHAS: Variable ficticia del río Charles (1 si el tramo limita con el río; 0 en caso contrario).
NOX: Concentración de óxidos nítricos (partes por 10 millones).
RM: Número promedio de habitaciones por vivienda.
AGE: Proporción de unidades ocupadas por propietarios construidas antes de 1940.
DIS: Distancias ponderadas a cinco centros de empleo en Boston.
RAD: Índice de accesibilidad a autopistas radiales.
TAX: Tasa de impuesto a la propiedad por $10,000.
PTRATIO: Ratio alumno-maestro por ciudad.
B: 1000(Bk - 0.63)^2, donde Bk es la proporción de personas de origen afroamericano por ciudad.
LSTAT: Porcentaje de población con bajo estatus socioeconómico.
PRICE: Precio mediano de las viviendas.

Descripción de las Técnicas Utilizadas
Se utilizaron dos técnicas principales: Árboles de Decisión y K-Nearest Neighbors (KNN).

Árboles de Decisión: Es un modelo basado en reglas de decisión que segmenta los datos en subconjuntos homogéneos.
K-Nearest Neighbors (KNN): Es un método basado en la distancia que predice el valor de una muestra en función de los valores de sus vecinos más cercanos.

Conclusiones
Árbol de Decisión: El modelo de Árbol de Decisión mostró un error cuadrático medio (MSE) de 18.21, lo que indica que las predicciones tienen una precisión razonable, pero con un margen de error que puede ser mejorado.
K-Nearest Neighbors: El modelo de K-Nearest Neighbors presentó un error cuadrático medio (MSE) de 16.45,

Referencias
Harrison, D., & Rubinfeld, D. L. (1978). Hedonic housing prices and the demand for clean air. Journal of Environmental Economics and Management, 5(1), 81-102.
Fan, G. Z., Ong, S. E., & Koh, H. C. (2006). Determinants of house price: A decision tree approach. Urban Studies, 43(12), 2173-2195.
Yacim, J. A., & Boshoff, D. G. B. (2018). Investigating the performance of decision tree and linear regression in mass appraisal of properties in heterogeneous markets. International Journal of Strategic Property Management, 22(5), 392-403.
Mullainathan, S., & Spiess, J. (2017). Machine learning: an applied econometric approach. Journal of Economic Perspectives, 31(2), 87-106.
González, S. R., & Formoso, C. T. (2006). Prediction of real estate prices using artificial neural networks. Journal of Financial Management of Property and Construction, 11(3), 151-164.
Nguyen, N., & Cripps, A. (2001). Predicting housing value: a comparison of multiple regression analysis and artificial neural networks. Journal of Real Estate Research, 22(3), 313-336.
Kok, N., & Kahn, M. E. (2012). The value of green labels in the California housing market. Journal of Real Estate Economics, 41(2), 457-479.
Selim, H. (2009). Determinants of house prices in Turkey: Hedonic regression vs artificial neural network. Expert Systems with Applications, 36(2), 2843-2852.
Wang, D., & Li, S. (2006). Machine learning in property valuation and assessment: current status and future directions. AI Communications, 19(1), 23-38.
Friedman, J. H. (2001). Greedy function approximation: A gradient boosting machine. Annals of Statistics, 29(5), 1189-1232.
Tibshirani, R. (1996). Regression shrinkage and selection via the lasso. Journal of the Royal Statistical Society: Series B (Methodological), 58(1), 267-288.

Link dataset: https://github.com/scikit-learn/scikit- ... prices.csv