DeWolff Consultoría

Ciencia de Datos e Inteligencia Artificial

Desarrollamos aplicaciones y modelos para proyectos reales de la industria, resolviendo problemas de manera inteligente usando técnicas nuevas en el área de la inteligencia artificial y aprendizaje de máquinas. Nuestra formación científica nos permite comprender e implementar los últimos modelos publicados.

Servicios

Modelos y aplicaciones

Especializamos en crear soluciones para clientes que quieren extraer información clave de sus procesos. Es decir, con la gran cantidad de datos disponibles dentro de bases de datos, podemos sacar conclusiones, predecir eventos, condensar información, rellenar datos faltantes, encontrar tendencias, etc. con finalidad de tomar decisiones inteligentes y ahorrar recursos humanos.

Utilizamos varios objetivos (regresión, clasificación, clustering y otros) y modelos (redes neuronales, procesos Gaussianos, auto encoders y otros) para responder a preguntas como:

  • ¿Cuándo fallará mi sistema para anticiparlo?
  • ¿Cómo puedo minimizar los riesgos para prestar dinero a clientes?
  • ¿En qué parte es más probable encontrar minerales en el suelo?
  • ¿Dónde enfocar esfuerzos para mitigar incendios o deforestaciones?
  • ¿Cómo puedo optimizar la producción de cultivos en cuanto al clima?

Big Data

Cuando definimos big data utilizamos las tres V: volumen, velocidad y variedad. Para gestionar una gran cantidad de flujo de datos, nuevas técnicas han marcado el pasado reciente para resolver partes del problema. Los datos se registran en sensores o fuentes de datos, donde se extraen, transforman y cargan (ETL) en un data lake o warehouse (por ejemplo, SQL, Snowflake, Databricks). Luego, los datos se procesan mediante la gestión de sistemas de clúster donde nodos separados trabajan de forma conjunta y simultánea para alimentar un modelo. Esto se puede hacer con software como Hadoop (incluido Spark), Kubernetes, Azure y muchos otros.

Computer Vision

Las redes neuronales de aprendizaje profundo han logrado grandes avances en la comprensión de imágenes y vídeos. El dominio incluye avances en clasificación de imágenes, detección de objetos y seguimiento de objetos, lo que permite que nuevos modelos interpreten, por ejemplo, imágenes médicas, imágenes de satélite, vídeos para la conducción automática de autos o para reconocimiento facial, lectura de texto en imágenes, etc. Es un campo que se mueve rápidamente con modelos recientes de redes neuronales convolucionales profundas (CNN), incluidos Yo Only Look Once (YOLO), EfficientNet + Feature Pyramid Network (FPN) que utilizan TensorFlow o PyTorch.

Predicción

Un campo clásico del Machine Learning es la clasificación y la regresión, generalmente para la interpolación (imputación) o extrapolación (predicción) de datos. Los kits de herramientas más utilizados incluyen scikit-learn, un kit de herramientas completo en Python con algoritmos para clasificación; agrupamiento; regresión; y reducción de dimensionalidad, y otras herramientas informáticas numéricas generales como NumPy y SciPy. Los datos se cargan y manejan usando Pandas y se pueden ejecutar usando Jupyter Notebooks.

Hemos realizado un trabajo extenso en un Gaussian process regression toolkit ampliamente utilizado por la industria y academia.

Proyectos

AI4Manatees conservación

Análisis de vocalizaciones de manatíes a partir de grabaciones de audio submarinas en colaboración con C Minds, AI4Climate, ECOSUR y la Universidad de Chile con apoyo de Google. Usando Transformadores de Espectrogramas de Audio (ASTs), un modelo de aprendizaje de máquinas poderoso, es posible detectar vocalizaciones de manatíes y estimar el tamaño del grupo, permitiendo a investigadores y profesionales de la conservación comprender mejor su comportamiento y los patrones de comunicación entre manatíes.

FairTrade detección de deforestación

Detección de deforestación en América Latina y el Caribe desde el espacio en colaboración con Inria, CEPAL y FairTrade. Usando un modelo de aprendizaje profundo (deep learning) de segmentación (por ejemplo UNet y Feature Pyramid Networks) es posible aprender las características de deforestación de las bandas espectrales de las imágenes de satélite (Sentinel1 y Sentinel2, Copernicus).

VZOR Brain

Pronósticos de fallas desde las alertas y logs en servidores con aplicaciones y sitios. Usando alertas de CPU, memoria, conexiones, etc. de sobreúso o problemas, un clasificador aprende y predecir si el sistema caerá pronto y cuáles equipos son las causas. Usamos el clasificador XGBoost en conjunto con LDA para extraer tópicos de los mensajes de alertas, SMOTE para balancear los datos, y LIME para hacer interpretables los resultados.

Capacitación del equipo de BancoEstado

En conjunto con el Centro de Modelamiento Matemático de la Universidad de Chile, hemos diseñado un curso de aprendizaje de máquinas incluyendo: una introducción a la inteligencia artificial, uso básico de Python científico (NumPy, SciPy, Pandas, scikit-learn, PyTorch), regresión, clasificación, optimización, clustering, support vector machines, K-nearest neighbours, validación cruzada, redes neuronales, random forests, XGBoost, redes Bayesianas y grafos. El curso concluyó con la implementación de un modelo de costo-venta desde datos reales del banco de créditos.

Multi-output Gaussian process toolkit

Desarrollo de un toolkit en Python y PyTorch para regresión y clasificación usando procesos Gaussianos para múltiples salidas. La librería implementa desde cargar y manipular los datos, la inicialización y entrenamiento de hiperparámetros, hasta la visualización e interpretación del modelo. El toolkit tiene una gran variedad de modelos, verosimilitudes, y kernels implementado, y permite el entrenamiento de alto rendimiento en GPU.

GitHub repositorio: https://github.com/GAMES-UChile/mogptk

Partners y clientes

BancoEstado Fairtrade Universidad de Chile INRIA ECLAC VZOR CMM C MINDS AI4Climate

Contacto

  • Taco de Wolff
  • Founder, Científico de Datos
  • Magíster en Física (U. de Groningen)