DeWolff Consultoría

Ciência de Dados e Inteligência Artificial

Desenvolvemos aplicações e modelos para projetos industriais reais, resolvendo problemas de forma inteligente usando novas técnicas na área de inteligência artificial e aprendizagem de máquinas. Nossa formação científica nos permite compreender e implementar os últimos modelos publicados.

Serviços

Modelos e aplicações

Somos especializados em criar soluções para clientes que desejam extrair informações-chave de seus processos. Ou seja, com a vasta quantidade de dados disponíveis nos bancos de dados, podemos tirar conclusões, prever eventos, condensar informações, preencher dados ausentes, encontrar tendências, etc., a fim de tomar decisões inteligentes e economizar recursos humanos.

Utilizamos vários objetivos (regressão, classificação, agrupamento e outros) e modelos (redes neurais, processos gaussianos, autocodificadores e outros) para responder perguntas como, por exemplo:

  • Quando meu sistema falhará para antecipá-lo?
  • Como posso minimizar os riscos em emprestar dinheiro aos clientes?
  • Onde é provável encontrar minerais no solo?
  • Onde posso concentrar meus esforços para mitigar os incêndios ou o desmatamento?
  • Como posso otimizar a produção agrícola em termos de clima?

Big Data

Quando definimos big data usamos os três Vs: volume, velocidade e variedade. Para gerenciar uma abundância de fluxo de dados, novas técnicas marcaram o passado recente na resolução de partes do problema. Os dados são registrados em sensores ou fontes de dados, onde são extraídos, transformados e carregados (ETL) em um data lake ou warehouse (por exemplo, SQL, Snowflake, Databricks). Os dados são então processados pelo gerenciamento de sistemas de cluster onde trabalham em conjunto e simultaneamente para alimentar um modelo. Isso pode ser feito com software como Hadoop (incluindo Spark), Kubernetes, Azure e muitos outros.

Computer Vision

As redes neurais de aprendizagem profunda fizeram grandes progressos na compreensão de alto nível de imagens e vídeos. O domínio inclui avanços na classificação de imagens, detecção de objetos e rastreamento de objetos, permitindo novos modelos para interpretar, por exemplo, imagens médicas, imagens de satélite, vídeos das rodoviárias para carros de condução automática ou para reconhecimento facial, leitura de texto em imagens, etc. É um campo em rápida evolução com modelos recentes de redes neurais convolucionais profundas (CNN), incluindo Yo Only Look Once (YOLO), EfficientNet + Feature Pyramid Network (FPN) usando TensorFlow ou PyTorch.

Predição

Um campo clássico do Machine Learning é a classificação e regressão, geralmente para interpolação (imputação) ou extrapolação (predição) de dados. Os kits de ferramentas amplamente utilizados incluem o scikit-learn, um kit completo em Python com algoritmos para classificação; agrupamento; regressão; e redução de dimensionalidade, e outras ferramentas gerais de computação numérica, como NumPy e SciPy. Os dados são carregados e manipulados usando Pandas e podem ser executados usando Jupyter Notebooks.

Fizemos um extenso trabalho em um Gaussian process regression toolkit amplamente utilizado pela indústria e academia.

Projectos

AI4Manatees convervação

Análise de vocalizações de peixes-boi a partir de gravações de áudio subaquáticas em colaboração com C Minds, AI4Climate, ECOSUR e Universidade do Chile com apoio do Google. Usando Transformadores de Espectrograma de Áudio (ASTs), um poderoso modelo de aprendizado de máquina, é possível detectar vocalizações de peixes-boi e estimar o tamanho do grupo, permitindo que pesquisadores e profissionais de conservação entendam melhor seu comportamento e padrões de comunicação entre peixes-boi.

FairTrade detecção do desmatamento

Detecção do desmatamento em América Latina e Caribe desde o espaço em colaboração com Inria, CEPAL e FairTrade. Usando um modelo de aprendizagem profundo (deep learning) de segmentação (por exemplo, UNet, Feature Pyramid Networks, e Pyramid Attention Networks) é possível aprender as características do desmatamento das bandas espectrais das imagens de satélite (Sentinel1 e Sentinel2, Copernicus). Um exemplo de uma região em Brasil à direita mostra a predição do desmatamento em vermelho.

VZOR Brain

Previsão de falhas a partir de alertas e logs em servidores com aplicações e sites. Usando CPU, memória, conexão, etc., alertas de uso excessivo ou problemas, um classificador aprende se o sistema irá cair em breve e quais computadores são as causas. Usamos o classificador XGBoost em conjunto com a LDA para extrair tópicos das mensagens de alerta, SMOTE para equilibrar os dados, e LIME para tornar os resultados interpretáveis.

Treinamento da equipe do BancoEstado

Em conjunto com o Centro de Modelagem Matemática da Universidade do Chile, projetamos um curso de aprendizagem de máquinas incluindo: uma introdução à inteligência artificial, uso básico da Python científica (NumPy, SciPy, Pandas, scikit-learn, PyTorch), regressão, classificação, otimização, agrupamento, máquinas vetoriais de suporte, vizinhos K-nearest, validação cruzada, redes neurais, florestas aleatórias, XGBoost, redes e gráficos Bayesianos. O curso foi concluído com a implementação de um modelo de custos de vendas a partir de dados reais de bancos de crédito.

Multi-output Gaussian process toolkit

Desenvolvimento de um conjunto de ferramentas em Python e PyTorch para regressão e classificação usando processos Gaussianos para múltiplas saídas. A biblioteca implementa tudo desde o carregamento e manipulação de dados, inicialização e treinamento de hiperparâmetros, até a visualização e interpretação de modelos. O kit de ferramentas tem uma grande variedade de modelos, probabilidades e kernels implementados, e permite o treinamento de GPU de alta performance.

GitHub repositório: https://github.com/GAMES-UChile/mogptk

Parceiros e clientes

BancoEstado Fairtrade Universidad de Chile INRIA ECLAC VZOR CMM C MINDS AI4Climate

Contato

  • Taco de Wolff
  • Cientista de dados
  • Mestrado em Física (U. de Groningen)