Como começamos com Python para IA e dados na Harmo — do básico ao prático

Posted on Mar 3, 2026
cloud-native

Introdução

Na Harmo, lidamos com grandes volumes de dados, modelos de IA e pipelines que precisam ser eficientes, escaláveis e fáceis de manter. Python surgiu como a linguagem principal por sua versatilidade, ecossistema maduro e fácil integração com ferramentas de ML/IA, como TensorFlow, PyTorch e LangChain. Utilizamos Python desde 2017 com foco em scrappings, ML e data pipelines (com Spark e EMR).

Neste artigo vamos:

  • Mostrar o porquê de Python ser essencial para IA e dados;
  • Apresentar conceitos práticos usados no dia a dia da Harmo;
  • Demonstrar exemplos de código e pipelines reais.

🧠 Por que Python para IA e Dados

Python se tornou o padrão para IA e ciência de dados por:

  1. Ecossistema rico: NumPy, Pandas, scikit-learn, PyTorch, etc.
  2. Documentação e comunidade com suporte massivo.
  3. Produtização facilitada, APIs e deployment com FastAPI, Docker, etc.

Na Harmo, usamos Python em:

  • ETL de dados (extração, transformação e carga);
  • Treinamento e inferência de modelos;
  • Orquestração de pipelines (Airflow / Prefect);
  • APIs de serviço inteligente.

🔧 Começando com Python

Antes de tudo, vamos configurar um ambiente de desenvolvimento.

Instalar Python e Virtualenv

# instalar pyenv (opcional)
curl https://pyenv.run | bash

# instalar Python 3.11
pyenv install 3.11.2
pyenv local 3.11.2

# criar virtualenv
python -m venv .venv
source .venv/bin/activate

Dependências comuns na Harmo

pip install pandas numpy scikit-learn torch transformers fastapi uvicorn

📊 Trabalhando com Dados

Na Harmo, muitos dados vêm de feedback de usuários, logs de uso e integrações externas. O Pandas é nossa ferramenta principal.

Exemplo de carregamento e análise

import pandas as pd

df = pd.read_csv("feedbacks.csv")
print(df.head())

# contar tópicos mais frequentes
top_topics = df["topic"].value_counts().nlargest(10)
print(top_topics)

🤖 IA Prática em Python

Modelos de NLP com Transformers

from transformers import pipeline

classifier = pipeline("sentiment-analysis")

results = classifier([
    "A experiência com o produto foi ótima!",
    "O sistema ficou fora do ar por muito tempo."
])

for r in results:
    print(r)

Esse tipo de análise é usado na Harmo para:

  • entender feedback de clientes;
  • classificar comentários por sentimento;
  • alimentar dashboards de decisão.

🚀 Orquestração de Pipelines

Usamos Airflow ou Prefect para agendar tarefas de dados e IA.

Exemplo (Prefect)

from prefect import flow, task

@task
def extract():
    ...

@task
def transform(data):
    ...

@task
def load(data):
    ...

@flow
def etl_pipeline():
    data = extract()
    transformed = transform(data)
    load(transformed)

PS.: Farei um artigo sobre como utilizar pipelines airflow pra orquestrar pods K8S para tarefas.

📡 APIs Inteligentes com FastAPI

Depois de treinar modelos, a próxima etapa é disponibilizar inferência via API:

from fastapi import FastAPI
import torch

app = FastAPI()

@app.post("/predict")
def predict(text: str):
    # chamada do modelo treinado
    return {"prediction": "positivo"}

Servimos essas APIs em containers Docker e fazemos deploy com CI/CD.

🧪 Testes e Qualidade

No dia a dia da Harmo, código de dados e IA é coberto por testes unitários:

pip install pytest
def test_model_output():
    assert model.predict("bom") == "positivo"

📈 Métricas e Monitoramento

Importante acompanhar:

  • Latência de inferência
  • Precisão / recall dos modelos
  • Logs e alertas

Usamos ferramentas como:

  • Prometheus
  • Grafana
  • Newrelic

🧪 Lições aprendidas na Harmo

  1. Comece simples: protótipos ajudam validar modelos antes de escalar.
  2. Automatize tudo: da coleta de dados até o deploy.
  3. Monitore em produção: sem métricas, não há melhoria.
  4. Código é arte e engenharia: mantenha legível e testado.

🔚 Conclusão

Python não é apenas uma linguagem, é a base sobre a qual construímos valor em IA e dados na Harmo. Seu ecossistema acelerou nossa entrega de soluções inteligentes e nos permitiu inovar constantemente.

Se você está começando, foque em dominar:

  • pandas/numpy
  • ML frameworks
  • APIs e deploy
  • Testes e automação

Python faz a ponte entre dados e impacto real.