Bolsista mestre ( Cientista de Dados – NLP e Sistemas de Busca Semântica) ICT ITAÚ
Projeto de inovação da ICT ITAÚ em parceria Inova Talentos .
Pré-Requisitos:
- Perfil do bolsista: mestrado
- Formação: mestrado cursando ou concluído.
- Cursos: Ciência da Computação, Engenharia de Computação/Software, Sistemas de Informação, Estatística, Matemática Aplicada, Engenharia Elétrica, Ciência de Dados ou áreas correlatas das Ciências Exatas e Engenharias.
Atividades:
1. Pré-processamento e enriquecimento de textos
- Limpeza, tokenização, lematização e remoção de ruídos em documentos textuais.
- Extração de características (features) relevantes para modelos de NLP.
2. Geração e gestão de embeddings
- Criar embeddings de documentos e consultas usando modelos como Sentence‑BERT, OpenAI ada ou similares.
- Armazenar e indexar embeddings em bancos vetoriais (FAISS, ChromaDB, Qdrant ou Pinecone).
3. Construção de pipelines de busca semântica, recuperação de informação e aplicações com RAG
- Desenvolver pipelines que combinam: consulta → embedding → busca vetorial → re-ranking (opcional) → uso do contexto recuperado em aplicações com RAG.
- Avaliar a qualidade da recuperação e das respostas geradas em cenários de NLP e RAG, utilizando métricas como recall@k e MRR.
4. Adaptação e experimentação com modelos em PyTorch ou TensorFlow
- Utilizar modelos pré-treinados e adaptá-los para tarefas específicas, como classificação, similaridade e extração de informação, com ajustes simples quando necessário.
- Experimentar com diferentes arquiteturas (transformers, redes neurais simples).
5. Documentação e versionamento
- Documentar pipelines, decisões técnicas e resultados de experimentos.
- Utilizar Git para controle de versão do código.
Conhecimentos necessários
• Programação em Python com domínio de tipagem, manipulação de dados (pandas/polars) e uso de ambientes virtuais.
• Experiência prática com NLP incluindo: tokenização, stemming/lematização, remoção de stopwords, vetorização (TF IDF, word2vec ou embeddings).
• Conhecimento aplicado de embeddings, busca semântica e técnicas de RAG (ex.: Sentence BERT, modelos de embeddings atuais ou similares), além de familiaridade com bancos vetoriais (ex.: FAISS, ChromaDB, Pinecone, Qdrant).
• Experiência com pelo menos um framework de deep learning (PyTorch ou TensorFlow) – suficiente para carregar modelos pré treinados e fine tuning simples.
• Noção de pipelines analíticos e experimentação em ciência de dados aplicada a NLP (ex.: extração → pré processamento → embedding → busca/classificação → geração com contexto) e versionamento com Git.
Requisitos desejáveis (diferenciais)
• Experiência com modelos gerativos (LLMs), engenharia de prompts e avaliação de respostas será um diferencial importante.
• Conhecimento de bancos relacionais (PostgreSQL) e NoSQL (MongoDB, Redis).
• Vivência em projetos reais (acadêmicos ou profissionais) com documentação e testes.
Informações adicionais:
- Disponibilidade: 40h semanais
- Duração: 12 meses
- Bolsa Auxílio: R$ 9.000,00
- Atuação: Remota
Conheça o INOVA TALENTOS
https://vimeo.com/676464243/165a0bf5f5
https://vimeo.com/fabrikafilmes/review/680121344/b5b3c6e91d
Requisitos
Estudos
Sobre IEL
Desde 1969, ano em que nosso instituto foi criado pela Confederação Nacional da Indústria (CNI), e especialmente a partir da década de 90, com a abertura do mercado brasileiro à concorrência externa, a dinâmica do mercado mundial ganhou celeridade impulsionada pela tecnologia.
É nesse novo horizonte de desafios que nosso instituto assume o papel de conectar indústria e centros de conhecimento, com atuação estratégica e integrada em frentes emergentes para o desenvolvimento industrial.
Aqui no IEL, nos dedicamos a orientar a liderança do presente e moldar a do futuro. Apostamos na formação de competências desde o estágio, etapa inicial da carreira, e nos posicionamos como uma instituição parceira e essencial na jornada profissional de estudantes, pesquisadores, executivos e gestores industriais.
Conhecemos os desafios e papéis da indústria do futuro. Como resultado, apostamos em programas de desenvolvimento de lideranças capazes de inovar e impulsionar a competitividade industrial.
Seguimos comprometidos em aprimorar a eficiência, a gestão de empresas parceiras e encorajar a diversificação de serviços e produtos adaptados aos desafios de mercado.
No âmbito da pesquisa, desenvolvimento e inovação (PD&I), apostamos na conexão entre indústrias e pesquisadores por meio da oferta de bolsas de pesquisa no Brasil e no exterior.
O desenvolvimento de programas e soluções voltados para PD&I está entre nossos investimentos por serem essenciais para o futuro da indústria brasileira.
Temos ciência de que, ao investir no desenvolvimento de talentos, formação de líderes, gestão eficiente e inovação, é possível construir uma indústria mais forte, competitiva e sustentável para o futuro.
Com quase seis décadas de dedicação à indústria, hoje estamos presentes em todas as regiões do país. É por meio da estrutura nacional do Sistema Indústria que estimulamos a autonomia das nossas unidades, núcleos regionais e multiplicadores de nossos negócios.