AI Developer – Document Intelligence (Python/NLP/OCR/GenAI)

180 - 200 PLNNet per hour - B2B

AI Developer – Document Intelligence (Python/NLP/OCR/GenAI)

AI/ML

-, Gdańsk +4 Locations

emagine Polska

180 - 200 PLN
Net per hour - B2B
Full-time
B2B
Mid
Remote

Tech stack

    English

    C1

    Machine Learning

    regular

    NLP

    regular

    LLM

    regular

    Information Extraction

    regular

    Open-source OCR Tools

    regular

    Document AI

    regular

    Python

    regular

    Generative AI

    regular

Job description

Lokalizacja: Zdalnie, z okazjonalnymi wizytami w biurze

Forma współpracy: Full-time / B2B

Branża: Bankowość

Start: ASAP / do ustalenia

Czas trwania projektu: Min. 12 miesięcy z możliwością przedłużenia

Język projektu: Angielski


Opis projektu:

Poszukujemy doświadczonego AI Developera, który wniesie silne kompetencje w obszarze Document AI, Information Extraction oraz Generative AI. Projekt obejmuje rozwój i wdrażanie modeli do ekstrakcji i klasyfikacji danych z dokumentów strukturalnych i niestrukturalnych (PDF, skany, obrazy), z wykorzystaniem narzędzi OCR i NLP oraz nowoczesnych podejść opartych na GenAI.


Zakres obowiązków:

  • Projektowanie i wdrażanie modeli do ekstrakcji danych z dokumentów
  • Tworzenie rozwiązań klasyfikujących dokumenty przy użyciu NLP i GenAI
  • Przetwarzanie dokumentów różnego typu (umowy, faktury, CV, wnioski itp.)
  • Integracja open-source narzędzi OCR z pipeline’ami NLP/ML
  • Współpraca z zespołami biznesowymi i developerskimi
  • Udział w pełnym cyklu tworzenia rozwiązań: od prototypu do produkcji
  • Praca w środowisku Agile/DevOps z CI/CD


Wymagania kluczowe – czego szukamy:

  1. Doświadczenie w Document AI / Information Extraction
  • Praktyczna praca z dokumentami strukturalnymi i niestrukturalnymi
  • Wykorzystanie NLP/OCR do ekstrakcji danych (np. nazwy, daty, adresy)
  • Tworzenie modeli klasyfikujących i wyodrębniających informacje z dokumentów
  1. Generative AI w kontekście dokumentów
  • Zastosowanie LLM (np. GPT, LLaMA) do klasyfikacji lub ekstrakcji treści
  • Znajomość technik takich jak prompting lub fine-tuning
  • Umiejętność wyjaśnienia realnego use-case GenAI z dokumentami
  1. Znajomość open-source OCR tools
  • Praca z narzędziami takimi jak: Tesseract, LayoutLM, DocTR, PaddleOCR
  • Rozumienie ich ograniczeń i decyzji, kiedy użyć własnego modelu lub API
  1. Bardzo dobre umiejętności w Python + ML/NLP
  • Swobodne programowanie w Pythonie
  • Znajomość pipeline’ów ML (np. scikit-learn, spaCy, Hugging Face)
  • Użycie RegEx, OpenCV, NLP do przetwarzania tekstów i obrazów
  1. Zdolność do projektowania rozwiązań od A do Z
  • Umiejętność zaproponowania podejścia do typowych zadań (np. klasyfikacja faktury vs. CV)
  • Przenoszenie wiedzy między projektami, myślenie inżynierskie i analityczne



Published: 20.08.2025
Office location