Что такое Docling?
2026-04-14
De Novo Cloud Expert
Docling — это инструмент с открытым исходным кодом для обработки документов, который преобразует содержимое разных форматов в унифицированное структурированное представление. Решение поддерживает PDF, DOCX, XLSX, PPTX, HTML, Markdown, изображения, аудиофайлы и другие форматы, а также выполняет углублённый анализ PDF-документов, включая порядок чтения, таблицы, формулы и элементы макета.
Функция Docling парсит и експортирует документы в Markdown, HTML, WebVTT, DocTags, JSON и другие форматы без потери логики структуры. Это удобно для построения конвейеров генерации с дополнением поиском (RAG, retrieval-augmented generation), семантического поиска, индексации документов, извлечения текста и подготовки корпусов данных для последующего машинного анализа.
Дополнительно Docling имеет локальный режим выполнения для чувствительных данных и изолированных сред, а также поддерживает оптическое распознавание текста (OCR, optical character recognition) для сканированных PDF и изображений. Благодаря этому его можно использовать не только в открытых интеграционных сценариях, но и в контурах, где обработка документов должна происходить внутри контролируемой инфраструктуры.