Notebookcheck Logo

O modelo DeepSeek OCR AI pode processar 200.000 páginas de documentos por dia em uma única GPU Nvidia A100

Uma GPU Nvidia A100 (Fonte da imagem: Nvidia)
Uma GPU Nvidia A100 (Fonte da imagem: Nvidia)
O DeepSeek está se preparando para revolucionar o aprendizado de IA com um novo modelo de compressão de OCR de código aberto. Graças à sua codificação óptica avançada, o DeepSeek pode aprender com mais de 200.000 páginas de documentos por dia em uma única GPU Nvidia A100.

Com a proliferação de data centers de IA e os custos de processamento associados, o ônus agora recai sobre a eficiência do algoritmo, e nenhum modelo de linguagem parece fazer isso melhor do que o DeepSeek. Seus modelos são de código aberto, e seu treinamento tem um custo muito menor do que o do ChatGPT da OpenAI ou do Gemini do Google.

O recém-anunciado modelo DeepSeek-OCR é um excelente exemplo de eficiência de aprendizado. Usando o mapeamento óptico, ele pode compactar documentos extremamente longos, convertendo-os em imagens com uma precisão de reconhecimento de 97% em uma taxa de compactação inferior a 10 vezes.

Com o uso de codificador e decodificador avançados, mais de nove tokens com texto de documento podem ser convertidos em um único token visual, diminuindo consideravelmente os recursos de computação necessários para processar o conteúdo. Mesmo com uma taxa de compactação de 20x, o novo sistema DeepSeek-OCR pode atingir 60% de precisão no reconhecimento óptico, um feito sem precedentes.

Graças aos novos algoritmos de compactação de IA, o DeepSeek-OCR pode aprender com textos científicos ou históricos processados por uma única GPU de data center Nvidia A100 com a velocidade de 200.000 páginas por dia. Um cluster A100 de 20 nós pode, portanto, processar 33 milhões de páginas de documentos diariamente, uma mudança de paradigma no aprendizado de LLM com muito texto. De acordo com a classificação do OmniDocBench, o DeepSeek-OCR supera outras soluções populares, como o GOT-OCR2.0 ou o MinerU2.0, quando se trata de menos tokens de visão usados por página.

Os novos algoritmos do DeepEncoder podem lidar com uma variedade de tamanhos e resoluções de documentos sem sacrificar a velocidade ou a precisão, enquanto o decodificador DeepSeek3B-MoE-A570M conta com a chamada arquitetura de mistura de especialistas que distribui o conhecimento entre os modelos especializados necessários para cada tarefa de OCR. Como resultado, o DeepSeel-OCR pode processar documentos complexos com gráficos, fórmulas científicas, diagramas ou imagens, mesmo quando escritos em vários idiomas.

Para atingir essa escala e precisão, o DeepSeek analisou 30 milhões de páginas em Portable Document Format (PDF) escritas em quase 100 idiomas, o que incluiu todas as categorias existentes, desde jornais e caligrafia científica até livros didáticos e dissertações de doutorado. Ainda assim, embora a velocidade e a eficiência da tokenização visual obtidas com o novo sistema DeepSeek-OCR sejam inegáveis, ainda não se sabe se isso levará a um aprimoramento do desempenho do modelo de linguagem no que diz respeito ao raciocínio real em comparação com o atual paradigma de token baseado em texto.

Fonte(s)

Please share our article, every link counts!
Mail Logo
> Análises e revisões de portáteis e celulares > Arquivo de notícias 2025 10 > O modelo DeepSeek OCR AI pode processar 200.000 páginas de documentos por dia em uma única GPU Nvidia A100
Daniel Zlatev, 2025-10-22 (Update: 2025-10-22)