Com a proliferação de data centers de IA e os custos de processamento associados, o ônus agora recai sobre a eficiência do algoritmo, e nenhum modelo de linguagem parece fazer isso melhor do que o DeepSeek. Seus modelos são de código aberto, e seu treinamento tem um custo muito menor do que o do ChatGPT da OpenAI ou do Gemini do Google.
O recém-anunciado modelo DeepSeek-OCR é um excelente exemplo de eficiência de aprendizado. Usando o mapeamento óptico, ele pode compactar documentos extremamente longos, convertendo-os em imagens com uma precisão de reconhecimento de 97% em uma taxa de compactação inferior a 10 vezes.
Com o uso de codificador e decodificador avançados, mais de nove tokens com texto de documento podem ser convertidos em um único token visual, diminuindo consideravelmente os recursos de computação necessários para processar o conteúdo. Mesmo com uma taxa de compactação de 20x, o novo sistema DeepSeek-OCR pode atingir 60% de precisão no reconhecimento óptico, um feito sem precedentes.
Graças aos novos algoritmos de compactação de IA, o DeepSeek-OCR pode aprender com textos científicos ou históricos processados por uma única GPU de data center Nvidia A100 com a velocidade de 200.000 páginas por dia. Um cluster A100 de 20 nós pode, portanto, processar 33 milhões de páginas de documentos diariamente, uma mudança de paradigma no aprendizado de LLM com muito texto. De acordo com a classificação do OmniDocBench, o DeepSeek-OCR supera outras soluções populares, como o GOT-OCR2.0 ou o MinerU2.0, quando se trata de menos tokens de visão usados por página.
Os novos algoritmos do DeepEncoder podem lidar com uma variedade de tamanhos e resoluções de documentos sem sacrificar a velocidade ou a precisão, enquanto o decodificador DeepSeek3B-MoE-A570M conta com a chamada arquitetura de mistura de especialistas que distribui o conhecimento entre os modelos especializados necessários para cada tarefa de OCR. Como resultado, o DeepSeel-OCR pode processar documentos complexos com gráficos, fórmulas científicas, diagramas ou imagens, mesmo quando escritos em vários idiomas.
Para atingir essa escala e precisão, o DeepSeek analisou 30 milhões de páginas em Portable Document Format (PDF) escritas em quase 100 idiomas, o que incluiu todas as categorias existentes, desde jornais e caligrafia científica até livros didáticos e dissertações de doutorado. Ainda assim, embora a velocidade e a eficiência da tokenização visual obtidas com o novo sistema DeepSeek-OCR sejam inegáveis, ainda não se sabe se isso levará a um aprimoramento do desempenho do modelo de linguagem no que diz respeito ao raciocínio real em comparação com o atual paradigma de token baseado em texto.
Fonte(s)
Os Top 10
» Os Top 10 Portáteis Multimídia
» Os Top 10 Portáteis de Jogos
» Os Top 10 Portáteis Leves para Jogos
» Os Top 10 Portáteis Acessíveis de Escritório/Empresariais
» Os Top 10 Portáteis Premium de Escritório/Empresariais
» Os Top 10 dos Portáteis Workstation
» Os Top 10 Subportáteis
» Os Top 10 Ultrabooks
» Os Top 10 Conversíveis
» Os Top 10 Tablets
» Os Top 10 Smartphones
» A melhores Telas de Portáteis Analisadas Pela Notebookcheck
» Top 10 dos portáteis abaixo dos 500 Euros da Notebookcheck
» Top 10 dos Portáteis abaixo dos 300 Euros