
Baidu presenta Unlimited-OCR, un modelo abierto para leer PDFs largos de una vez
El OCR moderno ha mejorado mucho en precisión, pero sigue teniendo un problema incómodo cuando se enfrenta a documentos largos. Muchos sistemas dividen el PDF en páginas, procesan cada imagen por separado, reconstruyen el texto, intentan respetar tablas, títulos, notas, columnas y orden de lectura, y después entregan ese resultado a una base vectorial o a un sistema RAG. Funciona,

