Lmst

PaddleOCR‑VL 1.5 vừa được phát hành, cập nhật mạnh mẽ với cải tiến hiệu năng nhận dạng văn bản & hình ảnh. Đây là tin tốt cho cộng đồng AI và Computer Vision! #PaddleOCR #OCR #ComputerVision #AI #NhậnDạngVănBản #CôngNghệ #AIcôngNghệ #VisionAI

https://www.reddit.com/r/LocalLLaMA/comments/1qr5hij/paddleocrvl_15/

RAVI KUMAR SAHU (@RAVIKUMARSAHU78)

바이두(Baidu)가 1월 29일에 PaddleOCR-VL-1.5를 오픈소스로 공개했습니다. 0.9B 파라미터의 멀티모달 OCR로 OmniDocBench v1.5에서 전 세계 1위를 기록(94.5% 정확도)해 DeepSeek-OCR2를 능가했으며, 오픈소스·생산환경 적용 가능성 등이 주목되는 발표입니다.

https://x.com/RAVIKUMARSAHU78/status/2017089520290975953

#baidu #paddleocr #ocr #opensource #benchmark

Aryan Rakib (@tec_aryan)

바이두가 문서 AI 분야의 진전을 알리며 PaddleOCR-VL-1.5를 오픈소스로 공개했습니다. 9억 파라미터급 모델로 OmniDocBench V1.5에서 전 세계 1위(94.5% 정확도)를 달성, 기존 모델들을 제치며 문서 인식용 멀티모달 OCR의 중요한 개선을 보여줍니다.

https://x.com/tec_aryan/status/2017120751099527268

#paddleocr #ocr #baidu #opensource #documentai

Parul Gautam (@Parul_Gautam7)

바이두(Baidu)의 PaddleOCR-VL-1.5가 공식 릴리스되어 오픈소스로 공개되었습니다. 0.9B 파라미터로 경량화된 모델임에도 OmniDocBench v1.5에서 94.5%의 전체 정확도로 1위를 차지하며 성능과 효율성을 모두 입증한 업데이트 소식입니다.

https://x.com/Parul_Gautam7/status/2017119585120772548

#baidu #paddleocr #ocr #opensource #multimodal

Dhaval Makwana (@heyDhavall)

바이두(Baidu)가 멀티모달 OCR 모델 'PaddleOCR-VL-1.5'을 공식 공개하고 오픈소스로 배포했습니다. 0.9B 파라미터의 소형·고속 모델로 OmniDocBench v1.5에서 전 세계 1위(94.5% 정확도)를 기록해 DeepSeek-OCR2를 능가했으며, 생산 환경 적용 가능성을 강조한 릴리스입니다.

https://x.com/heyDhavall/status/2017082722360185297

#baidu #paddleocr #ocr #opensource #documentai

Md Riyazuddin (@riyazmd774)

Baidu가 문서 OCR 중요성을 강조하며 PaddleOCR-VL-1.5를 완전 오픈소스로 공개했습니다. 약 0.9B 파라미터의 비교적 경량 모델로 실무용 문서 입력(노이즈/비정형 문서)에서 신뢰 가능한 AI 출력 확보를 목표로 설계되었음을 알리는 발표입니다.

https://x.com/riyazmd774/status/2016890509562958243

#baidu #paddleocr #ocr #opensource

Cần hỗ trợ tinh chỉnh PaddleOCR VL 0.9 qua PaddleFormers (LoRa pipeline). Xác nhận yêu cầu từ nightwing_2 tại r/LocalLLaMA. #LocalLLaMA #AI #PaddleOCR #CôngNghệ #MachineLearning

https://www.reddit.com/r/LocalLLaMA/comments/1qq6sey/has_anyone_fine_tuned_paddleocr_vl_09_through/

Github Awesome (@GithubAwesome)

Ocrbase는 자기호스팅 엔진으로 복잡한 PDF를 사용 가능한 구조화된 JSON으로 변환합니다. PaddleOCR와 로컬 LLM을 래핑해 API로 제공하며 Docker 컨테이너로 띄워 이미지/문서 대량 처리로 구조화된 데이터를 추출할 수 있어 오프라인·프라이버시 중심 문서 처리 파이프라인이나 자동화 OCR→NLP 워크플로에 유용합니다.

https://x.com/GithubAwesome/status/2013802754385568164

#ocrbase #ocr #paddleocr #llm #docker

🎉 Oh, joy! Another tool promising to revolutionize your life by converting PDFs into a smorgasbord of formats you never knew you needed. 🤖✨ Complete with buzzword bingo: #PaddleOCR, #LLM, TypeScript SDK, and WebSocket updates! Don't forget to remind your grandma to self-host it! 😂🙄
https://github.com/majcheradam/ocrbase #PDFconversion #TypeScriptSDK #selfhosting #HackerNews #ngated

Ehmm...... "Error initializing OCR engine 'paddleocr': PaddlePaddle is not available. PaddlePaddle does not support Python 3.10 yet. Please use Python 3.8-3.12 for PaddleOCR support, or use Tesseract instead." #paddleocr #python

Современные OCR для сложных документов: сравниваем 6 open-source моделей на реальном кошмаре инженера

Привет, Хабр! Каждый, кто хоть раз пытался вытащить данные из скана акта или старого отчета, знает эту боль. Классические OCR-инструменты, вроде старого доброго Apache Tika, отлично справляются с простым печатным текстом, но пасуют перед реальными вызовами: таблицами со сложной вёрсткой, рукописными пометками, мелким курсивом и разными шрифтами в одном документе. Чтобы не быть голословными, давайте посмотрим на типичный «сложный» документ и что с ним делает Tika.

https://habr.com/ru/articles/966846/

#ocr #распознавание_текста #vlm #llm #мультимодальные_модели #qwen3 #gemma3 #paddleocr

Mô hình PaddleOCR-VL đã được tinh chỉnh để nhận diện văn bản trong manga Nhật Bản! Độ chính xác đạt 70% (từ 27%), xử lý tốt các bong bóng thoại và font chữ cách điệu. Bước tiến lớn cho OCR chuyên biệt.
#OCR #Manga #JapaneseManga #AI #MachineLearning #PaddleOCR #ComputerVision
#NhậnDạngVănBản #MangaNhật #TríTuệNhânTạo #HọcMáy

https://www.reddit.com/r/LocalLLaMA/comments/1opx6p1/we_just_finetuned_a_japanese_manga_ocr_model_with/

When processed with #PaddleOCR VL, we get :

Azniq n Umeyras Wanuyi Muhend L£id

instead of :

Azniq n Umeɣras Wanuɣi Muḥend Lɛid

PaddleOCR-VL 0.9B salida estructura para PDFs múltiples columnas, tablas, fórmulas. Ready production, maneja escritura, multilingüe. Para empresas/periferia. Modelos cloud (GPT-4o, Gemini) para tareas generales pero más caro. #OCR #PaddleOCR-VL #Phân_tích_bản_gVote #Dữ_liệu_cu_ẩn

https://www.reddit.com/r/LocalLLaMA/comments/1obfwt9/practical_takeaways_from_recent_handson_use_of/

Как мы научили нейросеть читать технические схемы и сразу считать их стоимость

Когда думаешь о «цифровой трансформации» в промышленности, в голове обычно всплывают роботы, датчики, большие экраны и дроны, которые сами разносят детали по цеху. В реальности всё часто упирается в куда более прозаичные вещи. Например — технические схемы. Представьте: целые шкафы с папками, где вперемешку свежие CAD-чертежи и сканы пожелтевших листов А3 с подписями от руки: «Смотри сюда», «замени резистор». Чтобы собрать спецификацию и посчитать стоимость, инженеру приходилось садиться с карандашом и Excel — и часами переписывать резисторы, транзисторы, конденсаторы, их номиналы и количество. Ошибся в одной букве или не заметил мелкий элемент — и вся цепочка снабжения поехала. В какой-то момент мы, как разработчики, задали себе вопрос: «А почему в 2025 году до сих пор человек должен глазами считать резисторы на сканах, если есть компьютерное зрение и OCR?» Так и стартовал проект: сделать систему, которая за полминуты превратит «кривой скан схемы из прошлого века» в таблицу компонентов с готовой сметой.

https://habr.com/ru/articles/951016/

#машинное+обучение #computer_vision #yolov8 #ocr #paddleocr #нейросети #обработка_изображений #цифровая_трансформация #автоматизация #промышленность

Распознавание текста на изображении и общение с распознанным текстом. Paddle OCR + LLM

Данная статья описывает процесс создания проложения для распознавания текста на изображении и общения с распознанным текстом. В процессе разработки используются: Язык: Python Оптическое Распознавание Символов(OCR): Paddle OCR Площадка для языковой модели: Ollama Большая языковая модель(LLM): qwen2:7b Сетевой фреймворк для API: FastAPI

https://habr.com/ru/articles/933634/

#ocr #optical_recognition #llm #большие_языковые_модели #ollama #paddlepaddle #paddleocr #ollama_python_librar #qwen

Создание искусственного датасета для обучения модели с использованием Paddle OCR

Привет, коллеги! Продолжаем тему разработки плагина для распознавания иврита с использованием Paddle OCR. В прошлый раз я забыла представиться, сделаю это в этом посте) Меня зовут Алексей, я руковожу компанией, которая занимается разработкой с применением ИИ-технологий. Сам я тоже погружен в разработку, но больше доверяю это своей команде – нам удалось собрать команду классных профи. Истории из нашей совместной работы я и планирую рассказывать в своем блоге. Вернемся к теме статьи. Сегодня остановимся подробнее на создании искусственного датасета для обучения модели с использованием Paddle OCR. Этим занимался мой коллега Александр – экспертв компьютерном зрении. Когда перед нами встала задача распознавания текста на иврите, стало ясно, что найти готовый датасет с нужными характеристиками практически невозможно. Это подтолкнуло нас к созданию собственного датасета, который оказался не только полезным, но и дал возможность потренироваться в генерации синтетических данных. В этом посте мы подробно расскажем, как именно подошли к этому процессу.

https://habr.com/ru/articles/839326/

#искусственный_интеллект #компьютерное_зрение #распознавание_текста #paddleocr #tesseract #датасет #аугментация_данных

Создание плагина для распознавания текста на иврите: мой опыт и решения

Всем привет! Хочу поделиться недавним проектом, в котором я разрабатывал плагин для распознавания текста на иврите. Задача была непростая, особенно учитывая, что клиент уже пытался использовать Tesseract OCR, но точность распознавания оставляла желать лучшего. В этой статье расскажу о том, с какими трудностями я столкнулся и как их преодолел.

https://habr.com/ru/articles/836714/

#искусственный_интеллект #ocrтехнологии #распознавание_текста #paddleocr #tesseract_ocr #python #датасет #аугментация #easyocr

Up until this week, I'd never hit an issue writing and testing Python code on my laptop, and then running it on my #raspberrypi, but I've hit some challenges with the latest revision of my bicycle dashcam ( https://github.com/raudette/SmartDashcamForBikesMk3 ). It seems like the python OCR library I've picked, #paddleocr, does not just work out of the box on ARM64. Might have to choose another OCR engine.

#paddleocr

Client Info