#dataextraction

2026-02-01

Công cụ Website-Crawler giúp thu thập dữ liệu từ website dưới dạng JSON hoặc CSV, phù hợp để dùng với mô hình ngôn ngữ lớn (LLM). Hỗ trợ crawl hoặc scrape toàn bộ website nhanh chóng, dễ sử dụng. #WebCrawler #DataExtraction #LLM #AI #CôngCụ #WebScraping #MachineLearning #AI #LLM #WebCrawler #DataExtraction

reddit.com/r/LocalLLaMA/commen

2026-01-27

🔥 Mới ra mắt Divparser – công cụ scraper AI chuyển bất kỳ trang web nào thành JSON sạch chỉ bằng một prompt. Đã được Google lập chỉ mục ngay và đang có người dùng thử. Nếu bạn quan tâm tới scraping, tự động hoá hay trích xuất dữ liệu AI, hãy cho phản hồi! #AI #Scraping #Automation #DataExtraction #TríTuệNhânTạo #ThuThậpDữLiệu #TựĐộng #CôngCụ

reddit.com/r/SaaS/comments/1qo

2026-01-23

Maxun v0.0.32 ra mắt với tính năng AI-native và ghi âm thời gian thực, mã nguồn mở, cho phép tự lưu trữ và trích xuất dữ liệu web không cần code. Hỗ trợ tích hợp với LlamaIndex, LangChain, OpenAI SDK, và nhiều framework AI khác qua SDK. Chế độ AI Extract tự động điều hướng, không cần URL. Ghi âm thời gian thực chính xác với hành động: gõ, click, cuộn, điều hướng. Phù hợp xây dựng workflow và agent thông minh. #Maxun #WebScraper #AIIntegration #OpenSource #DataExtraction #TríchXuấtDữLiệu #AI #MãN

2026-01-23

Maxun v0.0.32 ra mắt với tính năng ghi âm thời gian thực, hỗ trợ đồng bộ trạng thái website thực tế, thao tác live như gõ, nhấn, cuộn, điều hướng. Hỗ trợ tích hợp SDK: LlamaIndex, Google Sheets, Airtable, LangChain, OpenAI và nhiều hơn nữa. Chế độ AI tự động tìm và trích xuất dữ liệu mà không cần URL. Mã nguồn mở, tự lưu trữ. #Maxun #WebScraping #OpenSource #SelfHosted #AI #LlamaIndex #LangChain #NoCode #DataExtraction #CôngCụMãNguồnMở #TríchXuấtDữLiệu #AI #TựHost

reddit.com/r/selfh

Abhishek Yadav (@abhishek__AI)

AI 기반 웹 스크래핑 워크플로우 소개: 사용자가 자연어로 원하는 데이터를 지시하면 AI가 페이지를 탐색해 출처를 찾고, 스키마 기반 구조화로 JSON 또는 Markdown 형태로 출력하는 방식. URL에서 시작해 AI 드리븐 페이지 발견·구조화 추출을 지원하는 신개념 데이터 추출 툴 설명.

x.com/abhishek__AI/status/2011

#webscraping #ai #dataextraction #automation

Abhishek Yadav (@abhishek__AI)

이미지와 문서를 구조화된 데이터로 변환하는 기능을 제공하는 프로젝트를 GitHub(PaddlePaddle)에서 공유했습니다. 링크는 github.com/PaddlePaddle/로 연결되며, PaddlePaddle 관련 오픈소스 도구 또는 레포지토리를 가리키는 짧은 공지입니다.

x.com/abhishek__AI/status/2009

#paddlepaddle #github #dataextraction #ocr

2026-01-04

Maxun v0.0.31 ra mắt – công cụ tự động thu thập và khám phá dữ liệu web mã nguồn mở, tự lưu trữ. Tính năng nổi bật: Crawl thông minh (phân tích Sitemap, lọc Regex, kiểm soát độ sâu), Search bằng truy vấn (hỗ trợ lọc theo thời gian, trích xuất nội dung đầy đủ). Phù hợp nghiên cứu, lập bản đồ website quy mô lớn. #Maxun #WebCrawling #DataExtraction #OpenSource #CôngCụLậpTrình #MãNguồnMở #ThuThậpDữLiệu

reddit.com/r/selfhosted/commen

Dyalogdyalog
2025-12-31

New with Dyalog v20.0: Namespace manipulation and data extraction has been made easier with the addition of ⎕VGET and ⎕VSET, and extensions to ⎕NS. These changes are particularly useful when dealing with namespaces generated by applying ⎕JSON to JSON requests from webservices, as default values can be specified to mitigate the effects of missing members. Discover more at youtube.com/watch?v=KR8vgC21yqQ

2025-12-30

Công cụ mới: pdfparse.net – trích xuất dữ liệu từ PDF theo schema, lưu trực tiếp vào SQLite hoặc xuất CSV. Hỗ trợ bảng lồng, khóa ngoại, xử lý theo batch. Phù hợp tự động hóa, dọn dẹp dữ liệu. Đang tìm người dùng thử đầu tiên. Dùng thử tại: pdfparse.net/demo #pdfparse #SQLite #CSV #dataextraction #tool #earlyadopter #côngcụ #tríchxuấtdữliệu

reddit.com/r/SideProject/comme

2025-12-12

Cập nhật phương pháp trích xuất văn bản từ file PDF nhiều trang? Người dùng cần giải pháp cho các file không phải tiếng Anh và bảng biểu. Thảo luận thêm #textextraction #PDFtools #dataextraction #tríchxuấtchữ #côngthứcràpchữ #thảobảng #MastodonTech

reddit.com/r/LocalLLaMA/commen

2025-12-10
FOSS Advent Calendar - Door 11: Read Any Text with EasyOCR

Meet EasyOCR, a lightweight open source optical character recognition (OCR) engine that makes extracting text from images and documents almost effortless. Supporting over 80 languages, including those with complex scripts and mixed language text, it's designed to be powerful, accurate, and incredibly straightforward to use.

Built on PyTorch and integrating deep learning models, EasyOCR delivers high recognition accuracy even on challenging images, low resolution, skewed text, or complex backgrounds. What sets it apart is its simplicity: with just a few lines of code, you can have a fully functional OCR pipeline running locally, without needing an internet connection or external APIs. Your data remains completely private.

Whether you're digitizing printed material, extracting text from screenshots (for example, lyrics from L’âme Immortelle, an Austrian dark wave band), automating document workflows, or analyzing visual data, EasyOCR gets the job done quickly and reliably.

Pro tip: Use it to create searchable PDFs, translate foreign text in images, or even capture and digitize handwritten notes with the right training data.

Link: https://github.com/JaidedAI/EasyOCR

What text would you like to extract from images? Scanned books, street signs, or maybe your old family documents?

#FOSS #OpenSource #OCR #EasyOCR #TextRecognition #AI #DeepLearning #Python #ComputerVision #DocumentDigitization #DataExtraction #Privacy #LocalAI #Multilingual #OpenTools #Fediverse #TechNerds #AdventCalendar #adventkalender #adventskalender #TextExtraktion #KI #PyTorch #DevCommunity #Automation #OfflineAI #PythonProgramming
AI Daily Postaidailypost
2025-12-10

🚀 New open‑source tool LlamaExtract slashes manual data work: pull tables from invoices & PDFs, run OCR on commodity hardware, output clean JSON, and plug straight into your pipelines. Save hours and keep everything transparent. Dive in to see how it reshapes extraction workflows!

🔗 aidailypost.com/news/llamaextr

2025-12-06

Một nhà phát triển đang thăm dò nhu cầu về công cụ thu thập dữ liệu LinkedIn (scraper) để lấy thông tin hồ sơ, việc làm, công ty. Họ muốn tìm hiểu các trường hợp sử dụng từ cộng đồng. Giải pháp tương tự cũng có sẵn cho Facebook, Zillow, Google Maps.

#LinkedInScraper #CôngCụ #ThuThậpDữLiệu #SideProject #PhátTriểnPhầnMềm #Developer #DataExtraction #Scraper

reddit.com/r/SideProject/comme

LabPlot (labplot.org)LabPlot@floss.social
2025-11-23

#LabPlot at the service of researchers. :boost_love:

@labplot@lemmy.kde.social

It's rewarding to us to know that #LabPlot was used for #DataExtraction in this recent study on thermal comfort and energy performance.

➡️ sciencedirect.com/science/arti

#Research #Science #OpenSource #FreeSoftware #FOSS #KDE #Energy #FreeOriginProAlternative #Environment #EnergySavings #Technology #Heating

Image: a research paper using LabPlot for  data extraction
Web Screen Scrapingwebscreenscraping
2025-11-19

APIs make product data extraction easier, faster, and more accurate for e-commerce brands. They allow you to monitor competitor prices, discover trending items, and understand customer sentiment. When you use these insights to refine offers and boost product visibility, you gain a strong competitive advantage and drive sustainable growth.

Learn More: webscreenscraping.com/ecommerc

E-Commerce Growth Hacks: Leveraging APIs to Extract Product Data and Outsmart Competitors
tagxdataTagxdata
2025-11-18

Amazon Product Data Extraction: Risk-Free Techniques for Scraping

Safely collect Amazon product data without risking IP blocks or bans. Learn proven techniques like proxy rotation, human-like crawling, and compliance-focused scraping. TagX helps you extract accurate prices, reviews, and ASIN insights without disruption.

tagxdata.com/how-to-get-amazon

https://www.tagxdata.com/how-to-get-amazon-product-data-without-risking-ip-blocks-or-bans
2025-11-16

Valido - ứng dụng desktop để trích xuất và xác thực dữ liệu từ PDF có bảng đa cột, tính toán tự động và xử lý hàng loạt. Mọi xử lý đều thực hiện trên máy cục bộ, không cần cloud. Perfect cho ai làm việc với tài liệu PDF phức tạp!

#PDF #DataExtraction #Selfhosted #Automation #Privacy
#PDF #TríchXuấtDữLiệu #TựChủ #TựĐộngHóa #BảoMật

reddit.com/r/selfhosted/commen

HabileDatahabiledata
2025-11-13

Choosing the right data extraction service helps businesses collect and analyze data efficiently from multiple sources. Discover key factors to ensure reliability, scalability, and security in your data operations.

Read more 👉 techwebspace.com/how-to-choose

data extraction needs your business

Client Info

Server: https://mastodon.social
Version: 2025.07
Repository: https://github.com/cyevgeniy/lmst