피디에프플럼버

pdfplumber

PDF 내 텍스트, 표, 시각적 요소를 정밀하게 추출하는 파이썬 라이브러리

무료CLIPython Library오픈소스한국어

웹사이트 방문하기github.com

레플리케이트와(과) 비교하기

소개

pdfplumber는 PDF 문서에서 텍스트, 표, 선, 사각형 등 모든 요소를 상세하게 추출할 수 있는 파이썬 라이브러리입니다. pdfminer.six를 기반으로 구축되었으며, 각 문자의 좌표 정보와 폰트 정보를 제공하여 정밀한 데이터 분석이 가능합니다. 특히 표 추출 기능이 강력하여 데이터 저널리즘과 데이터 분석 분야에서 널리 사용되며, 시각적 디버깅 기능을 통해 추출 과정을 세밀하게 조정할 수 있습니다.

활용 워크플로우

입력

로컬 파일 시스템의 PDF 경로바이너리 PDF 데이터 스트림사용자 정의 Table Extraction 설정 (딕셔너리)페이지별 크롭(Crop) 영역 좌표 정보

피디에프플럼버

pdfminer.six 엔진을 활용한 문서 객체 계층 구조 파싱문자(chars), 선(lines), 사각형(rects)의 픽셀 단위 기하학적 좌표 매핑TableFinder 알고리즘을 통한 표 경계 및 셀 데이터 구조화to_image() 및 Pillow 연동을 통한 추출 영역 시각적 오버레이 생성

출력

Pandas DataFrame 형식의 표 데이터상세 메타데이터를 포함한 JSON 객체Pillow 기반의 시각적 디버깅 이미지 (PNG/JPG)폰트/크기 정보가 보존된 정제 텍스트

표 추출 전략 최적화

표의 선 유무에 따라 'lines', 'intersections', 'text' 전략을 선택하여 복잡한 격자 구조 대응

객체별 필터링 워크플로우

특정 폰트 이름, 색상, 또는 페이지 내 특정 상자 영역에 속한 요소만 선별적으로 추출

데이터 분석 파이프라인 연동

추출된 데이터를 Pandas와 연동하여 정제 후 CSV/Excel로 변환하거나 BI 도구에 주입

핵심 차별점: 픽셀 단위의 정밀한 좌표 제어와 강력한 시각적 디버깅 기능을 통해 레이아웃이 깨진 PDF에서도 완벽하게 표 데이터를 복구합니다.

주요 기능

정밀한 텍스트 좌표 및 폰트 메타데이터 추출
커스텀 TableFinder 알고리즘 기반 표 추출
Pillow 연동 시각적 디버깅 및 마스킹
이미지 및 벡터 그래픽 요소 분석
오브젝트 필터링 및 페이지 크롭 기능
병렬 처리 지원을 통한 대용량 PDF 처리

가격 정보

무료시작 가격: 0

PDF에서 텍스트와 표 데이터를 정밀하게 추출할 수 있는 Python 오픈소스 라이브러리로, MIT 라이선스에 따라 무료로 이용 가능합니다. 별도의 유료 플랜이나 사용량 제한이 없으며, 개발 환경에 설치하여 자유롭게 프로젝트에 통합할 수 있습니다.

가격표 확인하기

활용 사례

PDF 보고서 내 표 데이터 자동화
문서 레이아웃 분석
데이터 저널리즘용 자료 추출
PDF 텍스트 정제

대상 사용자

파이썬 개발자데이터 분석가데이터 저널리스트

연동 서비스

PandasJupyter Notebookpdfminer.sixPillow

사용자 리뷰

리뷰를 불러오는 중...

대안 도구

이 도구 대신 사용할 수 있는 대안

레플리케이트

부분 무료

4.88.5K

인프라 구축 없이 API 호출만으로 최신 오픈소스 AI 모델을 즉시 실행하고 배포하는 플랫폼

★ 89무료 플랜API오픈소스

개발자 도구

비교하기

커서

부분 무료

Anysphere

3.87.9K

전체 코드베이스를 이해하고 대화하듯 코딩하며 자동 완성을 지원하는 AI 통합 개발 환경

★ 32.2K무료 플랜API

코딩

비교하기

올라마

무료

7.7K

Llama 3, DeepSeek 등 오픈소스 LLM을 로컬에서 간편하게 실행하는 도구

API오픈소스

개발 도구

비교하기

랭체인

부분 무료

7.7K

LLM과 외부 데이터, 도구를 연결하여 복잡한 AI 앱을 구축하는 프레임워크

무료 플랜API오픈소스

개발 도구, LLM 오케스트레이션

비교하기

피디에프플럼버

소개

활용 워크플로우

주요 기능

가격 정보

활용 사례

대상 사용자

연동 서비스

태그

사용자 리뷰

대안 도구

레플리케이트

커서KO

올라마

랭체인KO

커서

랭체인