
피디에프플럼버
pdfplumber
PDF 내 텍스트, 표, 시각적 요소를 정밀하게 추출하는 파이썬 라이브러리
무료CLIPython Library오픈소스한국어
웹사이트 방문하기github.com
레플리케이트와(과) 비교하기소개
pdfplumber는 PDF 문서에서 텍스트, 표, 선, 사각형 등 모든 요소를 상세하게 추출할 수 있는 파이썬 라이브러리입니다. pdfminer.six를 기반으로 구축되었으며, 각 문자의 좌표 정보와 폰트 정보를 제공하여 정밀한 데이터 분석이 가능합니다. 특히 표 추출 기능이 강력하여 데이터 저널리즘과 데이터 분석 분야에서 널리 사용되며, 시각적 디버깅 기능을 통해 추출 과정을 세밀하게 조정할 수 있습니다.
활용 워크플로우
입력
로컬 파일 시스템의 PDF 경로바이너리 PDF 데이터 스트림사용자 정의 Table Extraction 설정 (딕셔너리)페이지별 크롭(Crop) 영역 좌표 정보
피디에프플럼버
pdfminer.six 엔진을 활용한 문서 객체 계층 구조 파싱문자(chars), 선(lines), 사각형(rects)의 픽셀 단위 기하학적 좌표 매핑TableFinder 알고리즘을 통한 표 경계 및 셀 데이터 구조화to_image() 및 Pillow 연동을 통한 추출 영역 시각적 오버레이 생성
출력
Pandas DataFrame 형식의 표 데이터상세 메타데이터를 포함한 JSON 객체Pillow 기반의 시각적 디버깅 이미지 (PNG/JPG)폰트/크기 정보가 보존된 정제 텍스트
표 추출 전략 최적화
표의 선 유무에 따라 'lines', 'intersections', 'text' 전략을 선택하여 복잡한 격자 구조 대응
객체별 필터링 워크플로우
특정 폰트 이름, 색상, 또는 페이지 내 특정 상자 영역에 속한 요소만 선별적으로 추출
데이터 분석 파이프라인 연동
추출된 데이터를 Pandas와 연동하여 정제 후 CSV/Excel로 변환하거나 BI 도구에 주입
핵심 차별점: 픽셀 단위의 정밀한 좌표 제어와 강력한 시각적 디버깅 기능을 통해 레이아웃이 깨진 PDF에서도 완벽하게 표 데이터를 복구합니다.
주요 기능
- 정밀한 텍스트 좌표 및 폰트 메타데이터 추출
- 커스텀 TableFinder 알고리즘 기반 표 추출
- Pillow 연동 시각적 디버깅 및 마스킹
- 이미지 및 벡터 그래픽 요소 분석
- 오브젝트 필터링 및 페이지 크롭 기능
- 병렬 처리 지원을 통한 대용량 PDF 처리
가격 정보
무료시작 가격: 0
PDF에서 텍스트와 표 데이터를 정밀하게 추출할 수 있는 Python 오픈소스 라이브러리로, MIT 라이선스에 따라 무료로 이용 가능합니다. 별도의 유료 플랜이나 사용량 제한이 없으며, 개발 환경에 설치하여 자유롭게 프로젝트에 통합할 수 있습니다.
활용 사례
- PDF 보고서 내 표 데이터 자동화
- 문서 레이아웃 분석
- 데이터 저널리즘용 자료 추출
- PDF 텍스트 정제
대상 사용자
파이썬 개발자데이터 분석가데이터 저널리스트
연동 서비스
PandasJupyter Notebookpdfminer.sixPillow
태그
PDF 추출파이썬 라이브러리데이터 분석표 추출오픈소스데이터 저널리즘
사용자 리뷰
리뷰를 불러오는 중...
대안 도구
이 도구 대신 사용할 수 있는 대안



