pandas1 Pandas 판다스 vs Pyspark DataFrame 데이터 프레임을 활용한 데이터 분석 안녕하세요. 미국에서 패션 인더스트리 데이터 사이언티스트로 일하고 있는 루나입니다. 석사를 할 때까지만 해도 대부분 Pandas 데이터 프레임을 썼었고, 데이터 사이언티스트로 일을 하면서는 작은 데이터는 Pandas 데이터 프레임을 쓰기도 하지만 확실히 데이터가 커지면 커질 수록 Pyspark 데이터 프레임을 쓰게 됩니다. 오늘은 이 두 데이터 프레임의 개념적 차이와 그리고 사용법에 대해 알아보겠습니다. 1. 언어, 환경, 처리속도 Pandas는 데이터 분석에 자주 쓰이는 파이썬 라이브러리이며 단일 머신에서 작동합니다. 그렇기 때문에 컴퓨터 메모리에 맞는 데이터만 이용할 수 있으며 그렇지 않을 경우 out of memory 에러가 납니다. 반면에 Pyspark는 Spark를 기본으로 하며, 대규모 데이터.. 2023. 12. 10. 이전 1 다음