IT Talks/BigData 6

Pandas Data Frame vs Spark DataFrame

DataFrame 은 행과 열이 있는 데이터 테이블을 나타내며, DataFrame 개념은 어떤 프로그래밍 언어에서도 변하지 않지만 Spark 와 Pandas 의 DataFrame 은 상당히 다르다. 이 글에서는 Spark DataFrame과 Pandas DataFra,e의 차이점을 알아보려고 합니다. Pandas DataFrame Panda는 NumPy 라이브러리를 기반으로 하는 오픈 소스 Python 라이브러리입니다. 다양한 데이터 구조와 연산을 사용하여 수치 데이터와 시계열을 조작할 수 있는 Python 패키지입니다. 주로 데이터 가져오기 및 분석을 상당히 쉽게 하기 위해 사용됩니다. Panda DataFrame은 레이블이 지정된 축(행 및 열)을 가진 잠재적으로 이질적인 2차원 크기 가변 표 형식 ..

IT Talks/BigData 2023.03.16

Data Scientist vs Engineer vs Analyst

예전에 인터넷에서 봤던 이미지 인데, 데이터 관련 직무에 대해 정리가 잘 안되는 경우가 많아서 참고하면 좋을 것 같다. (현실은 그렇지 않지만) Data Scientist 통계나 머신 러닝을 이용해 주요 비즈니스 질문에 대한 예측과 답변을 만듬. Data Engineer 데이터 과학자와 분석가가 작업을 수행할 수 있는 시스템을 구축하고 최적화. Data Analyst 데이터를 활용하여 비즈니스 의사 결정에 도움이 되는 결과를 전달함으로써 가치를 제공.

IT Talks/BigData 2022.10.06

AI Platform의 고객평생가치 예측: 소개

이 문서는 Google Cloud에서 AI Platform을 사용하여 고객평생가치(CLV)를 예측하는 방법을 설명하는 4부로 구성된 시리즈 중 첫 번째 문서입니다. 이 시리즈의 문서는 다음과 같습니다. 1부: 소개(본 문서). 고객평생가치(CLV)와 이를 예측하는 두 가지 모델링 기법을 소개합니다. 2부: 모델 학습. 데이터를 준비하고 모델을 학습시키는 방법을 설명합니다. 3부: 프로덕션에 배포. 2부에서 설명된 모델을 프로덕션 시스템에 배포하는 방법을 설명합니다. 4부: AutoML Tables 사용. AutoML Tables를 사용하여 모델을 빌드 및 배포하는 방법을 설명합니다. * 원문 : https://cloud.google.com/solutions/machine-learning/clv-predi..

IT Talks/BigData 2020.11.20

IP 주소는 개인식별정보인가?

* 출처 : http://www.boannews.com/media/view.asp?idx=35078 [정보보호법바로알기 28] IP 주소는 개인식별정보인가? 개인정보보호에 관한 인식은 독재국가의 무분별한 개인정보 수집으로부터 부각되었지만, 전 세계적으로 체계적인 개인정보보호를 제도화하려는 노력이 시작된 것은 1980년 OECD가 프라이버시 8 www.boannews.com 특정 정보에 대한 ‘보호의 필요성’이 있는지가 중요 때와 장소·상황을 고려한 상대적인 개념 고려돼야 [보안뉴스=법률사무소 민후 김경환 대표변호사] 개인정보보호에 관한 인식은 독재국가의 무분별한 개인정보 수집으로부터 부각되었지만, 전 세계적으로 체계적인 개인정보보호를 제도화하려는 노력이 시작된 것은 1980년 OECD가 프라이버시 8원칙..

IT Talks/BigData 2015.02.24
728x90