전체 글 4

[캐글 메달리스트가 알려주는 캐글 노하우] 3장 IEEE - CIS Fraud Detection 정리

1. Keyword지불거절, Count Encoding, TimeSeries Split, GroupKfold, StratifiedKfold2. IEEE - CIS Fraud Detection 컴피티션 개요 주제사기 거래 탐지 대회 유형Research 제출 방식Simple Competition문제 유형이진 분류(Binary Classification)데이터 타입정형(Tabular)평가 지표AUC(Area Under the Curve) 대회 목적거래단계에서 사기탐지를 강화해 지불 거절을 줄이기 위해 대회 주최지불거절(Chargeback) 개념1. 이상 거래가 발생했다고 느낀 고객이 카드사에 문제 제기 (ex. 자신이 결제하지 않았는데 물건이 결제된 경우)2. 신고를 접수받은 카드사는 카드 결제사(ex. VI..

Data/Data Science 2025.03.03

[캐글 메달리스트가 알려주는 캐글 노하우] 2장 Instant Gratification 정리

현재 를 가지고 스터디를 하고 있어 매 장 정리해보고자 한다. 1. Keyword이진 분류, AUC, 스태킹, GMM, Hist Feature2. Instant Gratification 개요Competition Summary 주제(대회 목적)  Code competition 피드백대회 유형featured제출 방식code competition문제 유형이진 분류(Binary Classification)데이터 타입정형(Tabluar)평가 지표AUC(Area Under the Curve)캐글이 클라우드 환경을 도입하며, 다양한 방식의 컴페티션 시도이 중 ‘2단계 컴페티션(Two-Stage Competition)’은 컴페티션 테스트 검증 과정을 두 단계로 나누어, 첫 단계에서는 공개(public) 테스트 셋, 다..

Data/Data Science 2025.03.02

<데이터를 엮는 사람들, 데이터 과학자> - 권정민

데이터 분석가 취업을 준비하고, 인턴을 하면서 '내가 되고 싶은 데이터 분석가는 무엇일까?'에 대한 답이 명확하게 나오지 않아 답답했다. SQL 쿼리를 잘 짜는 사람? 대시보드를 잘 만드는 사람? 문제를 분석해서 A/B테스트 또는 가설 검정을 잘하는 사람? 데이터를 탐색하고, 정리하고, 여기에서 인사이트를 도출하는 과정이 재밌어서 이것을 파보아야겠다 생각했지만 그래서 내가 데이터를 가지고 어떤 것을 하고 싶은지, 어떤 데이터 분석가가 되고 싶은지에 대한 답은 없었다.(현재도 마찬가지다.) 그래서 보게 된 책. 데이터 공모전이나 캐글 데이터를 다루다보면 항상 느끼는 점. 데이터들이 얼마나 다양한 상황에 있는지 고려하지 못한다는 것이다. 누군가의 특정한 패턴이나 상황을 알아내는 것이 아니라 데이터를 통해 경..

Data/Books 2025.02.08