Data/Books

<데이터를 엮는 사람들, 데이터 과학자> - 권정민

liz in data 2025. 2. 8. 19:44

 

<내 생각>

  • 데이터 분석가 취업을 준비하고, 인턴을 하면서 '내가 되고 싶은 데이터 분석가는 무엇일까?'에 대한 답이 명확하게 나오지 않아 답답했다. SQL 쿼리를 잘 짜는 사람? 대시보드를 잘 만드는 사람? 문제를 분석해서 A/B테스트 또는 가설 검정을 잘하는 사람? 데이터를 탐색하고, 정리하고, 여기에서 인사이트를 도출하는 과정이 재밌어서 이것을 파보아야겠다 생각했지만 그래서 내가 데이터를 가지고 어떤 것을 하고 싶은지, 어떤 데이터 분석가가 되고 싶은지에 대한 답은 없었다.(현재도 마찬가지다.) 그래서 보게 된 책. 
  • 데이터 공모전이나 캐글 데이터를 다루다보면 항상 느끼는 점. 데이터들이 얼마나 다양한 상황에 있는지 고려하지 못한다는 것이다. 누군가의 특정한 패턴이나 상황을 알아내는 것이 아니라 데이터를 통해 경향성, 근거를 찾는 일이라 어쩔 수 없이 그렇게 어느 정도는 뭉뚱그리게 된다. 하지만 아웃라이어로 지워지거나 다른 데이터로 대표되는 데이터, 이리저리 처리되는 결측치 등.. 에러가 아닌 이상 그런 소수의 데이터들은 비용, 효율면의 문제로 지워지곤 한다. 이럴 때면 나도 어디선가 지워지는 데이터이지 않을까?라는 생각이 든다. 더 나아가서, 다양성이 중시되는 사회에 데이터 분석가는 데이터를 분석하며 어떻게 이 키워드를 분석에 녹여낼 수 있을까?라는 고민이 든다. 
  • 데이터 분석가와 과학자는 꿈과 현실의 간극이 굉장히 큰 편이라는 것을 알게 되었다. 모두가 그런 생각을 하는구나. 
  • 저자는 데이터 과학 분야에서 오래 활동해온 사람임에도 불구하고 데이터 과학자의 현실, 명확히 정해지지 않은 역할, 데이터 기반 의사결정과 거리가 먼 환경 등을 겪으며 좌절을 겪은 것 같다. 하지만 결국 이야기하는 것은 하나하나 어떻게든 무언가를 해나가는 것. 그리고 그 무언가가 본인이 다른 것보다 조금 더 좋아하는 일이라는 점에 주목하자고 한다. 지금 나에게 필요한 말 같다. 
  • 개인화 추천 서비스에 대한 내용을 읽고 찔렸다. 얼마 전에 플랫폼서비스 데이터분석가 인턴 직무 면접을 가서 어떤 방식에 대한 해결책으로 개인화 추천밖에 생각나지 않아 답했었는데, 내 답에 대한 피드백을 들으면서 개인화가 굳이 필요하지 않은 상황일수도 있고, 개인화는 이미 데이터가 쌓여있어야 하는데 그 이전의 사용자들은 어떻게 할 것인가 등의 사전에 생각해봐야 할 사안이 많다는 것을 알게 되었다. 다시 한번, 좋은 데이터 분석가는 더 멋진 분석론이나 기술을 사용하는 것이 아니라 어떻게 하면 현 상황에서 더 좋은 서비스를 만들 수 있을지 고민하는 사람이어야 함을 알게 되었다. 
  • 데이터 윤리에 대해 더 알고 싶다. 어떤 책을 읽을 수 있을까? 
  • 데이터와 알고리즘을 사용하는 기술은 좋게 말하면 '객관적'이지만 이는 '주관'이 없고, '윤리개념'이 없다. 여기에 제대로 된 주관과 윤리 개념을 부여하는 것은 이를 사용하는 사람이다. 이 점에서 아무리 인공지능 기술이 발달해도 사람이 항상 개입할 수 밖에 없다는 것을 알 수 있다. 
  • 요즘 기사를 읽을 때면 '이 데이터 믿을만 한거야? 어디서, 어떻게 수집된거야?' 라는 생각이 든다. 이제는 숫자가 들어가 있다고 해서 그 정보가 정확하거나 신뢰할 수 있다고 생각하지 않는다. 생각에서 멈추지 말고 데이터의 출처를, 수집 방법을 찾아보자. 

https://www.yes24.com/Product/Goods/116615853

 

데이터를 엮는 사람들, 데이터 과학자 - 예스24

데이터 과학자가 ‘직접’ 말하는 데이터 과학자이제는 모든 분야에서 빅데이터를 활용할 정도로 빅데이터의 중요성이 높아졌다. 그만큼 데이터 분석 업계에 대한 관심도 많아지고 데이터 과

www.yes24.com

 


  • 그동안 데이터 과학과 관련된 훌륭한 프로그램들이 등장했고 데이터 프레임워크도 눈부시게 발전해 왔다. 그래서 사람들은 빅데이터와 딥러닝 기술을 사용하면 어떻게든 문제를 해결할 수 있지 않냐고 이야기하기도 한다. 하지만 이러한 상황일수록 기본적인 과정을 제대로 거치지 않는다면 데이터 과학이 망가지기 쉽다. 사람들은 컴퓨터가 내놓는 결과를 맹신하거나 무시한다. 같은 결과를 보고 여전히 반응은 극단적으로 갈리는 경향을 보인다. 요즘에는 '빅데이터와 인공지능'의 환상이 뿜어내는 빛때문에 데이터 분석 결과를 무조건 믿는 이들이 늘고 있다. 이런 반응 속에서도 '데이터로 문제를 해결해야 하는' 데이터 과학자는 올바른 선택을 해야한다. 문제를 잘못 정의하고 부적절한 데이터를 알맞지 않은 알고리즘에 적용하면 제대로 된 답을 내기 어렵기 때문이다. 어찌어찌 답을 구한다고 해도 답을 이해하지도 못한 채 맹목적으로 따라갈 수도 있다. 그래서 데이터 과학자는 문제를 정확하게 이해하고 제대로 된 답을 찾기 위해 데이터가 어떻게 남았는지 데이터의 형태를 보며 그 상황을 역으로 추정하고 해결 과정을 깔끔하게 정리하고 분석 결과를 적합한 방식으로 잘 전달하는 방법을 연구하며 실력을 쌓아나간다.(pp.11-12)

 

  • 데이터 분석에 기본적으로 필요한 능력이라면 문제를 정확하게 정의하는 능력, 논리적으로 적절한 도구를 사용해 문제를 해결하는 논리적 사고 능력, 데이터에 대한 이해와 객관성, 지속적인 학습에 열려있는 자세, 커뮤니케이션 스킬이다. (p.24)

 

  • 이 일을 하면서 수없이 맞닥뜨리는 가슴 아픈 사실은 많은 사람이, 수많은 데이터가, 수많은 고객 행동이, 시간대별로 일어나는 일들이 얼마나 각양각색인지, 즉 사람들이 얼마나 다양하게 사는지 고려하기 어렵다는 것이다.(p.33)

 

  • 데이터 과학자가 잘 설득해야 한다고 하지만, 답은 정해져 있고 데이터는 대답만 하면 되는 상황에서 과연 어떻게 해야할까? 그래서 애초에 설득 과정 자체가 필요없도록 의사 결정 구조를 고치는 것이 가장 명확하다. 데이터를 볼 때 가설을 설정하고 문제의 답을 찾는 과정은 데이터 과학자가 맡는 것이 좋다. 의사결정하는 사람이 미리 가설과 이에 대한 예상 결과까지 무의식중에 만들고 데이터를 거기에 사용하려고 하는 데서 수많은 비극이 탄생해왔다.(p.41)

 

  • 데이터 과학자가 이야기를 만들 때 주의해야 할 것은 '데이터를 넘어서는 결과를 말하지 않는 것'이다. 데이터 과학자는 근거를 기반으로 결과를 전달하기 위해 문제부터 결과까지 물 흐르듯 하나의 이야기로 만들어야 하는 경우가 많다. 여기서 가끔 비극이 발생한다. 많은 사람이 돋보이기 위해 데이터에서 이야기하는 것 이상으로 색칠을 하고 결과를 억지로 어림잡게 만든다.(p.51)

 

  • 하지만 너무 많은 기대만으로 멋진 모습을 보고 일을 고르기보다는 데이터를 보고 탐색하고 결과를 찾는 그런 과정을 좋아하는 사람이 이 일을 했으면 좋겠다. 그러면 그나마 이 일의 간극에 대해 실망이 덜할 것이다. 거품이 꺼지고 나면 결국 남는 것은 꾸준히 자신이 해 온 일뿐이다. 그 일을 묵묵히 쌓아 갈 수 있는 사람이 어떤 급변하는 상황이 와도 결국 보람을 느낄 수 있지 않을까. (p. 77)

 

  • 자존감을 깎아 내리는 행위는 일단 멈추자. 그냥 하나하나 어떻게든 무언가를 해 나가는 그리고 그 '무언가'가 본인이 다른 것보다 조금 더 좋아하는 일이라는 사실에 주목하자. 밖에서 보는 멋진 모습에 매료된 것이 아니라 데이터 과학 일 자체가 본인에게 맞는 것 같아서 시작했다면, 기대와 조급함, 실망과 불안은 조금 덜고 편안한 마음을 가져 보자. 주어진 일을 조금씩 천천히 해 나가다 보면, 결국 데이터 과학 일도 사람이 하는 일이라 다른 일과 본질적으로 크게 차이가 없다는 것을 알게 되고 그냥 일 자체를 적당히 즐길 수 있을 것이다. 다들 그런 편하고 적당히 여유로운 마음으로 이 일과 함께 살아가기를 바란다.(p.79)

 

  • 우리가 알아야 할 것은 '어떤 멋진 대푯값'과 제대로 된 '지표'를 구분하는 것이다. '허상 지표'와 '실질 지표'라고도 구분한다. 그리고 잘 만든 지표를 만든 후 이를 제대로 사용해야 한다. 이렇게 지표를 충분히 제대로 활용하는 것이 진정한 '데이터 주도 방식'의 시작이라고 할 수 있다.(p.126) -> 그 지표로 얻고자 하는 것이 무엇인가?

 

  • 좋은 지표는 우선 정량적이다. 좋은 지표는 직관적이며 주요 지표의 수가 적다. 

 

  • 지표가 의미하는 것에 대한 기준을 합의하고 계속 인지하고 있어야 하며 이 기준이 어떤 전제 조건하에 유효한지 알고 이를 통해서 어떤 결정을, 어떤 가치를 창출하려고 하는지를 이해하고 있어야 바르게 지표를 사용할 준비가 된 것

 

  • 지표란 무엇인지 알아 두기라고 한다면, 사람들이 제시하는 숫자가 제대로 된 것인지 판단할 수 있는 시야를 가질 수 있다. 처음에는 개인 공간에서 지표를 조금씩 활용하다가 점점 활용 범위를 넓혀갈 수도 있고 타인에게 제안할 수 있을 것이다. 그렇게 작은 곳에서부터 '지표의 마법'의 힘을 찾을 수 있기를, 그 힘을 더 많은 사람들이 누릴 수 있게 되기를 빌어 본다.(p.135)

 

  • 나는 데이터로 하는 업무의 이상적인 흐름은 '주기적으로 봐야 하는 지표는 잘 정의해서 모니터링 하고 대시보드를 잘 구성하고 최대한 본인이 보고자 하는 데이터는 본인이 직접 추출할 수 있을 것이며 어려운 분석이 필요하면 문제를 잘 정의해서 데이터 과학자와 상의 후 결과까지 맡기는 것'이라 생각한다.(p.158)

 

  • 무조건적으로 개인화 추천 서비스를 넣겠다고 외치기보다 현재 상황에서 개인화 추천 기능을 추가하는 것이 과연 서비스를 더 좋게 만드는 일인지 좀 더 심도있게 고민해야 한다. 기술력뿐만 아니라 추천의 사용성과 현재의 자원, 운영 계획 등에 대해 하나의 서비스의 '기능'이자 '일부'로서의 측면을 먼저 고민하고 거기에 어떤 기술이 필요한지를 부차적으로 생각해보자든가, 어떤 성과를 예상하고 있으며 이 기능의 성과 분석은 어떤 식으로 할 것인지부터 한번 생각해보고 그 '추천'을 통해 사용자에게 어떤 가치를 주고 싶은지 먼저 생각해 보는 것이 좋겠다는 말. '추천'에 대해 지겹도록 뜬구름 같은 이야기를 들을 때마다 늘 하고 싶은 말이다.(p.170)

 

  • 특히 프로파일을 인구 통계학 정보와 결합하는 것은 프로파일을 서비스나 기업 입맛에 맞게 사용하는 가장 손쉬운 방법이지만, 기존의 차별이나 고정관념과 연결되면 이를 더 고착화하는 결과를 낳을 수 있다.(p.196)

 

  • 기술과 데이터는 만드는 사람이 생각하는 다수를 중심으로 돌아가게 되어 있고 데이터 분석 결과의 효과적 전달이라는 측면에서 소수를 다룬 내용은 아주 특이하거나 흥미롭지 않으면 사람들의 관심을 끌지 못한다. 그럴수록 적은 데이터는 더 접근성이 떨어진다.(p.241)

 

  • 이야기에 숫자가 들어가면 객관적인 것처럼 포장되고 읽는 사람이나 쓰는 사람 모두 중립적으로 판단하고 있다는 지적 허영심에 사로잡힌다. 하지만 무비판적으로 읽는 숫자는 이미 갖고 있는 사고방식의 편향이 열어준 통로로 들어오는 바이러스와 같다.(p.243)

'Data > Books' 카테고리의 다른 글

<로지컬 씽킹> - 데루야 하나코, 오카다 게이코  (1) 2025.01.14