[전국 공모전] KB금융그룹 금융문자 분석 경진대회

👈 Click! 투표!


상세내용

1. 배경

올해 1월부터 7월까지 스미싱 범죄 건수는 176220건으로 지난해 같은 기간(145093)에 비해 21.5% 증가했습니다.

특히 최근 교묘하고 지능적인 스미싱 문자 패턴으로 인해 고객들의 피해가 증가하고 있습니다

이를 방지하기 위해 kb 금융그룹과 KISA는 데이코너들에게 도움을 요청합니다.

총 글자수 50,000,000개의 데이터를 활용해 스미싱 탐지 모델을 개발하고 명예와 상금을 동시에 누리세요!

2. 주최/주관

– 주최 : KB금융지주DACON , 

KISA(한국인터넷진흥원)

– 주관 : DACON

 

3. 참가자 대상

–  금융문자 분석 알고리즘 및 자연어 처리 빅데이터를 활용한 알고리즘 개발 혹은

스미싱 구분 알고리즘 개발에 관심을 보유한 일반인학생기업 등 누구나

4. 데이터 제공 및 설명

– 다운로드 링크 : http://bit.ly/2XxCMEF

– 금융 문자 데이터의 보안적 이슈 때문에 카카오 페이 인증 절차를 거치는 점 양해 바랍니다.

– 개인 및 팀 참가자(팀장 및 팀원 모두)들은 카카오 페이 인증 사항에 동의를 하셔야하며.

  특히 팀 참가자분들의 경우, 팀장 및 팀원 전부가 해당 카카오 페이 인증 사항에 동의하시지 않으신 경우,

팀 참가가 무효 처리 됨을 알려드립니다.

  (팀장 OR 팀원만 다운로드 받은 뒤 팀원 및 제3자 무단 배포 및 게시 절대 금지대회 실격 사유 및 동의 사항 미이행 해당,

팀장 및 팀원 각자 다운로드 받은 데이터 사용 바람)

2) 데이터 설명

– KB금융그룹 및 KISA(한국인터넷진흥원)에서 제공받은 정상문자와 스미싱 문자 

– 문제 및 답안 제출 : 해당 train,

public_

t

est.csv 파일을 활용하여,

public_

test.csv파일에서 없는 항목인 smishing 변수의 각 예측값 확률을 만들어

제출하시면 됩니다.  

주의제공되는 데이터에는 개인정보 보호를 위해

개인정보로 간주될 수 있는 이름전화번호은행 이름지점명은 X 혹은 *로 필터링 되어 제공이 됩니다

A.    train.csv(행 갯수 296463개), public_test.csv(행 갯수 8153개)

변수 명

변수 설명

id

각 문자가 가지고 있는 고유 구분 번호

(train Data와 public_test Data id는 중복되지 않음)

year_month

고객이 문자를 전송 받은 년도와 월

text

고객이 전송 받은 문자의 내용

smishing

(train_data에만 해당)

해당 문자의 스미싱 여부

(0 – 스미싱 아님, 1 –  스미싱)

 

B.    submission_제출양식.csv

변수 명

변수 설명

id

public_test.csv에서 각 문자가 가지고 있는 고유 구분 번호

smishing

해당 id의 스미싱 여부에 대한 예측된 확률을 기입

 

 예시 submission 파일 : submission_제출양식.csv

5. 일정 (UTC+ 9 (한국기준)

– 제출 : 2019년 11월 21일 00:00 ~ 2020년 01월 12일 23:59

– 코드 제출: 2020년 01월 13일 오후 ~ 01월 20일 23:59분

– 내부 평가 : 2020년 01월 21일 ~ XX월 XX일 (미정)

– 시상 : 2020년 XX월 XX일 XX:00 ~ XX:00 (미정)

6. 상금 수여 팀

– 1 : 1,000만원 및 KB금융지주회장상 

  2등 : 500만원 및 한국인터넷진흥원장상

  3등 : 250만원

  4 : 100만원

  5등 ~ 7등 각 50만원

– 총 상금 2,000만원, 총 수여 팀 수 7

 

7. 개인 및 팀 병합 규정

– 개인의 경우자유롭게 해당 데이콘 계정으로 csv파일을 제출을 하시면 됩니다

( [email protected]로 메일을 보내주시지 않으셔도 됩니다. )

– 팀원은 팀장 포함 최대 5까지 구성할 수 있습니다.

 팀의 대표는 팀 멤버의 계정 이메일닉네임 정보를 데이콘 어드민 계정 이메일( [email protected]로 보내야 합니다.

       

      참가 신청 이메일 예시)  [14회 KB금융그룹 금융문자 분석 경진대회] ooo팀 참여 신청합니다.

                                        팀장 해당 팀장의 데이콘 가입 닉네임 / [email protected]

                                        팀원1 해당 팀원의 데이콘 가입 닉네임 [email protected]

                                        …

                                팀원2 해당 팀원의 데이콘 가입 닉네임 [email protected]

– 팀 신청을 하기 전에 개인으로 1회라도 제출한 유저는 추후에 팀에 포함될 수 없습니다.

– 대회 당 하나의 팀에만 소속이 가능하며1회 이상 제출 시점 부터 팀원 탈퇴, 추가, 교체는 불가능합니다.

– 팀의 수상 요건 충족 시 수상은 팀의 대표가 수상하게 됩니다.

– submission 제출은 팀장 아이디로만 가능합니다팀장을 제외한 팀원은 개인 계정으로 결과물 제출할 수 없으며,

이를 어길 시팀원의 해당 제출 내용은 무효가 됩니다.

8. 평가

– 참가자 하루 최대 제출 횟수 3평가 지표(Metric) AUC입니다.

평가는 다음과 같은 과정으로 이루어집니다.

A. 공개 랭킹 (Public Score) 대회 중 제공되는 public_test 데이터로 채점합니다.

B. 최종 랭킹 (Private Score) : 리더보드 종료 이후, public ranking이 높은 상위 20팀을 추가 채점합니다.

해당 과정을 요약한 내용은 다음과 같습니다.

private_score 설명.PNG

–  Public Score 랭킹이 높은 상위 참가자 20팀은 1월 20일 23:59분까지 [email protected] 로 

   정해진 코드 양식에 맞는 코드, 내용을 설명하는 간단한 PPT, private_test_data 평가용 학습 model file을 제출합니다.

   (public ranking에 올라간 score가 복원 가능하여야 함)

   코드 양식 : 추후 공개

   ppt 양식 : 추후 공개

–  1월 20일까지 정해진 코드 양식에 맞는 코드파일을 제출한 상위 참가자 팀들을 대상으로

    dacon에서 내부 평가를 수행하여 다음의 평가 기준을 바탕으로 종합 최종 랭킹을 공개합니다.

평가 기준

평가 비율

private_test data를 통해 나타나는 auc score 순위

70%

Inference time (스미싱 문자 예측에 걸리는 시간순위

30%

(순위 동점자 발생시 Private score 순위가 더 상위권인 참가자가 더 높은 순위로 기록됨)

ex) A팀 : auc score 순위 10위, Inference time 순위 1등 -> 10 * 0.7 + 1 * 0.3 -> 7.3점

     B팀 : auc score 순위 7위,   Inference time 순위 8등 -> 7 * 0.7  + 8 * 0.3 -> 7.3점

     auc score 순위가 더 높은 B팀이 더 높은 등수로 기록

9. 대회 규칙

A. 코드 관련

1) 입상자는 코드 제출 필수제출 코드는 예측 결과를 리더보드 점수로 복원할 수 있어야 함

2) 코드 제출시 확장자가 R user는 R or .rmd. Python user는 .py or .ipynb

3) 코드에 ‘/data’ 데이터 입/출력 경로 포함 제출

4) 전체 프로세스를 일목요연하게 정리하여 주석을 포함하여 하나의 파일로 제출

5) 모든 코드는 오류 없이 실행되어야 함(라이브러리 로딩 코드 포함되어야 함).

6) 코드와 주석의 인코딩은 모두 UTF-8을 사용하여야 함

B. 외부 데이터 관련

1) 외부 공공 데이터 사용이 가능하나코드 제출 시 함께 제출

2) 공공 데이터 외의 외부 데이터는 법적인 제약이 없는 경우에만 사용 가능

3) 외부 데이터를 크롤링할 경우크롤링 코드도 함께 제출

 

C. pre-training 관련

1) 기존에 공개된 nlp 관련 pre-training model의 경우,

   ULMFiT, Transformer Google’s BERT, Transformer-XL, OpenAI’s GPT-2, ELMo, Flair, 

StanfordNLP 등의

nlp 관련 pre-training 모델이 허용됨을 알려드립니다.

2) pre-training 모델을 사용하시려는 경우,

   pre-training 모델의 원본이 있는 사이트의 링크, pre-training 모델이 공개적으로 사용이 가능한지의 여부,

pre-training 모델을 사용한 이력이코드 파일 제출 양식에 반드시 포함이 되어 있어야 합니다.