상세내용
1. 배경
올해 1월부터 7월까지 스미싱 범죄 건수는 17만6220건으로 지난해 같은 기간(14만5093건)에 비해 21.5% 증가했습니다.
특히 최근 교묘하고 지능적인 스미싱 문자 패턴으로 인해 고객들의 피해가 증가하고 있습니다.
이를 방지하기 위해 kb 금융그룹과 KISA는 데이코너들에게 도움을 요청합니다.
총 글자수 50,000,000개의 데이터를 활용해 스미싱 탐지 모델을 개발하고 명예와 상금을 동시에 누리세요!
2. 주최/주관
- 주최 : KB금융지주, DACON ,
- 주관 : DACON
3. 참가자 대상
- 금융문자 분석 알고리즘 및 자연어 처리 빅데이터를 활용한 알고리즘 개발 혹은
스미싱 구분 알고리즘 개발에 관심을 보유한 일반인, 학생, 기업 등 누구나
4. 데이터 제공 및 설명
- 다운로드 링크 : http://bit.ly/2XxCMEF
- 금융 문자 데이터의 보안적 이슈 때문에 카카오 페이 인증 절차를 거치는 점 양해 바랍니다.
- 개인 및 팀 참가자(팀장 및 팀원 모두)들은 카카오 페이 인증 사항에 동의를 하셔야하며.
특히 팀 참가자분들의 경우, 팀장 및 팀원 전부가 해당 카카오 페이 인증 사항에 동의하시지 않으신 경우,
팀 참가가 무효 처리 됨을 알려드립니다.
(팀장 OR 팀원만 다운로드 받은 뒤 팀원 및 제3자 무단 배포 및 게시 절대 금지, 대회 실격 사유 및 동의 사항 미이행 해당,
팀장 및 팀원 각자 다운로드 받은 데이터 사용 바람)
2) 데이터 설명
- KB금융그룹 및 KISA(한국인터넷진흥원)에서 제공받은 정상문자와 스미싱 문자
* 주의: 제공되는 데이터에는 개인정보 보호를 위해,
개인정보로 간주될 수 있는 이름, 전화번호, 은행 이름, 지점명은 X 혹은 *로 필터링 되어 제공이 됩니다.
A. train.csv(행 갯수 296463개), public_test.csv(행 갯수 8153개)
변수 명 | 변수 설명 |
id | 각 문자가 가지고 있는 고유 구분 번호 (train Data와 public_test Data의 id는 중복되지 않음) |
year_month | 고객이 문자를 전송 받은 년도와 월 |
text | 고객이 전송 받은 문자의 내용 |
smishing (train_data에만 해당) | 해당 문자의 스미싱 여부 (0 - 스미싱 아님, 1 - 스미싱) |
B. submission_제출양식.csv
변수 명 | 변수 설명 |
id | public_test.csv에서 각 문자가 가지고 있는 고유 구분 번호 |
smishing | 해당 id의 스미싱 여부에 대한 예측된 확률을 기입 |
예시 submission 파일 : submission_제출양식.csv
5. 일정 (UTC+ 9 (한국) 기준)
- 제출 : 2019년 11월 21일 00:00 ~ 2020년 01월 12일 23:59
- 코드 제출: 2020년 01월 13일 오후 ~ 01월 20일 23:59분
- 내부 평가 : 2020년 01월 21일 ~ XX월 XX일 (미정)
- 시상 : 2020년 XX월 XX일 XX:00 ~ XX:00 (미정)
6. 상금 / 수여 팀
- 1등 : 1,000만원 및 KB금융지주회장상
2등 : 500만원 및 한국인터넷진흥원장상
3등 : 250만원
4등 : 100만원
5등 ~ 7등 : 각 50만원
- 총 상금 2,000만원, 총 수여 팀 수 7팀
7. 개인 및 팀 병합 규정
- 개인의 경우, 자유롭게 해당 데이콘 계정으로 csv파일을 제출을 하시면 됩니다.
- 팀원은 팀장 포함 최대 5명까지 구성할 수 있습니다.
- 팀의 대표는 팀 멤버의 계정 이메일, 닉네임 정보를 데이콘 어드민 계정 이메일( dacon@dacon.io ) 로 보내야 합니다.
참가 신청 이메일 예시) [14회 KB금융그룹 금융문자 분석 경진대회] ooo팀 참여 신청합니다.
팀장 : 해당 팀장의 데이콘 가입 닉네임 / hogil@gmail.com
팀원1 : 해당 팀원의 데이콘 가입 닉네임 / edata@gmail.com
...
팀원2 : 해당 팀원의 데이콘 가입 닉네임 / dacondacon@gmail.com
- 팀 신청을 하기 전에 개인으로 1회라도 제출한 유저는 추후에 팀에 포함될 수 없습니다.
- 대회 당 하나의 팀에만 소속이 가능하며, 1회 이상 제출 시점 부터 팀원 탈퇴, 추가, 교체는 불가능합니다.
- 팀의 수상 요건 충족 시 수상은 팀의 대표가 수상하게 됩니다.
- submission 제출은 팀장 아이디로만 가능합니다. 팀장을 제외한 팀원은 개인 계정으로 결과물 제출할 수 없으며,
이를 어길 시, 팀원의 해당 제출 내용은 무효가 됩니다.
8. 평가
- 참가자 하루 최대 제출 횟수 3회, 평가 지표(Metric)은 AUC입니다.
평가는 다음과 같은 과정으로 이루어집니다.
A. 공개 랭킹 (Public Score) : 대회 중 제공되는 public_test 데이터로 채점합니다.
B. 최종 랭킹 (Private Score) : 리더보드 종료 이후, public ranking이 높은 상위 20팀을 추가 채점합니다.
해당 과정을 요약한 내용은 다음과 같습니다.
- Public Score 랭킹이 높은 상위 참가자 20팀은 1월 20일 23:59분까지 dacon@dacon.io 로
정해진 코드 양식에 맞는 코드, 내용을 설명하는 간단한 PPT, private_test_data 평가용 학습 model file을 제출합니다.
(public ranking에 올라간 score가 복원 가능하여야 함)
코드 양식 : 추후 공개
ppt 양식 : 추후 공개
- 1월 20일까지 정해진 코드 양식에 맞는 코드파일을 제출한 상위 참가자 팀들을 대상으로
dacon에서 내부 평가를 수행하여 다음의 평가 기준을 바탕으로 종합 최종 랭킹을 공개합니다.
평가 기준 | 평가 비율 |
private_test data를 통해 나타나는 auc score 순위 | 70% |
Inference time (스미싱 문자 예측에 걸리는 시간) 순위 | 30% |
(순위 동점자 발생시 Private score 순위가 더 상위권인 참가자가 더 높은 순위로 기록됨)
ex) A팀 : auc score 순위 10위, Inference time 순위 1등 -> 10 * 0.7 + 1 * 0.3 -> 7.3점
B팀 : auc score 순위 7위, Inference time 순위 8등 -> 7 * 0.7 + 8 * 0.3 -> 7.3점
auc score 순위가 더 높은 B팀이 더 높은 등수로 기록
9. 대회 규칙
A. 코드 관련
1) 입상자는 코드 제출 필수. 제출 코드는 예측 결과를 리더보드 점수로 복원할 수 있어야 함
2) 코드 제출시 확장자가 R user는 R or .rmd. Python user는 .py or .ipynb
3) 코드에 ‘/data’ 데이터 입/출력 경로 포함 제출
4) 전체 프로세스를 일목요연하게 정리하여 주석을 포함하여 하나의 파일로 제출
5) 모든 코드는 오류 없이 실행되어야 함(라이브러리 로딩 코드 포함되어야 함).
6) 코드와 주석의 인코딩은 모두 UTF-8을 사용하여야 함
B. 외부 데이터 관련
1) 외부 공공 데이터 사용이 가능하나, 코드 제출 시 함께 제출
2) 공공 데이터 외의 외부 데이터는 법적인 제약이 없는 경우에만 사용 가능
3) 외부 데이터를 크롤링할 경우, 크롤링 코드도 함께 제출
C. pre-training 관련
1) 기존에 공개된 nlp 관련 pre-training model의 경우,
ULMFiT, Transformer Google’s BERT, Transformer-XL, OpenAI’s GPT-2, ELMo, Flair,
nlp 관련 pre-training 모델이 허용됨을 알려드립니다.
2) pre-training 모델을 사용하시려는 경우,
pre-training 모델의 원본이 있는 사이트의 링크, pre-training 모델이 공개적으로 사용이 가능한지의 여부,
pre-training 모델을 사용한 이력이코드 파일 제출 양식에 반드시 포함이 되어 있어야 합니다.
'공모전' 카테고리의 다른 글
[전국 공모전] 2019 현대글로비스 Smart Move Challenge (0) | 2019.12.04 |
---|---|
[전국 공모전] 의료인공지능 개발 콘테스트 HeLP Challenge 2019 (0) | 2019.12.03 |
[전국 공모전] 2019 인공지능(AI) 아이디어 경진대회 (0) | 2019.12.02 |
[제주 공모전] 제주테크노파크 X 데이콘 2019 Jeju BigData Competition (0) | 2019.12.01 |
[서울 해커톤] (2020) [LPWA] 서울 하드웨어 해커톤 | Seoul Hardware Hackathon (0) | 2019.12.01 |
댓글0