Deep Learning 2 Kaggle Competition

[TOC]

[Kaggle] House Price

结构化数据(表格)、回归问题(预测房价)

2020.4.20 House Prices V1.0



[Kaggle] TMDB Box Office Prediction

结构化数据(表格,表格拼接)、回归问题

题意:预测某公司的全球票房

解法:脏数据的处理(把表格中的特定数据列中的json数据提取解析出来)

[Kaggle] Digit Recognizer

解法:通过deeplearning+Neutral Network来提取属性,利用分类器来分类,神经网络最后一层用softmax。

非结构化数据(虽然是利用表格来描述的图片像素点,但是只是通过像素点来表示图像,像素点并不能作为 单独的可以提炼出来的属性)、分类问题(softmax层多分类)

2020.4.23 Digit Recognizer V1.0



[Kaggle] Titanic

结构化数据(表格)、分类问题(二分类TorF)

2020.4.26 Titanic V1.0

2020.7.12 Titanic V2.0: New Featureing Engineering



[Kaggle] DeepFake

非结构化数据(视频-图片,音频)、分类问题(二分类TorF)

20207.20 DeepFake: Data proprocessing



[iFLYTEK] Temperature Predict

结构化数据(表格)、时序问题(随时间推移)

2020.7.27 Temperature Predict:Basic structure, use lightgbm and xgboost



[Kaggle] Bike Sharing Demand

结构化数据(表格)、时序问题(随时间推移)

2020.7.31 bike sharing use rf and GDBT



[Kaggle] Forest Cover Type Prediction

结构化数据(表格)、分类问题(多分类,但是由于特征都是需要手动做,所以不需要深度学习模型,通过机器学习模型即可)

2020.8.6 Forest Cover Data visualize–plotly use plotly to visualize (also have matplotlib.pyplot) Feature Engineering, Xgboost use xgboost and with basic feature engineering



[Kaggle] 员工离职率预测

结构化数据(表格)、分类问题(二分类,Yes/No)

2020.8.8 LR baseline for BI-class with one-hot encoding on LR baseline



[Kaggle] NLP with Disaster Tweets

非结构化数据(文字数据,类似语音)、分类问题(二分类,isDisaster/notDisaster)

题意:通过表格给出的每个样本中的对应的文本内容和标签,来预测测试文本是否预示着灾难disaster

注意:虽然数据的格式.csv格式,但是实际存储格式是利用表格来映射二分类。

解法:deeplearning来解决非结构化数据,通过deeplearning+Neutral Network来提取属性,利用分类器来分类,神经网络最后一层用sigmoid函数,来进行二分类,0或1。通过利用bert模型来完成。

2020.8.10 Keras Bert using TensorflowHub :直接利用Bert模型,然后训练即可。

2020.9.30 NLP with Disaster Tweets – GloVe, LSTM(BLSTM) GloVe 100B LSTM :当前存在overfitting的问题,train » val origin



[Kaggle] Bag of Words Meets Bags of Popcorn

非结构化数据(文字数据,类似语音),回归问题

题意:「使用Google的Word2Vec进行电影评论」通过表格给出的每个样本中的对应的文本内容和标签,来对用户对电影的点评的情绪进行预测。(0~1之间)

解法:deeplearning解决非结构化数据,提取特征的方式是通过词袋+text然后映射出一个特征向量。

2020.8.11 Word2vec, bag of words 基本框架,通过词袋+text然后通过rf进行基本的预测的baseline

2020.8.12 Bow, Output probability 在上一个的基础上,通过词袋+text获取对应的特征的时候进行了train_lr, test_lr以及交叉验证,提高了特征的质量。最后使用逻辑回归进行输出。



[Kaggle] Sentiment Analysis on Movie Reviews

题意:情感分析,对国外的某个平台(类似知乎的平台)上的信息进行甄别情感类型

非结构化数据(文字数据)、分类问题(情感分类)

工具:NLTK(natural language toolkit)来进行英文字符、符号等统计工作。

2020.8.24 Sentiment Analysis on Movie Reviews – LSTM 「public notebook,可以查看」使用LSTM。



[Kaggle] Facial Keypoint Detection

非结构化数据(图片数据)

题意:给出图片,找到面部关键点的位置(百分比坐标)

2020.8.12 Basic Netrul Network baseline

2020.8.15 Data Argument, CNN Generate more data to train.[结合CV过程blog]



[Kaggle] Dogs vs. Cats Redux: Kernels Edition

非结构化数据(图片数据)

主要解决思路:图片通过tqdm(提示进度)、cv2读取图片并转换成data数据,基于预训练模型的迁移学习。

2020.8.16 Dogs vs. Cats - Transfer Leanring [ResNet] 「迁移学习」直接调用深度残差网络ResNet34/ResNet50,来作为主模型,后面添加Dense层(? softmax层)即可。



[Kaggle] Dog Breed Identification

非结构化数据(图片)、分类问题(多分类问题,狗有多种品种,查看属于哪种)

主要解决思路:图片通过tqdm(提示进度)、keras.preprocessing.imageload_img来转换成data数据。

2020.8.23 Dog Breed Identification – keras, CNN 利用InceptionV3、xception、NASNetLarge、Inception_Resnet_V2作为特征提取器来图片中的特征,然后最后拼接成model的输入,用model进行预测(MLE Error)



[Kaggle] Credit Card Fraud Detection

结构化数据(经过PCA处理之后的主成分提取 => 保护隐私)、异常检测、分类问题(是否是为异常)

存在的问题:主要是Imbalance Datasets

2020.8.18 Note



[Kaggle] Predict Future Sales

结构化数据、时序问题

解决:通过LSTM解决时序问题

2020.8.19 Predict Future Sales – xgboost 首先尝试用非神经网络模型xgboost来解决。



[Kaggle] Random Acts of Pizza



[Kaggle] Dogs vs. Cats

非结构化数据、分类问题

2020.9.7 Dogs vs. Cats – keras, CNN, classification no output

2020.9.8 Dogs vs. Cats – pytorch, transfer learning, resnet18 no output



[Kaggle] TGS Salt Identification Challenge

非结构化数据(图像数据)、图像分割



[Kaggle] Covid mRNA Vaccine Degradation Prediction

  • COVID19 mRNA 疫苗讲解预测
  • json 数据结构,通过read_json进行读取
  • 通过分析一个由ACGU构造的mRNA序列
Posted on Jan 28, 2020