黑马程序员技术交流社区

标题: 【上海校区】使用yolo v3+alexnet做上衣颜色识别项目总结 [打印本页]

作者: 不二晨 时间: 2018-8-14 09:34
标题: 【上海校区】使用yolo v3+alexnet做上衣颜色识别项目总结

上衣颜色识别项目总结

流程：

先用yolo v3的Keras版本训练coco数据集的模型做行人检测，过滤掉非行人以及超大框，得到行人的位置
使用alexnet进行颜色分类，一共12类，数据集是之前标定好的数据集，格式是pascal voc的格式，大概3万张数据集。按照train-set :val-set=9:1的比例进行训练，得到颜色识别模型的val acc=76%,想用vgg模型继续改，但是训练到21%左右准确率就不再提升不知道原因。尝试失败
测试训练好的颜色模型：将第一步的行人位置的图片截取出来，传入颜色识别模型中进行识别，然后将结果返回。但是测试阶段很慢，每帧需要400秒的测试时间，因此视频当中的每一秒的测试时间是400*25帧=10000秒，时间太长，需要修改网络结构

优化方向：感觉可以使用Yolo v3训练全景图，也就是5元组，4个坐标位置+1个颜色label，这样实时性能高很多，毕竟仅仅使用Yolo v3这个框架，并不需要调用颜色识别函数。

相关说明：

训练数据：仅仅设计涉及到上衣颜色数据集，用的之前标定的数据集，并没有用RAP数据集

测试数据：将视频当中的行人用yolo v3训练coco数据集的模型检测出来，然后传入颜色识别模型进行测试，但是误检率比较高

测试平台：ubuntu14.04,python3.6.1,keras==2.1.3,tensorflow-gpu==1.4.1

评价指标以及测试demo，由于需要的时间太长，11分钟的视频，需要11*60*400*25约等于76天，没有做，需要方法优化，不过做这个小实验也有一些收获，踩了很多坑，最后都解决了。

三.项目收获

1）RAP数据集

RAP数据集的label是mat文件，第一次使用，所以需要先转化为xml格式，然后再进行读取，并且RAP数据集仅仅能做图片训练，不能做行人检测【问了RAP数据集的作者】；

RAP数据集的上衣位置，需要将上衣的位置-人的位置，才可以找到上衣的位置

2）yolo v3的多分类

之前使用yolo v3做了人脸识别，仅仅有face这一个类别，这次用yolo v3做了多分类，产生了一个比较奇怪的现象，返回了多个预测类别，因此需要将sigmoid层改为softmax层重新训练，这样才可以得到最终的预测一种类别。

3）两个项目的拼接：

我是以yolo v3作为主项目，然后颜色识别的测试做子项目，两个项目的拼接也用了一段时间，遇到了好多坑，比如说，图像处理的库：opencv以及PIL，这两个库的channel顺序不同，opencv是BGR,PIL是RGB，因此需要转换，并且在用PIL的剪裁行人的框的时候也遇到了一些小问题，导致在项目拼接的时候始终调用不了颜色识别模型的测试文件。

4)一定要写异常处理函数！！

这点很重要，因为数据集的标定并不像想象那样标注的很好，遇到了问题就是，读取了一个标注文件，没有衣服颜色属性，导致返回空值，在批处理的时候由于数据量太大，始终发现不出来问题，就是报错，后来printf这个方法搞定了。

【转载】 https://blog.csdn.net/mdjxy63/article/details/81630371

作者: 梦缠绕的时候 时间: 2018-8-16 16:12

作者: 不二晨 时间: 2018-8-16 16:58
奈斯

欢迎光临黑马程序员技术交流社区 (http://bbs.itheima.com/)

黑马程序员IT技术论坛 X3.2