有做计算机视觉，图像识别的同胞吗?

bitsun · 发表于 2016-4-26 19:41

傻卵发表于 2016-4-26 19:44
做这个没啥前途啊，请看google图像搜索....

人家google公司大吧，资金充足吧，人员够顶尖吧，再看google ...

试试看goggle,更让我惊讶deep learning成熟度的是Rekognition，可惜他们的demo好像关闭了，据说被亚马逊收购中，你试过他们的demo以后，你就会觉得你就是你的名字一样。

mandriva · 发表于 2016-4-26 19:54

如果把一个图片的pixel矩阵例如640*480转换成一行的话，比如1*10，1*100之类的，有没有什么转换方法能够在信息流失度最小的情况下把一个图片变成一行数据?我基本用的就是R或者python.

啥子意思？ 640*480 正是一行阿， bool(640*480 == 1 * 640 * 480) == True
可以实现无损转换，算法

from PIL import Image
def serializer(fn):
#fn == filename or path which can be viewed by OS
serialization = []
with Image.open(fn) as im:
width, height = im.size
pix = im.load()
# 640 x 480
for y in range(height):
# Make a vertical loop with y coordinate
for x in range(width):
# Loop horizontally with x coordinate
serialization.append(pix[x + 1, y + 1])
return serialization

复制代码

only555 · 发表于 2016-4-26 19:55

yangdi12 发表于 2016-4-26 19:41
*一行对应一个分类* 这句话指的是一行中每一个数值都是一个feature的一个维度。（也有同时用几个featur ...

我大概看明白你的意思了，原来这么麻烦的东西。我们机器学习这块像选特征值，实现算法，选最优参数，ensamble 之类的都不是什么问题，就是不会把图片转换成数据。我们现在的做法估计都谈不上暴力，可能就是傻。我们一个图片里面有些场景大部分地方都是人，然后每个人有个动作，例如搬运货物啊，吃饭啊之类的，然后对应的label 就是这群人在干什么，例如arbeiten ,essen, rauchen 等等。所以我们最后要做的还是分类。分类回归我们都做过很多，这没什么问题，但就是没办法合理的把每个图片换成一行数据然后对应一个状态(label)例如arbeiten，然后去算。我们根本就还没去想选特征值的事情呢，以为和正常一样，先把数据整合一起, 变成一个label对应一个图片数据(1*n features) 然后才是选特征值。你上面说的2种方法我去试试，感觉第二种好像更适合，因为我们图像里面可以好几个人，这样分块提取特征值后可能会更准确些，例如2个人在工作一个人在抽烟，那最后的分类可能能自动分辨出来他们是工作。可能会更准确些。。谢谢你的回复，明天我和同事说说，然后大家再尝试一下。原谅我高考不及格的语文吧。。哈哈。。

only555 · 发表于 2016-4-26 20:05

bitsun 发表于 2016-4-26 20:39
说的很对，从楼主给出的图像尺寸来看，不大可能已经normalization(是不是就是你说的归一化？)。所以我还 ...

小妹，才疏学浅，见笑了，还期待大神门的帮助啊。。

sailajohn · 发表于 2016-4-26 20:19

如果你拥有大量训练数据，每个类别超过至少1000幅以上的图片，并且分布相对平均，我建议你使用深的卷积神经网络（CNN），深度学习是你需要的最佳选择，请搜索caffe deeplearning framework。深度神经网络的优势就是利用大数据让层级化的神经网络自行学习更高阶的特征属性。简单的说针对你的问题，一个深度网络的入口就是你的原始像素矩阵，在一个已经训练完备的deep model上进行一个前向计算，从最后的全连神经层输出的结果，比如可能是一个2048维的特征向量，就是你需要的高阶的特征向量，后面你可以将它倒入HaHa，或者训练分类器都行。

only555 · 发表于 2016-4-26 20:27

sailajohn 发表于 2016-4-26 21:19
如果你拥有大量训练数据，每个类别超过至少1000幅以上的图片，并且分布相对平均，我建议你使用深的卷积神经 ...

非常感谢你的回复啊，这个深度学习我还没具体接触过，只是平时听过这方面的报道。如果我没理解错你的意思，你是说我利用这个深度学习下的这个类似神经网络的model 可以直接输入我们图片数据化后的像素矩阵，然后model的输出是一个图片对应一行的正常矩阵，这个输出我就可以拿来做正常的分类学习了。是这样吗? 那太好了啊，我们需要的就是这个类型的转换。。。

sailajohn · 发表于 2016-4-26 21:16

only555 发表于 2016-4-26 21:27
非常感谢你的回复啊，这个深度学习我还没具体接触过，只是平时听过这方面的报道。如果我没理解错你的意 ...

就是这个意思，而且通过一个训练完备的CNN模型（例如在image net数据集上训练出来的模型，image net是著名的图像分类竞赛数据集，拥有1000个类别，每个类大概1000幅图片）你用你的图片在模型上前向运算输出的特征值向量要比传统机器学习的人工设计的特征如hog，sift，surf等等等等都要高级，优越，你得到的分类结果也会更好，caffe framework是巴克利大学视觉实验室提供的开源深度学习库，c++编写，拥有python和matlab接口，同时提供已经训练好的image net模型，caffe开源模型园（caffe zoo）中你也可以找到很多其他研究机构提供的模型，大多是前沿科研成果的样机，例如训练的更优的牛津大学视觉实验室的vgg系列模型...

傻卵 · 发表于 2016-4-26 21:34

bitsun 发表于 2016-4-26 20:41
试试看goggle,更让我惊讶deep learning成熟度的是Rekognition，可惜他们的demo好像关闭了，据说被亚马逊 ...

那天看鸿观去google 总部采访，才知道google做图像查询的负责人是一个中国人，据说是google公司元老级人物了，吹的多么牛逼，然后按照鸿观里说的试用了下google的图像搜索........

感觉真的是一泼屎

谁说关闭了？如果你说的是google图像搜索的话，你现在可以去试试，根本就不好用！

所以我觉得做这个没前途

bitsun · 发表于 2016-4-26 22:00

only555 发表于 2016-4-26 20:55
我大概看明白你的意思了，原来这么麻烦的东西。我们机器学习这块像选特征值，实现算法，选最 ...

随着你的表述越来越多，感觉你是要做一个human action recognition?
那第一步应该是做 human detection, 至少你可以把人物从图片背景分离出来，再用其他人建议的CNN模型训练出来的特征加SVM。好吧，感觉可以发一篇论文了，以action recognition + deep learning可以搜出大一堆文献。deep learning我一直只是仰视，看其他大神给意见吧。
但做机器视觉，识别感觉就是要不停阅读文献

bitsun · 发表于 2016-4-26 22:07

傻卵发表于 2016-4-26 22:34
那天看鸿观去google 总部采访，才知道google做图像查询的负责人是一个中国人，据说是google公司元老级人 ...

负责人是中国人就不行？你得有多自卑。在机器学习机器视觉领域，华人还真的非常牛逼。如果真是一个华人在负责，我一点都不奇怪。
另外你会错我的意思，我是说Rekognition的demo，谷歌开发的goggle这个app你也可以试试，谷歌的图片搜索，我没试过，但是给我感觉是识别相近图片而已，并没语义上的识别，当然会显得非常傻瓜，但是这早就不是图片识别的前沿了，算了不跟你太多废话了。觉得你先入为主太厉害

账号		自动登录	找回密码
密码			注册

萍聚头条

[职业生涯] 有做计算机视觉，图像识别的同胞吗?