多媒体媒体颜色数学 Visual C++ 9.0 视频 OpenCV 图像 Visual Studio 2008 C++

使用 OpenCV 的特征描述符包（BoF-SIFT）

Ravimal Bandara

4.96/5 (54投票s)

2013年7月11日

CPOL

7分钟阅读

641071

7442

使用OpenCV和C++实现基于SIFT特征的词袋模型描述符，用于基于内容的图像检索应用。

下载源VS2008项目 - 229 KB

引言

基于内容的图像检索 (CBIR) 仍然是一个活跃的研究领域。有许多方法可用于从大型数据库中检索视觉数据。但几乎所有方法在初始步骤都需要图像的消化。图像消化是指使用低级特征（如颜色、形状和纹理）来描述图像，同时去除不重要的细节。颜色直方图、颜色矩、主色、可伸缩颜色、形状轮廓、形状区域、同质纹理、纹理浏览和边缘直方图是一些常用于CBIR应用的流行描述符。词袋模型 (BoF) 是一种另一种可以用于CBIR应用的视觉特征描述符。为了获得BoF描述符，我们需要从图像中提取特征。这个特征可以是任何东西，例如SIFT（尺度不变特征变换）、SURF（加速稳健特征）和LBP（局部二值模式）等。

通过本文，您可以找到BoF、SIFT的简要描述，以及如何从SIFT特征中获得BoF（BoF-SIFT）以及相关的源代码。BoF-SIFT已使用OpenCV 2.4和Visual C++ (VS2008) 实现。但是，您可以轻松修改代码以适应任何C++版本。如果您阅读一些OpenCV教程，您也可以自己编写相同的代码。

如果您是CBIR应用程序的开发者或视觉内容分析的研究人员，您可以将此代码用于您的应用程序或与您自己的视觉描述符进行比较。此外，您可以修改此代码以获得其他BoF描述符，如BoF-SURF或BoF-LBP等。

背景

BoF和SIFT是完全独立的算法。接下来的部分将分别描述SIFT和BoF。

SIFT - 尺度不变特征变换

点状特征在包括3D重建和图像配准在内的许多领域都非常受欢迎。一个好的点特征应该对几何变换和光照具有不变性。一个点特征可以是一个斑点或一个角。SIFT是最流行的特征提取和描述算法之一。它提取类似斑点的特征点，并用对尺度、光照和旋转不变的描述符来描述它们。

上图展示了如何使用特征点周围的梯度幅度和方向直方图来描述SIFT点。我不会在本篇文章中详细解释整个SIFT算法。但您可以在维基百科上找到SIFT的理论背景，或者阅读David Lowe关于SIFT的原始文章。对于那些对数学兴趣不大的人，我推荐阅读这篇博客文章。

与颜色直方图描述符或LBP类描述符不同，SIFT算法不提供图像的整体印象。相反，它从图像中检测出类似斑点的特征，并用一个包含128个数字的描述符来描述每个点。作为输出，它会得到一个点描述符数组。

CBIR需要一个全局描述符来与数据库中的视觉数据进行匹配，或者从视觉内容中检索语义概念。我们可以使用SIFT算法产生的点描述符数组来获得一个提供视觉数据整体印象的全局描述符，以用于CBIR应用。有几种方法可以从SIFT特征点描述符中获得该全局描述符，而BoF是可用于完成此任务的一种通用方法。

词袋模型 (BoF) 描述符

BoF是用于视觉数据分类的流行视觉描述符之一。BoF的灵感来自于用于文档分类的“词袋”概念。词袋是词语出现次数的稀疏向量；也就是说，是对词汇表的稀疏直方图。在计算机视觉中，视觉词袋模型是局部图像特征词汇表出现次数的稀疏向量。

BoF通常涉及两个主要步骤。第一步是获得一组词袋。这一步实际上是一个离线过程。我们可以为特定特征获取一组词袋，然后用它们来创建BoF描述符。第二步是将给定的一组特征聚类到第一步创建的词袋集合中，然后以词袋作为箱（bin）来创建直方图。这个直方图可以用于对图像或视频帧进行分类。

基于SIFT的词袋模型

让我们看看如何使用SIFT特征构建BoF。

获取一组词袋。
1. 选择一个大的图像集。
2. 提取集中所有图像的SIFT特征点，并获得从每张图像中提取的每个特征点的SIFT描述符。
3. 将特征描述符集聚类到我们定义的词袋数量（可以使用K-Means算法）并使用聚类的特征描述符训练词袋。
4. 获取视觉词汇表。

获取给定图像/视频帧的BoF描述符。
1. 提取给定图像的SIFT特征点。
2. 获取每个特征点的SIFT描述符。
3. 将特征描述符与我们在第一步创建的词汇表进行匹配。
4. 构建直方图。

下图清晰地展示了上述两个步骤。（图像来自http://www.sccs.swarthmore.edu/users/09/btomasi1/tagging-products.html）

Using the Code

使用OpenCV，我们只需几行代码就可以实现BoF-SIFT。请确保您已安装OpenCV 2.3或更高版本以及Visual Studio 2008或更高版本。OpenCV版本是必需的，但您仍然可以轻松地使用其他C++版本。

代码有两个独立编译和运行的区域。第一个区域用于获取一组词袋，另一个区域用于获取给定图像/视频帧的BoF描述符。您只需要运行代码的第一区域一次。创建词汇表后，您可以随时将其与代码的第二区域一起使用。通过修改下面的代码行可以切换两个代码区域。

#define DICTIONARY_BUILD 1 // set DICTIONARY_BUILD to 1 for Step 1. 0 for step 2

将 DICTIONARY_BUILD 常量设置为 1 将激活以下代码区域。

#if DICTIONARY_BUILD == 1
 
//Step 1 - Obtain the set of bags of features.

//to store the input file names
char * filename = new char[100];        
//to store the current input image
Mat input;    

//To store the keypoints that will be extracted by SIFT
vector<KeyPoint> keypoints;
//To store the SIFT descriptor of current image
Mat descriptor;
//To store all the descriptors that are extracted from all the images.
Mat featuresUnclustered;
//The SIFT feature extractor and descriptor
SiftDescriptorExtractor detector;    

//I select 20 (1000/50) images from 1000 images to extract
//feature descriptors and build the vocabulary
for(int f=0;f<999;f+=50){        
    //create the file name of an image
    sprintf(filename,"G:\\testimages\\image\\%i.jpg",f);
    //open the file
    input = imread(filename, CV_LOAD_IMAGE_GRAYSCALE); //Load as grayscale                
    //detect feature points
    detector.detect(input, keypoints);
    //compute the descriptors for each keypoint
    detector.compute(input, keypoints,descriptor);        
    //put the all feature descriptors in a single Mat object 
    featuresUnclustered.push_back(descriptor);        
    //print the percentage
    printf("%i percent done\n",f/10);
} 

//Construct BOWKMeansTrainer
//the number of bags
int dictionarySize=200;
//define Term Criteria
TermCriteria tc(CV_TERMCRIT_ITER,100,0.001);
//retries number
int retries=1;
//necessary flags
int flags=KMEANS_PP_CENTERS;
//Create the BoW (or BoF) trainer
BOWKMeansTrainer bowTrainer(dictionarySize,tc,retries,flags);
//cluster the feature vectors
Mat dictionary=bowTrainer.cluster(featuresUnclustered);    
//store the vocabulary
FileStorage fs("dictionary.yml", FileStorage::WRITE);
fs << "vocabulary" << dictionary;
fs.release();

您可以通过查看代码上方的注释来了解每一行代码的作用。总而言之，这部分代码只是从我的硬盘读取一组图像，提取SIFT特征和描述符，将它们连接起来，将它们聚类成一定数量的词袋（dictionarySize），然后通过使用聚类的特征描述符训练词袋来生成一个词汇表。您可以修改图像路径并使用您自己的图像集来构建词汇表。

运行此代码后，您将在项目目录中看到一个名为 dictionary.yml 的文件。建议您用记事本打开它，看看词汇表是如何显示的。它可能对您没有意义。但您可以了解文件的结构，这在您将来使用OpenCV时很重要。

如果您成功运行了此代码，那么可以通过将 DICTIONARY_BUILD 设置为 0 来激活下一部分。从这里开始，我们不再需要代码的第一部分，因为我们已经获得了词汇表并将其保存在文件中。

以下部分是实现第二步的代码段。

#else
    //Step 2 - Obtain the BoF descriptor for given image/video frame. 

    //prepare BOW descriptor extractor from the dictionary    
    Mat dictionary; 
    FileStorage fs("dictionary.yml", FileStorage::READ);
    fs["vocabulary"] >> dictionary;
    fs.release();    
    
    //create a nearest neighbor matcher
    Ptr<DescriptorMatcher> matcher(new FlannBasedMatcher);
    //create Sift feature point extracter
    Ptr<FeatureDetector> detector(new SiftFeatureDetector());
    //create Sift descriptor extractor
    Ptr<DescriptorExtractor> extractor(new SiftDescriptorExtractor);    
    //create BoF (or BoW) descriptor extractor
    BOWImgDescriptorExtractor bowDE(extractor,matcher);
    //Set the dictionary with the vocabulary we created in the first step
    bowDE.setVocabulary(dictionary);
 
    //To store the image file name
    char * filename = new char[100];
    //To store the image tag name - only for save the descriptor in a file
    char * imageTag = new char[10];
 
    //open the file to write the resultant descriptor
    FileStorage fs1("descriptor.yml", FileStorage::WRITE);    
    
    //the image file with the location. change it according to your image file location
    sprintf(filename,"G:\\testimages\\image\\1.jpg");        
    //read the image
    Mat img=imread(filename,CV_LOAD_IMAGE_GRAYSCALE);        
    //To store the keypoints that will be extracted by SIFT
    vector<KeyPoint> keypoints;        
    //Detect SIFT keypoints (or feature points)
    detector->detect(img,keypoints);
    //To store the BoW (or BoF) representation of the image
    Mat bowDescriptor;        
    //extract BoW (or BoF) descriptor from given image
    bowDE.compute(img,keypoints,bowDescriptor);
 
    //prepare the yml (some what similar to xml) file
    sprintf(imageTag,"img1");            
    //write the new BoF descriptor to the file
    fs1 << imageTag << bowDescriptor;        
 
    //You may use this descriptor for classifying the image.
            
    //release the file storage
    fs1.release();
#endif

在此部分，将计算特定图像的SIFT特征和描述符，并将每个特征描述符与我们之前创建的词汇表进行匹配。

Ptr<DescriptorMatcher> matcher(new FlannBasedMatcher);

这行代码将创建一个匹配器，该匹配器使用快速近似最近邻搜索库 (FLANN) 来匹配描述符。还有一些其他类型的匹配器可用，您可以自行探索。通常，近似最近邻搜索匹配效果很好。

最后，代码将输出词袋模型描述符，并使用以下代码行将其保存在文件中。

fs1 << imageTag << bowDescriptor;

该描述符可用于将图像分类到多个类别。您可以使用SVM或任何其他分类器来检查此描述符的判别能力和鲁棒性。另一方面，您可以直接匹配不同图像的BoF描述符来衡量相似度。

关注点

我发现这段代码很容易转换为任何其他特征的BoF实现，例如BoF-SURF、BoF-ORB、BoF-Opponent-SURF和BoF-Opponent-SIFT等。

您可以在以下链接中找到BoF-SURF和BoF-ORB实现的C++和OpenCV源代码。

下载基于SURF和ORB特征的词袋模型描述符（BoF-SURF和BoF-ORB）

通过更改以下几行代码，可以使用任何其他类型的特征来获取BoF描述符。

SiftDescriptorExtractor detector;
Ptr<FeatureDetector> detector(new SiftFeatureDetector());
Ptr<DescriptorExtractor> extractor(new SiftDescriptorExtractor);

OpenCV的最新版本包含了许多特征检测和描述算法，因此您可以修改此代码并应用这些算法，从而为您的CBIR应用程序或研究确定最佳方法。