編輯導(dǎo)語:在人工智能技術(shù)方面,圖像視覺應(yīng)該是被應(yīng)用最廣泛的技術(shù)之一。本文作者從關(guān)鍵技術(shù)和產(chǎn)品設(shè)計兩大方面,圍繞圖像檢索技術(shù)的應(yīng)用進行了產(chǎn)品介紹,推薦想了解圖像檢索的童鞋看看。
前一節(jié)主要跟大家討論了文本糾錯技術(shù)的應(yīng)用,本節(jié)將跟大家討論分享關(guān)于圖像視覺方面的應(yīng)用——圖像檢索。
在人工智能技術(shù)應(yīng)用方面,圖像視覺應(yīng)該是被應(yīng)用最廣泛的技術(shù)之一,從最早的安防監(jiān)控,到后面落地最多的人臉識別,都是圖像技術(shù)的應(yīng)用,本文想圍繞圖像檢索技術(shù)的應(yīng)用進行產(chǎn)品介紹。
圖像檢索技術(shù)在實際應(yīng)用中包括了檢索+識別(相似度度量)兩個部分,目前重點應(yīng)用于泛搜索引擎中,百度搜索、谷歌搜索、淘寶拍立淘等都可以支持通過圖片檢索實現(xiàn)信息查找。
相對于文字搜索而言,圖像檢索更直觀,更易操作,尤其是對于陌生信息的檢索,可以直接通過拍照實現(xiàn)信息的檢索。
一、關(guān)鍵技術(shù)圖像檢索包括了基于文本的圖像檢索和基于內(nèi)容的圖像檢索?;谖谋镜膱D像檢索主要通過對圖像進行文本描述,提煉關(guān)鍵詞等標簽信息,后續(xù)在進行檢索時,可以通過檢索關(guān)鍵詞的方式查找對應(yīng)的圖片,這種方式跟用百度查找“胡歌”返回胡歌的照片是一致的;
基于內(nèi)容的圖像檢索是通過提取圖像的紋理、顏色、梯度或者其他高層語義特征等作為圖像特征來計算圖像間的相似度,實現(xiàn)圖像檢索。
1. 基于文本的圖像檢索如果需要高查準率,就需要精確的標簽數(shù)據(jù),而精確的標簽數(shù)據(jù)對于人工標注來說是耗時耗力的,甚至有些圖像很難用有限的關(guān)鍵詞能描述清楚。目前通常情況下會先基于圖像內(nèi)容分析進行自動標注,然后只要存儲圖像和文本標簽即可,雖然會降低查準率,但是仍然可以保證文本檢索。
2. 基于內(nèi)容的圖像檢索雖然搜索精度不一定如文本搜索,并且容易受到圖像質(zhì)量(光照、遮擋、背景復(fù)雜度等)的影響,但是對用戶而言,搜索難度將降低,可以實現(xiàn)所見即所得,只要拍照出發(fā)搜索即可。因此,可應(yīng)用范圍將更加廣闊。
3. 分布式存儲技術(shù)除了關(guān)鍵的算法技術(shù),還需要跟工程相關(guān)的分布式存儲技術(shù),因為在實際工程應(yīng)用中,涉及到的索引結(jié)構(gòu)需要支持到10億量級的,所以如何構(gòu)建并存儲圖片的特征索引信息,需要工程上進行優(yōu)化(ps:由于過于技術(shù)化,筆者也不敢班門弄斧了)。
在實際應(yīng)用中,基于文本和基于內(nèi)容的圖像檢索一般是解耦的,產(chǎn)品設(shè)計可以選擇兩者并存,或者獨立使用。
比如在電商中,淘寶通過知識圖譜技術(shù)構(gòu)建了大量的商品畫像,所以用戶可以通過文本搜索,同時拍立淘也支持圖像搜商品;而某些識花等小軟件則是單純通過以圖搜圖實現(xiàn)。具體的還是需要產(chǎn)品根據(jù)實際應(yīng)用場景來決定。
本文下面將重點介紹的是基于內(nèi)容的圖像檢索,其中基于內(nèi)容的圖像檢索,從產(chǎn)品的輸入角度又可以分為以圖搜、以視頻搜和以音頻搜,列舉出來的話是圖搜圖、圖搜視頻、視頻搜視頻。
二、產(chǎn)品設(shè)計1. 應(yīng)用場景(1)目前常見的圖像搜索應(yīng)用場景有以下幾種:
拍立淘的電商應(yīng)用場景,通過拍照識圖,實現(xiàn)快速購物,提高購物體驗。視覺中國的圖片庫類的圖片查找應(yīng)用場景,實現(xiàn)圖片查找應(yīng)用,和版權(quán)鑒定。阿里在工業(yè)場景中提供的布料紡織品的圖像檢索技術(shù),快速了解布料的供應(yīng)信息。醫(yī)療診斷方面,可以通過圖像檢索在醫(yī)學(xué)影像庫找到相似醫(yī)學(xué)病灶的案例,從而協(xié)助病情的診斷的應(yīng)用場景。(2)本文選擇圖片庫類的圖片檢索為應(yīng)用場景,講述產(chǎn)品設(shè)計中的業(yè)務(wù)流程和需要支持的產(chǎn)品能力,其中圖片庫類的圖片檢索應(yīng)用場景有以下兩個:
供稿人上傳圖片,為保證圖片版權(quán),會對供稿人圖片與現(xiàn)有圖片庫進行查重,避免侵權(quán)行為。用戶查找并下載圖片,為了滿足用戶的圖片需求,一般會進行相似圖片推薦。2. 檢索技巧先確定應(yīng)用場景不僅是為了便于產(chǎn)品設(shè)計,也是為了檢索技術(shù)的選擇,從圖像檢索的特征來看一般包括兩種類型:
相同圖搜索:是指返回與查詢圖片包含相同主體的圖片,一般是完全相同或具備相同主體的圖片,主要適用于重復(fù)圖片檢測、圖片精確查找等場景。相似圖搜索:是指返回與查詢圖片內(nèi)容語義相似的圖片,內(nèi)容語義相似包括在圖片類型、顏色、布局、內(nèi)容、風(fēng)格和紋理等特征方面的相似,主要應(yīng)用于相似圖片素材搜索、相似圖片推薦等場景;在圖片庫的圖片檢索應(yīng)用場景中,這兩個場景都是要支持的,因此相同圖檢索,和相似圖檢索都需要包含的。
但是實際上相似圖的結(jié)果通常情況下是包含相同圖的,相同圖是相似圖的一個子集。之所以區(qū)分開來,是為了便于產(chǎn)品設(shè)計,因為在實際過程中,需要設(shè)定一個閾值來決定返回結(jié)果,但是如果想讓相似圖都能包含相同圖,則很難指定一個通用的閾值,因此,可以根據(jù)實際場景分別調(diào)用兩個模型。
3. 產(chǎn)品功能設(shè)計(1)業(yè)務(wù)流程
產(chǎn)品的核心業(yè)務(wù)流程主要包括三點:
歷史圖片入庫,建立圖片庫和圖片特征索引庫。查詢圖片,基于相似圖的特征提取和檢索引擎在歷史圖片庫中查找相似圖片。供稿新圖片,基于相同圖的特征提取和檢索引擎在歷史圖片庫中查重,若不重復(fù),則允許圖片入庫;若有主體重復(fù)的圖片,則提醒供稿人,圖片存在侵權(quán)風(fēng)險,并拒絕入庫。ps:相同圖和相似圖的特征提取是不一樣的,這里為了簡化流程,因此畫在了一起。
(2)產(chǎn)品功能
這里將列舉描述產(chǎn)品的主要功能,涉及工作因素,無法提供頁面交互功能細節(jié)。
圖片底庫管理:用于管理圖片數(shù)據(jù),可以根據(jù)圖片類型、時間、用途等分類,功能包括:新建底庫、刪除底庫、編輯底庫名稱。圖片新增:用于在底庫中新增圖片,比如上述的供稿圖片審核通過,就需要調(diào)用圖片新增入庫操作,功能包括:單張圖片新增、批量圖片新增。(注意點:圖片的大小、圖片的分辨率、批量上傳的圖片數(shù)量等限制條件。)
圖片刪除:用于刪除底庫中過期或者臟的數(shù)據(jù),同樣支持單張刪除或者批量刪除。圖片檢索:用于查詢與上傳圖片相似或者相同的圖片,這里可以根據(jù)實際場景進行設(shè)計,增加參數(shù)是否做主體識別,如果做主體識別,則調(diào)用相同圖檢索;如果不做主體識別,則調(diào)用相似圖檢索。索引庫更新機制:圖片新增或者刪除后,如何更新圖片的特征索引庫,以新增為例,是在新增后實時更新索引庫還是定時更新,這個需要產(chǎn)品根據(jù)場景判斷。一般當?shù)讕燧^小,且日常并發(fā)檢索較小時,可以考慮實時更新;當?shù)讕烊萘枯^大,且頻繁發(fā)生檢索時,建議可以選擇定時更新,如選取閑時更新。4. 產(chǎn)品評估產(chǎn)品設(shè)計中,還需要對產(chǎn)品性能進行評估,包括算法和工程兩個方面:
算法側(cè):計算查詢結(jié)果top k的精確率和召回率,再根據(jù)實際應(yīng)用場景判斷是保召回還是保精確。工程側(cè):計算檢索多并發(fā)時的處理速度和存儲資源消耗,力求降低存儲成本并提高檢索響應(yīng)速度。三、結(jié)論隨著AI技術(shù)和互聯(lián)網(wǎng)應(yīng)用的發(fā)展,圖搜這樣的智能化檢索方式將會有更多的落地場景,但是對于產(chǎn)品設(shè)計而言,需要根據(jù)實際場景結(jié)合技術(shù)現(xiàn)狀考慮。
比如在推薦場景中,為了更多能留住客戶,在盡可能保證高精確率的情況下,k的上限就會取得較大,這樣就能給用戶更多的返回結(jié)果。因此為了能滿足檢索業(yè)務(wù)的需要,同時提高用戶體驗,就需要產(chǎn)品能多思考實際業(yè)務(wù)場景。
本文由@Eric_d 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載
題圖來自 Unsplash,基于CC0協(xié)議
掃描二維碼推送至手機訪問。
版權(quán)聲明:本文由信途科技轉(zhuǎn)載于網(wǎng)絡(luò),如有侵權(quán)聯(lián)系站長刪除。
轉(zhuǎn)載請注明出處http://macbookprostickers.com/xintu/57221.html