TW201214167A - Matching text sets - Google Patents

Matching text sets Download PDF

Info

Publication number
TW201214167A
TW201214167A TW099140210A TW99140210A TW201214167A TW 201214167 A TW201214167 A TW 201214167A TW 099140210 A TW099140210 A TW 099140210A TW 99140210 A TW99140210 A TW 99140210A TW 201214167 A TW201214167 A TW 201214167A
Authority
TW
Taiwan
Prior art keywords
text
database
similarity
stored
new
Prior art date
Application number
TW099140210A
Other languages
English (en)
Other versions
TWI496015B (zh
Inventor
Xu Zhang
Ning-Jun Su
Hai-Jie Gu
jian-cheng Qi
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Publication of TW201214167A publication Critical patent/TW201214167A/zh
Application granted granted Critical
Publication of TWI496015B publication Critical patent/TWI496015B/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

201214167 六、發明說明: 【發明所屬之技術領域】 本申請涉及資料處理領域,尤指一種大資料量的文本 匹配方法及裝置。 【先前技術】 現有的文本比較,一般採用全量運算匹配的方式,當 需要計算文本之間的相關程度的時候,需要針對獲取的所 有文本進行計算,最終得到兩兩之間的相似度,這樣每計 算一次相似度都要針對所有的文本資料進行計算,其計算 量將是非常巨大的,其運行時間爲〇(ΝΛ2)量級的,隨著 文本數量Ν的增大,運算的時間也會很長。 這種大資料量的運算比較對設備的系統性能帶來了很 大的影響,使系統的I/O通訊、資料儲存、資料的網路傳 輸都面臨很大的壓力,導致設備的資料處理速度緩慢,甚 至出現資料傳輸的阻塞或擁塞。 這種全量運算的文本匹配所存在的大資料運算量對系 統性能的影響,隨著需要匹配的文本數量的增大,變的越 來越嚴重。如何實現對大資料量匹配的高效處理,成爲亟 待解決的難題。 由於現有技術中基本上都對基於內容的文本匹配進行 全量資料運算,對於基於內容的文本匹配的優化,已有技 術可以包括下列方式: (1)針對單機版的基於內容的文本匹配,通過建索 -5- 201214167 引的方式提高文本匹配的速度和效率。 (2)針對分散式的基於內容的文本匹配,主要是增 加硬體支援,比如增加並行度,執行並行運算。 但是無論是建立索引還是增加並行度都不能很好的解 決文本匹配過程中,全量資料運算操作所存在的資料計算 量大,運行時間長,需要對所有資料進行運算和——比對 ,需要的儲存空間大等問題,因此,現有的文本匹配方式 存在的資料處理速度慢、網路傳輸阻塞等系統性能瓶頸依 然比較嚴重。 【發明內容】 本申請實施例提供一種文本匹配方法及裝置,用以解 決現有技術中存在的文本匹配資料處理量大導致處理速度 慢、影響系統性能、引起傳輸阻塞等問題。 一種文本匹配方法,包括: 週期性收集用戶發佈的內容資訊,根據當前週期內收 集的內容資訊得到當前週期內的新增文本並儲存到資料庫 中; 對輸入的新增文本進行分詞,並提取關鍵字:根據預 先儲存的詞頻表計算提取的每個關鍵字在資料庫中的各文 本中的權重:該詞頻表根據各個詞語在資料庫中的各文本 中的出現頻率週期性更新;資料庫中的文本包括當前週期 儲存的新增文本和之前儲存的原始文本; 根據計算得到的每個關鍵字在資料庫中的各文本中的 -6- 201214167 權重’計算每個新增文本與資料庫中的各文本的相似度, 或計算資料庫中任意兩個文本的相似度; 根據計算得到的相似度確定資料庫中儲存的各文本的 相關文本。 一種文本匹配裝置,包括: 收集模組’用於週期性收集用戶發佈的內容資訊,根 據當前週期內收集的內容資訊得到當前週期內的新增文本 並儲存到資料庫中; 分詞模組,用於對輸入的新增文本進行分詞,並提取 關鍵字; 權重確定模組,用於根據預先儲存的詞頻表計算提取 的每個關鍵字在資料庫中的各文本中的權重; 詞頻更新模組,用於根據各個詞語在資料庫中的各文 本中的出現頻率週期性更新;資料庫中的文本包括當前週 期儲存的新增文本和之前儲存的原始文本; 相似度確定模組,用於根據計算.得到的每個關鍵字在 資料庫中的各文本中的權重,計算每個新增文本與資料庫 中的各文本的相似度,或計算資料庫中任意兩個文本的相 似度; 文本比較模組,用於根據計算得到的相似度確定資料 庫中儲存的各文本的相關文本。 本申請有益效果如下: 本申請實施例提供的文本匹配方法及裝置,通過週期 性收集用戶發佈的內容資訊,根據當前週期內收集的內容 201214167 資訊得到當前週期內的新增文本並儲存到資料庫中;對輸 入的新增文本進行分詞,並提取關鍵字;根據預先儲存的 詞頻表計算提取的每個關鍵字在資料庫中的各文本中的權 重;該詞頻表根據各個詞語在資料庫中的各文本中的出現 頻率週期性更新;資料庫中的文本包括當前週期儲存的新 增文本和之前儲存的原始文本;根據計算得到的每個關鍵 字在資料庫中的各文本中的權重,計算每個新增文本與資 料庫中的各文本的相似度,或計算資料庫中任意兩個文本 的相似度;根據計算得到的相似度確定資料庫中儲存的各 文本的相關文本。上述方法通過建立和更新詞頻表的方式 避免了現有技術中任意兩個文本的匹配都需要對所有文本 進行計算的問題,具體爲關鍵字的權重不再依賴於全局資 料運算得到總體變數,而依靠詞頻表即可實現,從而減少 了匹配運算工作量’提高了系統性能;且通過使用詞頻表 可以僅計算部分文本之間的相似度或計算全部文本之間的 相似度’因此即使只針對更新後的新增文本進行計算,也 能獲取到準確的匹配運算結果。該方式適用於所有文本的 匹配’具有很強的通用性和普遍適用性,其匹配過程實現 簡單,很好的解決網路系統瓶頸問題。 【實施方式】 本申請實施例提供的文本匹配方法,週期性的獲取新 增文本,並將獲取到的新增文本加入資料庫中;預先建立 詞頻表,並根據獲取的新增文本或根據資料庫中增加新增 -8 - 201214167 文本之後的所有文本更新詞頻表,從而可以根據詞頻表方 便的計算任意兩個文本(包括新增文本和原始文本)之間 的相似度。在本申請中根據需要可以計算資料庫中任意兩 個文本之間的相似度、也可以只計算新增文本與新增文本 以及新增文本與原始文本之間的相似度。 下面通過具體的實施例分別說明這兩種情況的實現流 程。其中,資料庫中儲存的原始文本是指當前週期之前儲 存的文本,即上一個週期存入新增文本之後資料庫中的所 有文本。 本申請實現文本匹配的系統架構如圖1所示,該系統 包括伺服器和若干用戶端,伺服器通過週期性收集用戶端 的操作行爲,獲取新增文本,實現對文本的匹配。用戶端 和伺服器的具體功能,在下面的實施例中進行詳細介紹。 例如:伺服器可以對用戶通過用戶端發佈的商品資訊 進行匹配,確定與用戶發佈的商品資訊具有相關性的商品 資訊,從而實現在其他用戶瀏覽到用戶發佈的商品時,能 夠爲用戶顯示和推薦類似的或相關的商品。當然本申請的 文本匹配方法不限於商品資訊的匹配,只要是基於文本的 文本匹配都可以通過本申請的方法實現。 下面通過具體的實施例說明本申請文本匹配的實現過 程。 實施例一: S. 本申請實施例一提供的文本匹配方法,針對每個週期 -9 - 201214167 的每個新增文本,計算每個新增文本與每個原始文本之間 、以及任意兩個新增文本之間的相似度。即確定與新增文 本相關的相似度數據。例如:在商品推薦過程中使用時, 則是根據當前週期內發佈的商品資訊獲取新增文本。並根 據新增文本確定與當前週期內發佈的商品資訊相匹配的所 有商品(資訊包括此前發佈的商品資訊和當前週期內發佈 的商品資訊)。 本申請實施例一提供的文本匹配方法的流程如圖2所 示,執行步驟如下: 步驟S11:週期性收集用戶發佈的內容資訊,根據用 戶發佈的內容資訊得到當前週期內的新增文本。 收集用戶發佈的內容資訊的週期可以根據需要設定。 根據收集到的各個用戶在當前週期內發佈的內容資訊,可 以生成相關的文本’即爲當前週期的新增文本。收集到新 增文本後將其儲存至資料庫中,則資料庫中當前儲存有上 個週期就已經儲存的原始文本和當前週期內存入的新增文 本。 例如:用戶通過用戶端發佈商品資訊,伺服器週期性 的獲取各個用戶端發佈的商品資訊,其中設定的週期可以 是一天、一星期或幾個小時等。 優選的’在收集到用戶發佈的內容資訊後,根據設定 的輸入過濾規則’對收集到的用戶發佈的內容資訊進行過 濾。 對收集到的用戶發佈的內容資訊進行過濾可以根據內 -10- 201214167 容資訊的品質是否符合設定的品質評估閾値,發佈內容資 訊的用戶是否是設定的合格用戶等設置的過濾規則中的一 個或多個,對收集到的用戶發佈的內容資訊進行過濾。或 者根據其他設置的輸入過濾規則,對收集到的用戶發佈的 內容資訊進行過濾。在對收集到的用戶發佈的內容資訊進 行過濾後,根據過濾後內容資訊生成當前週期內的新增文 本。 仍以商品資訊的匹配爲例,在獲取到用戶端發佈的商 品資訊時,對商品資訊進行過濾,例如:過濾掉沒有提供 圖片或沒有其他設定的必要資訊的商品。 上述通過對收集到的內容資訊進行過濾,得到新增文 本,可以提高收集得到的用戶發佈的內容資訊的可用性, 提高了用於匹配的新增文本的品質,從而可以獲得更佳的 匹配結果;同時也進一步減少匹配過程的計算量,提高了 匹配速度。 仍以商品資訊的匹配爲例,在獲取到用戶端在當前週 期內發佈的商品資訊後可以得到當前週期內的新增文本。 例如:發佈的一個MP3的商品資訊包括:名稱MP3、顏色 紅色、型號XX以及功能描述等相關資訊,則根據用戶發 佈的商品資訊,得到一個新增文本。 步驟S12:對輸入的新增文本進行分詞,提取關鍵字 〇 即針對輸入的每個新增文本,將文本內容劃分爲若干 詞語,並提取用於文本匹配的若干關鍵字,提取得到的若 -11 - 201214167 干關鍵字可以生成一個分詞向量。 例如:發佈的一個MP3的商品資訊包括:名稱MP3、 顏色紅色、型號XX和功能描述等資訊,則將得到的文本 分詞後,可以從中提取出MP3、紅色等關鍵字,這些關鍵 字可以組成一個分詞向量。 步驟S13:根據預先儲存的詞頻表計算從新增文本中 提取的每個關鍵字在資料庫中當前儲存的各文本中的權重 〇 該步驟具體計算每個關鍵字在資料庫中儲存的每個文 本(包括當前週期的新增文本和上一個週期儲存的原始文 本)中的權重,具體可以通過查詢詞頻表中每個關鍵字在 文本中的出現頻率,實現計算關鍵字在該文本中的權重。 其中,詞頻表根據各個詞語在資料庫中儲存的每個文 本中的出現頻率週期性更新。這裏的各個詞語是指所有詞 頻表中詞語,針對這些詞語預計算出來的詞頻,而不僅僅 包含當前輸入的新增文本分詞後劃分出的關鍵字的詞頻。 詞頻表在建立時,針對資料庫中已儲存的所有文本進 行統計,得到每個詞語在各個文本中出現次數的詞頻表, 在後續可以通過更新的方式來添加和減少更新後的結果。 每個收集週期,詞頻表都可以根據各個關鍵字在資料庫中 的當前儲存的各文本中的出現頻率週期性更新,具體包括 兩種情況: 情況一:根據資料庫中的當前儲存的所有文本直接更 新詞頻表。 -12- 201214167 每次輸入新增文本後’統計各個詞語在輸入的新增文 本和資料庫中儲存的原始文本中的出現頻率,得到包含各 個詞語在資料庫中當前儲存的每個文本中的出現頻率的詞 頻表。由於計算詞頻的運算量是與輸入資料量成線性關係 的,因此,即使採用對資料庫中儲存的所有文本進行統計 來更新詞頻表,其運算量也不會很大,時間也不長。 情況二:根據新增文本和原來詞頻表中儲存的內容更 新詞頻表。 每次輸入新增文本後,統計各個詞語在輸入的每個新 增文本中的出現頻率,根據統計得到的結果與詞頻表中儲 存的各個詞語在資料庫中儲存的原始文本中的出現頻率, 得到包含各個詞語在資料庫中的每個文本中的出現頻率的 詞頻表。具體實施例中,若預先儲存的詞頻表中未記錄新 增文本分詞後得到的各詞語的詞頻,則以情況一該方案更 新詞頻表。若預先儲存的詞頻表中已記錄新增文本分詞後 得到的各詞語在原始文本中的詞頻,則以情況二該方案更 新詞頻表。 上述根據預先儲存的詞頻表計算分詞提取的每個關鍵 字在資料庫中的當前儲存的各個文本中的權重,具體包括 根據詞頻表,分別確定選定關鍵字在資料庫中當前儲 存的每個文本中的出現次數。以及 確定資料庫中當前儲存的的所有文本與包含有選定關 鍵字的文本的數量比。 -13- 201214167 根據選定關鍵字在每個文本中的出現次數和上述計算 得到的數量比,分別計算每個關鍵字在每個文本中的權重 〇 步驟S14:根據計算得到的每個關鍵字在資料庫中當 前儲存的各個文本中的權重,計算每個新增文本與資料庫 當前儲存的各個文本的相似度。 計算每個新增文本與資料庫中當前儲存的各個文本的 相似度’包括:計算輸入的任意兩個新增文本之間的相似 度、以及計算每個新增文本和資料庫中儲存的每個原始文 本的相似度。 計算每個新增文本與資料庫中當前儲存的各文本的相 似度,具體包括: 將待計算相似度的文本中的每個關鍵字的權重組成權 重向量。權重向量由上述計算'出的各個關鍵字在該文本中 的權重組成。 針對每個新增文本’分別計算該新增文本的權重向量 與資料庫中當前儲存的各文本的權重向量的內積,得到該 新增文本與資料庫中當前儲存的各文本的相似度。 由於資料庫中的原始文本之間的相似度在上一次輸入 上一個週期的新增文本時已經計算過,因此,本次只計算 新輸入的新增文本之間、以及新輸入的新增文本與資料庫 中的原始文本之間的相似度,從而大大減少了運算量。 步驟S15:根據計算得到的相似度確定資料庫中當前 儲存的每個文本的相關文本。 •14- 201214167 上述計算獲取到的每個新增文本和資料庫中當前儲存 的各個文本之間的相似度之後,根據具體需求,既可以確 定與每個新增文本具有一定相關性的相關文本,也可以確 定與資料庫中當前儲存的每個文本具有一定相關性的相關 文本了。其中,與每個新增文本相關的文本可以是新獲取 到的其他新增文本也可以是儲存的原始文本。與資料庫中 當前儲存的每個文本相關的文本可以是新獲取到的新增文 本也可以是儲存的原始文本。其中原始文本與原始文本之 間的相似度在之前的週期內已經確定並儲存在資料庫中。 也就是說在本實施例中,在確定相關文本時,涉及到資料 庫中原始文本和原始文本之間的相似度時,直接使用上一 次儲存的相似度。 其中,與每個文本具有一定相關性的相關文本的確定 ,具體包括下列兩種確定方式: 方式一:通過設定閩値確定符合設定條件的相關文本 〇 針對待確定相關文本的新增文本或資料庫中當前儲存 的文本,確定與該新增文本或資料庫中當前儲存的文本的 相似度大於或大於等於設定閎値的至少一個文本爲該新增 文本或資料庫中當前儲存的文本的;|:目_文:本。 方式二:通過排序獲取設定數量的相關文本。 針對待確定相關文本的新增文本或資料庫中當前儲存 的文本’根據資料庫中資料庫中當前儲存的每個文本與待 確定相關文本的新增文本或資料庫中當前儲存的文本的相 -15- 201214167 似度大小排序,確定相似度較高的設定數量的文本作爲待 確定相關文本的新增文本或資料庫中當前儲存的文本的相 關文本。 在確定了新增文本或資料庫中當前儲存的文本得相關 文本之後,儲存在資料庫中,用作後續的商品推薦或其他 過程中使用。以用於商品推薦爲例: 在獲取到包括用戶的點擊行爲、瀏覽行爲、用戶購買 行爲、收藏網頁上展示的商品等等用戶操作行爲時’根據 用戶操作行爲涉及的商品所對應的文本,從資料庫中獲取 該文本的相關文本,將獲取到的相關文本對應的商品推薦 給用戶。其中,涉及的商品所對應的文本和該文本的相關 文本,根據商品的發佈時間不同,可能是新增文本也可能 是原始文本。 實施例二: 本申請實施例二提供的文本匹配方法,針對每個週期 輸入新增文本後資料中儲存的每個文本,計算任 本之間的相似度,其流程如圖3所示,執行步驟如下: 步驟S2 1:週期性收集用戶發佈的內容資訊’根據用 戶發佈的內容資訊得到當前週期內的新增文本。 同步驟S11,此處不再贅述。 步驟S22:對輸入的新增文本進行分詞,提取關鍵字 〇 同步驟S12,此處不再贅述。 -16- 201214167 步驟S23:根據預先儲存的詞頻表計算從新增文本中 提取的每個關鍵字在資料庫中的當前儲存的各文本中的權 重。 同步驟S13,此處不再贅述》 步驟S24 :根據計算得到的每個關鍵字在資料庫中當 前儲存的各文本中的權重,計算資料庫中任意兩個文本的 相似度。 計算資料庫中任意兩個文本的相似度,包括:計算輸 入的任意兩個新增文本之間的相似度、計算每個新增文本 和資料庫中儲存的每個原始文本的相似度、以及計算任意 兩個原始文本之間的相似度。計算任意兩個文本的相似度 ,具體包括: 將待計算相似度的文本中的每個關鍵字的權重組成權 重向量。 針對每個文本,分別計算該文本的權重向量與資料庫 中儲存的各文本的權重向量的內積,得到該文本與資料庫 中儲存的各文本的相似度。 該方式在詞頻更新之後重新計算每個文本之間的相似 度,從而能夠獲取到準確的相似度値,使後續比較匹配的 結果更準確。 步驟S25 :根據計算得到的相似度確定資料庫中當前 儲存的每個文本的相關文本。 該步驟確定相關文本時,和步驟S15類似的也包含兩 種方式。所不同的是在本實施例中,在確定相關文本時, -17- 201214167 涉及到資料庫中原始文本和原始文本之間的相似 是用本次計算得到的相似度。 確定相關文本後在商品推薦過程中的應用 S15類似。 實施例三: 本申請實施例三提供的文本匹配方法’針對 和實施例二的方案進行改進’增加輸出過濾'的過 包括: 在實施例一的步驟S14計算相似度之後和步馬 相關文本之前增加輸出過濾的步驟’在實施例 S24計算相似度之後和歩驟S25確定相關文本之前 過濾的過程,其流程如圖4所示,執行步驟如下: 步驟S31:獲取計算得到的每個新增文本與 當前儲存的各個文本的相似度,或計算得到的資 意兩個文本的相似度。 針對兩個文本的相似度的過濾,可以根據後 本確定的不同要求,對不同文本的相似度進行過 ,針對實施例一計算新增文本和資料庫中當前儲 文本之間的相似度時,獲取的是計算得到的每個 與資料庫中的資料庫中當前儲存的每個文本的相 對實施例二計算任意兩個文本之間的相似度時, 計算得到的資料庫中任意兩個文本的相似度。 步驟S32:根據設定的輸出過濾規則,對資 度時,也 也與步驟 實施例一 程。具體 裴S15確定 二的步驟 增加輸出 資料庫中 料庫中任 續相關文 濾,因此 存的各個 新增文本 似度。針 獲取的是 料庫中當 18- 201214167 前儲存的待確定相關文本的每個文本相關的相似度數據進 行過濾。 對待確定相關文本的每個文本相關的相似度數據進行 過濾,去除不符合設定條件的文本資料時,可以根據相似 度的大小,去除與待確定相關文本的每個文本相似度小於 設定閩値的文本;也可以根據相似度的大小排序,去除與 待確定相關文本的每個文本相似度較低的設定數量的文本 。當然也可以設置其他的輸出過濾規則對輸出文本進行過 爐。 通過對待確定相關文本的每個文本相關的相似度數據 進行過濾,減少匹配過程中需要匹配的文本的數量,從而 進一步了提高匹配速度和效率。 實施例四: 本申請實施例四提供的文本匹配方法,具體提供實現 文本匹配的一個具體實現示例,其實現原理如圖5所示, 其流程如圖6所示,執行步驟如下: 步驟S41:週期性在資料層採集用戶發佈的內容資訊 〇 其中,用戶發佈的內容資訊的採集是在資料層完成的 。資料表中的資料在資料層進行更新’更新根據設定的週 期進行。 資料層是資料的提供層和儲存層’爲資料的應用層提 供資料,最終用於前臺展現。同時,資料層爲底層的演算 -19- 201214167 法層提供輸入資料,也接受演算法層的 包括資料庫和一些儲存檔。 例如,將採集到的用戶發佈的商品 作爲文本資料,下面的匹配對比是基於 內容進行的。例如:採集到發佈的商品 到包含MP3的其他文本作爲匹配文本。 步驟S42 :對採集到的用戶發佈的 〇 在過濾層進行用戶發佈的內容資訊 輸入過濾規則,對採集到的用戶發佈的 。也就是說由過濾層對演算法層的輸入 ,該步驟的輸入過濾涉及到的是對演算 過濾後提供給演算法層。後續步驟中的 是對演算法層的計算結果進行過濾,提 其中,設定的過濾規則包括實施例 容資訊的品質是否符合設定的品質評估 訊的用戶是否是設定合格用戶等等。 例如:過濾去掉資料品質低的內容 訊品質低於設定的品質評估閾値的內容 免在文本匹配中,有的文本來源於低品 類商品資訊,通常品質評分値比較低, ,或其他必要的資訊,這類商品被推薦 。因此,這類商品資訊一般品質評分値 估閩値,在進行文本匹配運算之前就會 運算結果。這一層 資訊中的商品名稱 得到的文本資料的 資訊爲MP3,則找 內容資訊進行過濾 的過濾,根據設定 內容資訊進行過濾 和輸出做過濾處理 法層輸入的過濾, 輸出過濾涉及到的 供給資料層。 —中所描述的:內 閾値,發佈內容資 資訊。即將內容資 資訊去除。從而避 質的商品資訊,這 比如沒有提供圖片 和點擊的意義不大 低於設定的品質評 被過濾剔除掉。 -20- 201214167 又例如:過濾掉不合格用戶的內容資訊,不合格用戶 包括網路爬蟲,機器人,和不合格的物理用戶等等》 可以通過判斷發佈內容資訊的用戶的訪問次數是否超 過設定的訪問閾値,例如網路爬蟲,機器人,他們的行爲 有明顯的特徵,他們通常在一段時間內異常活躍,他們提 供的資料,可視爲噪音,予以剔除。此時可以設定一個訪 問閩値,當訪問次數大於該閾値認爲是網路爬蟲或機器人 〇 也可以通過判斷用戶的信用値、有效期限等來判斷是 否是合格的用戶。從而去除包括低信用的用戶,過期的用 戶,還有不活躍的用戶(一般指設定時間範圍內沒有操作 行爲的用戶,如最近的一個月沒有登錄,一個月沒有行爲 資料等),這些不合格的用戶發佈的內容資訊可視爲無效 資訊,予以剔除。 輸入過濾的目的是在系統採集到待輸入的文本資料後 ,對輸入的文本資料的過濾處理,過濾掉噪音,不合格用 戶資料和低質量數據等,使輸入的文本資料減少。 步驟S43 :根據過濾後的內容資訊得到當前週期的新 增文本。 在對收集到的用戶發佈的內容資訊進行過濾後,根據 過濾後內容資訊生成當前週期內的新增文本,從而提高了 新增文本的品質。 步驟S44 :根據過濾後輸入的新增文本進行相似度計 算。 -21 - 201214167 過濾後的新增文本會被輸入到演算法層,用於相似度 的運算’以及更新詞頻表β 其中’更新詞頻表的原理如圖7所示。 當新增文本輸入後,演算法層擁有包含此前各週期內 輸入的原始文本和當前週期輸入的新增文本在內的資料庫 中當前儲存的所有文本。此時可以直接根據資料庫中當前 儲存的所有文本更新詞頻表,也可以根據資料庫中當前儲 存的所有文本與原始文本對比得到的新增文本,獲取新增 的資料檔案來更新詞頻表。 新增文本與資料庫中儲存的各文本之間的相似度計算 ’以及資料庫中當前儲存任意兩個文本之間的相似度計算 過程分別參見實施例一和實施例二的描述。 其中,根據預先儲存的詞頻表計算分詞提取的每個關 鍵字在資料庫中的各文本中的權重的過程具體包括: 首先,確定選定關鍵字在資料庫中每個文本中的出現 次數。即針對每個文本,分別確定選定的關鍵字的出現次 數。 具體可以通過詞頻表的到,詞頻表中詞語出現次數可 以通過詞頻-反向文檔頻率(term frequency-inverse document frequency,TF-IDF),即第i個關鍵字在第j個文 本中出現的次數可以通過下列公式計算得到: 201214167 其中,&是第i個關鍵字&在第j個文本心中出現的次數 ’ max尺)表示仏中的最大値,i,j爲正整數。詞頻表根據該 公式更新,而使用過程中需要確定時可以直接查詢詞頻表 〇 在使用上述公式時,可以根據實際情況對·^和max/z; 的値進行限定。例如··可以設置A和max/zJ的値爲1,來表 示將文本中多次出現的同一個關鍵字視爲出現了一次》 其次,確定資料庫中的儲存的所有文本與包含有選定 關鍵字的文本的數量比。具體通過下列公式確定:
N IDFt = log— ni 其中,N是資料庫中所有文本的個數,《,表示出現了 第i個關鍵字&的文本數量。 上述確定詞頻和確定數量比的過程順序不分先後,也 可以同時執行。 然後’根據選定關鍵字在每個文本中的出現次數和上 述計算得到的數量比’分別計算每個關鍵字在每個文本中 的權重。如關鍵字&在文本七中的權重定義爲: wij=TFi,jxID^j 上述得到每個關鍵字在每個文本中的權重後,就可以 構建權重向量,計算任意兩個文本的相似度了。 例如:針對文本义構建的包含關鍵字i= i、2........ k -23- 201214167 的權重向量爲: W(i/y) = (W]j »……» W.J \ 通過下列向量內積公式計算文本4和文本九得到相似 度
Wdj)*W(dJ ΗΜΗ~κ)ΙΙ2
w(dj,d J = cos(W(c?y)W(^J)= 步驟S45 :對輸出文本之間的相似度數據進行輸出過
對輸出資料的過濾參照實施例三的描述,其主要目的 是過濾掉相似度比較低(例如相似度對比分數低)的結果 或相似度排名靠後的若干文本資料。 例如,將一個待匹配的文本稱爲左列文本(即Left Offer),與之匹配的文本稱爲右列文本(Right Offer)。 Left Offer和Right Offer是成對比較的結果的表示,也可以 說每對比較,第一個文本稱爲Left Offer,第二個文本稱 爲 Right Offer。 那麼針對一個待匹配的Left Offer,過濾掉Right Offer 排名靠後的、相似度比較低的若干文本》 輸出過濾是在計算相似度後先進行一次過濾,以便減 少後續輸出相關文本時,所需要選擇的文本數量。 對文本的過濾可以在過濾層實現,可選的也可以在演 算法層實現 -24- 201214167 步驟S46:根據過爐後的文本之間的相似度數據輸出 資料庫中當前儲存的各個文本的相關文本。 關於匹配文本的確定過程參見上述實施例中的描述。 在獲取相關文本後,則可以實現對每個Left Offer,只輸 出相似度最高的幾個(top N,根據不同的規則可配置) Right Offer。 當需要進行商品推薦時,將用戶操作行爲涉及的商品 對應的文本作爲Left Offer,查找資料庫中儲存的該Left Offer對應的Right Offer,將查找到的Right Offer對應的商 品推薦給用戶。 實施例五: 本申請實施例五根據本申請上述實施例提供的上述文 本匹配方法,構建一種文本匹配裝置,該裝置可以設置在 網路設備,例如上述的伺服器中,用於文本的匹配。該裝 置的結構如圖8所示,包括:收集模組1 0、分詞模組20、 權重確定模組3 0、詞頻更新模組40、相似度確定模組50和 文本比較模組6 0。 收集模組10,用於週期性收集用戶發佈的內容資訊, 根據當前週期內收集的內容資訊得到當前週期內的新增文 本並儲存到資料庫中。 分詞模組20,用於對輸入的新增文本進行分詞’並提 取關鍵字。 權重確定模組30,用於根據預先儲存的詞頻表計算提 -25- 201214167 取的每個關鍵字在資料庫中的各文本中的權重。 優選的’上述權重確定模組3〇,具體包括:第一確定 單元301、第二確定單元3 〇2和權重計算單元3 03。 第一確定單元301,用於根據詞頻表,分別確定選定 關鍵字在資料庫中每個文本中的出現次數。 第二確定單元3 02,用於確定資料庫中儲存的文本與 包含有選定關鍵字的文本的數量比。 權重計算單元3 03,用於根據選定關鍵字在每個文本 中的出現次數和第二確定單元3 〇2確定出來的數量比,分 別計算每個關鍵字在每個文本中的權重。 詞頻更新模組4〇,用於根據各個詞語在資料庫中的各 文本中的出現頻率週期性更新詞頻表;資料庫中的文本包 括當前週期儲存的新增文本和之前儲存的原始文本。 優選的,上述詞頻更新模組40,具體用於:每次輸入 新增文本後,統計各個詞語在輸入的新增文本和資料庫中 儲存的原始文本中的出現的頻率,得到包含各個詞語在資 料庫中的每個文本中的出現頻率的的詞頻表;或每次輸入 新增文本後,統計各個詞語在輸入的每個新增文本中的出 現的頻率,根據統計得到的結果與詞頻表中儲存的各個詞 語在資料庫中的儲存的原始文本中的出現頻率,得到包含 各個詞語在資料庫中的每個文本中的出現頻率的的詞頻表 〇 相似度確定模組50,用於根根據計算得到的每個關鍵 字在資料庫中的各文本中的權重,計算每個新增文本與資 -26- 201214167 料庫中的各文本的相似度,或計算資料 的相似度。 優選的,上述相似度確定模組50, 成單元501和相似度計算單元502。 向量生成單元50 1,用於將待計算 每個關鍵字的權重組成權重向量。 相似度計算單元502,用於針對每 計算該新增文本的權重向量與資料庫中 重向量的內積,得到該新增文本與資料 的相似度;或針對資料庫中儲存的每個 文本的權重向量與資料庫中儲存的各文 積,得到該文本與資料庫中儲存的各文; 文本比較模組60,用於根據計算得 料庫中儲存的各文本的相關文本。 優選的,上述文本比較模組6 0,具 定相關文本的每個文本,確定與該文本 於等於設定閾値的至少一個資料庫中儲 本;或針對待確定相關文本的每個文本 文本與待確定相關文本的文本的相似度 似度較高的設定數量的資料庫中儲存的 關文本的文本的相關文本。 優選的,上述文本匹配裝置,還包 7 〇,用於根據設定的輸入過濾規則,對 用戶發佈的內容資訊進行過濾,根據過 庫中任意兩個文本 具體包括:向量生 相似度的文本中的 個新增文本,分別 儲存的各文本的權 庫中儲存的各文本 文本,分別計算該 本的權重向量的內 客的相似度。 到的相似度確定資 體用於:針對待確 的相似度大於或大 存的文本的相關文 ,根據資料庫中各 大小排序,確定相 文本作爲待確定相 括:輸入過濾模組 當前週期內收集到 濾後內容資訊得到 -27- 201214167 當前週期內的新增文本,輸入給分詞模組20。 輸入過濾單元70,具體用於根據內容資訊的品質是否 符合設定的品質評估閾値和/或發佈內容資訊的用戶是否 是設定的合格用戶,對該收集到的內容資訊進行過濾。 優選的,上述文本匹配裝置,還包括:輸出過濾模組 80,用於根據相似度確定模組50計算得到的每個新增文本 與資料庫中的每個文本的相似度,或計算得到的資料庫中 任意兩個文本的相似度;對待確定相關文本的新增文本或 資料庫中儲存的文本相關的相似度數據進行過濾,去除與 待確定相關文本的新增文本或資料庫中儲存的文本相似度 小於設定閩値的文本,或去除與待確定相關文本的新增文 本或資料庫中儲存的文本相似度較低的設定數量的文本, 提供給文本比較模組60。文本比較模組60再根據過濾後的 文本確定新增文本或資料庫中儲存的各文本的相關文本。 本申請實施例提供的上述文本匹配方法及裝置,可以 通過軟體實現,也可以通過硬體實現。例如使用C語言、 linux作業系統,應用分散式集群,比如簇(cluster),或 Hadoop (—種分散式系統架構)集群等·硬體實現。上述方 式在各種文本的匹配過程中均可使用,例如可應用在用於 電子交易的資源(sourcing )平臺中對商品相關的文本資 料進行匹配,以便爲用戶提供關聯商品。 本申請實施例提供的上述文本匹配方法及裝置,通過 建立和更新詞頻表的方式避免了現有技術中任意兩個文本 的匹配都需要對所有文本進行計算的問題,具體爲關鍵字 -28- 201214167 的權重不再依賴與全局資料運算得到總體變數,而依靠詞 頻表即可實現,從而減少了匹配運算工作量,提高了系統 性能。 且通過使用詞頻表可以僅計算部分文本之間的相似度 或計算全部文本之間的相似度,因此即使只針對更新後的 新增文本進行計算,也能獲取到準確的匹配運算結果,而 只計算更新的部分使得運行時間大大縮短,實現了大資料 量文本匹配計算過程中增量演算法實現過程。 該方式適用於所有文本的匹配,具有很強的通用性和 普遍適用性,其匹配過程實現簡單,且資料傳輸和採集也 可以只針對更新部分,很好的解決網路系統瓶頸問題。 上述方法,在輸入資料之前進行輸入匹配,在匹配運 算之後進行輸出匹配,從而進一步減少了匹配運算的處理 資料量。上述方法採用層次化、模組化的結構,達到了可 擴展,易於維護的目的》 顯然,本領域的技術人員可以對本申請進行各種改動 和變型而不脫離本申請的精神和範圍。這樣,倘若本申請 的這些修改和變型屬於本申請之申請專利範圍及其等同技 術的範圍之內,則本申請也意圖包含這些改動和變型在內 【圖式簡單說明】 圖1爲本申請實施例一中文本匹配系統的結構示意圖
S -29- 201214167 圖2爲本申請實施例一中文本匹配方法的流程圖: 圖3爲本申請實施例二中文本匹配方法的流程圖; 圖4爲本申請實施例三中文本匹配方法的流程圖; 圖5爲本申請實施例五中文本匹配實現原理的示意圖 圖6爲本申請實施例五中文本匹配方法的流程圖; 圖7爲本申請實施例五中詞頻表更新的原理示意圖; 圖8爲本申請實施例中文本匹配裝置的結構示意圖》 【主要元件符號說明】 1 〇 :收集模組 2〇 :分詞模組 3 〇 :權重確定模組 301 :第一確定單元 302 :第二確定單元 303 :權重計算單元 40 :詞頻更新模組 50 :相似度確定模組 501 :向量生成單元 502 :相似度計算單元 6 0 :文本比較模組 7 0 :輸入過據模組 80 :輸出過濾模組 -30-

Claims (1)

  1. 201214167 七、申請專利範圍: 1· 一種文本匹配方法,其特徵在於,包括: 週期性收集用戶發佈的內容資訊,根據當前週期內收 集的內容資訊得到當前週期內的新增文本並儲存到資料庫 中; 對輸入的新增文本進行分詞,並提取關鍵字;根據預 先儲存的詞頻表計算提取的每個關鍵字在資料庫中的各文 本中的權重;該詞頻表根據各個詞語在資料庫中的各文本 中的出現頻率週期性更新;資料庫中的文本包括當前週期 儲存的新增文本和之前儲存的原始文本; 根據計算得到的每個關鍵字在資料庫中的各文本中的 權重,計算每個新增文本與資料庫中的各文本的相似度, 或計算資料庫中任意兩個文本的相似度; 根據計算得到的相似度確定資料庫中儲存的各文本的 相關文本。 2.如申請專利範圍第1項所述的方法,其中,該詞頻 表根據各個關鍵字在資料庫中的各文本中的出現頻率週期 性更新,具體包括: 每次輸入新增文本後,統計各個詞語在輸入的新增文 本和資料庫中儲存的原始文本中的出現的頻率,得到包含 各個詞語在資料庫中的每個文本中的出現頻率的的詞頻表 :或 每次輸入新增文本後’統計各個詞語在輸入的每個新 增文本中的出現的頻率’根據統計得到的結果與詞頻表中 -31 - 201214167 儲存的各個詞語在資料庫中的儲存的原始文本中的出現頻 率’得到包含各個詞語在資料庫中的每個文本中的出現頻 率的的詞頻表。 3·如申請專利範圍第2項所述的方法,其中,該根據 預先儲存的詞頻表計算分詞得到的每個關鍵字在資料庫中 各文本中的權重,具體包括: 根據詞頻表,分別確定選定關鍵字在資料庫中每個文 本中的出現次數;以及 確定資料庫中的儲存的文本與包含有選定關鍵字的文 本的數量比; 根據選定關鍵字在每個文本中的出現次數和該數量比 ’分別計算每個關鍵字在每個文本中的權重。 4 ·如申請專利範圍第1項所述的方法,其中,該計算 每個新增文本與資料庫中的各文本的相似度,或計算資料 庫中任意兩個文本的相似度,具體包括: 將待計算相似度的文本中的每個關鍵字的權重組成權 重向量; 針對每個新增文本,分別計算該新增文本的權重向量 與資料庫中儲存的各文本的權重向量的內積,得到該新增 文本與資料庫中儲存的各文本的相似度;或針對資料庫中 儲存的每個文本,分別計算該文本的權重向量與資料庫中 儲存的各文本的權重向.量的內積,得到該文本與資料庫中 儲存的各文本的相似度。 5 ·如申請專利範圍第1項所述的方法,其中,該根據 -32- 201214167 計算得到的相似度確定資料庫中儲存的各文本的相關文本 ,具體包括: 針對待確定相關文本的每個文本,確定與該文本的相 似度大於或大於等於設定閾値的至少一個資料庫中儲存的 文本爲該文本的相關文本;或 針對待確定相關文本的每個文本,根據資料庫中各文 本與待確定相關文本的文本的相似度大小排序,確定相似 度較高的設定數量的資料庫中儲存的文本作爲待確定相關 文本的文本的相關文本。 6. 如申請專利範圍第1-5項之任一項所述的方法,其 中,該根據計算得到的相似度確定資料庫中儲存的各文本 的相關文本之前,還包括: 根據計算得到的每個新增文本與資料庫中的每個文本 的相似度,或計算得到的資料庫中任意兩個文本的相似度 ;對待確定相關文本的新增文本或資料庫中儲存的文本相 關的相似度數據進行過濾,去除與待確定相關文本的新增 文本或資料庫中儲存的文本相似度小於設定閾値的文本, 或去除與待確定相關文本的新增文本或資料庫中儲存的文 本相似度較低的設定數量的文本。 7. 如申請專利範圍第1-5項之任一項所述的方法,其 中,該根據當前週期內收集的內容資訊得到當前週期內的 新增文本之前,還包括: 根據設定的輸入過濾規則,對當前週期內收集到用戶 發佈的內容資訊進行過濾,根據過濾後內容資訊得到當前 -33- 201214167 週期內的新增文本。 8. 如申請專利範圍第7項所述的方法,其中,該根據 設定的輸入過濾規則,對當前週期內收集到用戶發佈的內 容資訊進行過濾,具體包括: 根據內容資訊的品質是否符合設定的品質評估閩値和 /或發佈內容資訊的用戶是否是設定的合格用戶,對該收 集到的內容資訊進行過濾。 9. 一種文本匹配裝置,其特徵在於,包括: 收集模組,用於週期性收集用戶發佈的內容資訊,根 據當前週期內收集的內容資訊得到當前週期內的新增文本 並儲存到資料庫中; 分詞模組,用於對輸入的新增文本進行分詞,並提取 關鍵字; 權重確定模組,用於根據預先儲存的詞頻表計算提取 的每個關鍵字在資料庫中的各文本中的權重; 詞頻更新模組,用於根據各個詞語在資料庫中的各文 本中的出現頻率週期性更新詞頻表;資料庫中的文本包括 當前週期儲存的新增文本和之前儲存的原始文本; 相似度確定模組,用於根據計算得到的每個關鍵字在 資料庫中的各文本中的權重,計算每個新增文本與資料庫 中的各文本的相似度,或計算資料庫中任意兩個文本的相 似度; 文本比較模組,用於根據計算得到的相似度確定資料 庫中儲存的各文本的相關文本。 -34- 201214167 10.如申請專利範圍第9項所述的裝置,其中,該詞 頻更新模組,具體用於: 每次輸入新增文本後’統計各個詞語在輸入的新增文 本和資料庫中儲存的原始文本中的出現的頻率,得到包含 各個詞語在資料庫中的每個文本中的出現頻率的的詞頻表 ;或 每次輸入新增文本後’統計各個詞語在輸入的每個新 增文本中的出現的頻率,根據統計得到的結果與詞頻表中 儲存的各個詞語在資料庫中的儲存的原始文本中的出現頻 率’得到包含各個詞語在資料庫中的每個文本中的出現頻 率的的詞頻表。 11·如申請專利範圍第10項所述的裝置,其中,該權 重確定模組,具體包括: 第一確定單元’用於根據詞頻表,分別確定選定關鍵 字在資料庫中每個文本中的出現次數; 第二確定單元,用於確定資料庫中儲存的文本與包含 有選定關鍵字的文本的數量比; 權重計算單元’用於根據選定關鍵字在每個文本中的 出現次數和該數量比,分別計算每個關鍵字在每個文本中 的權重。 I2·如申請專利範圍第9項所述的裝置,其中,該相 似度確定模組,具體包括: 向量生成單元,用於將待計算相似度的文本中的每個 關鍵字的權重組成權重向量; -35- 201214167 相似度計算單元’用於針對每個新增文本’分別計算 該新增文本的權重向量與資料庫中儲存的各文本的權重向 量的內積,得到該新增文本與資料庫中儲存的各文本的相 似度;或針對資料庫中儲存的每個文本’分別計算該文本 的權重向量與資料庫中儲存的各文本的權重向量的內積, 得到該文本與資料庫中儲存的各文本的相似度。 13. 如申請專利範圍第9項所述的裝置,其中,該文 本比較模組,具體用於: 針對待確定相關文本的每個文本,確定與該文本的相 似度大於或大於等於設定閾値的至少一個資料庫中儲存的 文本的相關文本;或 針對待確定相關文本的每個文本,根據資料庫中各文 本與待確定相關文本的文本的相似度大小排序,確定相似 度較高的設定數量的資料庫中儲存的文本作爲待確定相關 文本的文本的相關文本。 14. 如申請專利範圍第9-13項之任一項所述的裝置, 其中,還包括: 輸入過濾模組,用於根據設定的輸入過濾規則,對當 前週期內收集到用戶發佈的內容資訊進行過濾,根據過濾 後內容資訊得到當前週期內的新增文本。 15. 如申請專利範圍第9_13項之任一項所述的裝置, 其中,還包括: Hi tB $ «胃® ’用於根據該相似度確定模組計算得到 的每個新增文本與資料庫中的每個文本的相似度,或計算 -36- 201214167 得到的資料庫中任意兩個文本的相似度;對待確定相關文 本的新增文本或資料庫中儲存的文本相關的相似度數據進 行過濾,去除與待確定相關文本的新增文本或資料庫中儲 存的文本相似度小於設定閾値的文本,或去除與待確定相 關文本的新增文本或資料庫中儲存的文本相似度較低的設 定數量的文本; 該文本比較模組具體用於:根據過濾後的文本確定資 料庫中儲存的各文本的相關文本。 -37-
TW099140210A 2010-09-20 2010-11-22 Text matching method and device TWI496015B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2010102906934A CN102411583B (zh) 2010-09-20 2010-09-20 一种文本匹配方法及装置

Publications (2)

Publication Number Publication Date
TW201214167A true TW201214167A (en) 2012-04-01
TWI496015B TWI496015B (zh) 2015-08-11

Family

ID=45818539

Family Applications (1)

Application Number Title Priority Date Filing Date
TW099140210A TWI496015B (zh) 2010-09-20 2010-11-22 Text matching method and device

Country Status (6)

Country Link
US (1) US20120072220A1 (zh)
EP (1) EP2619650A4 (zh)
JP (1) JP5717858B2 (zh)
CN (1) CN102411583B (zh)
TW (1) TWI496015B (zh)
WO (1) WO2012039755A2 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI567572B (zh) * 2012-09-13 2017-01-21 Alibaba Group Services Ltd Data acquisition method, device and system

Families Citing this family (47)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012001231A1 (en) * 2010-06-28 2012-01-05 Nokia Corporation Method and apparatus for accessing multimedia content having subtitle data
CN102693279B (zh) * 2012-04-28 2014-09-03 合一网络技术(北京)有限公司 一种快速计算评论相似度的方法、装置及系统
CN103391547A (zh) * 2012-05-08 2013-11-13 腾讯科技(深圳)有限公司 一种信息处理的方法和终端
US20140149441A1 (en) * 2012-11-29 2014-05-29 Fujitsu Limited System and method for matching persons in an open learning system
CN102999631A (zh) * 2012-12-13 2013-03-27 蓝盾信息安全技术股份有限公司 一种Windows内核代码的定位方法
CN103092828B (zh) * 2013-02-06 2015-08-12 杭州电子科技大学 基于语义分析和语义关系网络的文本相似度度量方法
CN103984685A (zh) * 2013-02-07 2014-08-13 百度国际科技(深圳)有限公司 一种用于对待分类词条进行分类的方法、装置与设备
CN104239285A (zh) * 2013-06-06 2014-12-24 腾讯科技(深圳)有限公司 文章新章节的检测方法及装置
CN103885937B (zh) * 2014-04-14 2015-02-25 焦点科技股份有限公司 基于核心词相似度判断企业中文名称重复的方法
CN105338394B (zh) 2014-06-19 2018-11-30 阿里巴巴集团控股有限公司 字幕数据的处理方法及系统
CN104346443B (zh) * 2014-10-20 2018-08-03 北京国双科技有限公司 网络文本处理方法及装置
CN105701120B (zh) 2014-11-28 2019-05-03 华为技术有限公司 确定语义匹配度的方法和装置
CN104881503A (zh) * 2015-06-24 2015-09-02 郑州悉知信息技术有限公司 一种数据处理方法和装置
CN106649338B (zh) * 2015-10-30 2020-08-21 中国移动通信集团公司 信息过滤策略生成方法及装置
JP6565628B2 (ja) * 2015-11-19 2019-08-28 富士通株式会社 検索プログラム、検索装置および検索方法
CN107026731A (zh) * 2016-01-29 2017-08-08 阿里巴巴集团控股有限公司 一种用户身份验证的方法及装置
US10007516B2 (en) * 2016-03-21 2018-06-26 International Business Machines Corporation System, method, and recording medium for project documentation from informal communication
CN107844493B (zh) * 2016-09-19 2020-12-29 博彦泓智科技(上海)有限公司 一种文件关联方法及系统
CN106503228A (zh) * 2016-10-28 2017-03-15 国信优易数据有限公司 一种数据包稀缺性评估方法及其系统
CN106600357A (zh) * 2016-10-28 2017-04-26 浙江大学 基于电子商务商品标题的商品搭配方法
CN106776543B (zh) * 2016-11-23 2019-09-06 上海智臻智能网络科技股份有限公司 新词发现方法、装置、终端及服务器
CN106776577B (zh) * 2016-12-30 2020-02-18 宁波优策信息技术有限公司 一种序列还原方法及设备
CN108959329B (zh) * 2017-05-27 2023-05-16 腾讯科技(北京)有限公司 一种文本分类方法、装置、介质及设备
CN110019903A (zh) 2017-10-10 2019-07-16 阿里巴巴集团控股有限公司 图像处理引擎组件的生成方法、搜索方法及终端、系统
CN108197102A (zh) * 2017-12-26 2018-06-22 百度在线网络技术(北京)有限公司 一种文本数据统计方法、装置和服务器
CN110020171B (zh) * 2017-12-28 2023-05-16 阿里巴巴集团控股有限公司 数据处理方法、装置、设备及计算机可读存储介质
CN108228851A (zh) * 2018-01-10 2018-06-29 北京奇艺世纪科技有限公司 一种关键词列表调整方法、装置及电子设备
CN108363729B (zh) * 2018-01-12 2021-01-26 中国平安人寿保险股份有限公司 一种字符串比较方法、装置、终端设备及存储介质
CN108363686A (zh) * 2018-01-12 2018-08-03 中国平安人寿保险股份有限公司 一种字符串分词方法、装置、终端设备及存储介质
CN108415980A (zh) * 2018-02-09 2018-08-17 平安科技(深圳)有限公司 问答数据处理方法、电子装置及存储介质
CN108334628A (zh) * 2018-02-23 2018-07-27 北京东润环能科技股份有限公司 一种新闻事件聚类的方法、装置、设备和储存介质
CN109408520A (zh) * 2018-09-26 2019-03-01 青岛农业大学 一种法律在线更新方法、系统、设备及计算机程序产品
CN109522414B (zh) * 2018-11-26 2021-06-04 吉林大学 一种文献投递对象选择系统
CN110162630B (zh) * 2019-05-09 2025-06-27 深圳市腾讯信息技术有限公司 一种文本去重的方法、装置及设备
CN110335598A (zh) * 2019-06-26 2019-10-15 重庆金美通信有限责任公司 一种基于语音识别的无线窄带信道话音通信方法
CN113495942B (zh) * 2020-04-01 2022-07-05 百度在线网络技术(北京)有限公司 推送信息的方法和装置
CN111539196A (zh) * 2020-04-15 2020-08-14 京东方科技集团股份有限公司 文本查重的方法、装置、文本管理系统及电子设备
CN112784007B (zh) * 2020-07-16 2023-02-21 上海芯翌智能科技有限公司 文本匹配方法及装置、存储介质和计算机设备
CN112183111B (zh) * 2020-09-28 2024-08-23 亚信科技(中国)有限公司 长文本语义相似度匹配方法、装置、电子设备及存储介质
CN112364620B (zh) * 2020-11-06 2024-04-05 中国平安人寿保险股份有限公司 文本相似度的判断方法、装置以及计算机设备
CN112329479B (zh) * 2020-11-25 2022-12-06 山东师范大学 一种人类表型本体术语识别方法及系统
US12050658B2 (en) * 2021-08-10 2024-07-30 Yahoo Assets Llc Search query generation based upon received text
CN113921016A (zh) * 2021-10-15 2022-01-11 阿波罗智联(北京)科技有限公司 语音处理方法、装置、电子设备以及存储介质
CN113918723B (zh) * 2021-11-25 2025-07-15 广东电网有限责任公司 一种设备信息的分类方法及装置
CN114780567A (zh) * 2022-05-25 2022-07-22 江苏优集科技有限公司 一种基于分布式文件系统的文件布局更新系统及方法
CN115440224B (zh) * 2022-09-06 2025-07-11 国网智能科技股份有限公司 语音处理方法、装置、电子设备及存储介质
CN120354147B (zh) * 2025-04-08 2025-12-12 山东联数信息科技有限公司 一种基于多类型数据库文件的多维数据匹配训练处理方法

Family Cites Families (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2943447B2 (ja) * 1991-01-30 1999-08-30 三菱電機株式会社 テキスト情報抽出装置とテキスト類似照合装置とテキスト検索システムとテキスト情報抽出方法とテキスト類似照合方法、及び、質問解析装置
US5371807A (en) * 1992-03-20 1994-12-06 Digital Equipment Corporation Method and apparatus for text classification
US6317722B1 (en) * 1998-09-18 2001-11-13 Amazon.Com, Inc. Use of electronic shopping carts to generate personal recommendations
JP2001249874A (ja) * 2000-03-08 2001-09-14 Sky Com:Kk 情報収集装置
JP2002073680A (ja) * 2000-08-30 2002-03-12 Mitsubishi Research Institute Inc 技術情報検索システム
JP3933452B2 (ja) * 2001-11-27 2007-06-20 シャープ株式会社 情報の入手を支援する支援方法および支援サーバ
US7716161B2 (en) * 2002-09-24 2010-05-11 Google, Inc, Methods and apparatus for serving relevant advertisements
US20040093200A1 (en) * 2002-11-07 2004-05-13 Island Data Corporation Method of and system for recognizing concepts
US20040102957A1 (en) * 2002-11-22 2004-05-27 Levin Robert E. System and method for speech translation using remote devices
TWI226992B (en) * 2002-12-30 2005-01-21 Inventec Corp Random transfer-linking type computer network system providing intelligent on-line data search function
TW200411434A (en) * 2002-12-30 2004-07-01 Inventec Corp Cooperative message processing computer network system providing intelligent on-line data search function
TWI220719B (en) * 2002-12-30 2004-09-01 Inventec Corp Computer network system providing intelligent on-line data search function and enhancing linking performance of network nodes
CA2516941A1 (en) * 2003-02-19 2004-09-02 Custom Speech Usa, Inc. A method for form completion using speech recognition and text comparison
JP2004264929A (ja) * 2003-02-28 2004-09-24 Nippon Telegr & Teleph Corp <Ntt> Web情報の提供システム、提供方法、この方法のプログラム、およびこのプログラムを記録した記録媒体
US7734996B2 (en) * 2003-09-08 2010-06-08 Nec Corporation Documentation browsing method, documentation browsing apparatus, documentation browsing robot, and documentation browsing program
CN1910654B (zh) * 2004-01-20 2012-01-25 皇家飞利浦电子股份有限公司 确定交谈主题并获取和呈现相关内容的方法和系统
JP4366249B2 (ja) * 2004-06-02 2009-11-18 パイオニア株式会社 情報処理装置、その方法、そのプログラム、そのプログラムを記録した記録媒体、および、情報取得装置
CN100550014C (zh) * 2004-10-29 2009-10-14 松下电器产业株式会社 信息检索装置
US8126712B2 (en) * 2005-02-08 2012-02-28 Nippon Telegraph And Telephone Corporation Information communication terminal, information communication system, information communication method, and storage medium for storing an information communication program thereof for recognizing speech information
KR100645614B1 (ko) * 2005-07-15 2006-11-14 (주)첫눈 정보 가치 측정결과를 반영한 검색 방법 및 검색 장치
JP4961755B2 (ja) * 2006-01-23 2012-06-27 富士ゼロックス株式会社 単語アライメント装置、単語アライメント方法、単語アライメントプログラム
US7698140B2 (en) * 2006-03-06 2010-04-13 Foneweb, Inc. Message transcription, voice query and query delivery system
US20100138451A1 (en) * 2006-04-03 2010-06-03 Assaf Henkin Techniques for facilitating on-line contextual analysis and advertising
JP5223673B2 (ja) * 2006-06-29 2013-06-26 日本電気株式会社 音声処理装置およびプログラム、並びに、音声処理方法
WO2008056570A1 (en) * 2006-11-09 2008-05-15 Panasonic Corporation Content search apparatus
CN101211339A (zh) * 2006-12-29 2008-07-02 上海芯盛电子科技有限公司 基于用户行为的智能网页分类器
JP2007157170A (ja) * 2007-01-26 2007-06-21 Sharp Corp 情報の入手を支援する支援サーバ、支援方法、およびその支援方法をコンピュータに実行させるためのプログラム
CN101059805A (zh) * 2007-03-29 2007-10-24 复旦大学 基于网络流和分层知识库的动态文本聚类方法
CN101079026B (zh) * 2007-07-02 2011-01-26 蒙圣光 文本相似度、词义相似度计算方法和系统及应用系统
US20090292677A1 (en) * 2008-02-15 2009-11-26 Wordstream, Inc. Integrated web analytics and actionable workbench tools for search engine optimization and marketing
JP5224868B2 (ja) * 2008-03-28 2013-07-03 株式会社東芝 情報推薦装置および情報推薦方法
US8145482B2 (en) * 2008-05-25 2012-03-27 Ezra Daya Enhancing analysis of test key phrases from acoustic sources with key phrase training models
CN100583101C (zh) * 2008-06-12 2010-01-20 昆明理工大学 基于领域知识的文本分类特征选择及权重计算方法
US8060513B2 (en) * 2008-07-01 2011-11-15 Dossierview Inc. Information processing with integrated semantic contexts
US8577930B2 (en) * 2008-08-20 2013-11-05 Yahoo! Inc. Measuring topical coherence of keyword sets
US8306807B2 (en) * 2009-08-17 2012-11-06 N T repid Corporation Structured data translation apparatus, system and method
US20110258054A1 (en) * 2010-04-19 2011-10-20 Sandeep Pandey Automatic Generation of Bid Phrases for Online Advertising
US9560206B2 (en) * 2010-04-30 2017-01-31 American Teleconferencing Services, Ltd. Real-time speech-to-text conversion in an audio conference session
KR101196935B1 (ko) * 2010-07-05 2012-11-05 엔에이치엔(주) 실시간 인기 키워드에 대한 대표 문구를 제공하는 방법 및 시스템
US8407215B2 (en) * 2010-12-10 2013-03-26 Sap Ag Text analysis to identify relevant entities
CN103186539B (zh) * 2011-12-27 2016-07-27 阿里巴巴集团控股有限公司 一种确定用户群体、信息查询及推荐的方法及系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI567572B (zh) * 2012-09-13 2017-01-21 Alibaba Group Services Ltd Data acquisition method, device and system

Also Published As

Publication number Publication date
EP2619650A2 (en) 2013-07-31
JP5717858B2 (ja) 2015-05-13
WO2012039755A2 (en) 2012-03-29
CN102411583A (zh) 2012-04-11
WO2012039755A3 (en) 2013-05-23
CN102411583B (zh) 2013-09-18
TWI496015B (zh) 2015-08-11
US20120072220A1 (en) 2012-03-22
EP2619650A4 (en) 2016-08-31
JP2014500988A (ja) 2014-01-16

Similar Documents

Publication Publication Date Title
TW201214167A (en) Matching text sets
US11710054B2 (en) Information recommendation method, apparatus, and server based on user data in an online forum
US12001439B2 (en) Information service for facts extracted from differing sources on a wide area network
CN102419755B (zh) 一种搜索结果的排序方法和装置
Kumar et al. Social popularity based SVD++ recommender system
CN102289436B (zh) 确定搜索词权重值方法及装置、搜索结果生成方法及装置
CN102456058B (zh) 类目信息提供方法及装置
CN107784066A (zh) 信息推荐方法、装置、服务器及存储介质
JP5506735B2 (ja) ウェブサイトの影響をランク付けする方法及び記録媒体
CN102902775B (zh) 互联网实时计算的方法和系统
CN101477554A (zh) 基于用户兴趣的个性化元搜索引擎及搜索结果处理方法
CN103309960B (zh) 一种网络舆情事件多维信息提取的方法及装置
CN106933906B (zh) 数据多维度的查询方法及装置
CN107357793A (zh) 信息推荐方法和装置
CN112184370B (zh) 一种推送产品的方法和装置
CN105740480A (zh) 机票推荐方法及系统
US20150356143A1 (en) Generating a hint for a query
CN113032436B (zh) 基于文章内容和标题的搜索方法和装置
Martínez-Castaño et al. Polypus: a big data self-deployable architecture for microblogging text extraction and real-time sentiment analysis
Peiris et al. Citation network based framework for ranking academic publications and venues
CN109033133A (zh) 基于特征项权重增长趋势的事件检测与跟踪方法
HewaNadungodage et al. A GPU-oriented online recommendation algorithm for efficient processing of time-varying continuous data streams
Dan et al. Mining for insights in the search engine query stream
WO2024130741A1 (zh) 数据处理方法、装置、设备、存储介质及程序产品
HK1166398A (zh) 一种文本匹配方法及装置

Legal Events

Date Code Title Description
MM4A Annulment or lapse of patent due to non-payment of fees