目前機器閱讀技術發展得如何?

2025-07-18 20:40:13 字數 1203 閱讀 3485

1樓:生對香

機器閱讀理解技術可以從兩方面來看,資料集和演算法。資料集有時候,提出問題比解決問題更有意義。那麼,如何評估機器的理解水平呢。

問答是一種常見的評估形式。目前來看,機器閱讀主要有兩種問答形態:完型填空(cloze)文字段(text span)2015年,deepmind根據cnn新聞語料構建了乙個(也是首個)大規模閱讀理解資料集——cnn/daily mail。

隨後,從兒童故事書中也構建了乙個資料集,也是完型填空型別——cbt。此後的工作主要圍繞這兩個資料集。然而賣慧,完型填空這種限定條件的問答形式基本無法應用於實際。

對cnn資料集進行了詳細的評估後指出,現有方法基本達到了cnn資料集的準確率上限,並且cnn資料集中包含的推理十分簡單。更接近實際的問答形式和冊配顫更有挑戰的資料集是迫切需要的。2016 emnlp會議上,rajpurkar等人提出了squad資料集,這是首個大規模文字段型別的問答資料集。

在給定文件d,給定問題q的情況下,答案a是d中的乙個text span。資料集一經提出就受到了學界的廣泛關注,截至到目前,leaderboard (the stanford question answering dataset) 上排名第一的模型已經可以給出84%的f1指標,而人類水平為91%。後續一些工作,州敗如newsqa,ms marco,都是文字段問答型別的資料集,在構建方式上有別於squad,難度也更大,但尚未引起關注。

除上述兩大類之外,還有一些其它型別的資料集如babi,story cloze,,winograd schema challenge等等,主要聚焦於機器的推理能力,可能需要引入外部知識。演算法目前主流的閱讀理解模型使用深度學習來做。完型填空型別的問答,簡單來說就是乙個匹配問題。

2樓:猴16998腫園

大規模語料集的構建是推進機器閱讀理解發展的重要前提。從 15 年提出的 cnn/dm 完形填空資料集,到近期的 squad 資料集腔孝,再到之後的若干新資料集,每乙個新資料集都提出了當前方法無法有效解決的新問題,從而促使研究人員不斷探索新的模型,促進了該領域的發展。針對抽取式閱讀理解任務,可以看到有如下幾個技術創新點:

建立在單向或雙向注意力機制上的interaction層對於模型理解伍枝稿原文和問題至關重要,更復雜的雙interaction 層設計無疑要優於搭碧之前的單 interaction 層設計,原因是在問題,原文互動層之上的原文自互動層使得更多的語義資訊能在原文中流動,因此在某種程度上部分解決了長文字中存在的長時依賴問題。<>

按我國目前生物技術發展趨勢來看,不可能研製成功的是

樓上忽悠人玩呢。答案應只選b 題目與國家無關,因為你也說了是發展趨勢,時間可以很遠很遠,所以無論是中國,還是換成越南,寮國,剛果。都無關緊要,只要符合科學基本規律的都應認為可以研製成功。所以應該選的是不符合科學基本規律的選項。任何生物無論是病毒,細菌,還是動物,植物都必須通過一定的途徑獲取營養物質以...

大資料技術發展之下 醫療行業現狀如何

導讀 大資料技術的使用最早是應用於網際網絡公司,隨著社會的發展,大資料技術也已經應用到了醫療行業,雖然大資料都是孤立的資料,不能大規模應用,但是在醫療行業,我們能夠通過大資料技術,進行患者的資訊收集,建立詳細就醫檔案,更好地幫助醫生進行病情診斷,那麼大資料技術發展之下,醫療行業現狀如何呢?接下來就一起...

中國新技術發展貿易有限責任公司怎麼樣?

中國新技術發展 有限責任公司是 在工商總局註冊成立的有限責任公司 自然人投資或控股的法人獨資 註冊位址位於杭州市濱江區西興街道江南大道號室。中國新技術發展 有限責任公司的統一社會信用 註冊號是,企業法人馬可輝,目前企業處於開業狀態。中國新技術發展 有限責任公司的經營範圍是 經營進出口業務 資訊諮詢,...