[雜談][轉貼]〈我們在哈佛把十億篇美國報紙文章通通電子化啦!American Stories---我們lab的『美國新聞故事資料集』釋出來啦!〉

我們在哈佛的實驗室,最近釋出了一個全新的「十億級」的文字資料集,原始文本來自美國公有領域的歷史報紙,橫跨了1780-1960年,透過我們開發的各種深度學習工具,我們提供了超高精準度的電子化文字(已經OCRed),所以這是已經結構並電子化的文字資料集!重點是------我們開源釋出這資料到Hugging Face上,以利全世界的人都可以利用!

臉書連結:Facebook
詳細請看上方臉書連結。這篇內容我還沒消化,但應該很重要而且很有用,對許多研究及創作者都很有幫助。

#Data #Tech