deephub

deephub

長序列中Transformers的高級注意力機制總結

在處理長序列時，Transformers面臨著注意力分散和噪音增加等挑戰。隨著序列長度的增長，每個詞元必須與更多詞元競爭

2024-05-31 10:21
通過強化學習策略進行特征選擇

特征選擇是構建機器學習模型過程中的決定性步驟。爲模型和我們想要完成的任務選擇好的特征，可以提高性能。如果我們處理的是高維

2024-05-30 11:00
微調真的能讓LLM學到新東西嗎:引入新的知識可能讓模型産生更多的幻覺

大型語言模型(llm)是在巨大的文本語料庫上訓練的，在那裏他們獲得了大量的事實知識。這些知識嵌入到它們的參數中，然後可以

2024-05-29 10:46
SUPRA：無須額外訓練，將Transformer變爲高效RNN，推理速度倍增

Transformers 已經確立了自己作爲首要模型架構的地位，特別是因爲它們在各種任務中的出色表現。但是Transfo

2024-05-27 11:30
2024年5月大語言模型論文推薦：模型優化、縮放到推理、基准測試和增強性能

前一篇文章總結了關于計算機視覺方面的論文，這篇文章將要總結了2024年5月發表的一些最重要的大語言模型的論文。這些論文涵

2024-05-26 10:27
2024年5月計算機視覺論文推薦

我們今天總結下2024年5月發表的最重要的論文，重點介紹了計算機視覺領域的最新研究和進展，包括擴散模型、視覺語言模型、圖

2024-05-25 10:05
使用FP8加速PyTorch訓練的兩種方法總結

在PyTorch中，FP8（8-bit 浮點數）是一個較新的數據類型，用于實現高效的神經網絡訓練和推理。它主要被設計來降

2024-05-24 10:46
MambaOut：狀態空間模型並不適合圖像的分類任務

該論文探討了Mamba架構（包含狀態空間模型SSM）是否有必要用于視覺任務，如圖像分類、目標檢測和語義分割。通過實驗證實

2024-05-23 09:56
整合LlamaIndex與LangChain構建高級的查詢處理系統

構建大型語言模型應用程序可能會頗具挑戰，尤其是當我們在不同的框架（如Langchain和LlamaIndex）之間進行選

2024-05-22 10:08
深入解析xLSTM：LSTM架構的演進及PyTorch代碼實現詳解

xLSTM的新聞大家可能前幾天都已經看過了，原作者提出更強的xLSTM，可以將LSTM擴展到數十億參數規模，我們今天就來

2024-05-20 09:44
DeepSparse:通過剪枝和稀疏預訓練，在不損失精度的情況下減少70%的模型大小，提升三倍速度

這篇論文提出了一種高稀疏性基礎大型語言模型（LLMs）的新方法，通過有效的預訓練和部署，實現了模型在保持高准確度的同時，

2024-05-19 09:45
擴散模型的多元化應用：藥物發現、文本生成、時間序列預測等

AlphaFold3 是 DeepMind 開發的一款蛋白質結構預測軟件，它在AlphaFold2的基礎上進行了改進。其

2024-05-18 10:46
圖神經網絡入門示例：使用PyTorchGeometric進行節點分類

基于圖的神經網絡是強大的模型，可以學習網絡中的複雜模式。在本文中，我們將介紹如何爲同構圖數據構造PyTorch Data

2024-05-17 10:27
ATFNet：長時間序列預測的自適應時頻集成網絡

ATFNet是一個深度學習模型，它結合了時間域和頻域模塊來捕獲時間序列數據中的依賴關系。引入了一種新的加權機制來調整周期

2024-05-16 10:40
時間序列預測:探索性數據分析和特征工程的實用指南

時間序列分析是數據科學和機器學習領域最廣泛的主題之一:無論是預測金融事件、能源消耗、産品銷售還是股票市場趨勢，這一領域一

2024-05-15 10:56
Transformers加速的一些常用技巧

Transformers 是一個強大的架構，但模型因其采用的自注意力機制，雖然能夠有效地處理序列數據並捕獲長距離依賴關系

2024-05-13 10:06
YouOnlyCacheOnce:YOCO基于Decoder-Decoder的一個新的大語言模型架構

這是微軟再5月剛剛發布的一篇論文提出了一種解碼器-解碼器架構YOCO，因爲只緩存一次KV對，所以可以大量的節省內存。以前

2024-05-12 11:22
圖機器學習入門：基本概念介紹

圖機器學習（Graph Machine Learning，簡稱Graph ML）是機器學習的一個分支，專注于利用圖形結構

2024-05-11 12:06
使用PyTorch實現L1,L2和ElasticNet正則化

在機器學習中，L1正則化、L2正則化和Elastic Net正則化是用來避免過擬合的技術，它們通過在損失函數中添加一個懲

2024-05-10 10:07
論文推薦：用多詞元預測法提高模型效率與速度

這是4月發表的論文《Better Faster Large Language Models via Multi-tok

2024-05-09 10:06

提供專業的人工智能知識，包括CV NLP 數據挖掘等