php如何處理大數據的 php做大數據分析

如何優化操作大數據量數據庫

成都創新互聯公司專注于中大型企業的網站設計制作、成都網站設計和網站改版、網站營銷服務，追求商業策劃與數據分析、創意藝術與技術開發的融合，累計客戶上千余家，服務滿意度達97%。幫助廣大客戶順利對接上互聯網浪潮，準確優選出符合自己需要的互聯網運用，我們將一直專注成都品牌網站建設和互聯網程序開發，在前進的路上，與客戶一起成長！

下面以關系數據庫系統Informix為例，介紹改善用戶查詢計劃的方法。

1．合理使用索引

索引是數據庫中重要的數據結構，它的根本目的就是為了提高查詢效率。現在大多數的數據庫產品都采用IBM最先提出的ISAM索引結構。索引的使用要恰到好處，其使用原則如下：

●在經常進行連接，但是沒有指定為外鍵的列上建立索引，而不經常連接的字段則由優化器自動生成索引。

●在頻繁進行排序或分組（即進行group by或order by操作）的列上建立索引。

●在條件表達式中經常用到的不同值較多的列上建立檢索，在不同值少的列上不要建立索引。比如在雇員表的“性別”列上只有“男”與“女”兩個不同值，因此就無必要建立索引。如果建立索引不但不會提高查詢效率，反而會嚴重降低更新速度。

●如果待排序的列有多個，可以在這些列上建立復合索引（pound index）。

●使用系統工具。如Informix數據庫有一個tbcheck工具，可以在可疑的索引上進行檢查。在一些數據庫服務器上，索引可能失效或者因為頻繁操作而使得讀取效率降低，如果一個使用索引的查詢不明不白地慢下來，可以試著用tbcheck工具檢查索引的完整性，必要時進行修復。另外，當數據庫表更新大量數據后，刪除并重建索引可以提高查詢速度。

2．避免或簡化排序

應當簡化或避免對大型表進行重復的排序。當能夠利用索引自動以適當的次序產生輸出時，優化器就避免了排序的步驟。以下是一些影響因素：

●索引中不包括一個或幾個待排序的列；

●group by或order by子句中列的次序與索引的次序不一樣；

●排序的列來自不同的表。

為了避免不必要的排序，就要正確地增建索引，合理地合并數據庫表（盡管有時可能影響表的規范化，但相對于效率的提高是值得的）。如果排序不可避免，那么應當試圖簡化它，如縮小排序的列的范圍等。

3．消除對大型表行數據的順序存取

在嵌套查詢中，對表的順序存取對查詢效率可能產生致命的影響。比如采用順序存取策略，一個嵌套3層的查詢，如果每層都查詢1000行，那么這個查詢就要查詢10億行數據。避免這種情況的主要方法就是對連接的列進行索引。例如，兩個表：學生表（學號、姓名、年齡……）和選課表（學號、課程號、成績）。如果兩個表要做連接，就要在“學號”這個連接字段上建立索引。

還可以使用并集來避免順序存取。盡管在所有的檢查列上都有索引，但某些形式的where子句強迫優化器使用順序存取。下面的查詢將強迫對orders表執行順序操作：

SELECT ＊ FROM orders WHERE (customer_num=104 AND order_num1001) OR order_num=1008

雖然在customer_num和order_num上建有索引，但是在上面的語句中優化器還是使用順序存取路徑掃描整個表。因為這個語句要檢索的是分離的行的 *** ，所以應該改為如下語句：

SELECT ＊ FROM orders WHERE customer_num=104 AND order_num1001

UNION

SELECT ＊ FROM orders WHERE order_num=1008

這樣就能利用索引路徑處理查詢。

4．避免相關子查詢

一個列的標簽同時在主查詢和where子句中的查詢中出現，那么很可能當主查詢中的列值改變之后，子查詢必須重新查詢一次。查詢嵌套層次越多，效率越低，因此應當盡量避免子查詢。如果子查詢不可避免，那么要在子查詢中過濾掉盡可能多的行。

5．避免困難的正規表達式

MATCHES和LIKE關鍵字支持通配符匹配，技術上叫正規表達式。但這種匹配特別耗費時間。例如：SELECT ＊ FROM customer WHERE zipcode LIKE “98_ _ _”

即使在zipcode字段上建立了索引，在這種情況下也還是采用順序掃描的方式。如果把語句改為SELECT ＊ FROM customer WHERE zipcode “98000”，在執行查詢時就會利用索引來查詢，顯然會大大提高速度。

另外，還要避免非開始的子串。例如語句：SELECT ＊ FROM customer WHERE zipcode[2，3]“80”，在where子句中采用了非開始子串，因而這個語句也不會使用索引。

6．使用臨時表加速查詢

把表的一個子集進行排序并創建臨時表，有時能加速查詢。它有助于避免多重排序操作，而且在其他方面還能簡化優化器的工作。例如：

SELECT cust.name，rcvbles.balance，……other columns

FROM cust，rcvbles

WHERE cust.customer_id = rcvlbes.customer_id

AND rcvblls.balance0

AND cust.postcode“98000”

ORDER BY cust.name

如果這個查詢要被執行多次而不止一次，可以把所有未付款的客戶找出來放在一個臨時文件中，并按客戶的名字進行排序：

SELECT cust.name，rcvbles.balance，……other columns

FROM cust，rcvbles

WHERE cust.customer_id = rcvlbes.customer_id

AND rcvblls.balance0

ORDER BY cust.name

INTO TEMP cust_with_balance

然后以下面的方式在臨時表中查詢：

SELECT ＊ FROM cust_with_balance

WHERE postcode“98000”

臨時表中的行要比主表中的行少，而且物理順序就是所要求的順序，減少了磁盤I/O，所以查詢工作量可以得到大幅減少。

注意：臨時表創建后不會反映主表的修改。在主表中數據頻繁修改的情況下，注意不要丟失數據。

7．用排序來取代非順序存取

非順序磁盤存取是最慢的操作，表現在磁盤存取臂的來回移動。SQL語句隱藏了這一情況，使得我們在寫應用程序時很容易寫出要求存取大量非順序頁的查詢。

有些時候，用數據庫的排序能力來替代非順序的存取能改進查詢。

實例分析

下面我們舉一個制造公司的例子來說明如何進行查詢優化。制造公司數據庫中包括3個表，模式如下所示：

1．part表

零件號?????零件描述????????其他列

（part_num）?（part_desc）??????（other column）

102，032???Seageat 30G disk?????……

500，049???Novel 10M neork card??……

……

2．vendor表

廠商號??????廠商名??????其他列

（vendor _num）?（vendor_name）（other column）

910，257?????Seageat Corp???……

523，045?????IBM Corp?????……

……

3．parven表

零件號?????廠商號?????零件數量

（part_num）?（vendor_num）?（part_amount）

102，032????910，257????3,450,000

234，423????321，001????4，000，000

……

下面的查詢將在這些表上定期運行，并產生關于所有零件數量的報表：

SELECT part_desc，vendor_name，part_amount

FROM part，vendor，parven

WHERE part.part_num=parven.part_num

AND parven.vendor_num = vendor.vendor_num

ORDER BY part.part_num

如果不建立索引，上述查詢代碼的開銷將十分巨大。為此，我們在零件號和廠商號上建立索引。索引的建立避免了在嵌套中反復掃描。關于表與索引的統計信息如下：

表?????行尺寸???行數量?????每頁行數量???數據頁數量

（table）?(row size)?（Row count）?（Rows/Pages）?（Data Pages）

part????150?????10，000????25???????400

Vendor???150?????1，000???? 25???????40

Parven???13????? 15，000????300?????? 50

索引?????鍵尺寸???每頁鍵數量???頁面數量

（Indexes）?(Key Size)?（Keys/Page)???(Leaf Pages）

part?????4??????500???????20

Vendor????4??????500???????2

Parven????8??????250???????60

看起來是個相對簡單的3表連接，但是其查詢開銷是很大的。通過查看系統表可以看到，在part_num上和vendor_num上有簇索引，因此索引是按照物理順序存放的。parven表沒有特定的存放次序。這些表的大小說明從緩沖頁中非順序存取的成功率很小。此語句的優化查詢規劃是：首先從part中順序讀取400頁，然后再對parven表非順序存取1萬次，每次2頁（一個索引頁、一個數據頁），總計2萬個磁盤頁，最后對vendor表非順序存取1.5萬次，合3萬個磁盤頁。可以看出在這個索引好的連接上花費的磁盤存取為5.04萬次。

hibernate如何優化大數據量操作？

建議你直接用Jdbc好了，用batch，這樣是最快的。

如何實現大數據量數據庫的歷史數據歸檔

打開數據庫

con.Open();

讀取數據

OdbcDataReader reader = cmd.ExecuteReader();

把數據加載到臨時表

dt.Load(reader);

在使用完畢之后，一定要關閉，要不然會出問題

reader.Close();

這個問題是這樣的：

首先你要明確你的插入是正常業務需求么？如果是，那么只能接受這樣的數據插入量。

其次你說數據庫存不下了那么你可以讓你的數據庫上限變大這個你可以在數據庫里面設置的里面有個數據庫文件屬性 maxsize

最后有個方法可以使用，如果你的歷史數據不會對目前業務造成很大影響可以考慮歸檔處理定時將不用的數據移入歷史表或者另外一個數據庫。

注意平時對數據庫的維護定期整理索引碎片

時間維度分區表，然后定情按照規則將屬于歷史的分區數據遷移到，歷史庫上，寫個存儲自動維護分區表。

如何用java jdbc 向數據庫表插入大數據量

一次性插入大量數據，只能使用循環，

如：游標，while 循環語句

下面介紹While 循環插入數據，

SQL 代碼如下：

IF OBJECT_ID('dbo.Nums') IS NOT NULL

DROP TABLE dbo.Nums;

CREATE TABLE dbo.Nums(n INT NOT NULL PRIMARY KEY);

DECLARE @max AS INT, @rc AS INT;

SET @max = 5000000;

SET @rc = 1;

INSERT INTO Nums VALUES(1);

WHILE @rc * 2 = @max

BEGIN

INSERT INTO dbo.Nums SELECT n + @rc FROM dbo.Nums;

SET @rc = @rc * 2;

END

INSERT INTO dbo.Nums SELECT n + @rc FROM dbo.Nums WHERE n + @rc = @max;

--以上函數取自Inside SQL Server 2005: T-SQL Query一書。

INSERT dbo.Sample SELECT n, RAND(CAST(NEWID() AS BINARY(16))) FROM Nums

php 怎么解決大數據量插入數據庫

ini_set('max_execution_time','0');

$pdo = new PDO("mysql:host=localhost;dbname=test","root","123456");

$sql = "insert into test(name,age,state,created_time) values";

for($i=0; $i100000; $i++){

$sql .="('zhangsan',21,1,'2015-09-17')";

}

$sql = substr($sql,0,strlen($sql)-1);

var_dump($sql);

if($pdo - exec($sql)){

echo "插入成功！";

echo $pdo - lastinsertid();

}

試試吧。10萬條1分鐘多，我覺得還行

請教如何通過WCF傳輸大數據量數據

就是直接把DataSet 類型作為參數直接傳遞給服務端

WCF默認支持這么做，直接傳Datatable不行。

你看一下 “服務引用設置”中你選的 *** 類型是什么，我選的是System.Array

字典 *** 類型是默認第一項 System.Collections.Generic.Dictionary

又是一個把自己架在火上烤的需求啊，

如果不考慮傳輸因素，可以調整wcf配置，提升傳遞的容量，如果是對象傳遞可能還要調整對象層次的深度

PHP如何解決網站的大數據大流量與高并發

使用緩存，比如memcache,redis,因為它們是在內存中運行，所以處理數據，返回數據非常快，所以可以應對高并發。

2.增加帶寬和機器性能，1M的帶寬同時處理的流量肯定有限，所以在資源允許的情況下，大帶寬，多核cpu,高內存是一個解決方案。

3.分布式，讓多個訪問分到不同的機器上去處理，每個機器處理的請求就相對減少了。

簡單說些常用技術，負載均衡，限流，加速器等

PHP-大數據量怎么處理優化

大數據的話可以進行以下操作：

減少對數據庫的讀取，也就是減少調用數據庫，

進行數據緩存，

利用數據庫的自身優化技術，如索引等

精確查詢條件，有利于提高查找速度

PHP的算法可以實現大數據分析嗎

1.Bloom filter

適用范圍：可以用來實現數據字典，進行數據的判重，或者集合求交集

基本原理及要點：

對于原理來說很簡單，位數組+k個獨立hash函數。將hash函數對應的值的位數組置1，查找時如果發現所有hash函數對應位都是1說明存在，很明顯這個過程并不保證查找的結果是100%正確的。同時也不支持刪除一個已經插入的關鍵字，因為該關鍵字對應的位會牽動到其他的關鍵字。所以一個簡單的改進就是 counting Bloom filter，用一個counter數組代替位數組，就可以支持刪除了。

還有一個比較重要的問題，如何根據輸入元素個數n，確定位數組m的大小及hash函數個數。當hash函數個數k=(ln2)*(m/n)時錯誤率最小。在錯誤率不大于E的情況下，m至少要等于n*lg(1/E)才能表示任意n個元素的集合。但m還應該更大些，因為還要保證bit數組里至少一半為 0，則m 應該=nlg(1/E)*lge 大概就是nlg(1/E)1.44倍(lg表示以2為底的對數)。

舉個例子我們假設錯誤率為0.01，則此時m應大概是n的13倍。這樣k大概是8個。

注意這里m與n的單位不同，m是bit為單位，而n則是以元素個數為單位(準確的說是不同元素的個數)。通常單個元素的長度都是有很多bit的。所以使用bloom filter內存上通常都是節省的。

擴展：

Bloom filter將集合中的元素映射到位數組中，用k（k為哈希函數個數）個映射位是否全1表示元素在不在這個集合中。Counting bloom filter（CBF）將位數組中的每一位擴展為一個counter，從而支持了元素的刪除操作。Spectral Bloom Filter（SBF）將其與集合元素的出現次數關聯。SBF采用counter中的最小值來近似表示元素的出現頻率。

問題實例：給你A,B兩個文件，各存放50億條URL，每條URL占用64字節，內存限制是4G，讓你找出A,B文件共同的URL。如果是三個乃至n個文件呢？

根據這個問題我們來計算下內存的占用，4G=2^32大概是40億*8大概是340億，n=50億，如果按出錯率0.01算需要的大概是650億個 bit。現在可用的是340億，相差并不多，這樣可能會使出錯率上升些。另外如果這些urlip是一一對應的，就可以轉換成ip，則大大簡單了。

2.Hashing

適用范圍：快速查找，刪除的基本數據結構，通常需要總數據量可以放入內存

基本原理及要點：

hash函數選擇，針對字符串，整數，排列，具體相應的hash方法。

碰撞處理，一種是open hashing，也稱為拉鏈法；另一種就是closed hashing，也稱開地址法，opened addressing。 ()

擴展：

d-left hashing中的d是多個的意思，我們先簡化這個問題，看一看2-left hashing。2-left hashing指的是將一個哈希表分成長度相等的兩半，分別叫做T1和T2，給T1和T2分別配備一個哈希函數，h1和h2。在存儲一個新的key時，同時用兩個哈希函數進行計算，得出兩個地址h1[key]和h2[key]。這時需要檢查T1中的h1[key]位置和T2中的h2[key]位置，哪一個位置已經存儲的（有碰撞的）key比較多，然后將新key存儲在負載少的位置。如果兩邊一樣多，比如兩個位置都為空或者都存儲了一個key，就把新key 存儲在左邊的T1子表中，2-left也由此而來。在查找一個key時，必須進行兩次hash，同時查找兩個位置。

問題實例：

1).海量日志數據，提取出某日訪問百度次數最多的那個IP。

IP的數目還是有限的，最多2^32個，所以可以考慮使用hash將ip直接存入內存，然后進行統計。

3.bit-map

適用范圍：可進行數據的快速查找，判重，刪除，一般來說數據范圍是int的10倍以下

基本原理及要點：使用bit數組來表示某些元素是否存在，比如8位電話號碼

擴展：bloom filter可以看做是對bit-map的擴展

問題實例：

1)已知某個文件內包含一些電話號碼，每個號碼為8位數字，統計不同號碼的個數。

8位最多99 999 999，大概需要99m個bit，大概10幾m字節的內存即可。

2)2.5億個整數中找出不重復的整數的個數，內存空間不足以容納這2.5億個整數。

將bit-map擴展一下，用2bit表示一個數即可，0表示未出現，1表示出現一次，2表示出現2次及以上。或者我們不用2bit來進行表示，我們用兩個bit-map即可模擬實現這個2bit-map。

4.堆

適用范圍：海量數據前n大，并且n比較小，堆可以放入內存

基本原理及要點：最大堆求前n小，最小堆求前n大。方法，比如求前n小，我們比較當前元素與最大堆里的最大元素，如果它小于最大元素，則應該替換那個最大元素。這樣最后得到的n個元素就是最小的n個。適合大數據量，求前n小，n的大小比較小的情況，這樣可以掃描一遍即可得到所有的前n元素，效率很高。

擴展：雙堆，一個最大堆與一個最小堆結合，可以用來維護中位數。

問題實例：

1)100w個數中找最大的前100個數。

用一個100個元素大小的最小堆即可。

5.雙層桶劃分 ----其實本質上就是【分而治之】的思想，重在“分”的技巧上！

適用范圍：第k大，中位數，不重復或重復的數字

基本原理及要點：因為元素范圍很大，不能利用直接尋址表，所以通過多次劃分，逐步確定范圍，然后最后在一個可以接受的范圍內進行。可以通過多次縮小，雙層只是一個例子。

擴展：

問題實例：

1).2.5億個整數中找出不重復的整數的個數，內存空間不足以容納這2.5億個整數。

有點像鴿巢原理，整數個數為2^32,也就是，我們可以將這2^32個數，劃分為2^8個區域(比如用單個文件代表一個區域)，然后將數據分離到不同的區域，然后不同的區域在利用bitmap就可以直接解決了。也就是說只要有足夠的磁盤空間，就可以很方便的解決。

2).5億個int找它們的中位數。

這個例子比上面那個更明顯。首先我們將int劃分為2^16個區域，然后讀取數據統計落到各個區域里的數的個數，之后我們根據統計結果就可以判斷中位數落到那個區域，同時知道這個區域中的第幾大數剛好是中位數。然后第二次掃描我們只統計落在這個區域中的那些數就可以了。

實際上，如果不是int是int64，我們可以經過3次這樣的劃分即可降低到可以接受的程度。即可以先將int64分成2^24個區域，然后確定區域的第幾大數，在將該區域分成2^20個子區域，然后確定是子區域的第幾大數，然后子區域里的數的個數只有2^20，就可以直接利用direct addr table進行統計了。

6.數據庫索引

適用范圍：大數據量的增刪改查

基本原理及要點：利用數據的設計實現方法，對海量數據的增刪改查進行處理。

擴展：

問題實例：

7.倒排索引(Inverted index)

適用范圍：搜索引擎，關鍵字查詢

基本原理及要點：為何叫倒排索引？一種索引方法，被用來存儲在全文搜索下某個單詞在一個文檔或者一組文檔中的存儲位置的映射。

以英文為例，下面是要被索引的文本：

T0 = "it is what it is"

T1 = "what is it"

T2 = "it is a banana"

我們就能得到下面的反向文件索引：

"a": {2}

"banana": {2}

"is": {0, 1, 2}

"it": {0, 1, 2}

"what": {0, 1}

檢索的條件"what", "is" 和 "it" 將對應集合的交集。

正向索引開發出來用來存儲每個文檔的單詞的列表。正向索引的查詢往往滿足每個文檔有序頻繁的全文查詢和每個單詞在校驗文檔中的驗證這樣的查詢。在正向索引中，文檔占據了中心的位置，每個文檔指向了一個它所包含的索引項的序列。也就是說文檔指向了它包含的那些單詞，而反向索引則是單詞指向了包含它的文檔，很容易看到這個反向的關系。

擴展：

問題實例：文檔檢索系統，查詢那些文件包含了某單詞，比如常見的學術論文的關鍵字搜索。

8.外排序

適用范圍：大數據的排序，去重

基本原理及要點：外排序的歸并方法，置換選擇敗者樹原理，最優歸并樹

擴展：

問題實例：

1).有一個1G大小的一個文件，里面每一行是一個詞，詞的大小不超過16個字節，內存限制大小是1M。返回頻數最高的100個詞。

這個數據具有很明顯的特點，詞的大小為16個字節，但是內存只有1m做hash有些不夠，所以可以用來排序。內存可以當輸入緩沖區使用。

9.trie樹

適用范圍：數據量大，重復多，但是數據種類小可以放入內存

基本原理及要點：實現方式，節點孩子的表示方式

擴展：壓縮實現。

問題實例：

1).有10個文件，每個文件1G，每個文件的每一行都存放的是用戶的query，每個文件的query都可能重復。要你按照query的頻度排序。

2).1000萬字符串，其中有些是相同的(重復),需要把重復的全部去掉，保留沒有重復的字符串。請問怎么設計和實現？

3).尋找熱門查詢：查詢串的重復度比較高，雖然總數是1千萬，但如果除去重復后，不超過3百萬個，每個不超過255字節。

10.分布式處理 mapreduce

適用范圍：數據量大，但是數據種類小可以放入內存

基本原理及要點：將數據交給不同的機器去處理，數據劃分，結果歸約。

擴展：

問題實例：

1).The canonical example application of MapReduce is a process to count the appearances of

each different word in a set of documents:

void map(String name, String document):

// name: document name

// document: document contents

for each word w in document:

EmitIntermediate(w, 1);

void reduce(String word, Iterator partialCounts):

// key: a word

// values: a list of aggregated partial counts

int result = 0;

for each v in partialCounts:

result += ParseInt(v);

Emit(result);

Here, each document is split in words, and each word is counted initially with a "1" value by

the Map function, using the word as the result key. The framework puts together all the pairs

with the same key and feeds them to the same call to Reduce, thus this function just needs to

sum all of its input values to find the total appearances of that word.

2).海量數據分布在100臺電腦中，想個辦法高效統計出這批數據的TOP10。

3).一共有N個機器，每個機器上有N個數。每個機器最多存O(N)個數并對它們操作。如何找到N^2個數的中數(median)？

經典問題分析

上千萬or億數據（有重復），統計其中出現次數最多的前N個數據,分兩種情況：可一次讀入內存，不可一次讀入。

可用思路：trie樹+堆，數據庫索引，劃分子集分別統計，hash，分布式計算，近似統計，外排序

所謂的是否能一次讀入內存，實際上應該指去除重復后的數據量。如果去重后數據可以放入內存，我們可以為數據建立字典，比如通過 map，hashmap，trie，然后直接進行統計即可。當然在更新每條數據的出現次數的時候，我們可以利用一個堆來維護出現次數最多的前N個數據，當然這樣導致維護次數增加，不如完全統計后在求前N大效率高。

如果數據無法放入內存。一方面我們可以考慮上面的字典方法能否被改進以適應這種情形，可以做的改變就是將字典存放到硬盤上，而不是內存，這可以參考數據庫的存儲方法。

當然還有更好的方法，就是可以采用分布式計算，基本上就是map-reduce過程，首先可以根據數據值或者把數據hash(md5)后的值，將數據按照范圍劃分到不同的機子，最好可以讓數據劃分后可以一次讀入內存，這樣不同的機子負責處理各種的數值范圍，實際上就是map。得到結果后，各個機子只需拿出各自的出現次數最多的前N個數據，然后匯總，選出所有的數據中出現次數最多的前N個數據，這實際上就是reduce過程。

實際上可能想直接將數據均分到不同的機子上進行處理，這樣是無法得到正確的解的。因為一個數據可能被均分到不同的機子上，而另一個則可能完全聚集到一個機子上，同時還可能存在具有相同數目的數據。比如我們要找出現次數最多的前100個，我們將1000萬的數據分布到10臺機器上，找到每臺出現次數最多的前 100個，歸并之后這樣不能保證找到真正的第100個，因為比如出現次數最多的第100個可能有1萬個，但是它被分到了10臺機子，這樣在每臺上只有1千個，假設這些機子排名在1000個之前的那些都是單獨分布在一臺機子上的，比如有1001個，這樣本來具有1萬個的這個就會被淘汰，即使我們讓每臺機子選出出現次數最多的1000個再歸并，仍然會出錯，因為可能存在大量個數為1001個的發生聚集。因此不能將數據隨便均分到不同機子上，而是要根據hash 后的值將它們映射到不同的機子上處理，讓不同的機器處理一個數值范圍。

而外排序的方法會消耗大量的IO，效率不會很高。而上面的分布式方法，也可以用于單機版本，也就是將總的數據根據值的范圍，劃分成多個不同的子文件，然后逐個處理。處理完畢之后再對這些單詞的及其出現頻率進行一個歸并。實際上就可以利用一個外排序的歸并過程。

另外還可以考慮近似計算，也就是我們可以通過結合自然語言屬性，只將那些真正實際中出現最多的那些詞作為一個字典，使得這個規模可以放入內存。

如何解決PHP查詢大量數據內存耗盡的問題

這個問題在PHP的官方網站上叫緩沖查詢和非緩沖查詢(Buffered and Unbuffered queries)。PHP的查詢缺省模式是緩沖模式。也就是說，查詢數據結果會一次全部提取到內存里供PHP程序處理。這樣給了PHP程序額外的功能，比如說，計算行數，將指針指向某一行等。更重要的是程序可以對數據集反復進行二次查詢和過濾等操作。但這種緩沖查詢模式的缺陷就是消耗內存，也就是用空間換速度。

相對的，另外一種PHP查詢模式是非緩沖查詢，數據庫服務器會一條一條的返回數據，而不是一次全部返回，這樣的結果就是PHP程序消耗較少的內存，但卻增加了數據庫服務器的壓力，因為數據庫會一直等待PHP來取數據，一直到數據全部取完。

很顯然，緩沖查詢模式適用于小數據量查詢，而非緩沖查詢適應于大數據量查詢。

php 怎么解決大數據量插入數據庫

ini_set('max_execution_time','0');

$pdo

new

PDO("mysql:host=localhost;dbname=test","root","123456");

$sql

"insert

into

test(name,age,state,created_time)

values";

for($i=0;

$i100000;

$i++){

$sql

.="('zhangsan',21,1,'2015-09-17')";

}

$sql

substr($sql,0,strlen($sql)-1);

var_dump($sql);

if($pdo

exec($sql)){

echo

"插入成功！";

echo

$pdo

lastinsertid();

}

試試吧。10萬條1分鐘多，我覺得還行

分享文章：php如何處理大數據的 php做大數據分析
文章源于：http://m.jcarcd.cn/article/hgesdp.html

精品专区-精品自拍9-精品自拍三级乱伦-精品自拍视频-精品自拍视频曝光-精品自拍小视频

NEWS

網站建設資訊

php如何處理大數據的 php做大數據分析

如何優化操作大數據量數據庫

PHP如何解決網站的大數據大流量與高并發

PHP-大數據量怎么處理優化

PHP的算法可以實現大數據分析嗎

如何解決PHP查詢大量數據內存耗盡的問題

php 怎么解決大數據量插入數據庫

其他資訊

精品专区-精品自拍9-精品自拍三级乱伦-精品自拍视频-精品自拍视频曝光-精品自拍小视频

NEWS

網站建設資訊

php如何處理大數據的 php做大數據分析

如何優化操作大數據量數據庫

PHP如何解決網站的大數據大流量與高并發

PHP-大數據量怎么處理優化

PHP的算法可以實現大數據分析嗎

如何解決PHP查詢大量數據內存耗盡的問題

php 怎么解決 大數據量 插入數據庫

其他資訊

php 怎么解決大數據量插入數據庫