Databas för lagring av stora datamängder från webbskrapning

Surabhil Sergy

2014-03-07 10:25:27 UTC

view on stackexchange narkive permalink

Jag utformar ett skrapsystem som skrapar stora datamängder från webbplatser. Systemet förväntas samla in data från webbplatser och lagra det i databasen.

Jag lagrar strukturerad data som analyseras från HTML-taggar.

Till exempel: Om det är att skrapa en hotelllista, data skulle innehålla hotell-id, hotellnamn, plats, pris, recensioner, betyg, URL, etc.

Denna databas förväntas ha över 20-50 miljoner poster. Datauppsättningen kan innehålla information på olika språk. Uppgifterna kommer att fyllas i regelbundet (mer eller mindre en miljon varje vecka).

Databasen måste optimeras för filtrering och sökning. Det borde också kunna hantera de andra språktecknen (till exempel kinesiska). Jag behöver snabbt körning och hämtning av data tillsammans med karaktärsstöd.

Jag funderade på att använda MySQL, men jag vet inte om det finns några bättre alternativ. Om MySQL är det bästa alternativet, vilken lagringsmotor, sortering och teckenuppsättning ska användas?

Redigerad

Jag har en DB-plan för att lagra data för varje vecka lagra i separata tabeller, som senare kan kombineras (om det behövs) enligt kraven.

Ger kinesiska tecken några problem när du GÅR med i frågorna?

Lagrar den data i flera tabeller skapar alla prestandaproblem under hämtning. (Jag planerade flera tabeller eftersom en indexerad stor tabell kunde göra insättningen av data långsammare)

MySQL är ett dåligt val vad gäller dataintegritet. PostgreSQL kan vara praktiskt nog för dig.

20 miljoner poster är ingenting för någon anständig modern databas; och de stöder alla unicode i dessa dagar. Problemet är inte vilken databas du ska använda, utan hur man identifierar, skrapar (som inkluderar kodsidekonverteringar till unicode) och strukturerar dina data - och därefter hur man effektivt extraherar information från databasen.

vad sägs om att använda ett NoSQL-tillvägagångssätt i det här fallet. Jag har bara erfarenhet av MySQL och jag har hört mycket om databaser som mongo db. Kommer att använda detta kan göra en väsentlig förbättring av prestandan.?

mysql passar bra för din uppgift. om du väljer att gå med ett alternativ riskerar du frustrationen av en inlärningskurva, vilket skulle försena ditt projekt. Beroende på vilken teknik du väljer att extrahera och visa dessa resultat måste du också se till att tekniken är kompatibel för att använda den.

@JoshuaAnderson OK tack. Jag använder PHP för att skrapa data och med PDO-förlängningen överensstämmer det med stora DB: s. Tidigare när jag bearbetade en DB med cirka 1 miljon poster med MySQl hade jag mött olika begränsningar som frågor som tog mer tid och därmed tog bort timeoutproblem. Jag är i en förvirring med MySQL när jag hanterar en så stor databas.

kolla in den här tråden: [klicka mig] (http://stackoverflow.com/questions/1276/how-big-can-a-mysql-database-get-before-performance-starts-to-degrade)

@JanDoggen // Ditt problem är inte vilken databas som ska användas, utan hur man identifierar, skrapar (som inkluderar kodsidekonverteringar till unicode) och strukturerar dina data - och därefter hur man effektivt extraherar information från databasen. // Visst är detta en stor begränsning.

Postgres JSONB

Om du skrapar olika typer av data från olika källor för att lagras tillsammans men tillräckligt varierande eller ändras tillräckligt ofta för att du inte vill definiera specifika tabeller för varje källa, och de strukturerade uppgifterna du får är tillräckligt enkla för att representeras som JSON, då föreslår jag att du överväger Postgres.

De senaste versionerna av Postgres har en ny inbyggd datatyp som heter JSONB, där B betyder binär. När du skickar in ett JSON-värde analyserar Postgres det i de olika fälten och lagrar dessa delar på ett intelligent sätt i ett internt definierat binärt format. Denna process ger Postgres möjlighet att indexera JSON-fälten. Det betyder onda snabba prestanda som kan överträffa olika “NO-SQL” -system. Och till skillnad från de andra systemen får du ACID -kompatibel tillförlitlighet och dataintegritet med Postgres.

Denna JSONB-typ ersätter PostSgres ursprungliga JSON-stöd liksom dess äldre HSTORE-typ.

För mer information, se:

Datavolym

Postgres kan enkelt hantera tiotals miljoner rader och infogar eller uppdaterar en miljon i veckan.

Om du laddar många rader samtidigt, titta på alternativ till att ringa INSERT en rad i taget, till exempel kommandot COPY .

Postgres är som standard konfigurerad för att inte påverka värdmaskinen negativt. Om du vet att du har ytterligare minne och CPU tillgängligt kan du utforska de olika Postgres-inställningarna.

Postgres JSONB

Kinesisk text

Datavolym